0

私が見つけているのは、これまでのところコンテンツを解析する方法だけです。コンテンツの解析は私にとって問題ではありません。コンテンツを取得する方法がはっきりしていません! フォルダに多数の XML ファイルがある場合、それらすべてを簡単にふるいにかけて処理することができますが、そもそもそれらをフォルダに入れる方法がわかりません。

ファイルの場所にクロールしてその方法で取得することもできますが、見つけたすべてのフィードはニュース記事などへのリンクにすぎないようで、どれも単なる XML ではありません。

Drupal や Wordpress などのサードパーティの CMS は使用したくありません。これがばかげた質問である場合は申し訳ありません。助けてくれてありがとう!

編集: 昨夜検索を行いましたが、もう一度検索したところ、5 秒で、昨夜見つけられなかったニュース サイトで純粋な XML RSS フィードが見つかりました。ダウンロード可能なファイルを提供するのではなく、RSS フィードが一般的に提供されるのはこれだけですか? 閲覧可能なファイル/ページ?

EDIT2: うん、そのように見えます。みんなごめんなさい!うまくいけば、同様の質問をしている人の助けになります。

EDIT3: とにかく、スレッドを作成したので、SimpleXML または解析 (たとえば、Magpie) が処理に関してより高速になるかどうかを誰か教えてもらえますか? 私の仮定は、SimpleXML が進むべき道であるということです。

4

2 に答える 2

0

読むために利用できる多くのオプションがありますが、私はttp://magpierss.sourceforge.net/を使用するのが好きです

于 2013-03-07T04:48:44.733 に答える
0

これがあなたの望むものかどうか正確にはわかりませんが、これでうまくいきますか?

wget -q -O-  "http://www.tuxradar.com/rss"

私は PC の Cygwin でそれを行いましたが、Linux または Mac 端末でも動作します。必要に応じて、出力をファイルにリダイレクトすることもできます。

wget -q -O-  "http://www.tuxradar.com/rss" > tux.xml
于 2013-03-07T04:49:33.537 に答える