java - XML フィードの解析

Question

サイトの RSS フィードを解析して、コンテンツ (記事など) を取得し、それらをデータベースに入れたいと考えています。後で、検索キーワードに基づいてインデックスを作成したいと考えています。誰もが続行する方法を教えてもらえますか? これにはどのツールを使用するのが最適ですか? Apache lucene、solr、apache nutch で検索しました。しかし、Javaなどのプログラミング言語でそれを実装する方法はまだ明確ではありません。誰でも実装について詳しく教えてください。

前もって感謝します。

score 2 · Accepted Answer

まず、 Java API for XML Processing を読んでもらいます。

次に、いくつかのネットワーキング API に慣れてきました...

カスタムネットワーキング、特にURLの操作
Apache HTTP コンポーネント(注: これは少し前の話かもしれませんが、役に立つことがわかりました)

また、 xPathとHow xPath Worksにも精通していると思います。これは、興味のあるドキュメントの部分を見つけるのに役立ちます。

次に、JDBC(TM) データベースアクセスになります。

それは基本をほぼカバーするはずです。

テクノロジの基本的なアイデアが得られたら、設計について考える必要があります。その要素を独自のプロジェクトに分離します。

データベースへのデータのダウンロード、解析、ソート、および挿入を 1 つのプロジェクトとして扱います。

別の検索と取得を扱います。

これにより、重複する領域が強調表示され、共通ライブラリを提供する必要がある場所が示されます。

java - XML フィードの解析

1 に答える 1

Related

Reference