0

サイトの RSS フィードを解析して、コンテンツ (記事など) を取得し、それらをデータベースに入れたいと考えています。後で、検索キーワードに基づいてインデックスを作成したいと考えています。誰もが続行する方法を教えてもらえますか? これにはどのツールを使用するのが最適ですか? Apache lucene、solr、apache nutch で検索しました。しかし、Javaなどのプログラミング言語でそれを実装する方法はまだ明確ではありません。誰でも実装について詳しく教えてください。

前もって感謝します。

4

1 に答える 1

2

まず、 Java API for XML Processing を読んでもらいます。

次に、いくつかのネットワーキング API に慣れてきました...

また、 xPathHow xPath Worksにも精通していると思います。これは、興味のあるドキュメントの部分を見つけるのに役立ちます。

次に、JDBC(TM) データベース アクセスになります。

それは基本をほぼカバーするはずです。

テクノロジの基本的なアイデアが得られたら、設計について考える必要があります。その要素を独自のプロジェクトに分離します。

データベースへのデータのダウンロード、解析、ソート、および挿入を 1 つのプロジェクトとして扱います。

別の検索と取得を扱います。

これにより、重複する領域が強調表示され、共通ライブラリを提供する必要がある場所が示されます。

于 2012-09-29T05:53:06.500 に答える