2

いくつかの Web ページをスクレイピングして、それらからコンテンツを抽出する必要があります。いくつかの特定のキーワードを選択し、それらと何らかの関係があるデータをマッピングすることを計画しています。しかし、どうすればそれができるのか、私にはわかりません。誰かがそれを行うためのアルゴリズムを提案してもらえますか?.

たとえば、リンゴに関するいくつかの Web ページをダウンロードし、リンゴに関する関連データをマップしてデータベースに保存する必要があります。これにより、誰かがそれに関する特定の情報を必要とする場合に、迅速かつ正確に提供できるようになります。

また、役立つライブラリも指摘するのに役立ちます。Pythonでやろうと思っています。

4

2 に答える 2

1

NLTKPatternまたはOrangeモジュールを見てください。

手始めに、Toby Segaran 著の「Programming Collective Intelligence: building smart web 2.0 applications」を読むとよいでしょう。

于 2011-05-14T17:16:30.787 に答える
1

用語の頻度に基づいたアルゴリズムを試すことができます–逆ドキュメント頻度 TF-IDF、JavaではSolrをお勧めします...実際にはSolrを使用してpythonでアクセスできますhere

于 2011-05-14T13:30:27.600 に答える