python - データマイニングにおけるデータマッピングのアルゴリズム

Question

いくつかの Web ページをスクレイピングして、それらからコンテンツを抽出する必要があります。いくつかの特定のキーワードを選択し、それらと何らかの関係があるデータをマッピングすることを計画しています。しかし、どうすればそれができるのか、私にはわかりません。誰かがそれを行うためのアルゴリズムを提案してもらえますか?.

たとえば、リンゴに関するいくつかの Web ページをダウンロードし、リンゴに関する関連データをマップしてデータベースに保存する必要があります。これにより、誰かがそれに関する特定の情報を必要とする場合に、迅速かつ正確に提供できるようになります。

また、役立つライブラリも指摘するのに役立ちます。Pythonでやろうと思っています。

score 1 · Accepted Answer

NLTK、PatternまたはOrangeモジュールを見てください。

手始めに、Toby Segaran 著の「Programming Collective Intelligence: building smart web 2.0 applications」を読むとよいでしょう。

score 1 · Accepted Answer

用語の頻度に基づいたアルゴリズムを試すことができます–逆ドキュメント頻度 TF-IDF、JavaではSolrをお勧めします...実際にはSolrを使用してpythonでアクセスできますhere

python - データマイニングにおけるデータマッピングのアルゴリズム

2 に答える 2

Related

Reference