0

分類せずにインターネットからデータをクロールしています。

おすすめのライブラリはありますか?

編集

私は他のウェブサイトから仕事をクロールしています、そして私はそれらを異なる産業にグループ化する必要があります。

4

2 に答える 2

1

ラベル付けされていないデータをグループに分類するには、分類ではなくクラスタリングが必要です。最も完全な機械学習ライブラリは、Java ベースのWekaです。おそらく、Web ページからテキストを抽出することから始めて (スクリプトとスタイル要素を完全に削除し、他のタグを取り除きます)、クラスタリングを実行する前に StringToWordVector フィルターを介してテキストを実行することをお勧めします。

于 2010-09-08T00:08:40.960 に答える
0

私の現在の雇用主は、Web ページを分類するシステムを開発しました。便利なライブラリが見つからなかったため、独自に作成する必要がありました。私たちはライセンスを供与していません。

私はあなたにいくつかのヒントを与えることができます。スパム アナライザーは、電子メールをジャンクまたは非ジャンクに分類します。ベイジアン、CRM-114 などの同じツールを使用して、Web ページを含む任意のテキストを独自に分類できます。

これらの結果を非常に注意深く観察し、多くの人的フィードバックを与える必要があります。多くの場合、スコアが非常に高いキーワード セットを見つけることができます。これらのキーワード セットを見つけるには時間と労力がかかり、時間の経過とともに変化します。

ほとんどのページはすべて 1 つのものではないため、Web ページをトピック セクションに分割するコードを記述する必要があります。広告枠、ナビゲーションなどがあります。

于 2009-10-29T19:36:08.130 に答える