cluster-analysis - よく知られている分類ライブラリはありますか？

Question

分類せずにインターネットからデータをクロールしています。

おすすめのライブラリはありますか？

編集

私は他のウェブサイトから仕事をクロールしています、そして私はそれらを異なる産業にグループ化する必要があります。

score 1 · Accepted Answer

ラベル付けされていないデータをグループに分類するには、分類ではなくクラスタリングが必要です。最も完全な機械学習ライブラリは、Java ベースのWekaです。おそらく、Web ページからテキストを抽出することから始めて (スクリプトとスタイル要素を完全に削除し、他のタグを取り除きます)、クラスタリングを実行する前に StringToWordVector フィルターを介してテキストを実行することをお勧めします。

score 0 · Accepted Answer

私の現在の雇用主は、Web ページを分類するシステムを開発しました。便利なライブラリが見つからなかったため、独自に作成する必要がありました。私たちはライセンスを供与していません。

私はあなたにいくつかのヒントを与えることができます。スパムアナライザーは、電子メールをジャンクまたは非ジャンクに分類します。ベイジアン、CRM-114 などの同じツールを使用して、Web ページを含む任意のテキストを独自に分類できます。

これらの結果を非常に注意深く観察し、多くの人的フィードバックを与える必要があります。多くの場合、スコアが非常に高いキーワードセットを見つけることができます。これらのキーワードセットを見つけるには時間と労力がかかり、時間の経過とともに変化します。

ほとんどのページはすべて 1 つのものではないため、Web ページをトピックセクションに分割するコードを記述する必要があります。広告枠、ナビゲーションなどがあります。

cluster-analysis - よく知られている分類ライブラリはありますか？

2 に答える 2

Related

Reference