4

私の学術研究プロジェクトの一環として、Web から一連の URL を取得するアプリケーションを構築しようとしています。タスクは、これらの各 URL をいくつかのカテゴリに分類することです。

たとえば、次の URL はクリケットに関するものですhttp://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html この特定の URL を分類子に渡すと、出力カテゴリは「スポーツ」となるはずです。 .

このために、lingpipe 分類子を使用しています。分類チュートリアルに従い、demo フォルダーにあるデモを実行しました。以下のリンクからダウンロードした 20 個のニュース データ セットをダウンロードしました。 http://people.csail.mit.edu/people/jrennie/20Newsgroups

その後、トレーニング サンプルのサイズを 20 から 8 に減らし、分類のデモを実行しました。データを正常にトレーニングし、データをテストすることもできました。

しかし問題は、ドキュメントのカテゴリをテストするたびに分類子をトレーニングする必要があるということです。ドキュメントの分類を実行すると、データのトレーニングとテストの両方に 4 分かかります。

トレーニング済みデータを 1 回保存して、分類を複数回実行できますか?

4

1 に答える 1

4

トレーニング済みのモデルをディスクにシリアル化する必要があります。その後、それらを逆シリアル化し、分類器を準備できます。

分類器をトレーニングしたら、使用します

 AbstractExternalizable.compileTo(classifier,modelFile);

モデルをディスクに書き込む。

読み込むには、次のものが必要です

AbstractExternalizable.readObject(modelFile);

のJavaドキュメントを見てくださいAbstractExternalizable

モデルはコンパイル済みであるため、追加のトレーニング イベントを受け入れることができません。

于 2011-05-26T23:12:03.710 に答える