私の学術研究プロジェクトの一環として、Web から一連の URL を取得するアプリケーションを構築しようとしています。タスクは、これらの各 URL をいくつかのカテゴリに分類することです。
たとえば、次の URL はクリケットに関するものですhttp://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html この特定の URL を分類子に渡すと、出力カテゴリは「スポーツ」となるはずです。 .
このために、lingpipe 分類子を使用しています。分類チュートリアルに従い、demo フォルダーにあるデモを実行しました。以下のリンクからダウンロードした 20 個のニュース データ セットをダウンロードしました。 http://people.csail.mit.edu/people/jrennie/20Newsgroups
その後、トレーニング サンプルのサイズを 20 から 8 に減らし、分類のデモを実行しました。データを正常にトレーニングし、データをテストすることもできました。
しかし問題は、ドキュメントのカテゴリをテストするたびに分類子をトレーニングする必要があるということです。ドキュメントの分類を実行すると、データのトレーニングとテストの両方に 4 分かかります。
トレーニング済みデータを 1 回保存して、分類を複数回実行できますか?