0

私は Java を使用した剽窃検出に関するプロジェクトを書いています。この場合、最初のステップとして、次のタスクを実行する必要があります。

inputing  file (txt, .pdf, .doc)
convert the file content to text
removing stop words
tokenizng into n-gram
processing the text-similarity algorithms on the texts
reporting plagiarism detection signs

私は自分でコーディングしてこれらの手順を実行しましたが、今では多くのパフォーマンスが不足していると感じているため、ワードベクターツール ( http://sourceforge.net/projects/wvtool/ )など、自分の作業に利用可能な API を使用し始めました。 、ワードネット、およびLucene. 利用可能なドキュメントが不十分なため、vvtool が失敗しました。今私の問題は、Lucene でこれらを行う方法です。ファイルを文字列として入力し、Document オブジェクトの Field として追加する必要がありますか、またはテキストの類似性を調べるための特別なクラスがありますか? Luceneライブラリで私を助けてください。前もって感謝します。

Ps- Lucene で使用できるサンプル コード ソースはありますか?

4

2 に答える 2

0

lucene についてはわかりませんが、テキストの類似性については ws4j ライブラリまたは類似性ライブラリを使用できます。

于 2013-06-18T03:37:13.360 に答える