1

テキスト分類に関するプロジェクトを行っています。情報検索プロジェクト用に、Reuters-21578 というテキスト分類テスト コレクションを持っています。22ファイルで配布されています。最初の 21 個のファイル (reut2-000.sgm から reut2-020.sgm) にはそれぞれ 1000 個のドキュメントが含まれ、最後の (reut2-021.sgm) には 578 個のドキュメントが含まれています。ファイルは SGML 形式です。22 個のファイルのそれぞれは、文書型宣言行で始まります。DTD ファイル lewis.dtd が配布物に含まれています。ドキュメント タイプ宣言行に続いて、SGML タグでマークアップされた個々のロイター記事があります。

これらの 21578 個のドキュメントを読み取る Java プログラムを作成したり、それらを 21578 個の分離されたテキスト ファイルに変換したりするのに助けが必要です。

誰か助けてくれませんか?????

4

3 に答える 3

1

Lucene には、org.apache.lucene.benchmark.utils.ExtractReuters にそのようなエクストラクターがあります。

私は実際に jar ファイル ( Maven repo )から実行しようとはしていませんが、外部依存関係がないため、ここにある Java ソース コードを簡単に使用 (および変更) できます。

このコードは、多数の小さなファイル (実際には 21578) をエクスポートすることに注意してください。

于 2015-10-12T15:07:33.497 に答える
1

約 5 分のグーグル検索から、Java 用の無料の SGML パーサーはないようです。これはかなり驚くべきことですが、これで終わりです。

SPパッケージからJames Clark のSXツールを入手することをお勧めします。これは Java ではありませんが、移植可能な Cであり、それを使用して SGML を XML に変換します。その後、Java XML パーサーを使用して XML を解析できます。

于 2011-02-25T10:59:29.320 に答える