java - SGML ファイルを読み取る Java コード

Question

テキスト分類に関するプロジェクトを行っています。情報検索プロジェクト用に、Reuters-21578 というテキスト分類テストコレクションを持っています。22ファイルで配布されています。最初の 21 個のファイル (reut2-000.sgm から reut2-020.sgm) にはそれぞれ 1000 個のドキュメントが含まれ、最後の (reut2-021.sgm) には 578 個のドキュメントが含まれています。ファイルは SGML 形式です。22 個のファイルのそれぞれは、文書型宣言行で始まります。DTD ファイル lewis.dtd が配布物に含まれています。ドキュメントタイプ宣言行に続いて、SGML タグでマークアップされた個々のロイター記事があります。

これらの 21578 個のドキュメントを読み取る Java プログラムを作成したり、それらを 21578 個の分離されたテキストファイルに変換したりするのに助けが必要です。

誰か助けてくれませんか?????

score 1 · Accepted Answer

Lucene には、org.apache.lucene.benchmark.utils.ExtractReuters にそのようなエクストラクターがあります。

私は実際に jar ファイル ( Maven repo )から実行しようとはしていませんが、外部依存関係がないため、ここにある Java ソースコードを簡単に使用 (および変更) できます。

このコードは、多数の小さなファイル (実際には 21578) をエクスポートすることに注意してください。

score 1 · Accepted Answer

約 5 分のグーグル検索から、Java 用の無料の SGML パーサーはないようです。これはかなり驚くべきことですが、これで終わりです。

SPパッケージからJames Clark のSXツールを入手することをお勧めします。これは Java ではありませんが、移植可能な Cであり、それを使用して SGML を XML に変換します。その後、Java XML パーサーを使用して XML を解析できます。

java - SGML ファイルを読み取る Java コード

3 に答える 3

Related

Reference