テキスト分類に関するプロジェクトを行っています。情報検索プロジェクト用に、Reuters-21578 というテキスト分類テスト コレクションを持っています。22ファイルで配布されています。最初の 21 個のファイル (reut2-000.sgm から reut2-020.sgm) にはそれぞれ 1000 個のドキュメントが含まれ、最後の (reut2-021.sgm) には 578 個のドキュメントが含まれています。ファイルは SGML 形式です。22 個のファイルのそれぞれは、文書型宣言行で始まります。DTD ファイル lewis.dtd が配布物に含まれています。ドキュメント タイプ宣言行に続いて、SGML タグでマークアップされた個々のロイター記事があります。
これらの 21578 個のドキュメントを読み取る Java プログラムを作成したり、それらを 21578 個の分離されたテキスト ファイルに変換したりするのに助けが必要です。
誰か助けてくれませんか?????