私は Mallet を初めて使用し、その CRF 機能を使用して名前付きエンティティ認識を実行しようとしています。Web サイトで Java を使用してデータをインポートする方法を示す例があることは知っていますが、それはプレーン テキスト (トレーニング セット形式ではない) を扱っています。これで、トレーニング データを次の形式で利用できるようになりました (Web サイトに示されている正確な形式)。最初の列は単語、2 番目の列はラベルです。
a O
50 AGE
year AGE
old O
man GENDER
with O
a O
history O
of O
suicide O
attempt O
experienced O
an O
epileptic O
seizure O
on O
22-dec-01 DATE
. O
----
注: レンダリングされた出力には表示されませんが、これはタブで区切られているようです
だから今私は立ち往生しています。上記のデータを Mallet API を使用してトレーニング セットとしてインポートするにはどうすればよいですか?
コマンドラインでそれを行う方法は知っていますが、JAVA をコーディングして、将来 API を使用してさらに機能を追加できるようにしたいと考えています。