1

私は Mallet を初めて使用し、その CRF 機能を使用して名前付きエンティティ認識を実行しようとしています。Web サイトで Java を使用してデータをインポートする方法を示す例があることは知っていますが、それはプレーン テキスト (トレーニング セット形式ではない) を扱っています。これで、トレーニング データを次の形式で利用できるようになりました (Web サイトに示されている正確な形式)。最初の列は単語、2 番目の列はラベルです。

a   O
50  AGE
year    AGE
old O
man GENDER
with    O
a   O
history O
of  O
suicide O
attempt O
experienced O
an  O
epileptic   O
seizure O
on  O
22-dec-01   DATE
.   O 
----

注: レンダリングされた出力には表示されませんが、これはタブで区切られているようです

だから今私は立ち往生しています。上記のデータを Mallet API を使用してトレーニング セットとしてインポートするにはどうすればよいですか?

コマンドラインでそれを行う方法は知っていますが、JAVA をコーディングして、将来 API を使用してさらに機能を追加できるようにしたいと考えています。

4

1 に答える 1

0

マレットで FileIterator または CSVIterator または ArrayIterator を使用してトレーニング インスタンスを読み取ることができます。CSVIteartor の使用方法はhttp://mallet.cs.umass.edu/classifier-devel.phpにあります。FileIterator および ArrayIterator の使用法は、http://www.programcreek.com/java-api-examples/index.php?api=cc.mallet.pipe.iterator.FileIterator および http://www.programcreek.com/java で入手できます。 -api-examples/index.php?api=cc.mallet.pipe.iterator.Arrayiteratorそれぞれ。

http://www.programcreek.com/java-api-examples/index.php?api=cc.mallet.fst.CRFで、mallet で Java コードを介して CRF を使用する方法に関する情報を見つけることができます。

于 2016-09-18T13:54:01.017 に答える