0

LingPipe DictionaryChunker の例に基づいてテスト プログラムを作成しました。ファイルから辞書の値を MapDictionary に読み込んでいます。ファイルが 100,000 エントリを超えると、パーサーはガベージを返し始めます。

10k 行 (末尾 -10000 nameList.txt > shortNameList.txt)

TEXT=今こそ、すべての善良な人々が国を支援する時です。

チャンカー。すべての一致 = false 大文字と小文字を区別 = false フレーズ = |Zoe Rogers| start=69 end=79 type= PLAYER スコア=1.0

100k 行 (末尾 -100000 nameList.txt > shortNameList.txt)

TEXT=今こそ、すべての善良な人々が国を支援する時です。

チャンカー。すべての一致 = false 大文字と小文字を区別 = false フレーズ =|今こそすべての善人のための時です| start=0 end=32 type= PLAYER score=1.0 フレーズ=|自国の援助に来る| start=33 end=68 type= PLAYER score=1.0 phrase=|ゾーイ・ロジャースは今がすべての時です| start=69 end=103 type= PLAYER score=1.0 phrase=|助けに来てくれる善良な男たち| start=104 end=134 type= PLAYER score=1.0

MapDictionary を作成するためのより良いオプションはありますか?

VM のメモリの制約を調整しましたが、役に立たないようです。

何か案は?

4

1 に答える 1

0

MapDictionary の任意の値を null にできるようにすると、チャンカーが壊れることがわかります。値が空白の行を削除すると、チャンカーは正常に動作します。

于 2013-01-11T21:38:53.110 に答える