LingPipe DictionaryChunker の例に基づいてテスト プログラムを作成しました。ファイルから辞書の値を MapDictionary に読み込んでいます。ファイルが 100,000 エントリを超えると、パーサーはガベージを返し始めます。
10k 行 (末尾 -10000 nameList.txt > shortNameList.txt)
TEXT=今こそ、すべての善良な人々が国を支援する時です。
チャンカー。すべての一致 = false 大文字と小文字を区別 = false フレーズ = |Zoe Rogers| start=69 end=79 type= PLAYER スコア=1.0
100k 行 (末尾 -100000 nameList.txt > shortNameList.txt)
TEXT=今こそ、すべての善良な人々が国を支援する時です。
チャンカー。すべての一致 = false 大文字と小文字を区別 = false フレーズ =|今こそすべての善人のための時です| start=0 end=32 type= PLAYER score=1.0 フレーズ=|自国の援助に来る| start=33 end=68 type= PLAYER score=1.0 phrase=|ゾーイ・ロジャースは今がすべての時です| start=69 end=103 type= PLAYER score=1.0 phrase=|助けに来てくれる善良な男たち| start=104 end=134 type= PLAYER score=1.0
MapDictionary を作成するためのより良いオプションはありますか?
VM のメモリの制約を調整しましたが、役に立たないようです。
何か案は?