1

場所と名前の辞書に基づいて場所や名前などを検出するために、自由形式のテキストの文字列をどのように解析しますか?私の特定のアプリケーションでは、辞書にそれ以上のエントリがないにしても数万になるので、それらをすべて実行するだけでは問題外であると確信しています。xまた、辞書の単語の編集内にある部分文字列も検出できるように、「あいまい」一致を追加する方法はありますか?私が誤解しない限り、これは自然言語処理、より具体的には固有表現抽出(NER)の分野に該当します。しかし、NERの背後にあるアルゴリズムとプロセスに関する情報を見つけるための私の試みは空っぽになりました。私は他の解決策を検討することはできますが、Pythonを最もよく知っているので、これにはPythonを使用したいと思います。

4

1 に答える 1

1

Stanford Named Entity Recognizerをダウンロードしてみてください:http: //nlp.stanford.edu/software/CRF-NER.shtml

他の人のコードを使用したくない場合で、自分で使用したい場合は、関連する論文のアルゴリズムを確認することをお勧めします。これは、他の人が使用する条件付き確率場モデルがかなり一般的になっているためです。 NERへのアプローチ。

詳細なしで部分文字列を探す際の質問の2番目の部分に正確に答える方法がわかりません。スタンフォードプログラムを変更するか、品詞タガーを使用してテキスト内の適切な名詞をマークすることができます。場所と名前を区別することはできませんが、適切な名詞からx語離れた単語を見つけるのは非常に簡単です。

于 2011-07-16T03:23:46.657 に答える