9

テキストに都市/地域または起源を自動的にラベル付けするための優れたアルゴリズムは何ですか? つまり、ブログがニューヨークに関するものである場合、プログラムでどのように伝えることができるでしょうか。ある程度確実にこれを行うと主張するパッケージ/ペーパーはありますか?

私はいくつかの tfidf ベースのアプローチ、固有名詞の交差を見てきましたが、これまでのところ目覚ましい成功はありません。アイデアをいただければ幸いです。

より一般的な質問は、トピックのリストが与えられた場合のトピックへのテキストの割り当てに関するものです。

シンプル/単純なアプローチは、ベイジアン アプローチで完全に好まれましたが、私はオープンです。

4

2 に答える 2

13

名前付きエンティティ認識システム、または短い NERを探しています。あなたを助けるために利用できるいくつかの 優れた ツールキットがあります。特に LingPipe には非常にまともなチュートリアルがあります。CAGEclassは地名のNERを中心にしているようですが、まだ使っていません。

これは、地理的な地名を使用したNERの難しさに関する素晴らしいブログ エントリです。

Java を使用する場合は、LingPipe NER クラスを使用することをお勧めします。OpenNLP にもいくつかありますが、前者の方がドキュメントが充実しています。

理論的な背景を探しているなら、チャベスら。(2005)は、興味深いシンテムを構築し、それを文書化しました。

于 2008-10-02T21:38:52.570 に答える
2

潜在的セマンティック マッピングは、潜在的に適しているように思えます。これは、あなたが見つけそうなほどナイーブなアルゴリズムです。

于 2008-10-02T21:46:48.197 に答える