テキストに都市/地域または起源を自動的にラベル付けするための優れたアルゴリズムは何ですか? つまり、ブログがニューヨークに関するものである場合、プログラムでどのように伝えることができるでしょうか。ある程度確実にこれを行うと主張するパッケージ/ペーパーはありますか?
私はいくつかの tfidf ベースのアプローチ、固有名詞の交差を見てきましたが、これまでのところ目覚ましい成功はありません。アイデアをいただければ幸いです。
より一般的な質問は、トピックのリストが与えられた場合のトピックへのテキストの割り当てに関するものです。
シンプル/単純なアプローチは、ベイジアン アプローチで完全に好まれましたが、私はオープンです。