このタスクを実行するには、ラベル付けされたトレーニング セットが必要です。次に、そのトレーニング セットで分類モデルをトレーニングし、モデルに基づいて新しいテキストの場所を予測します。SCIKIT-LEARN の上に書かれたこのサンプル コードで、それらすべてがどのように連携するかを確認できます: http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
ラベル付けされたトレーニング セット:
トレーニングの各サンプルが (段落、region_id) であるトレーニング セットに対して分類器をトレーニングできます。region_id は、国、地域、または都市の ID にすることができます。
分類モデルのトレーニング:
各サンプルのバッグ オブ ワード (ユニグラムなど) モデルを構築し、ラベル付けされたトレーニング セットに対して分類器 (L1 正則化によるロジスティック回帰など) をトレーニングします。任意のツールを使用できますが、非常にシンプルで効率的な Python の SCIKIT-LEARN を使用することをお勧めします。
予測:
トレーニングの後、段落またはテキストの一部を指定すると、トレーニング済みのモデルは、サンプルで使用されている単語に基づいて、そのリージョン ID を見つけることができます。
良い結果を得るには、開発セットで正則化パラメーターを調整することを忘れないでください (トレーニング サンプルの過適合を防ぐため)。
テキストを使用した位置情報に関する
私の論文とこの論文を読んでください: http://www.aclweb.org/anthology/N15-1153
対応するポスター:
http://www.slideshare.net/AfshinRahimi2/geolocation-twittertextnetwork-48968497
また、まさにそれを行い、事前トレーニング済みのモデルが付属するPigeoというツールを作成しました。これらの作品以外にも、テキストベースの地理位置情報に関する多くの研究論文があります。