7

私はアプローチ方法が正確にわからないプロジェクトに取り組んでいます。問題は次のように要約できます。

  • 任意のテキスト本文 (レポートのようなもの) を指定して、レポートの各部分が参照している地理的な場所を特定します。

地理的な場所は州から郡 (すべて米国内) に及ぶため、その数は限られていますが、通常、各レポートには複数の場所への参照が含まれています。たとえば、レポートの最初の 5 段落は州全体に関するもので、次の 5 段落はその州内の個々の郡に関するものなどです。

おそらく、NLP または ML フレームワーク (Python または Java) に関する特定の推奨事項を使用して、そのような問題にアプローチする最良の方法は何でしょうか?

4

4 に答える 4

2

地理的な場所の言及を識別することは、OpenNLP や GATE などを使用するとかなり簡単です。主な問題は、後で同じ名前の場所を明確にする必要がある場合に発生します。たとえば、アメリカには「ブリストル」という名前の場所が 29 あります。どれが正しいですか?

あいまいさを解消するために使用できるいくつかのアプローチがあります。簡単な方法は、テキストで言及されているすべての場所のリストを収集し、潜在的な経度/緯度を取得してから、距離の合計が最小になるセットを見つけることです。

人々が展開しているのを私が見たより良い解決策は、Wikipedia から場所に言及するすべての記事を取得し、それらを Lucene のようなテキスト用の DB に配置し、テキストをクエリとして使用して、いくつかの類似性スコアを測定することによって候補間で最も有望な場所を見つけることです。 . アイデアは、記事では「ブリストル」という単語を除いて、川の名前、人、または類似のものも言及されるということです.

于 2014-01-11T00:36:47.977 に答える
2

古い質問ですが、Apache OpenNLP には GeoEntityLinker と呼ばれるアドオンがあり、ドキュメントのテキストと文を取得し、エンティティ (toponymns) を抽出し、USGS および GeoNames gazateer (Lucene インデックス) でルックアップを実行し、解決 (または試行) することを他の人が知っておくと役立つ場合があります。少なくとも) topopnymns にいくつかの方法で渡され、渡されたドキュメントの各センテンスに関連してスコアリングされた Gazateer エントリを返します。すべてがうまくいけば、OpenNLP 1.6 でリリースされます....もしあればドキュメントはあまりありません点。

これは OpenNLP Jira のチケットです: https://issues.apache.org/jira/i#browse/OPENNLP-579

これはソースコードです:

http://svn.apache.org/viewvc/opennlp/addons/geoentitylinker-addon/

参考までに: 私はそれに取り組んでいるメインのコミッターです。

于 2014-01-10T21:50:57.470 に答える
0

このタスクを実行するには、ラベル付けされたトレーニング セットが必要です。次に、そのトレーニング セットで分類モデルをトレーニングし、モデルに基づいて新しいテキストの場所を予測します。SCIKIT-LEARN の上に書かれたこのサンプル コードで、それらすべてがどのように連携するかを確認できます: http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

ラベル付けされたトレーニング セット:

トレーニングの各サンプルが (段落、region_id) であるトレーニング セットに対して分類器をトレーニングできます。region_id は、国、地域、または都市の ID にすることができます。

分類モデルのトレーニング:

各サンプルのバッグ オブ ワード (ユニグラムなど) モデルを構築し、ラベル付けされたトレーニング セットに対して分類器 (L1 正則化によるロジスティック回帰など) をトレーニングします。任意のツールを使用できますが、非常にシンプルで効率的な Python の SCIKIT-LEARN を使用することをお勧めします。

予測:

トレーニングの後、段落またはテキストの一部を指定すると、トレーニング済みのモデルは、サンプルで使用されている単語に基づいて、そのリージョン ID を見つけることができます。

良い結果を得るには、開発セットで正則化パラメーターを調整することを忘れないでください (トレーニング サンプルの過適合を防ぐため)。

テキストを使用した位置情報に関する 私の論文この論文を読んでください: http://www.aclweb.org/anthology/N15-1153

対応するポスター: http://www.slideshare.net/AfshinRahimi2/geolocation-twittertextnetwork-48968497

また、まさにそれを行い、事前トレーニング済みのモデルが付属するPigeoというツールを作成しました。これらの作品以外にも、テキストベースの地理位置情報に関する多くの研究論文があります。

于 2015-06-13T01:13:32.693 に答える