Googleセットのような、エンティティセット拡張アルゴリズムの任意の言語(できればPython)での既存の実装を知っていますか?(http://labs.google.com/sets)
そのようなアルゴリズムを実装しているライブラリが見つかりませんでした。それらのいくつかを試して、実装したい特定のタスクでそれらがどのように実行されるかを確認したいと思います。
どんな助けでも大歓迎です!
あなたの助けをどうもありがとう、
よろしく、
ニコラス。
Googleセットのような、エンティティセット拡張アルゴリズムの任意の言語(できればPython)での既存の実装を知っていますか?(http://labs.google.com/sets)
そのようなアルゴリズムを実装しているライブラリが見つかりませんでした。それらのいくつかを試して、実装したい特定のタスクでそれらがどのように実行されるかを確認したいと思います。
どんな助けでも大歓迎です!
あなたの助けをどうもありがとう、
よろしく、
ニコラス。
Googleセットが提供する名前付きエンティティのオンデマンドで一種のクラスタリングを実装する、すぐに使用できるオープンソースライブラリを知りません。ただし、同様のシステムを構築する方法を詳細に説明している学術論文がいくつかあります。
EMNLP 2009オンラインデモ
で、WebWangとCohenを使用した名前付きエンティティの言語に依存しないセットの拡張
Bayesian Set
Ghahramani and Heller、in NIPS、2005
以下は、ワンとコーエンの方法の簡単な要約です。自分でこのようなものを実装することになった場合は、彼らの方法から始めるのが良いかもしれません。ほとんどの人は、GhahramaniとHellerの定式化よりも直感的だと思うでしょう。
ワンとコーエン2009
WangとCohenは、あらゆる種類の構造化ドキュメントで名前付きエンティティのリストを検索できるようにする抽出パターンを自動的に構築する方法を説明することから始めます。このメソッドは、名前付きエンティティの既知の出現箇所を囲むプレフィックスとサフィックスを調べます。これらのプレフィックスとサフィックスは、同じドキュメント内の他の名前付きエンティティを識別するために使用されます。
エンティティのクラスターを完成させるために、名前付きエンティティ間の相互接続、それらに関連付けられた抽出パターン、およびドキュメントで構成されるグラフを作成します。このグラフを使用し、クラスターのシードエンティティ(つまり、完成するセット内のエンティティの初期セット)のノードから開始して、最大10ステップの長さのグラフ上で多数のランダムウォークを実行します。非シードエンティティに対応するノードに到達する回数をカウントします。カウントの多い非シードエンティティを使用して、クラスターを完成させることができます。