4

私が使用している語彙:

名詞句 - 特定の人、場所、または考えを指す短い句。さまざまな名詞句の例としては、「バラク オバマ」、「オバマ」、「ウォーター ボトル」、「イエローストーン国立公園」、「Google Chrome ウェブ ブラウザ」などがあります。

カテゴリ -- どの名詞句がそれに属し、どの名詞句が属さないかを定義する意味概念。カテゴリの例には、「政治家」、「家庭用品」、「食品」、「人」、「スポーツ チーム」などがあります。したがって、「バラク オバマ」は「政治家」と「人」に属しますが、 「食品」または「スポーツ チーム」に属していません。

何百万もの名詞句で構成される非常に古いラベルのない NLP データセットがあります。Freebase を使用して、これらの名詞句にラベルを付けたいと考えています。Freebase の型を自分のカテゴリにマッピングしています。私がする必要があるのは、私が持っているすべての Freebase タイプのすべてのサンプルをダウンロードすることです。

私が直面している問題は、このタイプのクエリを構造化する方法を理解する必要があるということです。大まかに言うと、クエリは Freebase に「トピック XX のすべての例は何ですか?」と尋ねる必要があります。Freebase は「これがトピック XX のすべての例のリストです」と応答する必要があります。誰かがこのクエリの構文を教えてくれたら、とても感謝しています。それがPythonでできるなら、それは素晴らしいことです:)

4

2 に答える 2

4

クエリの基本的な形式 (たとえば、人の場合) は次のとおりです。

[{
  "type":"/people/person",
  "name":None,
  "/common/topic/alias":[],
  "limit":100
}]​

http://wiki.freebase.com/wiki/MQL_Manualで利用可能なドキュメントがあります。

Python ライブラリhttp://code.google.com/p/freebase-python/の freebase.mqlreaditer() を使用すると、これらすべてを循環する最も簡単な方法になります。この場合、"limit" 句がクエリに使用されるチャンク サイズを決定しますが、API レベルで各結果を個別に取得します。

ところで、ジャック・ケネディ大統領を、ハーラーから、フットボール選手から、本などから、どのように明確にする予定ですか? http://www.freebase.com/search?limit=30&start=0&query=jack+kennedy あいまいさを解消するために使用できる十分なコンテキストがある場合は、Freebase から追加情報 (生年月日、死亡日、本の著者、割り当てられた他のタイプなど) を取得することを検討することをお勧めします。

特定のポイントを過ぎると、API http://wiki.freebase.com/wiki/Data_dumpsよりもバルク データ ダンプから作業する方が簡単かつ/または効率的かもしれません。

編集 - これは、「types.txt」というファイルにタイプ ID のリストがあることを前提とした、実際に動作する Python プログラムです。

import freebase

f = file('types.txt')
for t in f:
    t=t.strip()
    q = [{'type':t,
          'mid':None,
          'name':None,
          '/common/topic/alias':[],
          'limit':500,
          }]
    for r in freebase.mqlreaditer(q):
        print '\t'.join([t,r['mid'],r['name']]+r['/common/topic/alias'])
f.close()

クエリをさらに複雑にする場合は、おそらく制限を下げてタイムアウトにならないようにする必要がありますが、このような単純なクエリの場合、制限をデフォルトの 100 より大きくすると、より大きなサイズでクエリを実行することでより効率的になります。チャンク。

于 2011-11-12T14:17:08.107 に答える
1

ここで説明する一般的な問題は、自然言語処理におけるエンティティ リンクと呼ばれます。

恥知らずの自己プラグ:

大規模なエンティティ リンクを実行するための概要とアプローチについては、トピックに関する本の章を参照してください。

http://cs.jhu.edu/~delip/entity_linking.pdf

@デリプラオ

于 2011-11-14T19:59:16.313 に答える