dataset - 特定のナレッジグラフで TransE アルゴリズム用の独自のデータセットを構築する方法

Question

現在、私は中国株のナレッジグラフを構築しており、ニュースレコメンデーションシステムを構築したいと考えています。また、エンティティの埋め込みと関係の埋め込みには TransE アルゴリズムを使用したいと考えています。しかし、データセットがなく、自分のナレッジグラフを使用してデータセットを構築する方法が明確にわかりません。

score 0 · Accepted Answer

1 つの手始めは、ウィキデータのデータを使用することです。中国企業に関する情報がいくつかあります（中国の証券取引所に上場している企業を指していると思います）。たとえば、 https: //www.wikidata.org/wiki/Q831445 には Sinopec に関する情報が表示されます。

ウィキデータのデータは、API、https://dumps.wikimedia.org/wikidatawiki/ の大きなダンプファイル、またはhttps://query.wikidata.org/の SPARQL エンドポイントからダウンロードできます。

SPARQL クエリを使用して、深圳証券取引所に上場している企業のリストを取得できます。

SELECT 
  ?company ?companyLabel
  ?industry ?industryLabel
{
  ?company wdt:P414 wd:Q517750 .
  OPTIONAL { ?company wdt:P452 ?industry }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en,zh". }
}

結果は (また) https://w.wiki/9DMで入手できます。この結果は、クエリを変更することで拡張でき、さまざまな形式でダウンロードできます。DESCRIBE SPARQL キーワードを使用すると、たとえばhttps://w.wiki/9DNDESCRIBE wd:Q831445に結果が表示されるなど、TransE アルゴリズムに役立つ可能性があるトリプル形式を取得できます。

大きなダンプファイルを処理し、Gensim の Word2Vec を使用してナレッジグラフを埋め込むことができます。 https://arxiv.org/abs/1710.04099の「Wembedder: Wikidata エンティティ埋め込み Web サービス」を参照してください。このアプローチの結果の 1 つを Wembedder Web アプリで調べることができます。

dataset - 特定のナレッジ グラフで TransE アルゴリズム用の独自のデータセットを構築する方法

1 に答える 1

Related

Reference

dataset - 特定のナレッジグラフで TransE アルゴリズム用の独自のデータセットを構築する方法