0

現在、私は中国株のナレッジ グラフを構築しており、ニュース レコメンデーション システムを構築したいと考えています。また、エンティティの埋め込みと関係の埋め込みには TransE アルゴリズムを使用したいと考えています。しかし、データセットがなく、自分のナレッジ グラフを使用してデータセットを構築する方法が明確にわかりません。

4

1 に答える 1

0

1 つの手始めは、ウィキデータのデータを使用することです。中国企業に関する情報がいくつかあります(中国の証券取引所に上場している企業を指していると思います)。たとえば、 https: //www.wikidata.org/wiki/Q831445 には Sinopec に関する情報が表示されます。

ウィキデータのデータは、API、https://dumps.wikimedia.org/wikidatawiki/ の大きなダンプ ファイル、またはhttps://query.wikidata.org/の SPARQL エンドポイントからダウンロードできます

SPARQL クエリを使用して、深圳証券取引所に上場している企業のリストを取得できます。

SELECT 
  ?company ?companyLabel
  ?industry ?industryLabel
{
  ?company wdt:P414 wd:Q517750 .
  OPTIONAL { ?company wdt:P452 ?industry }
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en,zh". }
}

結果は (また) https://w.wiki/9DMで入手できます。この結果は、クエリを変更することで拡張でき、さまざまな形式でダウンロードできます。DESCRIBE SPARQL キーワードを使用すると、たとえばhttps://w.wiki/9DNDESCRIBE wd:Q831445に結果が表示されるなど、TransE アルゴリズムに役立つ可能性があるトリプル形式を取得できます。

大きなダンプ ファイルを処理し、Gensim の Word2Vec を使用してナレッジ グラフを埋め込むことができます。 https://arxiv.org/abs/1710.04099の「Wembedder: Wikidata エンティティ埋め込み Web サービス」を参照してください。このアプローチの結果の 1 つを Wembedder Web アプリで調べることができます

于 2019-10-01T17:50:46.337 に答える