現在、私は中国株のナレッジ グラフを構築しており、ニュース レコメンデーション システムを構築したいと考えています。また、エンティティの埋め込みと関係の埋め込みには TransE アルゴリズムを使用したいと考えています。しかし、データセットがなく、自分のナレッジ グラフを使用してデータセットを構築する方法が明確にわかりません。
1 に答える
1 つの手始めは、ウィキデータのデータを使用することです。中国企業に関する情報がいくつかあります(中国の証券取引所に上場している企業を指していると思います)。たとえば、 https: //www.wikidata.org/wiki/Q831445 には Sinopec に関する情報が表示されます。
ウィキデータのデータは、API、https://dumps.wikimedia.org/wikidatawiki/ の大きなダンプ ファイル、またはhttps://query.wikidata.org/の SPARQL エンドポイントからダウンロードできます。
SPARQL クエリを使用して、深圳証券取引所に上場している企業のリストを取得できます。
SELECT
?company ?companyLabel
?industry ?industryLabel
{
?company wdt:P414 wd:Q517750 .
OPTIONAL { ?company wdt:P452 ?industry }
SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en,zh". }
}
結果は (また) https://w.wiki/9DMで入手できます。この結果は、クエリを変更することで拡張でき、さまざまな形式でダウンロードできます。DESCRIBE SPARQL キーワードを使用すると、たとえばhttps://w.wiki/9DNDESCRIBE wd:Q831445
に結果が表示されるなど、TransE アルゴリズムに役立つ可能性があるトリプル形式を取得できます。
大きなダンプ ファイルを処理し、Gensim の Word2Vec を使用してナレッジ グラフを埋め込むことができます。 https://arxiv.org/abs/1710.04099の「Wembedder: Wikidata エンティティ埋め込み Web サービス」を参照してください。このアプローチの結果の 1 つを Wembedder Web アプリで調べることができます。