問題タブ [wikidata]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - テキストから WikiData エンティティを効率的に抽出する
私は、100 から 4000 語のテキスト (数百万) をたくさん持っています。テキストは、句読点と文法を使用して、書かれた作品としてフォーマットされています。すべて英語です。
問題は単純です:与えられたテキストからすべての WikiData エンティティを抽出するにはどうすればよいでしょうか?
エンティティは、固有名詞または通常のすべての名詞として定義されます。つまり、人、組織、場所、椅子、ポテトなどの名前です。
これまでのところ、次のことを試しました。
- テキストをOpenNLPでトークン化し、事前トレーニング済みのモデルを使用して、人、場所、組織、および通常の名詞を抽出します。
- 該当する場合は、 Porter Stemmingを適用します。
- 抽出されたすべての名詞をwmflabs-APIと照合して、潜在的な WikiData ID を取得します。
これはうまくいきますが、もっとうまくやれる気がします。明白な改善の 1 つは、関連する WikiData の部分をローカルにキャッシュすることです。これは私が計画しています。ただし、その前に、他の解決策があるかどうかを確認したいと思います。
提案?
タスクにSparkを使用しているため、質問に Scala のタグを付けました。
openlayers - OpenLayers LonLat 変換
OSM OpenLayers の例をquery.wikidata.orgから取得した結果と結合しようとしていますが、間違った変換を行っているようです。long と lat の正しい変換は何ですか?
c# - ウィキデータ JSON オブジェクトを反復処理するには?
私はウィキデータの JSON オブジェクトを繰り返し処理しようとしていますが、ある程度までは成功しています。以下を解析しています: http://www.wikidata.org/wiki/Special:EntityData/Q319.json
次のようなコードを繰り返しています。
これは、次のような「クレーム」に到達するまで機能します。
claim.Value で上記の JSON テキストを使用して以下を使用していますが、field_name は null です。
上記のオブジェクトの値を動的に反復するにはどうすればよいですか? オブジェクト構造を確立して可能であれば逆シリアル化するよりも、むしろ反復したいと思います。
python - ウィキデータ API から Python で itemlabel を取得する
Wikidata API を使用して、すべてのハリー ポッターのキャラクター名のリストを作成しようとしています。以下のリンクから Python ノートブックに itemlabels (キャラクター名) を取得したいと考えています。
これは、私が望むように実行されるウィキデータ クエリ サービスのクエリです。
上記のコードの最後の行を実行した後、このエラーが発生し続けます。
クエリの最後に JSON を指定しても、結果は JSON ではなく XML で返されます。これを修正する方法についてのアイデアをいただければ幸いです。
javascript - ウィキデータ API にアクセスできません
ウィキデータ API を使用しようとしていますが、取得できるのは次のとおりです。
Fetch API でhttps://www.wikidata.org/w/api.php?action=wbsearchentities&search=Ingmar%20Bergman&language=en&limit=20&format=json&origin=http%3A%2F%2Fwww.dev.example.com%3A3000を読み込めません。プリフライト要求への応答がアクセス制御チェックに合格しません: 要求されたリソースに 'Access-Control-Allow-Origin' ヘッダーが存在しません。したがって、オリジン ' http://www.dev.example.com:3000 ' へのアクセスは許可されていません。不透明な応答が必要な場合は、要求のモードを「no-cors」に設定して、CORS を無効にしてリソースをフェッチします。
これはコードです:
JSONPも試しましたが、成功しませんでした。ブラウザーでリンクを実行すると (origin パラメーターなしで)、適切な応答が得られます。
java - Jena を使用してウィキデータをクエリする
現在、ウィキデータには SPARQL エンドポイント「https://query.wikidata.org/」があります。Jena (3.0.1) を使用してこのサイトにクエリを実行したいと思います。次のコードを使用しましたが、「エンドポイントがコンテンツを返しました」というエラー メッセージが表示されました。 -タイプ: SELECT クエリで現在サポートされていない text/html ". それを解決する方法はありますか?同じコードが dbpedia でも問題なく動作します。ありがとう
json - ウィキペディアのインフォボックスで使用されている画像を確実に取得するには?
Wikipedia Infobox で使用されているメイン画像を API から (確実に) 取得するにはどうすればよいですか?
この質問は以前に尋ねられたもので、受け入れられた回答は単なる推測であることを認めています。後続の回答は、せいぜいハックのように見え、正しい画像を返しません。
たとえば、Wikipedia の Jimi Hendrix エントリは"File:Jimi Hendrix 1967.png"
、InfoBox のメイン画像として使用されています。
更新された回答では、この URL を使用することが提案されていますが、Jimi Hendrix (およびその他のトピック) の場合、間違った画像が返されることがよくあります。
すべての画像を取得すると、Infobox で使用されている画像を特定する方法がありません。