問題タブ [wikipedia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parsing - Web 上の生のテキストのダンプはどこで入手できますか?
私が書いているプログラムでテキスト分析を行うことを検討しています。ウィキペディアのダンプ (download.wikimedia.com) で提供されているものと同様の生の形式のテキストの代替ソースを探しています。
ウェブサイトをクロールしたり、 html を解析しようとしたり、テキストを抽出したりするなどの問題を経験する必要はありません..
python - ウィキペディアと Python
ウィキペディア API の xml を読み取るための非常に単純な python コードがあります。
しかし、このコードは次のエラーを返します。
私はPythonを学んでいるだけなので、手がかりがありません。より詳細なエラーを取得する方法はありますか? 誰かが解決策を知っていますか?また、これを行うためのより良い言語を推奨してください。
ありがとう、
ヴェンカット・ラオ
business-intelligence - ウィキペディア データのビジネス インテリジェンス (BI)
はじめに:
私はBI中毒者で、ウィキペディアのデータをドリルダウンするプロジェクトを開発したいと考えています。
私はスクリプトを書いてdbpediaからデータを抽出し(おそらく人の記事から始めます)、それを people テーブルにロードします。
私の質問は次のとおり
です。これを以前に行ったことがありますか? さらに良いことに、これ専用のコミュニティはありますか?
スクリプトがどこかにある場合は、書き直すよりもスクリプトに貢献したいと思います。
ほんの一例:
人の OLAP キューブでは、名前でドリルダウンし、ドリルスルー "Remi" を選択して、この名前が使用されている領域を確認し、次にすべての領域で性別をドリルダウンして、この名前がどこで使用されているかを確認できます。名前は女の子に人気があり、男の子に人気があります。それらのそれぞれについて、時間をドリルダウンして傾向を確認できます。BI ツールがなければ、この種の調査を行うことはできません。そうしないと、数秒ではなく数日かかることになります。
mediawiki - Pythonのテキストへのウィキメディアページ
APIで抽出したウィキペディアのコンテンツをプレーンテキストに変換したいと思います。
ヒントは??
java - 英語でよく使われる単語が欲しい
私は英語で最も頻繁な単語が欲しいです。基本的に、私はウィキペディアのテキストを処理していて、ストップワードを削除した後でも多くの単語で立ち往生しています。よくある単語をグーグルで検索してみましたが、以下のリンクがあります。
http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists#English
これらのリンクからデータを手動で取得する必要があります。直接ダウンロードできるこれらの単語の既知のソースはありますか?
ありがとうございました
algorithm - PCA: このアルゴリズムの何が問題なのですか?
最初の主成分を計算するためのこのウィキペディアのアルゴリズムを誰かが確認または修正できますか? PCA AFAIK用の既存のライブラリがないDでのPCAの簡単な実装が必要です。これを実装しようとしましたが、単純な例での結果が、R または Octave から取得したものと一致しないようです。実装を何度かチェックし、最初から書き直したので、実装のバグではないと確信しています。これは非常に単純なアルゴリズムです。
java - ウィキペディア: 複数の言語にまたがるページ
プロジェクトにウィキペディアのダンプを使用したいと考えています。私のプロジェクトには以下の情報が必要です。
- ウィキペディアのエントリについて、そのページが他にどの言語で含まれているか知りたいですか?
- csv またはその他の一般的な形式でダウンロード可能なデータが必要です。
このデータを取得する方法はありますか?
ありがとうバラ
cocoa - NSScanner 問題を使用してウィキペディアの記事の概要を取得する
記事の要約を取得して文字列としてダウンロードしようとしています。これは一部の記事ではうまく機能しますが、ウィキペディアの Web サイトには一貫性がありません。そのため、NSScanner は、他の記事では正常に機能しているにもかかわらず、かなり頻繁に失敗します。
これが私の NSScanner の実装です。
これはどのように改善できますか?または、これを取得する別の方法はありますか?
記事のどの部分が必要かを視覚化するために、次の例を示します。
http://en.wikipedia.org/wiki/Indigo
これから、「インディゴは電磁スペクトル上の色」から「英語では1289年」までのすべてが欲しい.
ありがとう!
php - ウィキペディア API の問題
Wikipedia API の使用に問題があります。私はこのPHPスクリプトを使用し、
ブラウザに次の結果が表示されます。なんで?
警告: DOMDocument::load(http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml) [domdocument.load]: ストリームを開くことができませんでした: HTTP 要求が失敗しました! HTTP/1.0 403 Forbidden in D:\Program Files\VertrigoServ\www\wiki\index.php 行 3
警告: DOMDocument::load() [domdocument.load]: I/O 警告: 外部エンティティの読み込みに失敗しました "http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format =xml" の D:\Program Files\VertrigoServ\www\wiki\index.php 行 3
java - Java: SAXParser を使用して大きな XML ファイルを分割する
Javaを使用して大きなXMLファイルを小さなファイルに分割しようとしていますSAXParser(具体的には、圧縮されていない約28GBのwikipediaダンプ)。
私はPagehandler拡張するクラスを持っていますDefaultHandler:
したがって、要素の内容を問題なく書き出すことができます。私の問題は、要素のタグと属性を取得する方法です-これらの文字は報告されていないようです。せいぜい、引数として渡されたものからこれらを再構築する必要がありますstartElement-これは少し苦痛に思えます。それとももっと簡単な方法がありますか?
私がやりたいことは、ファイルをループして書き出すことだけで、出力ファイルを頻繁にローリングします。これがどれほど難しいか:)
ありがとう