“wikipedia”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

386 参照

parsing - Web 上の生のテキストのダンプはどこで入手できますか?

私が書いているプログラムでテキスト分析を行うことを検討しています。ウィキペディアのダンプ (download.wikimedia.com) で提供されているものと同様の生の形式のテキストの代替ソースを探しています。

ウェブサイトをクロールしたり、 html を解析しようとしたり、テキストを抽出したりするなどの問題を経験する必要はありません..

2010-08-02T13:44:41.607

0 投票する

1 に答える

1130 参照

python - ウィキペディアと Python

ウィキペディア API の xml を読み取るための非常に単純な python コードがあります。

しかし、このコードは次のエラーを返します。

私はPythonを学んでいるだけなので、手がかりがありません。より詳細なエラーを取得する方法はありますか? 誰かが解決策を知っていますか？また、これを行うためのより良い言語を推奨してください。

ありがとう、
ヴェンカット・ラオ

python xml wikipedia

2010-08-11T03:35:49.823

0 投票する

3 に答える

569 参照

business-intelligence - ウィキペディアデータのビジネスインテリジェンス (BI)

はじめに:
私はBI中毒者で、ウィキペディアのデータをドリルダウンするプロジェクトを開発したいと考えています。
私はスクリプトを書いてdbpediaからデータを抽出し(おそらく人の記事から始めます)、それを people テーブルにロードします。

私の質問は次のとおり
です。これを以前に行ったことがありますか? さらに良いことに、これ専用のコミュニティはありますか?
スクリプトがどこかにある場合は、書き直すよりもスクリプトに貢献したいと思います。

ほんの一例:
人の OLAP キューブでは、名前でドリルダウンし、ドリルスルー "Remi" を選択して、この名前が使用されている領域を確認し、次にすべての領域で性別をドリルダウンして、この名前がどこで使用されているかを確認できます。名前は女の子に人気があり、男の子に人気があります。それらのそれぞれについて、時間をドリルダウンして傾向を確認できます。BI ツールがなければ、この種の調査を行うことはできません。そうしないと、数秒ではなく数日かかることになります。

business-intelligence wikipedia dbpedia

2010-08-23T07:29:14.347

0 投票する

2 に答える

521 参照

mediawiki - Pythonのテキストへのウィキメディアページ

APIで抽出したウィキペディアのコンテンツをプレーンテキストに変換したいと思います。

ヒントは??

mediawiki wikipedia

2010-08-26T20:22:59.830

0 投票する

1 に答える

458 参照

java - 英語でよく使われる単語が欲しい

私は英語で最も頻繁な単語が欲しいです。基本的に、私はウィキペディアのテキストを処理していて、ストップワードを削除した後でも多くの単語で立ち往生しています。よくある単語をグーグルで検索してみましたが、以下のリンクがあります。

http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists#English

これらのリンクからデータを手動で取得する必要があります。直接ダウンロードできるこれらの単語の既知のソースはありますか？

ありがとうございました

java parsing text wikipedia

2010-09-02T07:49:37.143

0 投票する

1 に答える

404 参照

algorithm - PCA: このアルゴリズムの何が問題なのですか?

最初の主成分を計算するためのこのウィキペディアのアルゴリズムを誰かが確認または修正できますか? PCA AFAIK用の既存のライブラリがないDでのPCAの簡単な実装が必要です。これを実装しようとしましたが、単純な例での結果が、R または Octave から取得したものと一致しないようです。実装を何度かチェックし、最初から書き直したので、実装のバグではないと確信しています。これは非常に単純なアルゴリズムです。

algorithm language-agnostic statistics wikipedia pca

2010-09-10T02:56:51.893

0 投票する

3 に答える

197 参照

java - ウィキペディア: 複数の言語にまたがるページ

プロジェクトにウィキペディアのダンプを使用したいと考えています。私のプロジェクトには以下の情報が必要です。

ウィキペディアのエントリについて、そのページが他にどの言語で含まれているか知りたいですか?
csv またはその他の一般的な形式でダウンロード可能なデータが必要です。

このデータを取得する方法はありますか?

ありがとうバラ

java nlp wikipedia information-retrieval

2010-09-13T22:41:59.160

0 投票する

1 に答える

283 参照

cocoa - NSScanner 問題を使用してウィキペディアの記事の概要を取得する

記事の要約を取得して文字列としてダウンロードしようとしています。これは一部の記事ではうまく機能しますが、ウィキペディアの Web サイトには一貫性がありません。そのため、NSScanner は、他の記事では正常に機能しているにもかかわらず、かなり頻繁に失敗します。

これが私の NSScanner の実装です。

これはどのように改善できますか？または、これを取得する別の方法はありますか？

記事のどの部分が必要かを視覚化するために、次の例を示します。

http://en.wikipedia.org/wiki/Indigo

これから、「インディゴは電磁スペクトル上の色」から「英語では1289年」までのすべてが欲しい.

ありがとう！

cocoa nsstring wikipedia nsscanner

2010-09-22T18:21:20.693

0 投票する

2 に答える

1174 参照

php - ウィキペディア API の問題

Wikipedia API の使用に問題があります。私はこのPHPスクリプトを使用し、

ブラウザに次の結果が表示されます。なんで？

警告: DOMDocument::load(http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format=xml) [domdocument.load]: ストリームを開くことができませんでした: HTTP 要求が失敗しました! HTTP/1.0 403 Forbidden in D:\Program Files\VertrigoServ\www\wiki\index.php 行 3

警告: DOMDocument::load() [domdocument.load]: I/O 警告: 外部エンティティの読み込みに失敗しました "http://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=New_York_Yankees&rvprop=content&format =xml" の D:\Program Files\VertrigoServ\www\wiki\index.php 行 3

php api wiki wikipedia

2010-09-23T21:11:06.013

0 投票する

2 に答える

3369 参照

java - Java: SAXParser を使用して大きな XML ファイルを分割する

Javaを使用して大きなXMLファイルを小さなファイルに分割しようとしていますSAXParser(具体的には、圧縮されていない約28GBのwikipediaダンプ)。

私はPagehandler拡張するクラスを持っていますDefaultHandler:

したがって、要素の内容を問題なく書き出すことができます。私の問題は、要素のタグと属性を取得する方法です-これらの文字は報告されていないようです。せいぜい、引数として渡されたものからこれらを再構築する必要がありますstartElement-これは少し苦痛に思えます。それとももっと簡単な方法がありますか？

私がやりたいことは、ファイルをループして書き出すことだけで、出力ファイルを頻繁にローリングします。これがどれほど難しいか:)

ありがとう

java xml parsing sax wikipedia

2010-10-03T15:16:35.803

問題タブ [wikipedia]

Reference