“wikipedia”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

207 参照

wikipedia - ウィキペディアの人々のマイニンググループ

http://en.wikipedia.org/wiki/Category:People_by_occupationから人々のリストを取得しようとしています。私はすべてのセクションを通過し、各セクションから人々を取得する必要があります。

どうすればいいですか？クローラーを使用してページを取得し、BeautifulSoupを使用してページを検索する必要がありますか？
または、ウィキペディアから同じものを入手する他の方法はありますか？

wikipedia web-crawler

2010-03-28T18:32:46.653

0 投票する

4 に答える

3931 参照

api - ウィキペディアの記事から抜粋を取得しますか？

私はウィキペディアAPIを上下に移動してきましたが、記事の抜粋（通常は最初の段落）を取得するための優れた方法があるかどうかわかりません。その段落のHTMLフォーマットも取得すると便利です。

スニペットに似たものを取得するために現在私が見ている唯一の方法は、全文検索を実行することです（例）が、それは私が本当に望んでいることではありません（短すぎます）。

HTML / WikiTextを野蛮に解析する以外に、ウィキペディアの記事の最初の段落を取得する方法はありますか？

2010-04-01T12:28:16.640

0 投票する

3 に答える

1202 参照

sql - Rでウィキペディアの記事のデータベースを分析するには?

これは「大きな」質問で、どうやって始めればいいのかわからないので、どなたか教えていただければ幸いです。これが「良い」質問でない場合は、お詫びしてスレッドを閉じます。

ウィキペディアのデータベース (英語のデータベースとしましょう) を調べて、統計を取りたいと思っています。たとえば、ウィキペディアの各時点 (過去 2 年間としましょう) にアクティブな編集者 (定義する必要があります) が何人いるかに興味があります。

そのようなデータベースを構築する方法、アクセスする方法、データの種類を知る方法などはわかりません。だから私の質問は：

これにはどのようなツールが必要ですか (基本的な R 以外に) ? 私のコンピュータのMySQL? RODBC データベース接続?
そのようなプロジェクトの計画をどのように開始しますか?

sql mysql r database wikipedia

2010-04-10T20:58:16.140

0 投票する

2 に答える

1018 参照

web-scraping - ウィキペディアの記事名（コンテンツなし）

私はプロジェクトを行っていますが、そのためにすべてのウィキペディアの記事名を知る必要があります（コンテンツは必要ありません）。このデータをダウンロードできる場所はありますか？

web-scraping wikipedia

2010-04-16T20:40:12.870

0 投票する

7 に答える

31757 参照

text - ウィキペディアテキストダウンロード

大学のプロジェクト用にウィキペディアの全文をダウンロードしたいと考えています。これをダウンロードするには、独自のスパイダーを作成する必要がありますか?それとも、オンラインで入手できるウィキペディアの公開データセットはありますか?

私のプロジェクトの概要を説明するために、興味のあるいくつかの記事の興味深い単語を見つけたいと思います。しかし、これらの興味深い単語を見つけるために、tf/idf を適用して各単語の用語頻度を計算し、選択することを計画しています。頻度の高いもの。しかし、tf を計算するには、ウィキペディア全体での総出現数を知る必要があります。

これはどのように行うことができますか？

text wikipedia web-crawler information-retrieval

2010-04-21T13:56:28.867

0 投票する

2 に答える

4668 参照

tags - MediaWiki にタグを追加し、フロントページにタグクラウドを表示しますか?

おいしいのような「タグ」を mediawiki ページに追加し、これを使用してフロントページにタグクラウドを表示したいと考えています。

どうすればいいですか？

tags mediawiki wikipedia

2010-04-23T13:14:32.350

0 投票する

1 に答える

298 参照

queue - 循環バッファーの一度に 1 つの要素のみを読み取ることができます

配列と 2 つのインデックス (1 つは読み取り用、もう 1 つは書き込み用) で構成される C の循環バッファーとして、標準の単一コンシューマー、単一プロデューサーキューを実装しました。

私の循環バッファーは、満杯のキューに項目を挿入しようとするとエラーを返し、1 つの空のスロットを使用して空のリングバッファーと満杯のリングバッファーを区別するタイプです。

デバッグ中に、常に挿入を行う進行中のスレッドがあったにもかかわらず、バッファーがいっぱいであることを意味する戻り値を取得する前に、一度に 1 つの項目しか読み取れない一貫した状態に陥ることがあることに気付きました。

実装でばかげたことをしたに違いないと思いましたが、何も見つかりませんでした。次に、ロジックを再確認し、そのようなキューを説明するウィキペディアの値を読み直すことにしました。

驚いたことに、テキスト内に次の不可解なコメントがあることに気付きました。

バッファ境界を越えて読み取ることができない場合、一度に 1 つの要素しか読み取ることができない状況が数多く発生します。

したがって、意味を正しく理解している場合、これは、このようなリングバッファーの実装方法に何らかの継承の問題があることを示しているようです。

悲しいかな、私の弱い脳は、この問題の根本原因を理解するのに途方に暮れています。なぜこれが起こっているのでしょうか? このようなリングバッファをこの状態にすることができるのは、どのような挿入と消去のシーケンスですか?

大変お世話になりました。

queue buffer wikipedia

2010-05-06T15:19:34.040

0 投票する

4 に答える

274 参照

algorithm - 25 GB のコーパスから 1 つの単語を検索する

ウィキペディアの 25 GB のコーパスから 1 つの単語を検索する必要があります。grep を使用しましたが、時間がかかります。すばやく検索できる効率的で簡単な表現はありますか。また、完全一致を見つけたいです。

ありがとうございました。

algorithm data-structures wikipedia

2010-05-15T07:30:52.517

0 投票する

5 に答える

7869 参照

java - ウィキペディア：ウィキペディアのテキストマークアップの削除を削除するJavaライブラリ

ウィキペディアダンプをダウンロードしましたが、各ページのコンテンツにあるウィキペディアマークアップを削除したいと思います。正規表現を書いてみましたが、多すぎて処理できません。Pythonライブラリを見つけましたが、コードに統合したいのでJavaライブラリが必要です。

ありがとうございました。

java parsing wiki wikipedia

2010-05-19T06:15:41.997

0 投票する

1 に答える

281 参照

javascript - DokuWiki ページの clickNshow の jQuery スクリプト

社内用のdokuwikiを作成していますが、ドキュメントが非常に大きくなりがちなので、セクションを折りたたんでヘッダーのみを表示したいと考えています。ヘッダーをクリックすると、セクションが表示されます。

DokuWiki のヒントとコツのページには、このクリックアンドショー動作を容易にする小さな jquery スクリプトが示されています。「h2」にのみ適用され、他のヘッダーには適用されないように変更しました。

今私が望む唯一のことは、レベル 2 セクションがデフォルトで非表示になっていることです。メインページにCSS を追加しようとしましたdiv.level2{display:none;}が、これではうまくいきません。セクションは非表示になりますが、ヘッダーをクリックしても表示されなくなります。

javascript コードを使用してページをロードするときに、h2 ヘッダーの下のすべてのセクションを非表示にする方法はありますか?

javascript jquery wiki wikipedia dokuwiki

2010-05-20T19:28:52.840

問題タブ [wikipedia]

Reference