問題タブ [wikipedia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
wikipedia - ウィキペディアの人々のマイニンググループ
http://en.wikipedia.org/wiki/Category:People_by_occupationから人々のリストを取得しようとしています。私はすべてのセクションを通過し、各セクションから人々を取得する必要があります。
どうすればいいですか?クローラーを使用してページを取得し、BeautifulSoupを使用してページを検索する必要がありますか?
または、ウィキペディアから同じものを入手する他の方法はありますか?
api - ウィキペディアの記事から抜粋を取得しますか?
私はウィキペディアAPIを上下に移動してきましたが、記事の抜粋(通常は最初の段落)を取得するための優れた方法があるかどうかわかりません。その段落のHTMLフォーマットも取得すると便利です。
スニペットに似たものを取得するために現在私が見ている唯一の方法は、全文検索を実行することです(例)が、それは私が本当に望んでいることではありません(短すぎます)。
HTML / WikiTextを野蛮に解析する以外に、ウィキペディアの記事の最初の段落を取得する方法はありますか?
sql - Rでウィキペディアの記事のデータベースを分析するには?
これは「大きな」質問で、どうやって始めればいいのかわからないので、どなたか教えていただければ幸いです。これが「良い」質問でない場合は、お詫びしてスレッドを閉じます。
ウィキペディアのデータベース (英語のデータベースとしましょう) を調べて、統計を取りたいと思っています。たとえば、ウィキペディアの各時点 (過去 2 年間としましょう) にアクティブな編集者 (定義する必要があります) が何人いるかに興味があります。
そのようなデータベースを構築する方法、アクセスする方法、データの種類を知る方法などはわかりません。だから私の質問は:
- これにはどのようなツールが必要ですか (基本的な R 以外に) ? 私のコンピュータのMySQL? RODBC データベース接続?
- そのようなプロジェクトの計画をどのように開始しますか?
web-scraping - ウィキペディアの記事名(コンテンツなし)
私はプロジェクトを行っていますが、そのためにすべてのウィキペディアの記事名を知る必要があります(コンテンツは必要ありません)。このデータをダウンロードできる場所はありますか?
text - ウィキペディア テキスト ダウンロード
大学のプロジェクト用にウィキペディアの全文をダウンロードしたいと考えています。これをダウンロードするには、独自のスパイダーを作成する必要がありますか?それとも、オンラインで入手できるウィキペディアの公開データセットはありますか?
私のプロジェクトの概要を説明するために、興味のあるいくつかの記事の興味深い単語を見つけたいと思います。しかし、これらの興味深い単語を見つけるために、tf/idf を適用して各単語の用語頻度を計算し、選択することを計画しています。頻度の高いもの。しかし、tf を計算するには、ウィキペディア全体での総出現数を知る必要があります。
これはどのように行うことができますか?
tags - MediaWiki にタグを追加し、フロント ページにタグ クラウドを表示しますか?
おいしいのような「タグ」を mediawiki ページに追加し、これを使用してフロント ページにタグ クラウドを表示したいと考えています。
どうすればいいですか?
queue - 循環バッファーの一度に 1 つの要素のみを読み取ることができます
配列と 2 つのインデックス (1 つは読み取り用、もう 1 つは書き込み用) で構成される C の循環バッファーとして、標準の単一コンシューマー、単一プロデューサー キューを実装しました。
私の循環バッファーは、満杯のキューに項目を挿入しようとするとエラーを返し、1 つの空のスロットを使用して空のリング バッファーと満杯のリング バッファーを区別するタイプです。
デバッグ中に、常に挿入を行う進行中のスレッドがあったにもかかわらず、バッファーがいっぱいであることを意味する戻り値を取得する前に、一度に 1 つの項目しか読み取れない一貫した状態に陥ることがあることに気付きました。
実装でばかげたことをしたに違いないと思いましたが、何も見つかりませんでした。次に、ロジックを再確認し、そのようなキューを説明するウィキペディアの値を読み直すことにしました。
驚いたことに、テキスト内に次の不可解なコメントがあることに気付きました。
バッファ境界を越えて読み取ることができない場合、一度に 1 つの要素しか読み取ることができない状況が数多く発生します。
したがって、意味を正しく理解している場合、これは、このようなリング バッファーの実装方法に何らかの継承の問題があることを示しているようです。
悲しいかな、私の弱い脳は、この問題の根本原因を理解するのに途方に暮れています。なぜこれが起こっているのでしょうか? このようなリングバッファをこの状態にすることができるのは、どのような挿入と消去のシーケンスですか?
大変お世話になりました。
algorithm - 25 GB のコーパスから 1 つの単語を検索する
ウィキペディアの 25 GB のコーパスから 1 つの単語を検索する必要があります。grep を使用しましたが、時間がかかります。すばやく検索できる効率的で簡単な表現はありますか。また、完全一致を見つけたいです。
ありがとうございました。
java - ウィキペディア:ウィキペディアのテキストマークアップの削除を削除するJavaライブラリ
ウィキペディアダンプをダウンロードしましたが、各ページのコンテンツにあるウィキペディアマークアップを削除したいと思います。正規表現を書いてみましたが、多すぎて処理できません。Pythonライブラリを見つけましたが、コードに統合したいのでJavaライブラリが必要です。
ありがとうございました。
javascript - DokuWiki ページの clickNshow の jQuery スクリプト
社内用のdokuwikiを作成していますが、ドキュメントが非常に大きくなりがちなので、セクションを折りたたんでヘッダーのみを表示したいと考えています。ヘッダーをクリックすると、セクションが表示されます。
DokuWiki のヒントとコツのページには、このクリック アンド ショー動作を容易にする小さな jquery スクリプトが示されています。「h2」にのみ適用され、他のヘッダーには適用されないように変更しました。
今私が望む唯一のことは、レベル 2 セクションがデフォルトで非表示になっていることです。メインページにCSS を追加しようとしましたdiv.level2{display:none;}
が、これではうまくいきません。セクションは非表示になりますが、ヘッダーをクリックしても表示されなくなります。
javascript コードを使用してページをロードするときに、h2 ヘッダーの下のすべてのセクションを非表示にする方法はありますか?