問題タブ [wikipedia]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python を使用してウィキペディアのダンプ ファイルをパーサー化するためのパーサー/方法はありますか?
特定のカテゴリに属するすべてのウィキペディアの記事を収集し、ウィキペディアからダンプを取り出して、データベースに入れるプロジェクトがあります。
したがって、ウィキペディアのダンプ ファイルを解析して作業を完了する必要があります。この仕事を行うための効率的なパーサーはありますか? 私は Python 開発者です。だから私はPythonのパーサーを好みます。提案がない場合は、Python でポートを作成して Web に投稿しようとします。他の人がそれを利用するか、少なくとも試してみてください。
だから私が欲しいのは、ウィキペディアのダンプファイルを解析するための Python パーサーだけです。各ノードを解析して処理を完了する手動パーサーの作成を開始しました。
mediawiki - ウィキペディアの XML ファイルから内部リンクを削除する方法はありますか?
ウィキペディアの XML ダンプをダウンロードした場合、XML ファイル内のすべての内部リンクを削除する方法はありますか?
ありがとう
identity - ユーザーが、彼らが言うウィキペディアのユーザーであることを確認しますか?
私のサイトのユーザーがウィキペディアのユーザーの「例」であると言った場合、彼らが実際にそのウィキペディアのユーザーであり、なりすましではないことを確認する最善の方法は何でしょうか?
c# - Wikipedia API に接続するための WebRequest
これは哀れなほど単純な問題かもしれませんが、投稿の webrequest/response をフォーマットしてWikipedia APIからデータを取得することができないようです。誰かが私の問題を見るのを手伝ってくれるなら、私は自分のコードを以下に投稿しました。
php - ウィキペディアからアプリケーションに情報を取得するにはどうすればよいですか
こんにちは皆さん、データベースにあるエントリの情報をウィキペディアから取得したいと考えています。たとえば、スタジアムや国の情報などです。私はZend Frameworkを使用していますが、複数のあいまいなエントリなどを返すクエリをどのように処理できますか..ここで得られるすべての助けが欲しいです...
php - ウィキペディアから情報を取得する - HTML フォームを取得するにはどうすればよいですか?
curl を使用してウィキペディアから情報を取得しています。これまでのところ、基本的なテキスト情報を取得することに成功していますが、どうしても HTML で取得したいと考えています。
これが私のコードです:
ただし、この方法で取得したテキストは、表示するのに十分ではありません:(すべてこの種の形式です
'''エクスレバン''' は、[[ローヌアルプ]] [[地域] の [[サヴォワ]] [[フランスの県|県]] にある [[フランスのコミューン|コミューン]] です。 [[フランス]]南東部のフランス|地域]]の。
[[シャンベリ]] の北に鉄道で {{convert|9|km|mi|abbr=on}} の [[ブルジェ湖]] の近くにあります。
==歴史== ''Aix'' は [[Latin]] ''Aquae'' (文字通り「水」; ''cf'' [[Aix-la-Chapelle]] (アーヘン) または [[Aix]) に由来する-en-Provence]])、エクスは [[ローマ帝国]] 時代の浴場であり、近くで暗殺された [[皇帝グラティアヌス]] を記念して「Aquae Gratianae」と改名される前から、 [[リヨン]]、[[383]]。数多くのローマ時代の遺跡が生き残っています。[[画像:IMG 0109 レイク プロムナード.jpg|親指|左|ブルジェ湖のプロムナード]]
ウィキペディアの記事の HTML を取得するにはどうすればよいですか?
更新:ありがとうございますが、私はこれに慣れていないので、[初めてではありますが] xpath クエリを実行しようとしていますが、結果が得られないようです。ここで実際にいくつかのことを知る必要があります。
- 記事の一部だけをリクエストするにはどうすればよいですか?
- リクエストされた記事の HTML を取得するにはどうすればよいですか。
ウィキペディアからのデータ マイニングに関するこのURLを調べました。取得したウィキペディア テキストをパラメータとしてウィキペディア API に 2 番目のリクエストを作成し、html を取得するというアイデアを入れましたが、これまでのところ機能していないようです :( -記事全体を html の混乱として取得してダンプしたくありません. 基本的に、私のアプリケーションでは、地図上にいくつかの場所と都市のピンを配置し、都市マーカーをクリックすると、要求が表示されます。都市の詳細を ajax 経由で隣接する div に表示する. この情報はウィキペディアから動的に取得したい. 特定の都市に存在しない記事を後で扱うことについて心配する.この時点で働いています。
私が探していること、つまり、ウィキペディアの記事の選択された部分を読んで解析することを行う素晴らしい実用的な例を知っている人はいますか?
提供された URL によると、ウィキテキストをウィキペディア API の場所に投稿して、解析された html を返すように指示されています。問題は、情報を投稿しても応答がなく、代わりにアクセスが拒否されたというエラーが表示されることです。ただし、ウィキテキストを GET として含めようとすると、問題なく解析されます。しかし、もちろん、解析するテキストが多すぎると失敗します。
これはウィキペディア API の問題ですか? 私は2日間ハッキングしてきたので、まったく運がありません:(
mysql - ウィキペディア データベース ダンプのインポート - navicat が停止します - 誰か何かアイデアはありますか?
ウィキペディアの xml ダンプをダウンロードしました。そのデータはなんと 12 GB です:\ 1 つのテーブルに対して、それをローカルホストの mysql データベースにインポートしたかったのですが、12 GB の巨大なファイルであり、明らかに navicats がその甘い時間を費やしていますそれをインポートするか、ハングしている可能性が高いです:(。
このダンプを含める方法はありますか、または少なくとも部分的にでも、少しずつ知っている方法はありますか。
その 21 GB のデータが役に立たないことを訂正させてください :\ - このような膨大なファイルを MySQL データベースにインポートする考えを持っている人はいますか。
programming-languages - プログラミング言語とは何ですか?
ウィキペディアは次のように述べています。
プログラミング言語は、機械、特にコンピューターが実行できる計算を表現するために設計された機械可読の人工言語です。プログラミング言語は、機械の動作を指定するプログラムを作成したり、アルゴリズムを正確に表現したり、人間のコミュニケーションのモードとして使用したりできます。
しかし、これは本当ですか?今朝、シャワーを浴びているときに、プログラミング言語は、人間と適切に配置されたコンパイラの両方が解釈できる一連の規則に過ぎないのではないかと思いました。もしそうなら、このプログラミング言語の定義は誤解を招くのではないでしょうか? そうでない場合、コンパイラとそれがコンパイルする言語の違いは何ですか?
ありがとう!
z。