html - ウィキペディアの記事をダウンロードしてデータベースに保存する方法

Question

ユーザー (主に英語学習者または子供) がデータベース内の既存のライセンス記事を検索できるこの Web アプリケーションがあります。それらは、カテゴリ、タグ、およびそれぞれの難易度でフィルタリングできます。

そのため、ウィキペディアの記事をデータベースに追加して、データベース内の記事を時々更新できるようにすることを考えていますが、そのための最良の方法が何であるかはわかりません. 私の理解では、圧縮ファイルを毎回ダウンロードしてから解凍する必要があるため、記事を XML 形式で取得できます。次に、タグに従ってそれらをデータベースに追加できますか? 自動的に更新する方法はありますか? 記事を読みましたが、データダンプについてですが、開始方法がわかりません。

http://en.wikipedia.org/wiki/Wikipedia:Database_download#SQL_schema

score -2 · Accepted Answer

おそらく、ウィキペディアをクロールしてインデックスを作成するだけの方がよいでしょう。次に、Apache Solrなどのシステムで、関心のあるページを含む検索インデックスを保存できます。その場合は、リクエストの割合について丁寧に対応してください。

これにより、ストレージが回避され、コンテンツを更新するための労力が不要になります。リンクのみを更新する必要があります（おそらくそれほど頻繁ではありません）。

人々が見つけたものをフィルタリングしたくない場合は、おそらくGoogleの検索APIにサインアップして、クローラーの時間/労力を節約することができます...

html - ウィキペディアの記事をダウンロードしてデータベースに保存する方法

1 に答える 1

Related

Reference