merge - ウィキ記事をスクレイピングして事実上結合する方法は?

Question

そのため、当社にはさまざまな部門の社内 wiki サイトが多数あり、それらを統合する方法を探しています。私たちは皆が同じ wiki を使えるように努力し続けていますが、うまくいきません。彼らは新しいものを作りたがります。別の方法として私がやりたいことは、各ウィキをスクレイピングして、各ソースからの情報を組み合わせた記事で新しいウィキを作成することです。

実装に関しては、Nutch ( http://nutch.apache.org/ ) と ( http://scrapy.org/ ) を調べて、Web クロールを行い、MediaWiki をフロントエンドとして使用しました。基本的に、クローラーをフロントエンドとして使用して各ウィキをスクレイピングし、途中でコードを記述して (Python または Perl を使用することを考えています)、それを理解して新しい記事を作成し、その API を使用して MediaWiki に書き込みます。

私がプロジェクトに深く入り込む前に、いくつかの研究開発をしようとして、誰かが同様の経験とこれを行うためのより良い方法を持っているかどうか確信が持てませんでした.

score 0 · Accepted Answer

私は少し前に非常に似たようなことをしました。Confluence wiki のページ階層をスクレイピングし、結果の html ページをローカルに保存し、ドキュメンテーションチームが処理できるように DITA XML トピックに変換する小さな Python スクリプトを作成しました。

Python は良い選択でした。ブラウジング/スクレイピングのニーズに mechanize を使用し、xhtml を理解するために lxml モジュールを使用しました (xml トラバース/選択メソッドの範囲が非常に広いです。うまくいきました!

merge - ウィキ記事をスクレイピングして事実上結合する方法は?

2 に答える 2

Related

Reference