そのため、当社にはさまざまな部門の社内 wiki サイトが多数あり、それらを統合する方法を探しています。私たちは皆が同じ wiki を使えるように努力し続けていますが、うまくいきません。彼らは新しいものを作りたがります。別の方法として私がやりたいことは、各ウィキをスクレイピングして、各ソースからの情報を組み合わせた記事で新しいウィキを作成することです。
実装に関しては、Nutch ( http://nutch.apache.org/ ) と ( http://scrapy.org/ ) を調べて、Web クロールを行い、MediaWiki をフロントエンドとして使用しました。基本的に、クローラーをフロントエンドとして使用して各ウィキをスクレイピングし、途中でコードを記述して (Python または Perl を使用することを考えています)、それを理解して新しい記事を作成し、その API を使用して MediaWiki に書き込みます。
私がプロジェクトに深く入り込む前に、いくつかの研究開発をしようとして、誰かが同様の経験とこれを行うためのより良い方法を持っているかどうか確信が持てませんでした.