1

はじめに:
私はBI中毒者で、ウィキペディアのデータをドリルダウンするプロジェクトを開発したいと考えています。
私はスクリプトを書いてdbpediaからデータを抽出し(おそらく人の記事から始めます)、それを people テーブルにロードします。

私の質問は次のとおり
です。これを以前に行ったことがありますか? さらに良いことに、これ専用のコミュニティはありますか?
スクリプトがどこかにある場合は、書き直すよりもスクリプトに貢献したいと思います。

ほんの一例:
人の OLAP キューブでは、名前でドリルダウンし、ドリルスルー "Remi" を選択して、この名前が使用されている領域を確認し、次にすべての領域で性別をドリルダウンして、この名前がどこで使用されているかを確認できます。名前は女の子に人気があり、男の子に人気があります。それらのそれぞれについて、時間をドリルダウンして傾向を確認できます。BI ツールがなければ、この種の調査を行うことはできません。そうしないと、数秒ではなく数日かかることになります。

4

3 に答える 3

1

分散機械学習ライブラリである Mahout を確認してください。そこにある例の1つは、ウィキペディアのダンプを使用しています

https://cwiki.apache.org/MAHOUT/wikipedia-bayes-example.html http://mahout.apache.org

私はビジネス インテリジェンスの正確な詳細に精通していませんが、機械学習とは、関連するパターンを見つけて情報をまとめることです。少なくとも、これは wiki をメモリにロードし、データを使って単純なこととそれほど単純でないことを行う例を示しているはずです。

于 2010-08-23T07:45:37.147 に答える
0

virtuosoサーバー (オープン ソース バージョンがあります) をセットアップし、ローカル マシンに dbpedia データ セットをロードし、virtuosoSPARQL を使用して "SQL DB" として使用できます (jdbc インターフェースを備えています)。

あなたの例から、「オントロジーインフォボックス*」と「生のインフォボックス*」データセットのみをロードできます

于 2010-11-22T17:16:07.857 に答える
0

そのためにオープンソースの OLAP サーバーが必要ですか?

データセット用に DB をセットアップする必要がありますか、それともファイルを使用する必要がありますか? 私たち (www.icCube.com) は、キューブをセットアップするために DB を必要としません。

データセットの大きさは?

于 2010-12-17T04:27:36.467 に答える