2

さまざまな製品のレビューでいっぱいのデータベースがあります。私の仕事は、さまざまな計算を実行し、集計データを使用して別の「database/xml-export」を「作成」することです。そのためにPythonでコマンドラインプログラムを書くことを考えています。しかし、私は誰かが以前にこれを行ったことを知っており、おそらくもっと興味深い「集約データ」を提供するオープンソースのpythonソリューションまたは類似のものがあることを知っています。

問題は、コマンドラインからの基本的なデータ操作以外に、この領域についてあまり知らないことです。また、このことを検索するために使用する用語を知っていることもありません.科学的/視覚化的なものを探しているわけではありません. (ツールが提供するかどうかは気にしないというわけではありません)、簡単に始めて、必要なものを徐々に確認/開発することができます。

私の唯一の要件は、「集約されたデータの終了」がデータベースにあるか、XMLファイルとしてエクスポートすることです。4台のマシンで「大量」のデータを処理する必要があるため、Pythonスクリプトよりも少し堅牢です。

どこから研究を始めるべきかヒントはありますか?

ありがとう。

4

2 に答える 2

1

どんな分析をしようとしていますか?

テキストを分析している場合は、Natural Language Toolkit(NLTK)をご覧ください。

データのインデックスを作成して検索する場合は、whoosh検索エンジンをご覧ください。

実行しようとしている分析の種類について、もう少し詳しく説明してください。

于 2009-09-24T17:36:31.777 に答える
1

データ統合ソリューションを探しているようです。1 つの提案は、 Pentahoスイートの一部で
あるオープン ソースのKettle プロジェクトです。 Pythonの場合、クイック検索でPyDISnapLogicが得られました

于 2009-09-24T18:06:24.270 に答える