2

回答の内容に従ってタグ付けされた何千もの調査回答があります。各応答には 1 つまたは複数 (最大 20) のタグを付けることができ、タグはカテゴリ-サブカテゴリなどに構造化されるのではなく、互いに独立しています。

以下のような分析ができるようになりたいです。

  • 特定のタグのインスタンスはいくつありますか?
  • 全体で最も頻繁に発生するタグはどれですか?
  • タグ X が存在する場所で、他のどのタグが最も頻繁に表示されますか?
  • すべてのタグのリストとその横にある各タグの数
  • 同様の分析を行うデータのサブセットを選択します (国別など)。

私が一緒に働いている人々は、伝統的にすべてを Excel で取り組んできました (一般的なビジネス戦略のコンサルティング業務)。この場合、それはうまくいきません。彼らの対応は、プロジェクト フレームワークを Excel がピボット テーブルで処理できるものに変更することですが、より洗練された関係を可能にする、より堅牢なツールを使用できれば、はるかに優れています。

私は SQLite を学んでいますが、やりたいことがかなり複雑になるのではないかと恐れ始めています。

私は Python も学んでおり (別の理由で)、ORM ツールといくつかの Python コードがより良い方法ではないかと考えています。

そして、Access のようなものがあります (私は持っていませんが、この種のものに最適な場所である場合は、喜んで取得する可能性があります)。

要約すると、これらの種類の分析を全体的に行うのがどれほど難しいか、またどのツールがその仕事に最も適しているかを知りたい. 私は、問題の一部またはすべてについて後ろ向きに考えているという考えに完全にオープンであり、私がここに書いたことのあらゆる側面に関するアドバイスを歓迎します.

4

4 に答える 4

1

すべてのタグをリストに収集し、python collections.Counter および関連するメソッドを使用して、頻度とその他の統計のホストを取得します。ちょうどこのような

>>> from collections import Counter
>>> x=['java', 'python', 'scheme', 'scheme', 'scheme', 'python', 'go', 'go', 'c',
... 'c']
>>> freqs = Counter(x)
>>> freqs.most_common(1)
[('scheme', 3)]
>>> 
于 2012-05-09T18:52:47.273 に答える
1

個々のタグの頻度に関するデータは非常に簡単に構築できるはずですが、タグ間の関係に関するデータは非常に難しく、データ マイニングの領域に該当します。以下は、response テーブル、tag テーブル、および response_tag テーブルがあると仮定して、非常に高いレベルで行うことです。

応答タグの一意の組み合わせをそれぞれリストする要約テーブルを作成し、この組み合わせが何回発生するかを示す列を作成します。combination (id, count)テーブル構造は、のようなものにする必要がありますcombination_tags(combination_id, tag_id)。プロシージャ ステートメント (ORM または SQL カーソル) を使用してテーブルにデータを入力し、アドホック クエリを使用してデータをサンプリングします。

これは単純な操作ではありませんが、エンタープライズ レベルのデータ マイニング ソリューションを使用しなくても、単純な RDBMS を使用して結果を得ることができます。

于 2012-05-09T18:59:43.097 に答える
1

データセットが非常に小さいため、実際には ORM は必要ありません。すべてのデータを Python にロードして、そのレポートを確認するだけです。

言語としての SQL は、より複雑なデータ分析 (たとえば、実際にクロス集計を行いたい場合など) には恐ろしいものです。

于 2012-05-09T19:11:08.463 に答える
0

SQLを使用してください!データ分析には非常に強力です。これにより、将来、データについて質問できるようになります。あなたがまだ考えていない質問。

言語としてのSQLは少し面倒に思えるかもしれませんが、「実際の」プログラミング言語よりもはるかに使いやすいです。あなたの場合、SQLはExcelにインターフェイスするため、ユーザーは使い慣れたツールを使用してデータにアクセスできます。

SQLを使用する場合は、MSAccessよりも実際のデータベース(SQLLite)の方が優れたソリューションです。

分析ツールとしてのSQLは、「SQLとExcelを使ったデータ分析」というテーマで本を書いたほど強く感じています。Amazonのコメント(http://www.amazon.com/Data-Analysis-Using-SQL-Excel/dp/0470099518/ref=pd_sim_b_1)をチェックして、それがどれほど効果的であるかを理解することができます。

于 2012-05-09T20:16:39.430 に答える