私は自分のデータセットを使用して列の作成者を特定しようとする何かに取り組んできました。
mlpypythonライブラリを使用する予定です。優れたドキュメントがあります(約100ページのPDF)。他のライブラリの提案も受け付けています。
問題は、データマイニングと機械学習の概念に迷っているということです。あまりにも多くの作業があり、アルゴリズムと概念が多すぎます。
私は方向性、どのアルゴリズム/概念を学ぶべきかを尋ね、そして私の特定の問題を探しています。
これまでのところ、このようなデータセットを作成しました。
| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A | 2 | 4 | 6 | .. |
| A | 1 | 1 | 5 | .. |
| B | 12 | 15 | 9 | .. |
| B | 13 | 13 | 13 | .. |
ここで、新しい列を取得して解析します。その後、列のすべての機能を使用できるようになります。私の目的は、その列の作成者が誰であるかを把握することです。
私はMLの人ではないので、すべての行のフィーチャ間の距離を取得して、最も近いものを選択することしか考えられません。しかし、私はこれが私が行くべき方法ではないと確信しています。
道順、リンク、読み物などをいただければ幸いです。