私は16進形式のバイナリアイテムから4グラムを抽出しています。これは、アイテムごとに最大65535グラムを使用できることを意味します。
すべてのアイテムをグラムとその頻度に関連付けたいのですが、すべてを保存する方法に戸惑っています。これは私の最初のデータマイニングの経験であり、ベストプラクティスや一般的なツールについての手がかりがありません。
のようなスキーマを使用してリレーショナルデータベースに大きなテーブルを作成し、(ITEM-NAME, GRAM1, GRAM2... GRAM65535)
その中に頻度を格納することを簡単に考えていましたが、列の数が多いため、このアプローチは非常に非現実的であることがわかります。
もっと良い解決策があるはずですが、どこを見ればいいのかわかりません。
提案?