アプリケーションでレコメンデーション システムを構築していますが、おそらく apache mahout を使用する予定です。大きなデータセットを収集する必要があり、一定期間にわたって収集されます。一種のログファイルとDBに収集して必要なときにエクスポートする
1 に答える
1
データが適切にフォーマットされていれば、Mahout のレコメンダー コードはデータベースまたはファイルから直接読み取ることができます。一般的なログ ファイルは読み取れません。単純な CSV または TSV に変換する必要があります。ただし、ユーザー/アイテム/設定を含むほぼすべてのテーブルを読み取ることができます。
すでにデータをデータベース テーブルに入れている場合は、そこに残しておいて、不要に複製したりエクスポートしたりしないでください。可能であれば、Mahout にすべてをメモリに吸い込ませたいと思うでしょう。
このデータをまだ保存しておらず、シンプルで効率的な表現を選択したい場合は、ユーザー/アイテム/設定情報を抽出し、gzip で圧縮されたシンプルな CSV ファイルに保存することをお勧めします。これらは Mahout でも簡単に使用でき、完全なログ ファイルやデータベースよりもシンプルでコンパクトになります。
于 2010-07-20T10:04:23.663 に答える