1

アプリケーションでレコメンデーション システムを構築していますが、おそらく apache mahout を使用する予定です。大きなデータセットを収集する必要があり、一定期間にわたって収集されます。一種のログファイルとDBに収集して必要なときにエクスポートする

4

1 に答える 1

1

データが適切にフォーマットされていれば、Mahout のレコメンダー コードはデータベースまたはファイルから直接読み取ることができます。一般的なログ ファイルは読み取れません。単純な CSV または TSV に変換する必要があります。ただし、ユーザー/アイテム/設定を含むほぼすべてのテーブルを読み取ることができます。

すでにデータをデータベース テーブルに入れている場合は、そこに残しておいて、不要に複製したりエクスポートしたりしないでください。可能であれば、Mahout にすべてをメモリに吸い込ませたいと思うでしょう。

このデータをまだ保存しておらず、シンプルで効率的な表現を選択したい場合は、ユーザー/アイテム/設定情報を抽出し、gzip で圧縮されたシンプルな CSV ファイルに保存することをお勧めします。これらは Mahout でも簡単に使用でき、完全なログ ファイルやデータベースよりもシンプルでコンパクトになります。

于 2010-07-20T10:04:23.663 に答える