問題タブ [mahout]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
recommendation-engine - バイナリデータに関するMahoutの推奨事項
私はmahoutの初心者です。私の目的は、ユーザーが購入したバイナリデータに関する推奨事項を作成することです。そこで、1〜3の評価を0および4〜5の評価として想定して、映画のレンズデータの上位Nの推奨事項を計算する際にアイテムとアイテムの類似性モデルを適用しました。 1.次に、テストデータの評価を使用して推奨事項を評価しようとしましたが、テストデータの上位20の推奨事項と上位の評価項目に一致するものはほとんどなく、ほとんどのユーザーに一致しませんでした。
それで、私の推奨は本質的に完全に悪いですか、それとも私の推奨を評価するために別の手段をとる必要がありますか?
私を助けてください !前もって感謝します。
プラネイ、2年生、UG学生。
recommendation-engine - Apache Mahout のアドバイス?
Apache Mahout レコメンデーション エンジンを実装しましたか? あなたが共有できるアドバイスはありますか?他に Mahout を使用しているサイトはありますか?
ありがとう!
java - Ruby on Rails で Apache Mahout を使用する
Ruby on Rails アプリケーションがあります。アプリケーションに推奨事項を実装するという考えがあります。stackoverflow を通じてApache Mahoutを知りました。今、Mahout を使用する必要がある場合、私がしなければならないことは何ですか。Java ライブラリなので、Ruby on Rails アプリケーションでの使用方法がよくわかりません。私は Java の認定資格をいくつか持っているので、Java でコーディングすることは問題ではありません。また、Heroku でアプリケーションをホストするという考えもありますが、それは問題になりますか?
ありがとう
mahout - レコメンデーション システムのデータ収集方法
アプリケーションでレコメンデーション システムを構築していますが、おそらく apache mahout を使用する予定です。大きなデータセットを収集する必要があり、一定期間にわたって収集されます。一種のログファイルとDBに収集して必要なときにエクスポートする
java - HadoopとMahoutを効果的に使用するには、どれだけのJavaが必要ですか?
私はPHP開発者です。今それを邪魔にならないようにしましょう。しかし、Hadoop、特にMahout は、私の興味をそそりました。それらを使用するために、Javaに飛び込む準備ができています。
では、十分な経験を積んだ人々から、これらを効果的に使用するには、どれだけのJavaが必要なのでしょうか。私が見てきたことから、マッパー/リデューサーのプログラミングはそれほど多くはかかりません。しかし、Mahoutを使用すると、ドキュメントを見るときに何を見ているのかまったくわかりません。
また、HadoopとMahoutを介してJavaで処理するためにPHPアプリケーションからデータを取得するのはどれほど難しいでしょうか?そんなに難しいとは思えませんが、言うほどの経験はありません。
dataset - ApacheMahoutのデータセット
ApacheMahoutのレコメンデーションシステムのユースケースを実装するために使用できるデータセットを探しています。GroupLensResearchグループのMovieLensデータセットしか知りません。
レコメンデーションシステムの実装に使用できる他のデータセットを知っている人はいますか?他のデータセットは大歓迎ですが、私は特にアイテムベースのデータセットに興味があります。
java - コマンドライン (CLASSPATH) からの Mahout の実行
Maven を使用して、Windows で Mahout を正常にコンパイルしました。
コマンド ラインからサンプルの 1 つを実行しようとしていますが、何が間違っているのかわかりません。CLASSPATH の問題のようです。
GroupLensRecommenderEvaluatorRunner の例を実行したいとしましょう。GroupLensRecommenderEvaluatorRunner.class ファイルが含まれるフォルダーに移動し、次を実行します。
GroupLensRecommenderEvaluatorRunner クラスの NoClassDefFoundError 例外が発生します。
-cp のパスが間違っていますか?
ところで、象使いに慣れていない人のために、
GroupLensRecommenderEvaluatorRunner クラスのパッケージです。 javadoc
みんなありがとう。
ps - この質問をする前に、最初に CLASSPATH に関する以前のスタックオーバーフローの質問を調べ、指定された解決策に従いました。
java - 現在のデータと一致するユーザー
2つの異なるタイプのユーザー(メンターとメンティー)でいっぱいのデータベースがあります。これにより、2番目のグループ(メンティー)が最初のグループ(メンター)のプロファイルに一致するユーザーを「検索」できるようにします。メンターとメンティーはどちらも、いつでも自分のプロファイルにアクセスしてアイテムを変更できます。
現在、ユーザーマッチング(recommender.mostSimilarIDs())にApacheMahoutを使用しています。私が遭遇している問題は、誰かが検索するたびにユーザーデータをリロードする必要があるということです。それ自体はそれほど時間はかかりませんが、Mahoutがデータを処理するときは、非常に長い時間がかかるようです(3000人のメンターと3000人のメンティーの場合は14分)。処理後、マッチングはほんの数秒で完了します。また、処理中に同じINFOメッセージが何度も表示されます(「処理済み2248ユーザー」)。コードを見ると、メッセージは10000ユーザーごとにのみ出力される必要があることがわかります。
GenericUserBasedRecommenderとGenericDataModelを、NearestNUserNeighborhood、AveragingPreferenceInferrer、PearsonCorrelationSimilarityとともに使用しています。データベースからメンターをロードし、メンティーをPOJOのリストに追加し、それらをFastByIDMapに変換してDataModelに提供します。
これを行うためのより良い方法はありますか?プロダクトオーナーは、すべての検索でデータが最新である必要があります。
solr - mahout クラスタリングの結果からドキュメントを識別する
mahout を使用して、solr を使用してインデックス付けされたテキスト ドキュメントをクラスター化しています。
ドキュメントの「テキスト」フィールドを使用してベクトルを形成しました。次に、mahout で k-means ドライバーを使用してクラスタリングを行い、次に clusterdumper ユーティリティを使用して結果をダンプしました。
ダンパーの出力結果がわかりづらいです。それらのクラスターには項ベクトルで形成されたクラスターが見られました。しかし、これらのクラスターからドキュメントを抽出するにはどうすればよいでしょうか。結果を、さまざまなクラスターに表示される入力ドキュメントにしたいと考えています。
java - Hadoop での Taste Grouplens デモの実行に関するヘルプ
学術プロジェクトの一環として、協調フィルタリング ベースのレコメンデーション システムを構築しようとしています。Mahout プロジェクトには多くの可能性があると思います。
ubuntu 10.1にMahout、hadoop、およびJavaをインストールしました。Hadoop と Java が連携して正常に動作することが確認されています。(Hadoop 単語カウント サンプル ジョブを実行)
このチュートリアルに従って、100 万のデータセットで「Taste Grouplens Example」を実行しています。次のように入力しました
次に、チュートリアルの Hadoop クラスターでの実行に続き、examples ディレクトリに mvn install を実行し、examples/target/ ディレクトリに jar ファイルを生成してから、ジョブを実行する必要がある次の部分に進みました。次のように入力しました:
次のエラーが表示されます。
jarファイルを正しくデプロイしているかどうかはわかりませんが、何かアイデアはありますか?