問題タブ [recommendation-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 豚のグループ化されたデータからバイグラムの組み合わせを生成する
入力データを userid,itemid 形式で指定すると、次のようになります。
各グループ内の項目のすべての組み合わせ (順序は重要ではありません) を生成したいと思います。最終的には、グループ内のアイテムに対してジャカードの類似性を実行するつもりです。
理想的には、バイグラムが生成され、出力を次のようにフラット化します。
ユーザー ID を表す文字 ABC は、出力に実際には必要ありません。説明のために表示しているだけです。そこから、ジャカードを計算するために各バイグラムの出現回数を数えます。他の誰かが同様の類似度計算に pig を使用しているかどうかを知りたいです(申し訳ありません!)、すでにこれに遭遇しました。
豚のチュートリアルで提供されている NGramGenerator を見てきましたが、私が達成しようとしているものと実際には一致しません。おそらく Python ストリーミング UDF が適しているかどうか疑問に思っています。
dataset - ApacheMahoutのデータセット
ApacheMahoutのレコメンデーションシステムのユースケースを実装するために使用できるデータセットを探しています。GroupLensResearchグループのMovieLensデータセットしか知りません。
レコメンデーションシステムの実装に使用できる他のデータセットを知っている人はいますか?他のデータセットは大歓迎ですが、私は特にアイテムベースのデータセットに興味があります。
web-services - オープン ソース プラットフォームを使用した SOAP およびリモート サービス、推奨事項
私は本業の .Net 開発者ですが、過去に趣味でオープン ソース開発を行ったことがあります。どのオープンソース言語が他の言語よりも特に優れているか (またはさらに安定しているか) についての推奨事項が必要です。
自宅では、LAMP サーバーでサイトを開発しており、PHP と Python を好んで使用しています。これらのいずれかがリモート データ/メソッドに適していますか? 可能であれば、.Net の WCF に似たものがあることを願っています。
php - PHP/MYSQL アプリケーションをアップグレードしますか?
自家製の php/mysql アプリケーションのアップグレードプロセス自体を管理する方法についての情報を探しています。つまり、本番サーバーで動作する php/mysql アプリケーションの「安定した」バージョンがあり、それを作業中の次のバージョンにアップグレードしたい場合、どうすればエレガントにそれを行うことができるでしょうか? どのようなプラクティスを実装する必要がありますか?
私がやろうと思っていたのは、ただ
すべての安定性/機能テストが完了したら、コードのチェックインを停止するよう開発者に依頼します
アプリケーションをオフラインにします*** (Q: ユーザーがログインしたり公開ページにアクセスしたりできないようにするにはどうすればよいですか? そのためのベスト プラクティスは?) 秘密のログイン ページ/URL を介して開発者にアクセスを許可します
- 運用サーバーにログオンし、最新バージョンをローカルでチェックアウトします***
- 開発者/テスターに、シークレット アクセス ページ / URL*** を通じてコードをテストしてもらいます。
- その後、このシークレット アクセス ページ/URL を削除し、メンテナンス中のサイト ページを削除して、すべてへのアクセスを復元することにより、すべてへのアクセスを復元します。
***注: これを行う簡単な方法は、/myapp/ の名前を /myapp.old/ に変更し、新しいアプリケーション バージョンを /myapp.new/ に配置することです。完了したら、名前を /myapp/ に戻します (これは単なる基本的な考え方です)。
.net - Windows7電話用のORMマッパー
私は自分のアプリの開発にwin7電話でSQLiteを使用することを考えています。Windows7の電話とSQLiteで動作するORMマッパーを探しています。
recommendation-engine - mediawikiを学ぶための最良のリソース?
mediawikiでわかりやすいチュートリアルをいくつかお勧めしますか?
php - Aptana:どちらが良いですか?スタンドアロンバージョンまたはEclipseプラグインバージョン?
私はubuntuを初めて使用し、php /javascriptIDEを選択したいと思います。ダウンロードには2つのオプションがあります。
スタンドアロンバージョン
と
Eclipseプラグインバージョン
パフォーマンスと高すぎないことが私にとって重要です。
どちらをダウンロードしますか?
Eclipseプラグインとしてダウンロードする利点は何ですか?PDTの横で使用するのに役立ちますか、それとも使用することをお勧めしませんか?
iis-7 - Windows Workflow Foundation 4 の学習、どこから始めればよいですか?
私はしばらくwf4で遊んでいます。wf4 に関するさまざまな記事、ビデオ (チャネル 9)、ブログ投稿、およびサイトを見つけましたが、適切な方法で整理することができませんでした。
学習カタログを作成することを楽しみにしています
- VS 2010 および IIS 7 を使用する Windows Workflow 4 ( AppFabric なし)
- Windows Workflow 4 と VS 2010 および IIS 7 (AppFabric を使用)
それを作成するのを手伝ってください...
あなたの答えを投稿 してください
- どこから始めれば?
- 最初に何を学ぶ?
- トピックを学ぶ必要があります - 重要度順
- WCF サービスとして公開
- ホスティング
recommendation-engine - レコメンデーションエンジンが一度だけ、斬新で潜在的に重要なコンテンツを処理するためのいくつかの方法は何ですか?
テレビ番組の生放送を視聴することを推奨するレコメンデーションエンジンを構築したとします。通常のショーでは、協調フィルタリングなどを使用してかなり良い仕事をすることができます。しかし、それは1969年の月面着陸のようなものだったと言ってください。これは明らかに重要なイベントです。レコメンデーションエンジンでそのケースを処理する必要があります。しかし、ショーが終了するとその推奨の値がゼロに低下するため、過去の行動に依存することもできません。
推奨スペースでこの問題に対処するための効果的な方法は何ですか?
algorithm - ユーザーにとって興味深いデータを継続的にフィルタリングする方法は?
一度に 1 つの質問/回答ページを表示する「ブラウズ」スライドショーを備えた質問/回答サイトの例を考えてみましょう。ユーザーが「次へ」ボタンをクリックすると、新しい質問/回答が表示されます。
ユーザーが「次へ」をクリックするたびに返されるページを決定する必要があります。私が望まないいくつかのこととその理由:
「最新」の質問を降順で表示:
100 の質問が入力された場合、ユーザーは 100 番目の項目までクリックスルーせず、応答も得られません。また、最近新しい質問が行われなかった場合、ユーザーがサイトにアクセスするたびに、同じ古いデータが繰り返し表示されることも意味します。
多くの提案された回答/コメントによって判断された、「最もアクティブな」質問を表示しています。
これは、アクティビティの少ない質問を返しません。これは、より多くの可視性が必要な質問です。
回答/コメントが多くないことから判断して、「アクティビティが少ない」質問を表示しています:
質問がアクティブになると、表示されなくなります。これは、私が本当に議論を促進したいときに、質問に対する活動を妨げます。
これらを組み合わせてもうまくいくと思いますが、どのページを返すべきかを判断する方法がわかりません。ユーザーが表示するアイテムのカテゴリを選択する必要がないことを強調します (SO に未回答/アクティブ/最新のフィルターがあるように)。
これを行うための一般的な慣行、またはそれを行う方法についてのアイデアはありますか?
ありがとう!
編集:
ティムのコメントのおかげで、これまでのところ私が傾いていることは次のとおりです。これまでのところ、ユーザーがページでアクションを実行するたびにアクティビティが増加する、アクティビティカウント/ビューカウントでページをランク付けすることを考えています。投票、コメント、回答など。ユーザーがページを表示するたびに、ページごとにビューが増加します。
次に、すべてのページをアクティビティ/ビューの比率でランク付けし、比率の高いページをより頻繁に表示します。この方法では、アクティビティが少なくビューが多いページは最も少なく表示され、アクティビティが多くビューが少ないページは最も頻繁に表示されます。低アクティビティ/低ビューと高アクティビティ/高ビューはその中間くらいになると思いますが、ベータ リリースではこれを注意深く監視する必要があります。また、ユーザーが過去 24 時間に表示したページを保存して、特定の日にスライドショーが繰り返されないようにすることも計画しています。
「古い」データを防ぐためのいくつかのアイデア (上記のすべてがそれを防ぐことができない場合): おそらく、最近表示されていないページを定期的にチェックし、その比率を上げてそれらを一番上に置く cron ジョブを実行します。 .