問題タブ [collective-intelligence]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - .net /javaのCollectiveIntelligenceに適したオープンソースライブラリはどれですか?
または、集合知を広範に利用するオープンソースプロジェクトはありますか?
math - 取得したユーザー名のサンプリングからサイトのユーザーベースのサイズを推測する方法
この情報を公開していないサイトのユーザーベースのサイズを見積もりたいとします。
人々は、さまざまな確率でさまざまなユーザー名を取得している可能性が高くなります。たとえば、ユーザー名「nick」がシステムに存在しない場合、ユーザーベースは非常に小さい可能性があります。ユーザー名「starbaby」を使用すると、はるかに大きなサイトになる可能性があります。それは単純なベイズ問題のようです。
サイトが異なれば、許可されるユーザー名のスペースも異なる可能性があるという問題があります。最大の問題は、スペースなどの一般的な文字の合法性だと思います。以前の配布を汚す可能性のあるもう1つの問題は、必要な名前が使用されたときにサイトが名前を提案するのか、それとももっとクリエイティブな名前を自分で考えさせるのかということです。
さまざまなサイズのシステムでユーザー名が発生する頻度のトレーニングセットをどのように構築できますか?固定幅バケットに分類するのではなく、ベイズを使用して数値推定を行う方法はありますか?
similarity - ニュースアイテムの(トピックの)類似性のアルゴリズム
Googleニュースに似ていますが、基本的なトピックが何であるかを判断し、次にどのトピックが関連しているかを判断できるという意味で異なる2つのニュースアイテムのコンテンツの類似性を判断したいと思います。
したがって、記事がサダム・フセインに関するものである場合、アルゴリズムは、ドナルド・ラムズフェルドのイラクでの商取引に関する何かを推奨する可能性があります。
k最近傍法のようなキーワードとそれらが機能する理由についての少しの説明を投げかけることができれば(可能であれば)、残りの調査を行い、アルゴリズムを微調整します。誰かが以前に似たようなことを試みたに違いないことを私は知っているので、始める場所を探しているだけです。
c# - 集合知の .Net / C# リソースを探しています
まず、これは次の質問と非常によく似た質問であることに気付きました。
...しかし、その答えはすべて Java 中心のものだったので、もう一度質問します。今回は .Net (理想的には C#) のアイデアをもっと探しています。
背景を少し。私は最近、Toby Segran の CI に関する優れた本を読みました。また、Satnam Alag の本も入手しました (これも優れていると確信していますが、まだ開いたばかりです)。これらは Python と Java 中心で、コード サンプルを読むのに問題はありませんが、私は C# 開発者なので、母国語でこれらのアイデアのいくつかを試してみると楽しいでしょう。私はウェブとSOを検索しましたが、あまり思いつきませんでした。ある意味、これは素晴らしいニュースです。何かを .Net に移植できるかもしれませんが (提案を歓迎します)、これを行う前に、既存のプロジェクトを調べてみたいと思います。
それで、OSプロジェクトで.Netで作業しているCIファンがそこにいますか、明らかに明白で興味深い本/サイト/ブログを見逃していませんか?
CI は非常に広い分野であることを認識しているので、少し絞り込むと、主にクラスタリング / 予測 / レコメンデーションの分野に関心がありますが、他のアイデアにもオープンです。
編集: マニングによって出版されようとしているこの本を見つけたところです。これは、CI ファンに興味があるかもしれません: Algorithms of the Intelligent Web .
Moose のコメントに応じて説明を編集します。私が実際に探しているのは、.Net で CI 技術を使用するライブラリ、フレームワーク、または大規模なプロジェクト (理想的には OS) です。コード サンプルは素晴らしいものですが、Moose がコメントで述べているように、Java の例を取り上げて移植するのは簡単です。たとえば、WEKAと呼ばれる Java で書かれた興味深いプロジェクトがあります。これを使用して実験できない理由はありません。.Net で同様のことが起こっているかどうか知りたかっただけです。Luceneに関する情報を閲覧していたところ、その C# への移植があることがわかりました。
編集これは C# ではありませんが、.Net です。Robert Pickering は、ここでF# CI リソースの収集を開始しました。面白そうですが、C# の情報もまだ探しています。
python - Pythonと集団的知性
私は現在、TobySegaranによる「ProgrammingCollectiveIntelligence」という素晴らしい本を読んでいます(これは私が強くお勧めします)
コード例はすべてPythonで記述されており、今年はすでに1つの新しい言語を学習しているため(VB.netからC#に移行)、別の学習曲線に飛びつくことには熱心ではありません。
これにより、Pythonの例をC#に変換するという問題が残ります。
質問は:コードがPythonのままであることがどれほど重要ですか?Pythonには、通常の静的に管理された静的型付け言語では実行できないことがありますか?
collective-intelligence - コレクティブインテリジェンスはエキスパートの見解をどのように打ち負かしますか?
コレクティブインテリジェンスプログラミングに興味がありますが、どのように機能するのでしょうか。
正確な予測を行うことができると言われています。たとえば、オライリープログラミングコレクティブインテリジェンスの本は、トレーダーの行動のコレクションが実際に専門家よりも将来の価格(トウモロコシなど)を予測できると述べています。
また、統計学の授業では、40人の学生が試験を受ける部屋の場合、3〜5人の学生が「A」の成績を取得することがわかりました。「B」を取得した8つ、「C」を取得した17などがあります。つまり、基本的にはベルカーブです。
では、これら2つの観点から、「B」と「C」の回答のコレクションは、「A」を取得した回答よりも優れた予測をどのように提供できるでしょうか。
たとえば、トウモロコシの価格は、「自己達成的予言」ではなく、天候やトウモロコシを使用する食品会社の需要などを考慮した正確な価格であることに注意してください(トウモロコシの先物を購入する人が増え、価格が上がり、先物を購入する人が増えます)また)。実際には、将来の正確な価格を提示するために、需要と供給を正確に予測しています。
どうしてそれは可能ですか?
更新:集団的知性は株式市場の幸福感やパニックでは機能しないと言えますか?
artificial-intelligence - データマイニング、統計、集団的知性、AIアルゴリズムの本とプログラミングリソース
継続的に自分自身を向上させるために、データマイニング、統計、集団的知性、AIアルゴリズムなどについて学ぶことにしました。
使用できる無料の電子書籍やWebリソース(チュートリアル、コード)などは何ですか?
database - 独自のレコメンデーションエンジンを作成するにはどうすればよいですか?
私は最近、レコメンデーションエンジンに興味があり、この分野で自分自身を向上させたいと思っています。私は現在、「集合知プログラミング」を読んでいます。これは、オライリーからのこの主題に関する最高の本だと思います。しかし、エンジンを実装する方法はわかりません。「わからない」とは、「どうやって始めたらいいのかわからない」という意味です。Last.fmのようなプロジェクトを考えています。
- どこで(データベース側またはバックエンド側で実装する必要があります)レコメンデーションエンジンの作成を開始しますか?
- どのレベルのデータベース知識が必要になりますか?
- ヘルプやリソースに使用できるオープンソースのものはありますか?
- 私がしなければならない最初のステップは何ですか?
sql-server - レコメンデーションシステムの実験
私は「集合知プログラミング」という本を読んでいて、学んだことをノースウィンドデータベースに適用しようとしています。提示されたアルゴリズムについての理解にはまだ自信がありませんが、一般的な概念については理解し始めています。
Northwindデータベースを使用して、次の疑似ロジックを使用して「これを購入した顧客もXYZを購入した」リストを表示しようとしています。
- 私の商品を購入した他の顧客を探す
- それらの顧客が購入した他のすべてのアイテムを検索する
- 購入数に基づいてアイテムをランク付けする
- 前のステップから上位N個のアイテムを返す
私は以下のクエリを使用しています:
次のステップは、クエリを分割して、(過去のすべての購入ではなく)最近の購入に基づいてフィルタリングし、製品を購入したすべての顧客ではなく、N人の顧客に一致する顧客を制限できるようにすることだと思います。誰かがポインタを提供できますか?私は正しい方向に向かっていますか?まったく別の方向に進むべきですか?
現時点では、アルゴリズムを最大限に活用する経験がまだないことを知っているので、私の目標は精度よりもパフォーマンスです。私は単にその概念を適用しようとしているだけです。十分に理解できたら、より現実的な顧客データを使用して、このクエリをより大きなデータベースに対してテストする予定です。
java - Lucene でトークナイザーを記述する正しい方法
集合知の目的で Drupal データベースのコンテンツを分析しようとしています。
これまでのところ、さまざまなコンテンツ (主にフォーラムの投稿) をトークン化し、ストップ ワードを削除した後にトークンをカウントする簡単な例を作成することができました。
Lucene で提供される は、StandardTokenizer
ホスト名と電子メールをトークン化できるはずですが、コンテンツに HTML を埋め込むこともできます。
これは、次のようにトークン化されます。
私がしたいのは、リンクをまとめて、役に立たないhtml タグ (<pre>
や など) を削除することです。<strong>
Filter または別の Tokenizer を作成する必要がありますか? トークナイザーは標準のものを置き換える必要がありますか、それともそれらを混ぜ合わせることはできますか? 最も難しい方法はStandardTokenizerImpl
、それを新しいファイルにコピーしてからカスタム動作を追加することですが、今のところ Lucene の実装に深く入り込みたくありません (徐々に学習します)。
すでに同様のものが実装されている可能性がありますが、私はそれを見つけることができませんでした。
編集:
見てみるとStandardTokenizerImpl
、実際の実装を変更して拡張する必要がある場合、lexやflexを使用して自分で行うよりも便利ではないと思います..