パフォーマンスやその他の問題をビッグデータで解決する方法を人々が説明しているサイトやブログを探しています。スケーラブルな Web アプリケーションやサイト (Twitter、Facebook など) に関するリソースをいくつか知っています。大丈夫ですが、主にデータマイニング用の具体的なアルゴリズムを探しています。
1 に答える
実際、ビッグデータで行われる多くのことは、「データマイニング」とは言えません。せいぜい、以前に学習したルールを適用してビッグデータを統一し、主に消費者の関心を予測して広告を配信します。しかし、それは主に「スポーツに興味がある」タイプの決定に要約されます。スポーツに興味のない人にスポーツ広告を配信する費用はほとんどかからないため、ここでは非常に大きなエラー率が許容されます。Web には、Google が人々を間違った消費者セグメントに分類したという話があふれています。多くの場合、性別を誤って予測することさえあります。
「ビッグデータ」を目にするときはいつでも、大雑把に考えてください。それは主に自慢と流行語のビンゴです。ビッグデータの課題は、(まだ) 正しく処理することではなく、実際に処理することにあります。
良い例は次の記事です: http://www.technologyreview.com/web/39487/
Yahoo は、(Twitter の「ビッグデータ」を使用し、出口調査などよりもはるかに優れていると主張するこの記事を推し進めました。自慢自慢自慢です)、「ロムニーがサウスカロライナに勝つ可能性は 90% ある」と予測しました。実際には、ロムニーは 28% で、ギングリッチは 40% でした。
または、「感情分析」タイプのツールを試してみてください。彼らは、「子犬」を含むツイッター投稿は肯定的であり、「ゴキブリ」を含む投稿は否定的であると言います. そしてそれは、最近の「感情分析」で得られる品質についてです。繰り返しになりますが、彼らはデータから何かを得ることだけに集中していて、結果を実際に分析 (または検証)する段階にはまだ達していません。ごめん。私は、これほど批判的であるためにいくつかのマイナス票を獲得するに違いありませんが、これは毎日起こっていることです. ヤフーの例を参照してください。彼らはどうやら「ビッグデータ」を処理することができたようですが、彼らの結果は確かにプライムタイムの準備ができていません.彼らはまだそれに取り組む必要があります.
また、広告のターゲティングなどの状況によっては、エラー率が非常に高くなることがあります。ランダムよりも良いものは、まあ、ランダムよりも良いです! これは、ランダムな広告を配信する場合よりも多くのお金を意味します. 価値がないわけではありません。ビッグデータ以外のアプローチとは比較にならないかもしれません。