3

reddit、digg、news.google.com などのサイトに関連する自然言語データは豊富にあると思います。

テキスト マイニングについて少し調べてみましたが、これらのツールを使用して reddit などを解析する方法がわかりません。

どのようなアプリケーションを思い付くことができますか?

4

3 に答える 3

3

RedditやDiggのようなサイトでデータをマイニングする最良の方法は、最初にそれらが提供する開発者APIを使用することであることが過去にわかりました。通常、トピックまたはトレンドのいずれかに焦点を当てており、そのデータを取得する唯一の方法は、確立されたパブリックインターフェイスを使用することです。フィードを解析し、両方を組み合わせて、知りたいことの90%を明らかにすることもできます。APIを介して利用できないデータについて詳細な調査を行う場合は、cURLなどのツールのカスタムラッパーを作成するためにかなりの時間を費やす準備をしておく必要があります。予算がある場合は、彼らに電話して、ユーザーに関する有料の調査データを提供しているかどうかを尋ねることもできます。

于 2008-10-23T00:56:35.010 に答える
1

私はRSSから始め、その後はNutchを使用するかもしれません。データを実際にどうするかは、あなたの要求です。

于 2008-10-23T00:55:32.653 に答える
0

これらは良いアイデアです。データを取得できますが、そのデータを基に構築できるアプリケーションは何ですか?

于 2008-10-23T15:00:47.160 に答える