nlp - 自然言語/テキストマイニングと Reddit/ソーシャルニュースサイト

Question

reddit、digg、news.google.com などのサイトに関連する自然言語データは豊富にあると思います。

テキストマイニングについて少し調べてみましたが、これらのツールを使用して reddit などを解析する方法がわかりません。

どのようなアプリケーションを思い付くことができますか?

score 3 · Accepted Answer

RedditやDiggのようなサイトでデータをマイニングする最良の方法は、最初にそれらが提供する開発者APIを使用することであることが過去にわかりました。通常、トピックまたはトレンドのいずれかに焦点を当てており、そのデータを取得する唯一の方法は、確立されたパブリックインターフェイスを使用することです。フィードを解析し、両方を組み合わせて、知りたいことの90％を明らかにすることもできます。APIを介して利用できないデータについて詳細な調査を行う場合は、cURLなどのツールのカスタムラッパーを作成するためにかなりの時間を費やす準備をしておく必要があります。予算がある場合は、彼らに電話して、ユーザーに関する有料の調査データを提供しているかどうかを尋ねることもできます。

score 1 · Accepted Answer

私はRSSから始め、その後はNutchを使用するかもしれません。データを実際にどうするかは、あなたの要求です。

score 0 · Accepted Answer

これらは良いアイデアです。データを取得できますが、そのデータを基に構築できるアプリケーションは何ですか?

nlp - 自然言語/テキスト マイニングと Reddit/ソーシャル ニュース サイト

3 に答える 3

Related

Reference

nlp - 自然言語/テキストマイニングと Reddit/ソーシャルニュースサイト