4

何ギガバイトもの Facebook / Twitter / RSS データがあります。

私はそれを使用して、一般化された母集団に対して非常に一般的な方法で、誰かが服用している薬、治療、および最終結果を通じて何かと診断されたタイプからの副甲状腺機能亢進症の進化を追跡しています.

私は NLTK は初めてで、Python / SQL の経験は豊富です。

私のデータはすべてparathyroidそこにあります。ただし、以下に示すように(サンプル twitter データ)、言語的には恐ろしいものです。

omg i think my parathyroid is screwed up!!!
Have been stuck at parathyroid hormone. STOP GETTING ON TWITTER JASMINE.
Cryopreservation of Parathyroid Tissue after Parathyroid Surgery for Renal Hyperparathyroidism
The Parathyroid as a Target for Radiation Damage
it's for the parathyroid hormone la

このデータはすべてデータベースに保存されます。ポスター、投稿 ID、投稿テキストなどのフィールドもあります。

誰かが私を次の正しい方向に向けることができるかどうか疑問に思っていました:

  1. 必要なことを実行するのに役立つ効果的なアルゴリズムが既に用意されていますか?
  2. 言語学的には、データの相関関係をどのように見つけることができますか? パターンを追跡しようとしています。
  3. 分析に役立つように、データを入れる必要がある「グリッド」形式はありますか?
4

0 に答える 0