計算言語学コースでプロジェクトを行う必要があります。Hadoop map reduce を使用して取り組むのに十分なデータ集約型の興味深い「言語的」問題はありますか。ソリューションまたはアルゴリズムは、「言語」ドメインでいくつかの洞察を試みて分析し、提供する必要があります。ただし、hadoop を使用できるように、大規模なデータセットに適用できるはずです。Hadoop 用の Python 自然言語処理ツールキットがあることは知っています。
4 に答える
CL における計算集約型の問題の 1 つは、大規模なコーパスからセマンティクスを推論することです。基本的な考え方は、大量のテキストを収集し、その分布から単語 (同義語、反義語、下位語、上位語など) 間の意味関係を推測することです。
これには、多くのデータの前処理が含まれ、その後、MapReduce スタイルの並列化に適した、多くの最近傍検索と N x N 比較が含まれる可能性があります。
このチュートリアルを見てください:
http://wordspace.collocations.de/doku.php/course:acl2010:start
いくつかの「珍しい」言語 (「計算言語学が限られた量しか実行されていない言語」という意味で) の大規模なコーパスがある場合、非常に一般的な言語 (英語、中国語、アラビア語、...) は完全に適切なプロジェクトです (特にアカデミックな環境では、産業にも非常に適している可能性があります。IBM Research で計算言語学を研究していたとき、イタリア語で、[[ローマの比較的新しい IBM 科学センターで]] ヨークタウン ハイツの IBM 研究チームが [[私が参加していた]] すでに英語で行っていたことと非常によく似た作業を繰り返していました。
通常、そのようなコーパスを見つけて準備するのは大変な作業です (関連データを所有する出版社と連絡を取るために IBM Italy から心からの支援を受けたにもかかわらず、それは間違いなく当時の私の仕事の最大の部分でした)。
したがって、質問は大きく迫り、あなただけがそれに答えることができます: 特に「珍しい」言語で、どのコーパスにアクセスできるか、またはアクセスを取得 (およびクリーンアップなど) できるか? たとえば、すでに人気のあるコーパスを使用して英語だけができる場合、斬新で興味深い仕事をする可能性はもちろん難しくなりますが、もちろんあるかもしれません.
ところで、「書かれた」テキストの処理について厳密に考えていると思いますよね?話された資料のコーパス(理想的には優れた書き起こしを含む) があれば、機会は無限にあります (たとえば、同じ書かれたテキストで異なるネイティブ スピーカーによる発音のバリエーションをパラメータ化するなど、話されたテキストを処理する作業ははるかに少なくなります。そのような問題は、学部の CL コースでさえ言及されないことがよくあります!)。
BioMed Central が発行した 6 万件の OA 論文から 3 億語をダウンロードします。命題の態度と関連する感情の構造を発見してみてください。要点は、生物医学の文献が生け垣と関連する構造でぎっしり詰まっているということです。これは、生きている世界とその生き物、つまりその形態と機能、遺伝学と生化学についてフラットな宣言的なステートメントを作成することが難しいためです.
Hadoop についての私の考えでは、Hadoop は考慮すべきツールですが、目標を設定するという重要なタスクを完了した後に検討する必要があります。目標、戦略、およびデータによって、計算をどのように進めるかが決まります。研究への釘のアプローチを求めてハンマーに注意してください。
これは、私の研究室が懸命に取り組んでいることの一部です。
ボブ・フトレル
BioNLP.org
ノースイースタン大学
おっしゃるように、Hadoopを利用するためにdumboで使用できるNLTKと呼ばれるPythonツールキットがあります。
PyCon 2010は、まさにこのテーマについて良い話をしました。以下のリンクを使用して、トークからスライドにアクセスできます。