15

最初は英語が完璧ではないことをお詫びします...私はドイツ出身です;)

ですから、私の研究プロジェクト(学位論文)では、特定の企業やブランドに関するツイートの感情を分析する必要があります。この目的のために、私は自分のプログラムをスクリプト化するか、ある種の変更されたオープンソースコードを使用する必要があります(APIはありません-何が起こっているのかを理解する必要があります)。

以下に、私が見つけたNLPアプリケーションのいくつかのリストを示します。私の質問は、どれとどのアプローチをお勧めしますか?そして、コードを調整するために長い夜を必要としないのはどれですか?

例:音楽プレーヤー> iPod <のツイッターを上映し、誰かが「今日はひどい日ですが、少なくとも私のiPodは私を幸せにします」またはさらに難しいと書いたとき:「それはひどい日ですが、少なくとも私のiPodはそれを補います「」

天気ではなくiPodに焦点が当てられていることを理解するのに十分賢いソフトウェアはどれですか?

また、どのソフトウェアがスケーラブルでリソース効率が良いか(いくつかのツイートを分析したいが、何千ドルも費やしたくない)?

機械学習とデータマイニング

Weka-データマイニング用の機械学習アルゴリズムのコレクションです。これは、最も人気のあるテキスト分類フレームワークの1つです。これには、ナイーブベイズやサポートベクターマシン(SVM、SMOの下にリストされている)を含むさまざまなアルゴリズムの実装が含まれています[注:その他の一般的に使用される非Java SVM実装は、SVM-Light、LibSVM、およびSVMTorchです]。関連するプロジェクトは、テキストドキュメントからキーフレーズを抽出するためのアルゴリズムであるKea(キーフレーズ抽出アルゴリズム)です。

Apache LuceneMahout-Hadoopmap -reduceフレームワークの上に一般的な機械学習アルゴリズムの高度にスケーラブルな分散実装を作成するインキュベータープロジェクト。

NLPツール

LingPipe-(技術的には'オープンソースではありません。以下を参照してください)Alias-IのLingpipeは、エンティティ抽出、音声タグ付け(pos)、クラスタリング、分類などを含むテキストの言語処理のためのJavaツールのスイートです。業界で最も成熟し、広く使用されているオープンソースのNLPツールキット。速度、安定性、拡張性で知られています。その最高の機能の1つは、使い始めるのに役立つ、よく書かれたチュートリアルの豊富なコレクションです。彼らは、学術的および産業的ツールの両方の競争へのリンクのリストを持っています。必ず彼らのブログをチェックしてください。LingPipeは、ソースコードを含むロイヤリティフリーの商用ライセンスの下でリリースされていますが、技術的には「オープンソース」ではありません。

OpenNLP -Maxent機械学習パッケージを使用して、文の検出、トークン化、音声の一部のタグ付け、チャンク化と解析、固有表現抽出、および共参照分析を実行するさまざまなJavaベースのNLPツールをホストします。

スタンフォードパーサーと品詞(POS)タガー-スタンフォードNLPグループの文の解析と品詞のタグ付けのためのJavaパッケージ。確率的自然言語パーサー、高度に最適化されたPCFGと語彙化された依存関係パーサー、および語彙化されたPCFGパーサーの両方が実装されています。それは完全なGNUGPLライセンスを持っています。

OpenFST-重み付き有限状態オートマトンを操作するためのパッケージ。これらは、確率モデルを表すためによく使用されます。これらは、音声認識、OCRエラー訂正、機械翻訳、およびその他のさまざまなタスクのためにテキストをモデル化するために使用されます。このライブラリは、GoogleResearchとNYUの寄稿者によって開発されました。これは、高速でスケーラブルなC++ライブラリです。

NTLK-自然言語ツールキットは、分類、クラスタリング、音声のタグ付けと構文解析などを教育および調査するためのツールです。実験用のチュートリアルとデータセットのセットが含まれています。メルボルン大学のスティーブンバードによって書かれました。

Opinion Finder-主観分析を実行するシステムで、意見、感情、推測、その他の私的な状態がテキストに存在する場合を自動的に識別します。具体的には、OpinionFinderは主観的な文を識別し、主観のソース(ホルダー)や肯定的または否定的な感情を表すフレーズに含まれる単語など、これらの文の主観のさまざまな側面をマークすることを目的としています。

Tawlk/osae-ソーシャルテキストの感情分類用のPythonライブラリ。最終的な目標は、「正しく機能する」単純なライブラリを用意することです。参入障壁があり、完全に文書化されている必要があります。negwords.txtおよびposwords.txtで収集されたツイートでストップワードフィルタリングを使用して、最高の精度を達成しました。

GATE -GATEは15年以上前のものであり、人間の言語を含むあらゆる種類の計算タスクに積極的に使用されています。GATEは、あらゆる形状とサイズのテキスト分析に優れています。大企業から小規模の新興企業、数百万ユーロの研究コンソーシアムから学部プロジェクトまで、私たちのユーザーコミュニティは、このタイプのシステムの中で最大かつ最も多様であり、1つの大陸を除くすべての大陸に広がっています1。

textir-テキストと感情のマイニングのためのツールのスイート。これには、スパース多項ロジット回帰用の「mnlm」関数、簡潔な部分最小二乗ルーチン用の「pls」、および潜在トピックモデルでの効率的な推定と次元選択のための「topics」関数が含まれます。

NLPツールスイート-ここのJULIEラボは、セマンティック検索、情報抽出、およびテキストマイニングのアプリケーション目的のための包括的なNLPツールスイートを提供します。継続的に拡張されているツールスイートのほとんどは、機械学習手法に基づいているため、ドメインや言語に依存しません。

..。

補足:Twitterストリーミングとget APIのどちらをお勧めしますか?

私に関しては、私はpythonとjavaのファンです;​​)

どうもありがとうございました!!!

4

1 に答える 1

4

どれだけ支援できるかはわかりませんが、以前は手巻きのNLPを使用していました。いくつかの問題が思い浮かびます-すべての製品が言語に依存しない(つまり、コンピューター言語ではない人間の言語)わけではありません。ドイツ語のツイートの分析を計画している場合は、選択した製品がドイツ語を処理できることが重要になります。明らかですが、忘れがちです。次に、短縮形や頭字語がたくさんあるのはTwitterであり、言語構造は文字数制限によって制約されているため、文法が言語の期待される構造と常に一致するとは限りません。

英語では、独自のコードを作成する必要がある場合は、文から名詞を引き出すことをいくらか簡略化できます。適切な名詞には頭文字があり、そのような単語の文字列(「of」を含む可能性があります)は名詞句の例です。「a/an / my / his / hers / the / this / these/those」の前にある単語は形容詞または名詞になります。その後は残念ながら難しくなります。

複数形を識別するのに役立つルールがありますが、例外もたくさんあります。もちろん、ここでは英語について話しています。私の非常に貧弱なドイツ語は、私が恐れている文法を理解するのに役立ちません。

于 2012-09-07T02:29:39.453 に答える