ですから、この質問は少し素朴かもしれませんが、Stackoverflow のフレンドリーな人々に聞いても問題ないと思いました。
私の現在の会社では、しばらくの間 NLP にサードパーティの API を使用しています。基本的に文字列を URL エンコードして送信すると、特定のエンティティが抽出され (探しているエンティティのリストがあります)、エンティティ : センチメントの json マッピングが返されます。最近、代わりにこのプロジェクトを社内に持ち込むことにしました。
私は過去 2 日間、NLTK、スタンフォード NLP、リングパイプを勉強してきましたが、基本的にこのプロジェクトを実行する車輪を再発明しているのかどうかわかりません。
元の非構造化テキストを含む大規模なテーブルと、そのテキストから抽出されたエンティティとその感情を含む別のテーブルが既にあります。エンティティは単一の単語です。例えば:
構造化されていないテキスト : ベッドに移動します。それは最高ではありませんでした。
実体 : ベッド
センチメント : ネガティブ
これは、エンティティと感情だけでなく、トレーニング データ (非構造化テキスト) があることを意味していると思います。では、NLP フレームワークの 1 つでこのトレーニング データを使用して、必要なものを得るにはどうすればよいでしょうか? 全く分からない。手順はある程度わかりましたが、よくわかりません:
- 文をトークン化する
- 単語をトークン化する
- 文中の名詞を探す (POS タグ付け)
- その文の感情を見つけます。
しかし、上記のケースでは、ベッドについて 2 つの異なる文で話しているので、それは失敗するはずですか?
質問 - 上記のタスクを達成するための最良のフレームワークと、それに関するチュートリアルを知っている人はいますか (注: 解決策を求めているわけではありません)。以前にこの作業を行ったことがある場合、このタスクは大きすぎて引き受けることができませんか? いくつかの商用 API を調べましたが、それらを使用するのはとてつもなく高価です (私たちは小さなスタートアップです)。
ありがとうスタックオーバーフロー!