問題タブ [lingpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 名前と場所を抽出するためにLingPipeまたはNLTKを使用する必要がありますか?
テキストの例の非常に短いバーストから名前と場所を抽出しようとしています
このデータは現在MySQLデータベースにあり、名前のつづりが間違っているなどの場合もありますが、私は(ほとんど)アスリートごとに個別のレコードを持っています。
選手と場所を抽出したいと思います。私は通常PHPで作業していますが、エンティティ抽出用のライブラリを見つけることができませんでした(将来、NLPとMLについてさらに深く知りたいと思うかもしれません)。
私が見つけたものから、LingPipeとNLTKが最も推奨されているようですが、どちらが本当に私の目的に合っているのか、それとも他の何かがより良いのかはわかりません。
私はJavaとPythonのどちらでもプログラミングしていないので、新しい言語を学び始める前に、どのルートをたどるべきか、またはその他の推奨事項についてアドバイスをもらいたいと思っています。
java - LingPipe を使用した単純ベイズによるデータの分類
特定のデータを、その内容に基づいてさまざまなクラスに分類したいと考えています。私は単純なベイズ分類器を使用してそれを行い、それが属する最良のカテゴリとして出力を取得します。しかし、ここで、トレーニング セット以外のニュースを「その他」のクラスに分類したいと考えています。トレーニング データ以外の各データを特定のクラスに手動で追加することはできません。これは、他にも膨大な数のカテゴリがあるためです。他のデータを分類する方法はありますか?
lucene - DBPedia-Spotlight での lucene インデックス ファイルの用途は何ですか?
特定のテキストで名前付きエンティティを見つけようとしています。そのために、DBPedia スポットライト サービスを使用してみました。
私はそれから応答を得ることができます。ただし、DBPedia のデータセットは限られているため、spotter.dict ファイルを独自の辞書に置き換えてみました。私の辞書には、行ごとにエンティティが含まれています。
サチン・テンドルカール###PERSON
バラク・オバマ ###PERSON
....など
次に、このファイルを解析してオブジェクトを構築し
ExactDictionaryChunker
ます。これで、エンティティとそのタイプを取得できるようになりました (dbpedia コードの変更後)。
私の質問: DBPedia スポットライトは Lucene インデックス ファイルを使用しています。彼らがこれらのファイルをどのような目的で使用しているのか本当にわかりませんか?
インデックスファイルを使わずにできますか? インデックス ファイルの重要性は何ですか?
java - Lingpipe のベルヌーイ分類器を使用した分類
リングパイプのベルヌーイ分類器を使用してデータを分類したい誰かがその作業方法を持っている場合は、共有してください
nlp - NLP を使用したエンティティ認識と感情分析
ですから、この質問は少し素朴かもしれませんが、Stackoverflow のフレンドリーな人々に聞いても問題ないと思いました。
私の現在の会社では、しばらくの間 NLP にサードパーティの API を使用しています。基本的に文字列を URL エンコードして送信すると、特定のエンティティが抽出され (探しているエンティティのリストがあります)、エンティティ : センチメントの json マッピングが返されます。最近、代わりにこのプロジェクトを社内に持ち込むことにしました。
私は過去 2 日間、NLTK、スタンフォード NLP、リングパイプを勉強してきましたが、基本的にこのプロジェクトを実行する車輪を再発明しているのかどうかわかりません。
元の非構造化テキストを含む大規模なテーブルと、そのテキストから抽出されたエンティティとその感情を含む別のテーブルが既にあります。エンティティは単一の単語です。例えば:
構造化されていないテキスト : ベッドに移動します。それは最高ではありませんでした。
実体 : ベッド
センチメント : ネガティブ
これは、エンティティと感情だけでなく、トレーニング データ (非構造化テキスト) があることを意味していると思います。では、NLP フレームワークの 1 つでこのトレーニング データを使用して、必要なものを得るにはどうすればよいでしょうか? 全く分からない。手順はある程度わかりましたが、よくわかりません:
- 文をトークン化する
- 単語をトークン化する
- 文中の名詞を探す (POS タグ付け)
- その文の感情を見つけます。
しかし、上記のケースでは、ベッドについて 2 つの異なる文で話しているので、それは失敗するはずですか?
質問 - 上記のタスクを達成するための最良のフレームワークと、それに関するチュートリアルを知っている人はいますか (注: 解決策を求めているわけではありません)。以前にこの作業を行ったことがある場合、このタスクは大きすぎて引き受けることができませんか? いくつかの商用 API を調べましたが、それらを使用するのはとてつもなく高価です (私たちは小さなスタートアップです)。
ありがとうスタックオーバーフロー!
java - LingPipe ツールを使用してアラビア語の名前付きエンティティを抽出する方法
Lingpipe ツールを使用して、アラビア語のテキストからエンティティ認識 (個人名) を抽出しようとしています。このツールに関するチュートリアルを読みました http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
結果をファイルに保存する方法。ありがとう
java - リングパイプ分類器に機能を追加するには?
現在、データセットで DynamicLMClassifier をトレーニングし、テキストをカテゴリに分類しています。分類子が特定の単語をより重視するように機能を追加するにはどうすればよいですか。または、ngram ではなく段落に基づいて分類する方法は?
featureextractor があることに気付きましたが、それは引数を取っていないようです。
java - ナイバベイズを使用してmongodb内のデータを分類する
mongodb
Naive Bayes を使用して、データベース内のニュースを特定のカテゴリに分類したいと考えています。
私のトレーニング データには、スポーツ、芸術、エンターテイメントなどのさまざまな分野のニュースが含まれています。このデータをトレーニングしてモデルを構築し、その精度を確認するためにテスト データを適用する必要があります。問題は、データベース内でデータをトレーニングする必要があることです...そのためにlingpipeツールを使用しました...
今私が欲しいのは、mongodb
データベースに各カテゴリに基づいて異なるデータセットがあることです.データベース内でデータをトレーニングするにはどうすればよいですか.それは可能ですか?
nlp - 潜在的意味分析を使用してパッセージの類似性を測定する
現在、セマンティクス (意味) に基づいて 2 つのテキストを比較するプログラムを開発しています。文字列の距離を比較するための便利な方法を提供する lingpipe などのライブラリがあることは理解していますが、テキストの類似性を測定するには LSA が最適な方法であると聞いています。
LSA を使用してテキストの類似性を測定することに関して、1 つだけ混乱があります。そのプロセスは、LSA では、
ただ知りたいだけです...
A. SVD では、行列は 3 つの小さな行列に縮小されます。では、余弦距離の測定に使用される小さい行列はどれでしょうか?
B. 通常、余弦距離はベクトルに適用されます。したがって、それらを行列に適用する場合、行列が反復され、2つのベクトルごとにコサイン距離が測定されると仮定しました。そして、これらすべての距離の平均は、これら 2 つの行列間の最終的なコサイン距離であると見なされますか?
これは非常にニッチなトピックであることは理解していますが、この 2 つの質問に光を当てたいと思っています。ありがとう