問題タブ [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
opennlp - OpenNLP NameFinder トレーニング、「予期しない注釈が見つかりました」
NameFinderME のトレーニング中に、次のエラー メッセージが表示されます。
私のデータは次のようになります。
<START someTag> some text <END>
Computing event counts... java.io.IOException: Found unexpected annotation:
Google がこのエラー メッセージについて私を見つけた他のすべてにおいて、それは常にトレーニング データの間隔の単純なエラーです (たとえば、に変更<START:entity>some text<END>
し <START:entity> some text <END>
ます。トレーニングを行うためにオブジェクトをセットアップしたときに、そのように指定しました.何が間違っている可能性がありますか?
ありがとうございました、
セイウチザキャット
c# - 大きな文字列の部分文字列をキーワードの巨大なリストに一致させる最良の方法は何ですか?
平均 2000 語 (それぞれ) のテキストを含む何百万ものレコードがあり、約 100000 項目の別のリストがあるとします。
例: キーワード リストに「オバマ大統領」のような項目があり、テキスト レコードの 1 つに「..... オバマ大統領....」のような項目があるので、このキーワードを検索したい「..... {オバマ大統領} ....」のように置き換えて、テキスト内のキーワードを強調表示すると、キーワード リストには例のような複数名詞の単語が含まれます。
何百万ものテキスト レコードを含む膨大なリストで、これを行う最速の方法は何ですか?
ノート:
今、私はこの作業を貪欲に行い、単語ごとにチェックして一致させますが、テキスト レコードごとに約 2 秒かかり、0 時間に近い何かが必要です。
また、これは名前付き実体認識のようなものであり、Gate や ... などの多くの NER フレームワークを使用していることも知っていますが、フレームワークでサポートされていない言語でこれが必要なため、手動でこれを行います.
java - ノイズの多い Web テキストを処理するために StanfordCoreNLP を適応させますか?
私は StanfordCoreNLP NER とすべてを Web サイトで手動で試してきましたが、たとえば、エンティティを検出するために非常に具体的/適切な英語の手がかりに依存しているようです。ただし、Web テキストを扱う場合は、次のようなテキストを使用できます。
ジョン・ドウ
コンピューター サイエンスの助教
スタンフォード大学
StanfordNLP には問題があるようです (前置詞/句読点がないため、全体を 1 つの組織としてラベル付けしています)。NER がこの種のテキストをより適切に処理できるようにするためにできることはありますか (たとえば、テキストの前処理をプログラムするなど)?
python - 名前付きエンティティの認識: トレーニング セットにタグを付けてアルゴリズムを選択する方法は?
会社名を含むテキストの場合、請負業者 (タスクを実行する会社) とプリンシパル (請負業者を雇用する会社) を自動的にタグ付けするモデルをトレーニングしたいと考えています。
例文は次のようになります。
Blossom Inc. は、Big Think のコンサルタントを雇って、アウトソーシング戦略を開発しました。
Blossom Incがプリンシパル、Big Thinkが請負業者です。
私の最初の質問:トレーニング セットのプリンシパルと請負業者のみにタグを付けるだけで十分ですか? それとも、POS タグを追加で使用する方がよいでしょうか?
つまり、どちらか
Blossom/PRINCIPAL Inc./PRINCIPAL 採用/NN the/NN コンサルタント/NN of/NN Big/CONTRACTOR Think/CONTRACTOR to/NN development/NN an/NN outsourcing/NN strategy/NN ./.
また
Blossom/PRINCIPAL Inc./PRINCIPAL 採用/VBZ the/DT コンサルタント/NNS of/IN Big/CONTRACTOR Think/CONTRACTOR to/TO development/VB an/DT outsourcing/NN 戦略/NN ./.
2 番目の質問:トレーニング セットを取得したら、nltk-package のどのアルゴリズムが最も有望ですか? N-Gram Tagger、Brill Tagger、TnT Tagger、Maxent Classifier、Naive Bayes、...? それとも、ここで完全に間違った方向に進んでいますか?
私は NLP を初めて使用するので、トレーニング セットのタグ付けに多くの時間を費やす前にアドバイスを求めたいと思いました。そして、私のテキストはドイツ語で書かれているため、いくつかの問題が発生する可能性があります...アドバイスをありがとう!
stanford-nlp - エンティティ認識によるスタンフォード NLP 感情分析
私は感情分析の分野に不慣れで、あなたの助けが必要です. Stanford Core NLP で行う必要があるのは、未加工のテキストを提供し、2 種類の結果を取得することです。
テキスト全体の総感情 (ポジティブ、ニュートラル、ネガティブなど)
エンティティ ベースの感情 (すべてのエンティティとその感情を含むリストを返す関数を呼び出すか、必要なエンティティを引数として提供する関数を呼び出して、このエンティティに関連する感情を返します)。
ruby - Rails アプリの java.lang.NoClassDefFoundError CRFClassifier
文字列からエンティティを抽出するために、文字列に対して CRFClassifier を実行しようとしています。ここからスタンフォード NLP エンティティ認識エンジンの Ruby バインディングを使用しています: https://github.com/tiendung/ruby-nlp
独自のクラス (nlp.rb) で完全に正常に動作します。実行すると正常に動作ruby nlp.rb
します。ただし、Rails アプリのコントローラーの 1 つにこのクラスのオブジェクトを作成しようとすると、何らかの理由で次のエラーが発生します。
java.lang.NoClassDefFoundError: edu/stanford/nlp/ie/crf/CRFClassifier
これは、単独では問題なく動作しますが、コントローラー内では動作しないコードです。
どちらの場合もまったく同じコードです。ここで何が起こっているのか、誰にもわかりません!?
前もって感謝します!
nlp - カスタム NER および POS タグ付け
NER と POS のタグ付けを理解するために、Stanford CoreNLP を調べていました。しかし、エンティティのカスタム タグを作成したい場合はどうすればよい<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>
ですか? この場合、CoreNLP は役に立ちますか?