“named-entity-recognition”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

604 参照

opennlp - OpenNLP NameFinder トレーニング、「予期しない注釈が見つかりました」

NameFinderME のトレーニング中に、次のエラーメッセージが表示されます。

私のデータは次のようになります。 <START someTag> some text <END>

Computing event counts... java.io.IOException: Found unexpected annotation:

Google がこのエラーメッセージについて私を見つけた他のすべてにおいて、それは常にトレーニングデータの間隔の単純なエラーです (たとえば、に変更<START:entity>some text<END>し <START:entity> some text <END>ます。トレーニングを行うためにオブジェクトをセットアップしたときに、そのように指定しました.何が間違っている可能性がありますか?

ありがとうございました、

セイウチザキャット

2013-11-20T00:15:04.587

0 投票する

2 に答える

261 参照

c# - 大きな文字列の部分文字列をキーワードの巨大なリストに一致させる最良の方法は何ですか?

平均 2000 語 (それぞれ) のテキストを含む何百万ものレコードがあり、約 100000 項目の別のリストがあるとします。

例: キーワードリストに「オバマ大統領」のような項目があり、テキストレコードの 1 つに「..... オバマ大統領....」のような項目があるので、このキーワードを検索したい「..... {オバマ大統領} ....」のように置き換えて、テキスト内のキーワードを強調表示すると、キーワードリストには例のような複数名詞の単語が含まれます。

何百万ものテキストレコードを含む膨大なリストで、これを行う最速の方法は何ですか?

ノート：

今、私はこの作業を貪欲に行い、単語ごとにチェックして一致させますが、テキストレコードごとに約 2 秒かかり、0 時間に近い何かが必要です。
また、これは名前付き実体認識のようなものであり、Gate や ... などの多くの NER フレームワークを使用していることも知っていますが、フレームワークでサポートされていない言語でこれが必要なため、手動でこれを行います.

c#regex lookup string-matching named-entity-recognition

2013-11-26T07:55:49.000

0 投票する

1 に答える

142 参照

java - ノイズの多い Web テキストを処理するために StanfordCoreNLP を適応させますか?

私は StanfordCoreNLP NER とすべてを Web サイトで手動で試してきましたが、たとえば、エンティティを検出するために非常に具体的/適切な英語の手がかりに依存しているようです。ただし、Web テキストを扱う場合は、次のようなテキストを使用できます。

ジョン・ドウ

コンピューターサイエンスの助教

スタンフォード大学

StanfordNLP には問題があるようです (前置詞/句読点がないため、全体を 1 つの組織としてラベル付けしています)。NER がこの種のテキストをより適切に処理できるようにするためにできることはありますか (たとえば、テキストの前処理をプログラムするなど)?

java nlp stanford-nlp named-entity-recognition named-entity-extraction

2013-12-06T02:43:03.317

0 投票する

3 に答える

2734 参照

python - 名前付きエンティティの認識: トレーニングセットにタグを付けてアルゴリズムを選択する方法は?

会社名を含むテキストの場合、請負業者 (タスクを実行する会社) とプリンシパル (請負業者を雇用する会社) を自動的にタグ付けするモデルをトレーニングしたいと考えています。

例文は次のようになります。

Blossom Inc. は、Big Think のコンサルタントを雇って、アウトソーシング戦略を開発しました。

Blossom Incがプリンシパル、Big Thinkが請負業者です。

私の最初の質問:トレーニングセットのプリンシパルと請負業者のみにタグを付けるだけで十分ですか? それとも、POS タグを追加で使用する方がよいでしょうか?

つまり、どちらか

Blossom/PRINCIPAL Inc./PRINCIPAL 採用/NN the/NN コンサルタント/NN of/NN Big/CONTRACTOR Think/CONTRACTOR to/NN development/NN an/NN outsourcing/NN strategy/NN ./.

また

Blossom/PRINCIPAL Inc./PRINCIPAL 採用/VBZ the/DT コンサルタント/NNS of/IN Big/CONTRACTOR Think/CONTRACTOR to/TO development/VB an/DT outsourcing/NN 戦略/NN ./.

2 番目の質問:トレーニングセットを取得したら、nltk-package のどのアルゴリズムが最も有望ですか? N-Gram Tagger、Brill Tagger、TnT Tagger、Maxent Classifier、Naive Bayes、...? それとも、ここで完全に間違った方向に進んでいますか?

私は NLP を初めて使用するので、トレーニングセットのタグ付けに多くの時間を費やす前にアドバイスを求めたいと思いました。そして、私のテキストはドイツ語で書かれているため、いくつかの問題が発生する可能性があります...アドバイスをありがとう!

python nlp nltk named-entity-recognition pos-tagger

2014-01-07T11:59:09.497

0 投票する

1 に答える

904 参照

stanford-nlp - エンティティ認識によるスタンフォード NLP 感情分析

私は感情分析の分野に不慣れで、あなたの助けが必要です. Stanford Core NLP で行う必要があるのは、未加工のテキストを提供し、2 種類の結果を取得することです。

テキスト全体の総感情 (ポジティブ、ニュートラル、ネガティブなど)
エンティティベースの感情 (すべてのエンティティとその感情を含むリストを返す関数を呼び出すか、必要なエンティティを引数として提供する関数を呼び出して、このエンティティに関連する感情を返します)。

stanford-nlp sentiment-analysis named-entity-recognition

2014-01-20T10:25:56.360

0 投票する

1 に答える

582 参照

ruby - Rails アプリの java.lang.NoClassDefFoundError CRFClassifier

文字列からエンティティを抽出するために、文字列に対して CRFClassifier を実行しようとしています。ここからスタンフォード NLP エンティティ認識エンジンの Ruby バインディングを使用しています: https://github.com/tiendung/ruby-nlp

独自のクラス (nlp.rb) で完全に正常に動作します。実行すると正常に動作ruby nlp.rbします。ただし、Rails アプリのコントローラーの 1 つにこのクラスのオブジェクトを作成しようとすると、何らかの理由で次のエラーが発生します。

java.lang.NoClassDefFoundError: edu/stanford/nlp/ie/crf/CRFClassifier

これは、単独では問題なく動作しますが、コントローラー内では動作しないコードです。

どちらの場合もまったく同じコードです。ここで何が起こっているのか、誰にもわかりません!?

前もって感謝します！

ruby nlp stanford-nlp named-entity-recognition

2014-01-24T21:29:21.220

0 投票する

2 に答える

2262 参照

nlp - カスタム NER および POS タグ付け

NER と POS のタグ付けを理解するために、Stanford CoreNLP を調べていました。しかし、エンティティのカスタムタグを作成したい場合はどうすればよい<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>ですか? この場合、CoreNLP は役に立ちますか?

nlp stanford-nlp named-entity-recognition pos-tagger

2014-01-26T00:03:02.503

問題タブ [named-entity-recognition]

Reference