問題タブ [named-entity-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Stanford NER - 複数単語エンティティの抽出
Stanford NER でコロケーションにタグを付けるにはどうすればよいですか? 現在、次のようにタグ付けFederal Reserve Bank of New York
され ています
として認めてもらいたい
これは可能ですか?
python - PythonでのNLTKの固有表現抽出。NEの特定
単語を品詞に分類する必要があります。動詞、名詞、副詞などのように。私は
これの出力は木です。例えば
このツリーの要素にアクセスするとき、私は次のようにアクセスしました。
ただし、名前付きエンティティにアクセスする場合:
上記のエラーが発生しました。
私が欲しいのは、前の「PRP」と同様の「NE」として出力を取得することです。そのため、どの単語が名前付きエンティティであるかを識別できません。PythonのNLTKでこれを行う方法はありますか?もしそうなら、コマンドを投稿してください。または、これを行うための関数がツリーライブラリにありますか?ノード値「NE」が必要です
nlp - 情報抽出。関連性を測定するための言及のカウント
エンティティが記事で言及された回数を数えることはできますか? 例えば
ABC Company
世界最大の自動車メーカーの1つです。It
また、年間生産量でも最大の企業です。It
XYZ社に次ぐ高級車の輸出国でもあります。両方ABC
と XYZ を合わせると、国内の総自動車生産の n% 以上を生産しています。
ABC社に4回言及。
java - OpenNLPは、名前付きエンティティの認識のために内部でWordNetを使用していますか
テキストから名前付きエンティティを取得するために、SourceForgeのOpenNLPTools1.5を使用してみました。OpenNLPダウンロードでJWNLファイルを見つけました。これは、OpenNLPが名前付きエンティティの認識にWordNetを使用していることを意味しますか?(具体的には、Name ModelファイルがWordNetで生成されたことを意味しますか?)
java - 非構造化テキストからオフラインで RDF を生成する
非構造化テキストから RDF を生成する Open Calais や Alchemy API などのサービスがあります。オフラインでそれを行うツールはありますか? 誰かがWebCATを試したことがありますか、または OpenCyc はそのようなユースケースに役立ちますか?
objective-c - C/C++/Obj-C の品詞タグ付けと固有表現認識
助けが要る!
私は、品詞のタグ付けを必要とし、理想的には名前付きエンティティ認識も必要とする目的の c でいくつかのコードを記述しようとしています。私は「自分で作る」ことにあまり興味がないので、この目的に使用できるまともなライブラリを探しています。明らかに正確であればあるほど良いのですが、ここでは重要なことを話しているわけではありません。一般的にかなり正確である限り、それで十分です。
少なくとも当分の間は英語のみになりますが、モデルのトレーニングを自分で行う必要はありません。したがって、どのようなソリューションであっても、英語モデルが既に構築されている必要があります。
そして最後に、商用に適したライセンス (BSD/Berkeley、LGPL など) で利用できる必要があります。GPL やそのような制限的なことはできませんが、それが唯一の選択肢である場合は、商用ライセンスに少額を支払うことにオープンです。
C、C++、または Obj-C コードはすべて問題ありません。
だから:ここでトリックを行う何かに精通している人はいますか?ありがとう!!
text - テキストマイニング - 非構造化テキストからバンド名を抽出
これは一種の一般的な自由回答形式の質問であることは承知しています。私は本質的に、前進する方法を決定するための助けと、おそらくいくつかの読み物を探しています.
私は構造化されていないテキスト マイニングを行うアルゴリズムに取り組んでおり、そのテキストから特定のもの (単一のアーティスト、バンドなど) の名前を抽出しようとしています。テキスト自体には予測可能な構造はありませんが、比較的小さいです (1、2 行のテキスト)。
いくつかの例は次のとおりです (実際のイベントではありません)。
今、分類器を試してみることを考えていますが、実際のトレーニング情報を提供するにはテキストが小さすぎるようです。おそらく、この種の問題に対して良い結果をもたらすテキスト マイニング手法、ヒューリスティック、またはアルゴリズムが他にもいくつかあるでしょう (または、おそらくどのアルゴリズムもそうではありません)。
search - 文字列内の辞書から単語を検索する
場所と名前の辞書に基づいて場所や名前などを検出するために、自由形式のテキストの文字列をどのように解析しますか?私の特定のアプリケーションでは、辞書にそれ以上のエントリがないにしても数万になるので、それらをすべて実行するだけでは問題外であると確信しています。x
また、辞書の単語の編集内にある部分文字列も検出できるように、「あいまい」一致を追加する方法はありますか?私が誤解しない限り、これは自然言語処理、より具体的には固有表現抽出(NER)の分野に該当します。しかし、NERの背後にあるアルゴリズムとプロセスに関する情報を見つけるための私の試みは空っぽになりました。私は他の解決策を検討することはできますが、Pythonを最もよく知っているので、これにはPythonを使用したいと思います。
java - 名前、数字、お金、日付などでテキストの単語を分類するにはどうすればよいですか?
1 週間前にテキスト マイニングについていくつか質問をしましたが、少し混乱していましたが、今はやりたいことがわかりました。
状況: HTML コンテンツを含むダウンロード ページが多数あります。その一部は、たとえばブログのテキストにすることができます。それらは構造化されておらず、異なるサイトからのものです。
私がやりたいこと:すべての単語を空白で分割し、名前、番号、電話、電子メール、URL、日付、お金、温度などの事前定義された項目でそれぞれまたは単語のグループを分類したい.
私が知っていること:自然言語処理、Named Entity Reconigzer、POSTagging、NayveBayesian、HMM、トレーニング、および分類を行うための多くのことなどについての概念を知っている/聞いたことがありますが、異なる分類子を備えたいくつかの異なる NLP ライブラリがあり、これを行う方法と、何を使用するのか、何をするのかわかりません。
必要なもの:テキスト全体ではなく、テキストから各単語を個別に分類できる、分類子、NLPなどからのコード例が必要です。このようなもの:
誰かが私を助けることができますか?さまざまな API、分類子、およびアルゴリズムと混同しています。