問題タブ [named-entity-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
stanford-nlp - Stanford Named Entity Tagger - 矛盾?
奇妙な問題があります。
スタンフォードの名前付きエンティティ認識 (ner) タグ付けを使用してタグ付けしたい文 (約 10 万件) のリストがあります。stanford ner デモ Web サイト (Java Demo Code) から提供されている次のコード行を使用してタグ付けしていました。
タグ付けされているはずの、まったくタグ付けされていないいくつかの文を手動でチェックするまで、すべてがうまくいっていると思っていました。しかし、タグ付けされていないこれらの文がいくつかのサンプル リストに厳選され、上記のコードでテストされると、タグ付けされます。だから私はどこが間違っているのか混乱しています。正しくタグ付けされていない文章は 1000 文から 1500 文の範囲のようです。したがって、これらの誤ってタグ付けされた文を別のリストで実行すると、タグ付けされます。データセットのサイズ (10 万) は分類器に影響を与えていますか?
例: 次の文を考えてみましょう - "IBM Corporation Introduction" 上記のような文は、私の 10 万のデータセットにかなりの数存在します。したがって、10 万のデータセットに対して上記のコードを使用してタグ付けを行うと、これらのような文の多くにはタグ付けがまったくありません。しかし、それらを手で選んでリストに入れ、タグ付けを行うと、タグ付けされます。
私はすべてのアプローチを試しましたが、データセット全体にタグを付けると、上記のような文にタグが付けられないという同じ結果になります。
次の3つの異なる方法を試しました1.classifier.classifyToString(inputString、 "slashTags"、false)2.classifier.classify(inputString)3.classifier.classifyToCharacterOffsets(inputString)
私が間違っているアイデアや提案はありますか?
ありがとう
nlp - 名前の抽出 - 履歴書/履歴書 - スタンフォード NER/OpenNLP
私は現在、履歴書/履歴書から個人の名前を抽出する学習プロジェクトに取り組んでいます。
現在、私は Stanford-NER と OpenNLP を使用しており、どちらもすぐに使用できる程度の成功を収めており、「非西洋」タイプの名前で苦労する傾向があります (誰に対しても攻撃を意図していません)。
私の質問は、履歴書/履歴書の個人の名前に関連する文の構造や文脈が一般的に欠如していることを考えると、履歴書コーパスに似たものを作成することで、名前の識別に大きな改善が得られる可能性がありますか?
私の最初の考えでは、文を分割し、明らかなテキストを削除し、少しの論理を適用して個人の名前を推測することで、おそらくもっと成功するだろうということです.
名前が構造化された文の中にある場合、トレーニングがどのように機能するかはわかりますが、コンテキストのないスタンドアロンのエンティティ (たとえば、Akbar Agho) としては、トレーニングに関係なく苦労すると思います。
十分なデータが与えられた場合に名前を見つけるためのパターンを定式化し始める AI のレベルはありますか、それともロジックベースの文字列抽出のレベルを適用するだけでよいのでしょうか?
人々の考え、意見、提案を歓迎します。
補足: 私は Appache Tika で PHP を使用して Doc/Pdf からの最初のテキスト抽出を行っており、PHP/Commandline を介してスタンフォードと OpenNLP を試しています。
クリス
continuous-deployment - 小さなデータセット (コーパス) による固有表現認識
ペルシャ語で名前付きエンティティ認識システムを開発したいのですが、トレーニングとテスト用の小さな NER タグ付きコーパスがあります。将来的には、より優れた、より大きなコーパスが得られるかもしれません。ちなみに、新しいデータを古いデータとマージしてゼロからトレーニングすることなく、新しいデータが追加されるたびに、パフォーマンスが徐々に向上するソリューションが必要です。解決策はありますか?
entity - ウィキペディア API を使用してエンティティを展開する方法は?
私は自分の論文に取り組んでいますが、適切にアプローチするのが難しいとは思わない問題に遭遇しました。
私はつぶやきをクラスタリングしており、そこに含まれる情報が少ないため、Wikipedia にアクセスしてこれらに関する情報を考慮に入れることで、テキスト内で見つけたエンティティを拡張したいと考えています。
Wikipedia APIを見始めると、私の問題が発生します。非常に多くのプロパティと非常に多くの構成の可能性があるため、記事から関連情報を抽出してエンティティを相互に関連付ける方法がわかりません。
見るだけじゃなくて難しすぎると言ってここに聞きに来ました。私はいろいろ試してみましたが、少なくとも API に尋ねるべきことは小道具であり、リストやメタ情報ではないことはわかっています。
たとえば、Pau Gasol に関するクエリのアクションとしてprop=linkshereを試しました。ドキュメントによると: Find all pages that link to the given pages but I get and when I go to Kareem Abdul-Jabar page(same pageid) どちらでもないポーへの言及も、ポーのカリームへの言及も見つかりません
ウィキペディアでエンティティを展開するための最適なクエリは何ですか?
stanford-nlp - テキストからの新しいエンティティの発見
テキストからの新しいエンティティの発見に取り組んでいますが、スタンフォード nlp をこの目的に使用できるかどうか疑問に思っていましたか? 実際に私が知っていることは、スタンフォードはエンティティを認識するために訓練された分類子を必要とするということですが、私が間違っていなければ、たとえばモデルに「スタンフォードは良い大学です」が含まれていて、スタンフォードがすでに既知のエンティティである場合にのみ、既知のエンティティのみを検出します。 「fooは良い大学です」と試してみてください。新しいエンティティとして認識されません
php - Stanford NER は localhost で準備ができています。ライブ サーバーにプッシュするにはどうすればよいですか?
私はJavaにかなり慣れていません。以下に示すように、phpを使用してNERスクリプトを作成しました。
しかし問題は、パッケージをライブサーバーにプッシュしたいということです。NER は Java で、私のスクリプトは php です。
stanford-ner.jar を Java ホスティングにプッシュし、残りのスクリプトを Apache ホスティングにプッシュしてから、上記の $pos を次のように変更しました。
うまくいきません。助けてください
python - エンティティに対する NLTK 感情
私は NLTK を使い始めたばかりで、達成する必要があるタスクは非常に単純だと思います。いくつかのドキュメントを解析し、いくつかのエンティティに対する感情を抽出する必要があります。たとえば、次の文の全体的な感情:
は否定的ですが、定義済みの単一のエンティティに対する感情を抽出したいと思います。特に、前の例では、エンティティを NLTK にフィードし、個別('tea', 'coffee')
に抽出できるようにしたいと考えています。このドキュメントを読みましたが、この単純なタスクを達成する方法が見つかりませんでした。sentiment('tea')
sentiment('coffee')
nlp - スタンフォード CoreNLP Named Entity Recognition は、5 インチ、5 インチ、5 インチ、5 インチなどの測定値をどのように取得できますか
Stanford CoreNLPを使用して測定値を取得しようとしています。(別のエクストラクターを提案できる場合は、それも問題ありません。)
たとえば、15kg、15 kg、15.0 kg、15 kg、15 lbs、15 lbsなどを見つけたいのですが、CoreNLPs 抽出ルールの中で、測定用のものは見当たりません。
もちろん、純粋な正規表現でこれを行うこともできますが、ツールキットはより高速に実行でき、より高いレベルでチャンクする機会を提供します。たとえば、gbとギガバイトを一緒に扱い、RAMとメモリをビルディング ブロックとして扱います。構文解析 - 128 GB RAMや8 GB メモリなどのより大きなユニットを構築するため。
これには機械学習ベースではなく、ルールベースのエクストラクタが必要ですが、RegexNerなどの一部としては見当たりません。どうすればいいですか?
IBM Named Entity Extractionはこれを行うことができます。正規表現は、テキストをそれぞれに渡すのではなく、効率的な方法で実行されます。また、正規表現は意味のあるエンティティを表現するためにバンドルされています。たとえば、すべての測定単位を 1 つの概念にまとめたものなどです。