問題タブ [spacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - spaCy の品詞と依存タグは何を意味しますか?
spaCy は、Token
の各Document
を品詞 (2 つの異なる形式で、1 つは のpos
およびpos_
プロパティに格納され、もう 1 つはおよびプロパティにToken
格納されます) およびそのトークンへの構文上の依存関係 (およびプロパティに格納されます) でタグ付けします。 )。tag
tag_
.head
dep
dep_
これらのタグのいくつかは、私のような言語学のバックグラウンドを持たない人にとっても、一目瞭然です。
その他...ではない:
さらに悪いことに、公式ドキュメントには、これらのプロパティのほとんどに使用できるタグのリストも、それらの意味も含まれていません。彼らは、使用するトークン化標準について言及することもありますが、これらの主張は現在完全に正確ではなく、その上、標準を追跡するのは難しい.
tag_
、pos_
、およびdep_
プロパティの可能な値は何ですか? また、それらの意味は何ですか?
spacy - 依存関係の順序を維持するにはどうすればよいですか?
ディレクトリ内のファイルを開き、spaCy NLP を実行し、依存関係解析情報を新しいディレクトリ内のファイルに出力する次のコードがあります。
問題は、これが出力ファイルの依存関係の順序を保持しないことです。API ドキュメントで文字位置への参照が見つからないようです。
python - NLP - Python での情報抽出 (spaCy)
次の段落構造からこのタイプの情報を抽出しようとしています。
spaCy
NLP ライブラリとしてPython を使用しています。私は NLP の仕事を始めたばかりで、そのような文からこの表形式の情報を抽出する最良の方法について、何らかのガイダンスを期待しています。
走っている人や歩いている人がいるかどうかを識別するだけの問題であればsklearn
、分類モデルに適合させるために使用しますが、抽出する必要がある情報は明らかにそれよりも詳細です (サブカテゴリと値を取得しようとしています)各)。ガイダンスをいただければ幸いです。
python - Spacy の新しい名前付きエンティティ クラス
名前付きエンティティ認識のために 2 つの新しいクラスを認識できるように Spacy NER をトレーニングする必要があります。私が持っているのは、新しいクラスにあるはずのアイテムのリストを含むファイルだけです。
例: ローリング ストーンズ、ミューズ、アークティック モンキーズ - アーティスト
python - カスタム パイプラインを使用した Spacy.io マルチスレッド
言語処理用のカスタム パイプラインで Spacy.io を使用しようとしていますが、パイプラインにカスタム関数を追加すると、プロセスが 1 つのスレッドでしか実行されないようです。デフォルトのパイプライン プロセスでは、指定されたすべてのスレッドが使用されます。
これは私がパイプラインを定義した方法です:
これはcustom_pipeline
機能です:
これは私がパイプラインを実行する方法です:
カスタム パイプライン関数が spacy でマルチスレッドをサポートするための要件はありますか?
python - Spacy NLP - 正規表現によるチャンキング
Spacy には、noun_chunks
名詞句のセットを取得する機能が含まれています。関数english_noun_chunks
(以下に添付)は使用しますword.pos == NOUN
正規表現を維持する文からチャンクを取得したいと思います。たとえば、0 個以上の形容詞の後に 1 個以上の名詞が続く I 句。
english_noun_chunks
関数をオーバーライドせずに可能ですか?