問題タブ [spacy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1570 参照

python - Spacy パーサーによって作成されたすべてのトークンの Spacy.Vocab.Morphology ID を取得します

以下のコードは、一文ごとにDocsを取得するサンプルコードです。

ドキュメントを入手する

すべての単語のプロパティを取得するために、ドキュメントを使用しています。サンプル コードは以下のとおりです。

トークンを取得する

スペイシー コードを深く掘り下げることで、すべての名詞に形態学が関連付けられていることがわかりました。

このスペイシーのソース コードから ID (辞書) の値を確認してください:ここをクリック

私の問題:

すべての名詞トークンの形態値を取得することはできません。どうすれば同じものを入手できますか..?

0 投票する
1 に答える
1261 参照

python - Spacy: 解析済みモデルを保存

私は、Python 自然言語処理ライブラリである Spacy を使用して、未加工のテキストをこのより複雑なオブジェクト指向形式、より具体的には依存関係ツリーに解析しています。

上記の操作の実行には時間がかかります。非常に高価なモデルをロードしてから、非常に大量のテキストを解析する必要があります。この最初の解析が完了した後、データの処理をより高速に繰り返すために、後続の実行で時間を節約したいと思います。

最初の実行後にこれらの結果を「保存」し、その後の実行でこれらの前処理されたバージョンをより速くリロードするにはどうすればよいですか?

PICKLE: pickle を使用しようとすると、Docs/Tokens クラスのシリアル化を解除するときに次のエラーが発生します。

ありがとう。

0 投票する
0 に答える
563 参照

python - Python の名詞チャンクを spacy.io と比較する方法

自然言語クエリを受け取り、それを SQL-Server の Microsoft MDX クエリに変換して Cube をクエリする Python アプリケーションを作成しようとしています。

私は spacy.io を使用していますが、名詞チャンクをデータソース/メジャー/フィルター/その他の名前と比較する最良の方法を見つけるのに苦労しています。

入力文例:

そこから、次の名詞のチャンクを抽出できます。

これらの名詞チャンクをテスト キューブの次の表示名と比較する最良の方法は何ですか?

問題は、名詞のチャンクの 1 つに「split」という単語が含まれていることです。キューブの表示名の 1 つにもその単語が含まれている場合、単に削除することはできません。

文字列間のレーベンシュタイン距離を計算するなど、いくつかのことを試してみることを考えましたが、結果は一致を宣言するのに十分信頼できるものではありません。

だから私の質問は、どうすればこれを解決し、より信頼性の高い一致を得ることができるでしょうか? 私は間違った木を吠えていますか?それとも、Spacy.io を最大限に活用していないのでしょうか?

レーベンシュタイン距離を取得する前に、名詞のチャンクを解析し、「split」などのキーワードや「the」などの不要な単語を削除することを考えましたが、削除する可能性のある単語のリストを提供することに不安を感じています。キーワードの 1 つを含む本物の表示名がいくつかあることを確認します。

0 投票する
2 に答える
21565 参照

python - 文中の主語とそれぞれの従属句を抽出する方法は?

件名に応じて感情を取得できるように、文の中で件名の抽出に取り組もうとしています。nltkこの目的のためにpython2.7で使用しています。次の文を例にとります。

Donald Trump is the worst president of USA, but Hillary is better than him

彼は私たちが見ることができるDonald TrumpHillaryは2つの主題であり、関連する感情Donald Trumpは否定的ですが、関連する感情Hillaryは肯定的です. これまで、この文を名詞句のチャンクに分割することができ、次の結果を得ることができました。

では、これらの名詞句から主語を見つけるにはどうすればよいでしょうか。それでは、両方の主題を意味するフレーズをグループ化するにはどうすればよいでしょうか? 両方の主題を個別に意味するフレーズを取得したら、両方の感情分析を個別に実行できます。

編集

@Krzysiek ( spacy) が言及したライブラリを調べたところ、文中に依存関係ツリーも表示されました。

コードは次のとおりです。

依存関係ツリーは次のとおりです。

これにより、文のさまざまなトークンの依存関係に関する詳細な洞察が得られます。これは、異なるペア間の依存関係を説明する論文へのリンクです。このツリーを使用して、さまざまな主題の文脈上の単語をそれらに添付するにはどうすればよいですか?

0 投票する
2 に答える
389 参照

python - 以前に保存した NER モデルを SpaCy v1.1.2 に読み込みます

そのため、以前に保存した SpaCy NER のモデルをロードしようとすると、コア ダンプが発生します。

ダンプ レポート:

私はそれを間違って実行/ロードしていますか?

0 投票する
1 に答える
1728 参照

nlp - spaCyでスタンフォードスタイルの解析木(「名詞句」と「動詞句」を含む)を取得するには?

spaCy は、POS のタグ付けと依存関係ツリーを提供します。そこからスタンフォードが「解析」ツリーと呼んでいるものを取得することは可能ですか? これら 2 つのツリーの違いは、スタンフォード パーサーのデモ ( http://nlp.stanford.edu:8080/parser/index.jsp ) で確認できます。

スタンフォードの「解析」ツリー:

依存関係ツリー: (spaCy およびスタンフォード パーサーが提供)

spaCyで解析ツリーを推測または直接取得することは可能ですか? ドキュメントを調べましたが、直接の API は見つかりませんでした。

0 投票する
1 に答える
3789 参照

python - AWS の Python "MemoryError"

以下のエラーが発生するスクリプトでスペイシーをロードしようとすると? メモリがいっぱいだからですか?または他の理由?