問題タブ [spacy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
vocabulary - spaCy でパーサーの語彙を削除できますか?
次のコードは、spaCy 単語ベクトルを使用して、最初に語彙内のすべての単語 (100 万を超える) のコサイン類似度を計算し、次にこの最も類似した単語のリストを並べ替えることによって、特定の単語に最も類似した 20 の単語を見つけます。
私が知りたいのは、spaCy の語彙を特定のリストに出現する単語のみに制限する方法があるかどうかです。これにより、並べ替え操作のコストが大幅に削減されることを願っています。
明確にするために、いくつかの単語、または特定のテキスト内の単語だけのリストを渡し、これらの単語のどれが spaCy のベクトル空間で互いに最も近いかをすばやく調べられるようにしたいと考えています。
この面での助けに感謝します。
python-2.7 - スペイシー is_stop 関数(バグ?)
以下のコードを使用して、単語がストップワードかどうかを確認しています。以下に示すように、try ブロックが失敗した場合、IS_STOP 関数はエラーをスローしています。
以下のエラーが表示されます。
spacy - Spacy での複数単語表現の認識
インデックス エントリと一緒にテキストを持っています。そのうちのいくつかは、テキスト内で発生する重要な複数語表現 (MWE) を示しています (たとえば、生物学のテキストの「海綿状の骨」)。テキスト内の MWE の出現を認識できるように、エントリを使用して spaCy でカスタム マッチャーを構築したいと考えています。追加の要件は、MWE 構成単語の見出語化された表現と POS タグを保持するために、一致する出現が必要であることです。
同様のことを行う既存の spaCy の例を見てきましたが、パターンを取得できないようです。
python - スペーシー オブジェクトを使用する joblib
私は中規模のテキストデータセットを使用しています.pandasシリーズ(オブジェクト型)としてロードした約1GBの単一のテキスト列です。といいtextData
ます。
テキスト行ごとにドキュメントを作成し、トークン化したいと考えています。しかし、カスタム トークナイザーを使用したいと考えています。
スクリプトを使用して main() を呼び出し、main() 内で上記の関数を実行しています。
これが機能しない理由はありますか?酸洗の問題がある場合 - それは発生しません。
これを機能させる方法はありますか?
nlp - Java での spaCy の代替案
現在、spaCy を使用して依存関係ツリーを走査し、エンティティを生成しています。
spaCy に適した Java の代替手段はありますか?
spaCy によって行われるように、依存関係ツリーを生成するライブラリを探しています。
編集:
Stanford Parser を調べました。ただし、次の解析ツリーが生成されました。
ただし、spaCy のようなツリー構造を探しています。
python - Python Spacy によるシンプルな受動態文からエンティティを抽出する
Python Spacy を使用して、単純な受動態の文からエンティティを抽出する方法は? 次の文では、文から "John" の両方をnsubjpassと.ent_として抽出することを意図しています。
文 = 「ジョンはデビッドによって犯罪で告発された」
python - Spacy による複数主語の受動態からエンティティを抽出する
Python Spacy を使用して、複数の主語受動態文からエンティティを抽出しようとしています。
文 = 「ジョンとジェニーはデビッドによって犯罪で告発された」
私の意図は、文から「ジョンとジェニー」の両方をnsubjpassと.ent_として抽出することです。
ただし、「John」を nsubjpass として抽出することしかできません。
両方を抽出する方法は?
John は .ents のエンティティとして検出されますが、Jenny は nsubjpass ではなく conj と見なされることに注意してください。それを改善する方法は?
コード
結果:
エンティティ リストには次のものが表示されます。
コード
`
結果
ここで、文全体を調べると、次のようになります。
コード:
結果
2 番目の受動的な主語 Jenny は、Spacy では nsubjpass ではなく conj として識別されることに注意してください。