問題タブ [spacy-3]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
39 参照

spacy - Spacy: 1000 個のラベルを分類するためのデータセット形式は?

私はスペーシーの texcat_demo プロジェクトに基づいており、それに基づいて、json は次のようになります。

しかし、このjsonを複数のカテゴリにどのように見えるべきですか?、このように

ありがとう

0 投票する
1 に答える
242 参照

python - 上書きではなく、Spacy の組み込み NER モデルを更新する

en_core_web_lgカスタム エンティティを使用してトレーニングするSpacy の組み込みモデルを使用しています。それをしている間、私は2つの問題に直面しています、

  1. 新しいトレーニング済みデータを古いデータで上書きすると、他のエンティティが認識されなくなります。たとえば、トレーニング前は PERSON と ORG を認識できますが、トレーニング後は PERSON と ORG を認識しません。

  2. トレーニング プロセス中に、次のエラーが表示されます。

これが私のコード全体です。

期待される出力:

現在エンティティを認識していません..

どこが間違っているのか教えてください。ありがとう!

0 投票する
0 に答える
1087 参照

python - spaCy v3 でカスタム NER のトランスモデルを適切に使用するには?

spaCy バージョン 3 を使用して、カスタム タグの Named Entity Recognition (NER) モデルをトレーニングしようとしています。彼らの Web サイトですべてのドキュメントを確認しましたが、パイプライン モデルを作成する適切な方法を理解できません。を使用しようとするとen_core_web_trf、最終的な出力スコアがすべてゼロになるため、独自のタグを追加できないようです。しかし、それは正しく機能しen_core_web_smます。

en_core_web_trfただし、English の空のモデルを作成してから、Transformer モデルと ner モデルを とは別に手動で追加するという、その場しのぎの方法を試してみると、うまくいきen_core_web_smます。

私の質問は、この間に合わせの方法以外に、モデルとパイプライン メソッドを初期化するためのより良い方法はありますか? LOCATION などの事前トレーニング済みのエンティティは気にしません。データセットで定義したカスタム エンティティに基づいて (トランスフォーマー ベースのアプローチを使用して) モデルをトレーニングしたいだけです。

編集:私が使用した正確なトレーニング方法論は、定義されたクラスの関数のこのpython スクリプトで説明されています。fit()NerModel

スクリプト (行番号 16) では小さなモデルを使用load_spacy()していますが、私は変圧器モデルを試していてload_spacy()、この質問の冒頭で定義した定義を使用しました。

PS: GPU をトランスフォーマーに利用するために、Google Colab (別名ノートブック) で実験を行っていますが、ソース コードと方法論はほとんど同じです。

0 投票する
1 に答える
241 参照

python - 似たような単語がスペーシーで機能しなくなった

私は、spacy 2.2.4 を使用し、単語のリストに対して最も類似した単語を正常に取得する、しばらく前の Google Colab ノートブックを持っています。

出力は次のとおりです。

問題: Spacy のバージョンが 3.0.6 で、同様の単語 (new_search_terms) のリストがである RStudio 内の別の環境 (つまり、Google Colab を使用しない) で同じコードを実行しようとしました。また、単語の確率がすべて同じ (-20)であることにも気付きました。

spacy 3.0.6 での出力:

以前と同じ出力を得るために、この新しいバージョンの spacy で何をする必要がありますか?