問題タブ [pos-tagger]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1232 参照

python - Pythonでnltkを使用してpos_tagでエラーを取得する

しようとしてimport nltk libraryいますが、使用中にエラーが発生しますnltk.pos_tag

0 投票する
3 に答える
2734 参照

python - 名前付きエンティティの認識: トレーニング セットにタグを付けてアルゴリズムを選択する方法は?

会社名を含むテキストの場合、請負業者 (タスクを実行する会社) とプリンシパル (請負業者を雇用する会社) を自動的にタグ付けするモデルをトレーニングしたいと考えています。

例文は次のようになります。

Blossom Inc. は、Big Think のコンサルタントを雇って、アウトソーシング戦略を開発しました。

Blossom Incがプリンシパル、Big Thinkが請負業者です。

私の最初の質問:トレーニング セットのプリンシパルと請負業者のみにタグを付けるだけで十分ですか? それとも、POS タグを追加で使用する方がよいでしょうか?

つまり、どちらか

Blossom/PRINCIPAL Inc./PRINCIPAL 採用/NN the/NN コンサルタント/NN of/NN Big/CONTRACTOR Think/CONTRACTOR to/NN development/NN an/NN outsourcing/NN strategy/NN ./.

また

Blossom/PRINCIPAL Inc./PRINCIPAL 採用/VBZ the/DT コンサルタント/NNS of/IN Big/CONTRACTOR Think/CONTRACTOR to/TO development/VB an/DT outsourcing/NN 戦略/NN ./.

2 番目の質問:トレーニング セットを取得したら、nltk-package のどのアルゴリズムが最も有望ですか? N-Gram Tagger、Brill Tagger、TnT Tagger、Maxent Classifier、Naive Bayes、...? それとも、ここで完全に間違った方向に進んでいますか?

私は NLP を初めて使用するので、トレーニング セットのタグ付けに多くの時間を費やす前にアドバイスを求めたいと思いました。そして、私のテキストはドイツ語で書かれているため、いくつかの問題が発生する可能性があります...アドバイスをありがとう!

0 投票する
2 に答える
2262 参照

nlp - カスタム NER および POS タグ付け

NER と POS のタグ付けを理解するために、Stanford CoreNLP を調べていました。しかし、エンティティのカスタム タグを作成したい場合はどうすればよい<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>ですか? この場合、CoreNLP は役に立ちますか?

0 投票する
1 に答える
1804 参照

nltk - テキスト文書からの技術キーワードの抽出

書き直し:

コンピューター サイエンス関連のドキュメントのコーパスがあります。ドメイン固有のキーワードを抽出したい。たとえば、JAVA、C#、HTML、OOP、UML、Unity などです。コンピューティング用のオックスフォード辞書に似たソースを探していましたが、それらの API はまだ稼働していません。コンピューター サイエンス用語の Webopedia も試してみましたが、これは包括的で更新されていません (たとえば、私の文書には F# などの単語が含まれていません)。または、Wikipedia の場合、すべての用語がまとめてリストされていません。これらのキーワードを抽出するためのより包括的なソースまたは適切なアプローチはありますか? 私は NLTK で Python を使用しています。たとえば、tf-idf は役に立ちませんでした。一部のドメイン固有の単語はほとんどすべてのドキュメントで共通しているため、それらの単語は高い評価を得られないからです。POS タグを使用できれば役立つと思いますが、どのオプションが自分のアプリケーションに最適なのかわかりません。以下の文字列を例にとります。

「JavaScript、JSON、AJAX のエキスパート レベルの機能と、JQuery などの JavaScript フレームワークに関する深い知識」 ここで、次の単語を抽出したいと思います : ['JavaScript'、'JSON'、'AJAX'、'Frameworks'、'JQuery '] しかし、NLTK の POS タグを使用して名詞を検索すると、「レベル」、「能力」、「知識」なども得られます。ご協力いただきありがとうございます。

0 投票する
0 に答える
308 参照

java - 誰でも Tdil Web サイトのヒンディー語 POS Tagger appart を提案できますか

Tdil が提供する pos tagger を試してみましたが、結果は満足のいくものではなく、JAVA との組み込みに問題がありました。

0 投票する
1 に答える
1997 参照

bash - MXPOST bash: ./mxpost: /bin/ksh^M: インタープリターが正しくありません: そのようなファイルまたはディレクトリはありません

MXPOSt からダウンロードしたポルトガル語のトレーニング済みバージョンを実行しようとしています: http://www.nilc.icmc.usp.br/nilc/tools/nilctaggers.html

クラスパスに問題があるようですが、すべてチェックアウトしているようです。この時点で私は混乱しており、誰かが助けてくれることを願っています. これが私の端末です。いつもありがとうございます!

0 投票する
3 に答える
628 参照

opennlp - OpenNLP POSTagger を使用する場合、プロファイル データ ストリームの形式が無効です

無効な形式の例外が発生しています。tags.tagdictファイルからファイルを削除することを提案している人を見ましたen-pos-maxent.binが、その方法がわかりません。誰か私にそれを説明してくれませんか