問題タブ [text-chunking]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
72 参照

java - opennlp チャンカー トレーナー エバリュエーター

Opennlp ドキュメントで指定されているようなトレーニング セットを使用しました

https://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.chunker.training

Chunker bin ファイルをトレーニングします。ただし、ChunkerEvaluator を使用して交差検証を行うと、常に精度と再現率が 0 になり、fmeasure が -1.0 になります。

誰かがこれが起こっている理由を提案できますか? 10 センテンス、次に 1000 センテンスでさまざまなトレーニング セットを試しましたが、どれも異なる結果をもたらしませんでした。

0 投票する
1 に答える
515 参照

regex - NLTK でコロンをチャンクする

コロンの位置でチャンクを分割しようとしています : NLTK ですが、それは特殊なケースのようです。通常の正規表現では[:]、問題なく配置できます。

しかし、NLTK では何をしても、regexParser では気に入りません。

上記のコードは、コロンをブロックとして選択するチャンクを作成します。<.*>}{<\VBD.*> 行は、let の前の位置で (Rapunzel+:+let) で構成されるチャンクを分割します。その分割を取り出してコロンに置き換えると、エラーが発生します

ValueError: 不正なチャンク パターン: >

誰でもこれを行う方法を説明できますか?私はGoogleを試し、ドキュメントを調べましたが、賢明ではありません. この投稿チャンクを問題なく処理できますが、その理由または方法を知ることができました。:-)

0 投票する
1 に答える
373 参照

python - NLTK: チャンクされた文字列にアクセスする方法

NLTK チャンキングを使用しており、ルールに一致した文字列を取得したいと考えています。例えば

ここに私の入力があります

The stocks show 67% rise, last year it was 12% fall

キャプチャしたい

67% rise12% fall

上記の文が示すPOSタグ付け

今、私は簡単なルールを思いつきました

Stat: {<CD><NN>(<NN>+|<VBN>|JJ)?}

これはうまく機能し、キャプチャします

今、キャプチャされた正確な文字列を抽出したいと思います。だから、欲しい

67% rise12% fall

私は試した

しかし、私は得る

67 % rise12 % fall

%と数字の間のスペースに注意してください。これは論理的には正しいですが、目的の出力ではありません。キャプチャされた文字列の開始インデックスと終了インデックスを知りたいので、正確な文字列が必要です。

どうすればこれを達成できますか?