問題タブ [text-chunking]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - opennlp チャンカー トレーナー エバリュエーター
Opennlp ドキュメントで指定されているようなトレーニング セットを使用しました
https://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.chunker.training
Chunker bin ファイルをトレーニングします。ただし、ChunkerEvaluator を使用して交差検証を行うと、常に精度と再現率が 0 になり、fmeasure が -1.0 になります。
誰かがこれが起こっている理由を提案できますか? 10 センテンス、次に 1000 センテンスでさまざまなトレーニング セットを試しましたが、どれも異なる結果をもたらしませんでした。
regex - NLTK でコロンをチャンクする
コロンの位置でチャンクを分割しようとしています : NLTK ですが、それは特殊なケースのようです。通常の正規表現では[:]
、問題なく配置できます。
しかし、NLTK では何をしても、regexParser では気に入りません。
上記のコードは、コロンをブロックとして選択するチャンクを作成します。<.*>}{<\VBD.*> 行は、let の前の位置で (Rapunzel+:+let) で構成されるチャンクを分割します。その分割を取り出してコロンに置き換えると、エラーが発生します
ValueError: 不正なチャンク パターン: >
誰でもこれを行う方法を説明できますか?私はGoogleを試し、ドキュメントを調べましたが、賢明ではありません. この投稿チャンクを問題なく処理できますが、その理由または方法を知ることができました。:-)
python - NLTK: チャンクされた文字列にアクセスする方法
NLTK チャンキングを使用しており、ルールに一致した文字列を取得したいと考えています。例えば
ここに私の入力があります
The stocks show 67% rise, last year it was 12% fall
キャプチャしたい
67% rise
と12% fall
上記の文が示すPOSタグ付け
今、私は簡単なルールを思いつきました
Stat: {<CD><NN>(<NN>+|<VBN>|JJ)?}
これはうまく機能し、キャプチャします
今、キャプチャされた正確な文字列を抽出したいと思います。だから、欲しい
67% rise
と12% fall
私は試した
しかし、私は得る
67 % rise
と12 % fall
%
と数字の間のスペースに注意してください。これは論理的には正しいですが、目的の出力ではありません。キャプチャされた文字列の開始インデックスと終了インデックスを知りたいので、正確な文字列が必要です。
どうすればこれを達成できますか?