問題タブ [text-chunking]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BIOチャンク文からチャンクを抽出するには? - パイソン
BIO チャンク タグを含む入力文を指定します。
[('What', 'B-NP'), ('is', 'B-VP'), ('the', 'B-NP'), ('airspeed', 'I-NP'), ( 'of', 'B-PP'), ('an', 'B-NP'), ('unladen', 'I-NP'), ('swallow', 'I-NP'), ('? '、'O')]
関連するフレーズを抽出する必要があります。たとえば、 を抽出したい場合は'NP'
、 と を含むタプルのフラグメントを抽出する必要がB-NP
ありI-NP
ます。
[アウト]:
(注: 抽出タプルの数字はトークン インデックスを表します。)
次のコードを使用して抽出しようとしました。
しかし、同じタイプの隣接するチャンクがある場合:
これは次のように出力されます。
希望の代わりに:
上記のコードからこれをどのように解決できますか?
上記のコードからどのように行われるか以外に、特定の目的のチャンクを抽出するためのより良い解決策はありchunk_type
ますか?
elasticsearch - Completion Suggester を使用して、クエリ内のすべての ngram と照合する
Elasticsearch の Completion Suggesterを使用して、クエリ内のすべての ngram と照合できるかどうかを知りたいです。
私が基本的にやりたいことは、「辞書ベースのチャンキング」を行うために Completion Suggester を「誤用」することです。
たとえば、「パリのクレイジー ホース クラブは今日、何時まで営業していますか?」という文があるとします。
上記の文全体を「Completion Suggester」へのクエリとして入力し、インデックス付きの「the crazy horse club」を取得しますが、「horse club」は両方ともインデックスを作成できたとしても取得したくありません。つまり、用語が重複している場合は、最大の ngram のみを返す必要があります。
これはすぐに使用できますか?そうでない場合、どこを見るべきかについての指示(Elasticsearchの有無にかかわらず)はありますか?
similarity - 剽窃をテストするためのチャンク文書
テキストファイルの盗作チェッカーを構築しています。すべての前処理 (ストップ ワードの削除、ステミングなど) を行い、インデックスを作成しました。フィルタリングされた結果。システムはほぼ完了しました。コーパスとユーザー ドキュメントを文ごとに分割しました (文の区切り文字は ? !) 結果をテストしたところ、ユーザーが句読点を変更してサービスをごまかす可能性があるため、(文ごとの) 分割方法は強力ではないことに気付きました。チャンキングに関する多くの記事を読みましたが、最善の方法は K ワードのオーバーラップでした。これは、オーバーラップを使用して単語数で分割することを意味します。私の質問は、重複した単語が類似性を最大化するため、この場合、ユーザー チャンクとコーパス チャンクの間の類似性を計算する方法です。
例: (ステミングとストップ ワードの削除を無視) ここでは単語数 = 4、重複 = 1 単語 (変更される可能性があります)
ユーザー文= コーパスで類似文を見つけるにはどうすればよいですか。
チャンク= どうやって見つけることができますか、似ているものを見つけることができますか、似ている文を見つけることができますか、似ている文を見つけますか、あなたの中で似ている文を見つけますか、あなたのコーパスの文を見つけますか。
これらのチャンクをコーパスに対してテストすると (コーパスにチャンクがあり、「How can I find」と表示されます)、ユーザー チャンク (how can I find, can I find similar) がコーパス チャンクと類似していることがわかりますが、両方のユーザー チャンクが冗長です。では、どうすればこの冗長性を排除できますか、長い説明で申し訳ありません。
python - NLTK RegEx Chunker がワイルドカードを使用して定義された文法パターンをキャプチャしない
NLTK の POS タグを正規表現として使用して、文をチャンクしようとしています。文中の単語のタグに基づいてフレーズを識別する 2 つのルールが定義されています。
主に、 1 つ以上の動詞の後にオプションの決定詞が続き、最後に 1 つ以上の名詞が続くチャンクをキャプチャしたかったのです。これは定義の最初のルールです。しかし、それは Phrase Chunk として取り込まれていません。
チャンカーへの入力、taged_text は次のとおりです。
tagged_text Out[7]: [('This', 'DT'), ('has', 'VBZ'), ('allowed', 'VBN'), ('the', 'DT'), ('device ', 'NN'), ('to', 'TO'), ('start,', 'NNP'), ('and', 'CC'), ('I', 'PRP'), (' then', 'RB'), ('see', 'VB'), ('glitch', 'NNS'), ('which', 'WDT'), ('is', 'VBZ'), ('ない', 'RB'), ('いいね', 'NNP')]
最終的な出力では、2 番目のルールに一致する副詞句 (' then see ') のみがキャプチャされています。口頭のフレーズ (「デバイスを許可しました」) が最初のルールと一致し、同様にキャプチャされることを期待していましたが、そうではありませんでした。
actphrases Out[8]: Tree('S', [('This', 'DT'), ('has', 'VBZ'), ('allowed', 'VBN'), ('the', 'DT' '), ('device', 'NN'), ('to', 'TO'), ('start,', 'NNP'), ('and', 'CC'), ('I', ' PRP'), Tree('Ph', [('then', 'RB'), ('see', 'VB')]) , ('グリッチ', 'NNS'), ('which', 'WDT '), ('is', 'VBZ'), ('not', 'RB'), ('nice.', 'NNP')])
使用される NLTK のバージョンは 2.0.5 (Python 2.7) です。ヘルプや提案をいただければ幸いです。
前もって感謝します、
バラ。
python - Python で POS_tagged 単語の NLTK RegexpParser Chunk を使用して特殊文字を抽出する方法
たとえば、次のようなテキストがあります。80% of $300,000 Each Human Resource/IT Department.
$300,000
単語と一緒に抽出する必要がありますEach Human Resource/IT Department
トークン化後に単語にタグを付けるために pos タグ付けを使用しました。300,000 を抽出できましたが、$ 記号を一緒に抽出できませんでした。
私がこれまでに持っているもの:
リストに変換されたときのチャンク出力 -['80 %', '300,000', 'Each Human Resource/IT Department']
私が欲しかったもの:['80 %', '**$**300,000', 'Each Human Resource/IT Department']
私は試した
chunkGram = r"""chunk: {**</$CD>|**<DT>+<NN.*>+<NN.*>?|<NNP>?|<CD>+<NN>?|
?}"""
それでもうまくいきません。だから、私が必要なのはCDと一緒に$だけです
java - OpennlpでChunkerをトレーニングするには?
トレーニング データを名詞句として分類するには、Opennlp で Chunker をトレーニングする必要があります。続行するにはどうすればよいですか?オンラインのドキュメントには、プログラムに組み込まれたコマンドラインなしでそれを行う方法についての説明がありません。en-chunker.train を使うと書いてありますが、そのファイルはどうやって作るのでしょうか?
編集: @Alaye 回答で指定したコードを実行した後、修正できない次のエラーが表示されます。
(私の en-chunker.train には、サンプル データ セットの最初の 2 行と最後の行しかありませんでした。) なぜこれが起こっているのか、どうすれば修正できるのか教えてください。
EDIT2: Chunker を動作させましたが、トレーニング セットの文を、回答で指定したもの以外の文に変更するとエラーが発生します。なぜそれが起こっているのか教えていただけますか?
java - OpenNLP パーサー チャンクにモデルを作成する方法
OpenNLP を使用して、ポルトガル語でパーサー チャンクを作成しようとしています。しかし、私は成功していません。
モデルを作成するには、次の 2 つのファイルが必要だと思います。
拡張子が train.all で次の形式の 1 つのトレーニング ファイル:
/li>headRules という名前の 1 つのルール ファイル。私のファイルには、インターネットから取得したこれらのルールが含まれています。
/li>
このコマンドを使用して、モデル en-parser-chunking.bin を生成します
そこで、このモデル en-parser-chunking.bin を使用してパーサーを処理します。コードに従う:
コードを実行すると、次のエラーが発生します。
モデル parser-chunking.bin を作成するにはどうすればよいですか?