“text-chunking”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

1335 参照

python - BIOチャンク文からチャンクを抽出するには? - パイソン

BIO チャンクタグを含む入力文を指定します。

[('What', 'B-NP'), ('is', 'B-VP'), ('the', 'B-NP'), ('airspeed', 'I-NP'), ( 'of', 'B-PP'), ('an', 'B-NP'), ('unladen', 'I-NP'), ('swallow', 'I-NP'), ('? '、'O')]

関連するフレーズを抽出する必要があります。たとえば、を抽出したい場合は'NP'、とを含むタプルのフラグメントを抽出する必要がB-NPありI-NPます。

[アウト]：

(注: 抽出タプルの数字はトークンインデックスを表します。)

次のコードを使用して抽出しようとしました。

しかし、同じタイプの隣接するチャンクがある場合:

これは次のように出力されます。

希望の代わりに：

上記のコードからこれをどのように解決できますか?

上記のコードからどのように行われるか以外に、特定の目的のチャンクを抽出するためのより良い解決策はありchunk_typeますか?

2015-09-01T13:45:07.683

0 投票する

0 に答える

237 参照

elasticsearch - Completion Suggester を使用して、クエリ内のすべての ngram と照合する

Elasticsearch の Completion Suggesterを使用して、クエリ内のすべての ngram と照合できるかどうかを知りたいです。

私が基本的にやりたいことは、「辞書ベースのチャンキング」を行うために Completion Suggester を「誤用」することです。

たとえば、「パリのクレイジーホースクラブは今日、何時まで営業していますか?」という文があるとします。

上記の文全体を「Completion Suggester」へのクエリとして入力し、インデックス付きの「the crazy horse club」を取得しますが、「horse club」は両方ともインデックスを作成できたとしても取得したくありません。つまり、用語が重複している場合は、最大の ngram のみを返す必要があります。

これはすぐに使用できますか？そうでない場合、どこを見るべきかについての指示（Elasticsearchの有無にかかわらず）はありますか?

elasticsearch nlp named-entity-recognition text-chunking

2015-11-13T14:41:40.850

0 投票する

0 に答える

179 参照

similarity - 剽窃をテストするためのチャンク文書

テキストファイルの盗作チェッカーを構築しています。すべての前処理 (ストップワードの削除、ステミングなど) を行い、インデックスを作成しました。フィルタリングされた結果。システムはほぼ完了しました。コーパスとユーザードキュメントを文ごとに分割しました (文の区切り文字は ? !) 結果をテストしたところ、ユーザーが句読点を変更してサービスをごまかす可能性があるため、(文ごとの) 分割方法は強力ではないことに気付きました。チャンキングに関する多くの記事を読みましたが、最善の方法は K ワードのオーバーラップでした。これは、オーバーラップを使用して単語数で分割することを意味します。私の質問は、重複した単語が類似性を最大化するため、この場合、ユーザーチャンクとコーパスチャンクの間の類似性を計算する方法です。

例: (ステミングとストップワードの削除を無視) ここでは単語数 = 4、重複 = 1 単語 (変更される可能性があります)

ユーザー文= コーパスで類似文を見つけるにはどうすればよいですか。

チャンク= どうやって見つけることができますか、似ているものを見つけることができますか、似ている文を見つけることができますか、似ている文を見つけますか、あなたの中で似ている文を見つけますか、あなたのコーパスの文を見つけますか。

これらのチャンクをコーパスに対してテストすると (コーパスにチャンクがあり、「How can I find」と表示されます)、ユーザーチャンク (how can I find, can I find similar) がコーパスチャンクと類似していることがわかりますが、両方のユーザーチャンクが冗長です。では、どうすればこの冗長性を排除できますか、長い説明で申し訳ありません。

2015-11-26T14:28:31.693

0 投票する

1 に答える

1841 参照

python - NLTK RegEx Chunker がワイルドカードを使用して定義された文法パターンをキャプチャしない

NLTK の POS タグを正規表現として使用して、文をチャンクしようとしています。文中の単語のタグに基づいてフレーズを識別する 2 つのルールが定義されています。

主に、 1 つ以上の動詞の後にオプションの決定詞が続き、最後に 1 つ以上の名詞が続くチャンクをキャプチャしたかったのです。これは定義の最初のルールです。しかし、それは Phrase Chunk として取り込まれていません。

チャンカーへの入力、taged_text は次のとおりです。

tagged_text Out[7]: [('This', 'DT'), ('has', 'VBZ'), ('allowed', 'VBN'), ('the', 'DT'), ('device ', 'NN'), ('to', 'TO'), ('start,', 'NNP'), ('and', 'CC'), ('I', 'PRP'), (' then', 'RB'), ('see', 'VB'), ('glitch', 'NNS'), ('which', 'WDT'), ('is', 'VBZ'), ('ない', 'RB'), ('いいね', 'NNP')]

最終的な出力では、2 番目のルールに一致する副詞句 (' then see ') のみがキャプチャされています。口頭のフレーズ (「デバイスを許可しました」) が最初のルールと一致し、同様にキャプチャされることを期待していましたが、そうではありませんでした。

actphrases Out[8]: Tree('S', [('This', 'DT'), ('has', 'VBZ'), ('allowed', 'VBN'), ('the', 'DT' '), ('device', 'NN'), ('to', 'TO'), ('start,', 'NNP'), ('and', 'CC'), ('I', ' PRP'), Tree('Ph', [('then', 'RB'), ('see', 'VB')]) , ('グリッチ', 'NNS'), ('which', 'WDT '), ('is', 'VBZ'), ('not', 'RB'), ('nice.', 'NNP')])

使用される NLTK のバージョンは 2.0.5 (Python 2.7) です。ヘルプや提案をいただければ幸いです。

前もって感謝します、

バラ。

python regex nlp nltk text-chunking

2015-12-18T09:07:55.863

0 投票する

1 に答える

944 参照

python - Python で POS_tagged 単語の NLTK RegexpParser Chunk を使用して特殊文字を抽出する方法

たとえば、次のようなテキストがあります。80% of $300,000 Each Human Resource/IT Department.

$300,000単語と一緒に抽出する必要がありますEach Human Resource/IT Department

トークン化後に単語にタグを付けるために pos タグ付けを使用しました。300,000 を抽出できましたが、$ 記号を一緒に抽出できませんでした。

私がこれまでに持っているもの：

リストに変換されたときのチャンク出力 -['80 %', '300,000', 'Each Human Resource/IT Department']

私が欲しかったもの：['80 %', '**$**300,000', 'Each Human Resource/IT Department']

私は試した

chunkGram = r"""chunk: {**</$CD>|**<DT>+<NN.*>+<NN.*>?|<NNP>?|<CD>+<NN>?|?}"""

それでもうまくいきません。だから、私が必要なのはCDと一緒に$だけです

python nlp nltk pos-tagger text-chunking

2016-07-06T14:41:38.950

0 投票する

1 に答える

630 参照

java - OpennlpでChunkerをトレーニングするには?

トレーニングデータを名詞句として分類するには、Opennlp で Chunker をトレーニングする必要があります。続行するにはどうすればよいですか？オンラインのドキュメントには、プログラムに組み込まれたコマンドラインなしでそれを行う方法についての説明がありません。en-chunker.train を使うと書いてありますが、そのファイルはどうやって作るのでしょうか？

編集: @Alaye 回答で指定したコードを実行した後、修正できない次のエラーが表示されます。

(私の en-chunker.train には、サンプルデータセットの最初の 2 行と最後の行しかありませんでした。) なぜこれが起こっているのか、どうすれば修正できるのか教えてください。

EDIT2: Chunker を動作させましたが、トレーニングセットの文を、回答で指定したもの以外の文に変更するとエラーが発生します。なぜそれが起こっているのか教えていただけますか？

java opennlp training-data text-chunking

2016-08-02T11:49:33.660

0 投票する

0 に答える

302 参照

java - OpenNLP パーサーチャンクにモデルを作成する方法

OpenNLP を使用して、ポルトガル語でパーサーチャンクを作成しようとしています。しかし、私は成功していません。
モデルを作成するには、次の 2 つのファイルが必要だと思います。

拡張子が train.all で次の形式の 1 つのトレーニングファイル:
/li>
headRules という名前の 1 つのルールファイル。私のファイルには、インターネットから取得したこれらのルールが含まれています。
/li>

このコマンドを使用して、モデル en-parser-chunking.bin を生成します

そこで、このモデル en-parser-chunking.bin を使用してパーサーを処理します。コードに従う：

コードを実行すると、次のエラーが発生します。

モデル parser-chunking.bin を作成するにはどうすればよいですか?

java parsing opennlp text-chunking

2016-08-04T03:00:28.133

問題タブ [text-chunking]

Reference