問題タブ [text-chunking]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - NLTK - チャンクを特定の単語に置き換える
nltk を使用して NLP に取り組んでいます。チャンクを使用して人の名前を抽出しています。チャンクした後、チャンクを特定の文字列「男性」または「女性」に置き換えたいと思います。
私のコードは次のとおりです。
私の入力データは次のとおりです。
ジャック・スパロウ船長が船を徴用するためにジャマイカのポート・ロイヤルに到着。ウェザビー・スワン知事の娘であるエリザベス・スワンを溺死から救ったにもかかわらず、彼は海賊行為で投獄されました。
現在の出力は次のとおりです。
(S
(Name Captain/NNP Jack/NNP Sparrow/NNP)
が到着します/VBZ が到着します/IN (ポートの名前/NNP ロイヤル/NNP) に/IN (ジャマイカの名前/NNP) に/TO 司令官/VB a/DT 船/NN ./.にもかかわらず/IN 救助/VBG(Name Elizabeth/NNP Swann/NNP)
,/, /IN の/DT 娘/NN(Name Governor/NNP Weatherby/NNP Swann/NNP)
,/, from/IN drowning/VBG ,/, he/PRP is/VBZ jailed/VBN for/IN piracy/NN ./.)
チャンクを「男性」または「女性」に置き換えて、次のように出力する必要があります。
(S
Male/NNP
が到着します/VBZ が到着します/IN (ポートの名前/NNP ロイヤル/NNP) に/IN (ジャマイカの名前/NNP) に/TO 司令官/VB a/DT 船/NN ./.にもかかわらず/IN 救助/VBGFemale/NNP
,/, /IN の/DT 娘/NNMale/NNP
,/, from/IN drowning/VBG ,/, he/PRP is/VBZ jailed/VBN for/IN piracy/NN ./.)
コードの太字部分は、本来の動作をしていません。print subtree
ステートメントは変更を示していますが、変更されていませprint chunked
ん。
私は何を間違っていますか、それとも他の方法はありますか?
私はpythonとnltkが初めてです。どんな助けでも感謝します。
male
female
名前のリストが次のように含まれています。
[「キャプテン・ジャック・スパロウ」、「ガバナー・ウェザビー・スワン」、「ロビン」]
[「エリザベス・スワン」、「ジェニー」]
uima - Uima パイプラインで使用すると、TreeTagger が Charsetname を見つけられない
ドイツ語のテキストの uima パイプライン内のチャンクに TreeTagger を使用したいと考えています。cmd で Tagger を開始すると、チャンクは正常に機能しますが、パイプラインで使用すると次のエラーが発生します。
パラメーター「Chunk_Mapping_Location」を指定する必要があると思いますが、どのファイルに指定するかわかりません。チャンカーは次の方法で初期化されます。
python - Pythonで正規表現を使用して、特定の単語やコンマなどの文字を含むテキストをチャンクする
次のコードを使用して、接続語を含むテキストをチャンクしています。ただし、「、」コンマ文字も追加したいと思います。したがって、テキストが接続語またはコンマのいずれかに直面するたびに、テキストが分割されます。どうやってやるの?