python - 複数の言語のテキストファイルがあります。NLTKで1つの言語を選択的に削除するにはどうすればよいですか？

Question

多分これは不可能であり、私はすべての希望をあきらめるべきです。あるいは、私が考えもしなかった、本当に賢い方法があるかもしれません。

これが私が持っているものの2つの例です：

يَبِسَ --يَيْبَسُ（yabisa、yaybasu）[ybs] [ي-ب-س]（乾く、固く、硬くなる）20:77yabasan=乾く。يَسَّرَ --يُيَسِّرُ（yassara、yuyassiru）[ysr] [ي-س-ر]（簡単にするために）92：7nuyassiruhuu=私たちは彼を楽にします。

と

ZuHülfe！zuHülfe！ヘルプ！ヘルプ！
Sonst bin ich verloren！そうでなければ私は迷子になります！ZuHülfe！ZuHülfe！ヘルプ！ヘルプ！Sonst bin ich verloren！そうでなければ私は迷子になります！Der listigen Schlange zum Opfer erkoren、狡猾なヘビ、BarmherzigigeGötterへの捧げ物として選ばれました！慈悲深い神々！Schon nahet sie sich、もう近づいています、Schon nahet sie sich、もう近づいています、

...これらのテキスト行をさらに処理するために、1つの言語を調べて削除するのは、本当に面倒です。

NLTKでこれを実行できると考えていた方法の1つは、テキストをトークンに分割し、小さなコーパスに基づいて各トークンの出所を知る方法を用意し、NLTKに選択したトークンのみを「再構成」するように依頼することでした。これはただのワイルドファンタジーですか？

score 2 · Accepted Answer

nltk.NaiveBayesClassifier を使用して、上記とまったく同じようにジョブを実行できます。

次のリンクが役立ちます: http://nltk.googlecode.com/svn/trunk/doc/book/ch06.html

性別識別に nltk.NaiveBayesClassifier を使用する例があります。言語識別にも同じものを使用します。

引用した最初の例は、ユニコードセットが完全に異なるため、 nltk.NaiveBayesClassifier でうまく機能します。

2 番目の例では、固有名詞のような単語が両方の言語で同じスペルである可能性があり、言語の識別に何らかのエラーが発生する可能性があります。

python - 複数の言語のテキストファイルがあります。NLTKで1つの言語を選択的に削除するにはどうすればよいですか？

1 に答える 1

Related

Reference