スペイン語、ポルトガル語、ギリシャ語、チェコ語、中国語など、複数の言語のテキストの名前エンティティ抽出を行う必要があります。
これら 2 つの関数でサポートされているすべての言語のリストはありますか? また、これらの言語を含めることができるように、他のコーパスを使用する方法はありますか?
デフォルトでは、どちらの関数も英語のテキストのみをサポートしています。実際にはドキュメントにはありませんが、ソースコードを見るとわかります。
このpos_tag()
関数は、このファイルからタガーをロードします: 'taggers/maxent_treebank_pos_tagger/english.pickle'
. (こちらをご覧ください)
このword_tokenize()
関数は、(英語の) Penn Treebank Corpus のように正規表現を使用してテキストをトークン化する Treebank トークナイザーを使用します。(こちらをご覧ください)