この質問に関連して、ウィキペディアのエンティティの紹介を抽出するプログラムに取り組んでいます。上記のリンクを読むとわかるように、私はすでに API のクエリに成功しており、API 呼び出しによって返された xml の処理に集中しています。私はnltkを使用してxmlを処理します。
wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
wikiword = lemmatizer.lemmatize(wikiword.lower())
...
しかし、これでは、、、、、、、、、、、、、、、、、、、、、、、、、など</
の単語が記録されてしまいます。私は xml の構造を使用していないので、単にすべての xml を無視するだけでうまくいくと思います。nltk のツールはありますか、または利用可能なストップワード リストはありますか。知りたいのですが、ベストプラクティスは何ですか?/p
<