python - nltkでウィキペディアのストップワードhtmlを解析する

Question

この質問に関連して、ウィキペディアのエンティティの紹介を抽出するプログラムに取り組んでいます。上記のリンクを読むとわかるように、私はすでに API のクエリに成功しており、API 呼び出しによって返された xml の処理に集中しています。私はnltkを使用してxmlを処理します。

wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
    wikiword = lemmatizer.lemmatize(wikiword.lower())
    ...

しかし、これでは、、、、、、、、、、、、、、、、、、、、、、、、、など</の単語が記録されてしまいます。私は xml の構造を使用していないので、単にすべての xml を無視するだけでうまくいくと思います。nltk のツールはありますか、または利用可能なストップワードリストはありますか。知りたいのですが、ベストプラクティスは何ですか?/p<

score 2 · Accepted Answer

使用している正確なクエリを指定していませんが、XML 応答から抽出した XML ではなく、HTML になっているようです。

また、HTML コードからすべての HTML タグを取り除き、テキストのみを残したい場合は、BeautifulSoupなどの HTML ライブラリを使用する必要があります。

python - nltkでウィキペディアのストップワードhtmlを解析する

1 に答える 1

Related

Reference