python - Python で文字列からエスケープされたエンティティを削除する

翻译自：https://stackoverflow.com/questions/18146557 2013-08-09T12:21:49.377

4205 次

ツイートの巨大な csv ファイルがあります。私は両方をコンピューターに読み込み、2 つの別々の辞書に保存しました。1 つは否定的なツイート用で、もう 1 つは肯定的なツイート用です。句読点を削除しながら、ファイルを読み込んで辞書に解析したかったのです。私はこのコードを使用しました：

tweets = []
for (text, sentiment) in pos_tweets.items() + neg_tweets.items():
    shortenedText = [e.lower() and e.translate(string.maketrans("",""), string.punctuation) for e in text.split() if len(e) >= 3 and not e.startswith('http')]
print shortenedText

1 つの小さな問題を除けば、すべてうまく機能しています。ダウンロードした巨大な csv ファイルは、残念ながら句読点の一部が変更されています。これが何と呼ばれているのかわからないので、実際にググることはできませんが、事実上、いくつかの文が始まる可能性があります。

"ampampFightin"
"&quot;The truth is out there"
"&altThis is the way I feel"

これらすべてを取り除く方法はありますか？後者の 2 つはアンパサンドで始まっていることに気付きました - 簡単な検索でそれを取り除くことができます (私が尋ねて実行しない唯一の理由は、ツイートが多すぎて手動で確認できないためです)。

python - Python で文字列からエスケープされたエンティティを削除する

1 に答える 1

Related

Reference