ツイートの巨大な csv ファイルがあります。私は両方をコンピューターに読み込み、2 つの別々の辞書に保存しました。1 つは否定的なツイート用で、もう 1 つは肯定的なツイート用です。句読点を削除しながら、ファイルを読み込んで辞書に解析したかったのです。私はこのコードを使用しました:
tweets = []
for (text, sentiment) in pos_tweets.items() + neg_tweets.items():
shortenedText = [e.lower() and e.translate(string.maketrans("",""), string.punctuation) for e in text.split() if len(e) >= 3 and not e.startswith('http')]
print shortenedText
1 つの小さな問題を除けば、すべてうまく機能しています。ダウンロードした巨大な csv ファイルは、残念ながら句読点の一部が変更されています。これが何と呼ばれているのかわからないので、実際にググることはできませんが、事実上、いくつかの文が始まる可能性があります。
"ampampFightin"
""The truth is out there"
"&altThis is the way I feel"
これらすべてを取り除く方法はありますか?後者の 2 つはアンパサンドで始まっていることに気付きました - 簡単な検索でそれを取り除くことができます (私が尋ねて実行しない唯一の理由は、ツイートが多すぎて手動で確認できないためです)。