私はpythonが初めてで、質問があります。
同様の質問をチェックし、チュートリアルのダイブをpythonでチェックし、pythonのドキュメント、googlebinging、同様のスタックオーバーフローの質問、およびその他の多数のチュートリアルをチェックしました。
20 個のツイートを含むテキスト ファイルを読み取る Python コードのセクションがあります。次のコードを使用して、これらの 20 個のツイートを抽出できます。
with open ('output.txt') as fp:
for line in iter(fp.readline,''):
Tweets=json.loads(line)
data.append(Tweets.get('text'))
i=0
while i < len(data):
print data[i]
i=i+1
上記の while ループは完全に繰り返され、 からの 20 個のツイート (行) を出力しoutput.txt
ます。ただし、これらの 20 行には、 のような非英語文字データ、 のような"Los ladillo a los dos, soy maaaala o maloooooooooooo"
URL "http://t.co/57LdpK"
、文字列"None"
、および URL を含む写真が含まれています"Photo: http://t.co/kxpaaaaa
(プライバシーのために編集しました)。
list
これの出力 (これは) をパージし、以下を除外したいと思います。
None
エントリ_- 文字列で始まるもの
"Photo:"
- 非Unicodeデータを除外できれば、それもおまけです
次のコードを試しました
- 使用して
data.remove("None:")
いますが、エラーが発生しますlist.remove(x): x not in list.
- セットに入れたくないアイテムを読み込んでから、出力を比較しますが、うまくいきません。
- リスト内包表記を研究していますが、ここで正しい解決策を見ているのだろうか。
私は、出力の必要な/不要なセクションを切り取る機能があるOracleのバックグラウンドから来たので、これについて過去2時間で本当にぐるぐる回っていました。どんな助けでも大歓迎です!