Twitter API から取得したファイルから入力テキストを解析しようとしています。ファイルはストレート テキストであり、この場合、実際には JSON を取得していません。これは入力テキストのスニペットです:
.....HootSuite</a>", "text": "For independent news reports on the crisis in #Japan,
see @DemocracyNow News Archive: http://ow.ly/4ht9Q
#nuclear #Fukushima #rdran #japon", "created_at": "Sat Mar 19.....
基本的に私はこれをつかむ必要があります:
"text": "For independent news reports "on" the crisis in #Japan, see @DemocracyNow
News Archive: http://ow.ly/4ht9Q #nuclear #Fukushima #rdran #japon"
ここに私が働こうとした2つがありますが、私はそれらにいくつかの問題を抱えています:
re.findall('"text":[^_]*',line)
re.findall('"text":[^:}]+',line)
最初のものでは、必要なセクションに続く「作成済み」までのすべてを取得できます。2番目のものも同様に機能しますが、テキストに「:」が含まれている場合、情報の最後まで進みません
正しい方向に私を向けることができる正規表現の経験がある人はいますか?