Twitterのハッシュタグを集めてみました。エンティティを取得するために必要なドキュメントを読む https://dev.twitter.com/docs/platform-objects/tweets
"entities":
{
"hashtags":[],
"urls":[],
"user_mentions":[]
}
現在、Entities dict とハッシュタグ リストにアクセスできます。
for line in iter(my_tweet_file)
tweetionary = json.loads(line)
print tweetionary["entities"]
print tweetionary["entities"]["hashtags"]
しかし、ハッシュタグ リスト内の項目を正しく解析できません。テキスト値 (次の例では lin と Scot) に興味があります。
[{u'indices': [41, 45], u'text': u'lin'}, {u'indices': [55, 60], u'text': u'Scot'}]
ハッシュタグ リストから抽出したテキストの辞書を作成したいと考えています。
ありがとう、デニー