JSON ファイルに変換する必要がある巨大な HTML テーブル (約 500,000 行) があります。テーブルは次のようになります。
<table>
<tr>
<th>Id</th>
<th>Timestamp</th>
<th>Artist_Name</th>
<th>Tweet_Id</th>
<th>Created_at</th>
<th>Tweet</th>
<th>User_name</th>
<th>User_Id</th>
<th>Followers</th>
</tr>
<tr>
<td>1</td>
<td>2013-06-07 16:00:17</td>
<td>Kelly Rowland</td>
<td>343034567793442816</td>
<td>Fri Jun 07 15:59:48 +0000 2013</td>
<td>So has @MissJia already discussed this Kelly Rowland Dirty Laundry song? I ain't trying to go all through her timelime...</td>
<td>Nicole Barrett</td>
<td>33831594</td>
<td>62</td>
</tr>
<tr>
<td>2</td>
<td>2013-06-07 16:00:17</td>
<td>Kelly Rowland</td>
<td>343034476395368448</td>
<td>Fri Jun 07 15:59:27 +0000 2013</td>
<td>RT @UrbanBelleMag: While everyone waits for Kelly Rowland to name her abusive ex, don't hold your breath. But she does say he's changed: ht…</td>
<td>A.J.</td>
<td>24193447</td>
<td>340</td>
</tr>
次のような JSON ファイルを作成したいと思います。
{'data': [
{
'text': 'So has @MissJia already discussed this Kelly Rowland Dirty Laundry song? I ain't trying to go all through her timelime...',
'id': 1,
'tweet_id': 343034567793442816
},
{
'text': 'RT @UrbanBelleMag: While everyone waits for Kelly Rowland to name her abusive ex, don't hold your breath. But she does say he's changed: ht…',
'id': 2,
'tweet_id': 343034476395368448
}
]}
たぶん、さらにいくつかの変数が含まれていますが、それは自明のはずです。
すでにいくつかのオプションを調べましたが、ほとんどの場合、HTML テーブルが非常に大きいという問題があります。多くの人が jQuery を推奨しているのを見ました。私のテーブルのサイズを考えると、それは私にとって理にかなっていますか? これまでほとんどのコードを Python で書いてきたので、適切な Python オプションがあれば、私はかなり賛成です。