Python を使用して大きなテキスト ファイルを処理しています。ファイルの各行は完全な JSON メッセージであり、非常に長い場合があります。各行に関する情報をデータベースに挿入する必要があります。この情報は非常に単純です。行の長さと、各メッセージに含まれる一意の ID です。したがって、各行にはフォームがあります
{"field1":"val1", ..., "ID":"12345", ..., "fieldK":"valK"}
メッセージから「12345」を抽出する必要があります。
今、私は文字列全体をロードしてjson.loads()
からIDを見つけ、残りを無視します。
私のコードは遅すぎるので、スピードアップする必要があります。文字列全体のようにロードするよりも速く「ID」を抽出する方法があるかどうかを確認しようとしています。1 つのオプションは、文字列で「ID」を検索してから処理すること:"12345"
です。しかし、メッセージの別の場所に部分文字列「ID」があると、脆弱になる可能性があります。
それで、IDを見つけるために行を部分的にロードする方法はありますか?