python - 繰り返しパターンを持つ長いリストから文字列を見つけて抽出する

Question

特定の情報を抽出したいテキストのリストが 2 つあります。

最初の行 (最初の数項) は次のようになります。

line = "{"af":"16.63","al":"11.58",..."

できれば「」の間の文字だけをリストに抽出したいです。例えば["af","al"...]。

2 行目は非常に長く、次のようなシーケンスが含まれています。

line = "...,"name":"Papua New Guinea"},..."

"name":"<country>"可能であれば、後の文字列を別のリストに入れたいだけです。例えば[...,"Papua New Guinea",...]。同じパターンが何度も何度も出"name":"<country>"}てきます。

これらは両方とも、おそらく SED を使用して、異なるファイル内の 2 つのリストにパイプすることができます。周囲の「綿毛」をすべて取り除く必要があります。

正規表現の組み合わせを試しましたが、うまくいきません。構文を正しく取得できません。前もって感謝します。

score 1 · Accepted Answer

JSON データを見ています。jsonモジュールを使用して、これを Python 構造に解析します。残りのタスクは簡単です。

first_structure = json.loads(line)
print first_structure.keys()

second_structure = json.loads(countries_text)
print [d['name'] for d in second_structure]

python - 繰り返しパターンを持つ長いリストから文字列を見つけて抽出する

1 に答える 1

Related

Reference