0

Python を使用する最初の試みであり、Google で 1 日を過ごした後、私の古い脳はさらに困惑しています。

pycurl を使用して ntlm プロキシを介してログを記録し、ページをスクレイプしてから、beautifulsoup を使用して結果をきれいにしました。

prettify 出力から 3 つの値を抽出し、それらを変数として保存したいと考えています。ページは動的に生成されるため、ページ上の位置は常に変化します。3 つのラベルはページに 1 回だけ表示され、それぞれの値と比較した位置は一定です。

prettify 出力から Value1、Value2、および Value3 を抽出し、それらを変数として保存するにはどうすればよいですか。

これらの 3 つのワンライナーは、私が Python で行う必要があるものです。

grep -A 3 "Label1" prettify.txt | tail -n 1 |awk '{print $1}'

grep "Label2" prettify.txt | awk '{print $3}'

grep -B 4 "Label3" prettify.txt | awk '{print $1}' RS=[ FS=] | テール -n 1

抜粋 1

   <b>
    <font color="Red">
     Label1
    </font>
    <font color="blue">
     Value1
    </font>
   </b>
   <br />
   Label2: Value2
   <br />

抽出 2

    <li>
     <font color="green">
      [value3]
     </font>
     <font color="red">
      Label3
     </font>
    </li>
4

1 に答える 1

0

ページをカールさせてから、コンテンツの残りの部分からデータを取り除くために、タプル内で検索関数を使用する前に、いくつかのハックなコーディングを行いました。そのような:

resultant_value = result[result.find(beginning_location):result.find(ending_location)]

変数beginning_locationでありending_location、値の先頭と末尾にある特定の一意のインジケータになる可能性があるため、値が取り除かれ、変数に配置されますresultant_value。私のハックな方法が何らかの形で役立つことを願っています!

于 2012-01-19T04:03:30.503 に答える