1

現在、サイズが 300MB の HTML ページをダウンロードしています。現在、開くことができません。このファイルは、テーブル内のファイルに関連するデータを含む複数のエントリを作成します。以下にサンプルを示します。

<div class="item">
      <h2>install.log</h2> 

<table>
        <col width="1*"/>
        <col width="2*"/>
        <tbody>


          <tr>
            <th>Local Copy:</th>
            <td>
              <a href="./Items/Test/Test/Test.L01/Sideways%123/D/Program%20Files/Mozilla%20Firefox/install.log">install</a>
            </td>
          </tr>



          <tr>
            <th>Name:</th>
            <td>
                                    install.log
                            </td>
          </tr>
          <tr>
            <th>Path Name:</th>
            <td>
                                    /Test/Test/Test.L01/Sideways123/D/Program Files/Mozilla Firefox
                            </td>
          </tr>
          <tr>
            <th>GUID:</th>
            <td>
                                    <tt>efaa12b1-e4b0-4ed8-9d14-b2dbf8d707fe</tt>
                            </td>
          </tr>
          <tr>
            <th>Item Date:</th>
            <td>
                                    Wednesday, 25 March 2009 15:14:39 o'clock GMT
                            </td>
          </tr>
          <tr>
            <th>File Created:</th>
            <td>
                                    Wednesday, 25 March 2009 15:14:36 o'clock GMT
                            </td>
          </tr>
          <tr>
            <th>File Modified:</th>
            <td>
                                    Wednesday, 25 March 2009 15:14:39 o'clock GMT
                            </td>
          </tr>



        </tbody>
      </table>

 </div>

私がやろうとしているのは、テーブル エントリの一部を削除して、ブラウザでファイルを開くことができるようにすることであり、多くのエントリは関係ありません。<h2></h2>上記の例では、セクションはファイル拡張子を含むファイルのエントリで始まります。基本的に多数のファイル拡張子 (つまり、.log、.txt など) をリストできるようにする Python スクリプトを作成し、HTML ページを編集して、それらのファイル拡張子を含むエントリのみを含めたいと考えています。そうでない場合は、テーブル エントリとそのテーブル エントリに関連付けられているすべてのデータを削除します。したがって、上記のコードでは、たとえば .xls と .jpg を含むファイルのみを検索すると、このデータ全体が HTML から取り除かれます。

助言がありますか?

4

0 に答える 0