-1

親サイトからいくつかのページのコンテンツを取得する Web サイトの管理を手伝っています。親サイトでのフォーマットを制御することはできません。異なるサイトで同じコンテンツの複数のバージョンが存在しないように、(コピー/貼り付けではなく) コンテンツを取得する必要があります。

これらのページの内容はテーブルに保持されます。単純な正規表現を使用して、不要なもののほとんどを削除し、フォーマットを改善しました。処理後の現在の文字列は次のようになります。

<table class='pageSetup'>    
   <tbody>
     <tr>
      <td>
         <!--Lots of content here, including child tables-->
      </td>
     </tr>
   </tbody>
</table>

テーブルを含むその td のコンテンツを損なうことなく、その外部テーブル (およびその子テーブル関連のすべてのタグ) を削除したいと考えています。

PHPにアクセスできます。どうにかしてこれを行うためにDOMを使用したいと思っていますが、DOMの経験はあまりありません。

誰かが私を正しい方向に向けることができますか? 私は問題をいじくり回し、レンガの壁にぶつかりました。私はそのコードをまったく持っていません (昨夜、欲求不満で削除しました)。

ありがとう!

4

1 に答える 1

1

これを使用できますhttp://simplehtmldom.sourceforge.net/

html コンテンツ全体をオブジェクトにロードしてから、必要な部分のみを抽出してみてください

  1. オブジェクトに hmtl をロードする方法については、このクイック スタートを参照してください。

  2. 次に、コンテンツを次のように検索します。

    $ret = $html->find('table[class=pageSetup] tbody tr td', 0);

  3. 最後に、次のように必要なコードにアクセスします。

    $ret->innertext

この助けを願っています

于 2013-10-26T19:48:42.613 に答える