php - 内部テーブルを傷つけることなく外部テーブルを削除しますか?

Question

親サイトからいくつかのページのコンテンツを取得する Web サイトの管理を手伝っています。親サイトでのフォーマットを制御することはできません。異なるサイトで同じコンテンツの複数のバージョンが存在しないように、(コピー/貼り付けではなく) コンテンツを取得する必要があります。

これらのページの内容はテーブルに保持されます。単純な正規表現を使用して、不要なもののほとんどを削除し、フォーマットを改善しました。処理後の現在の文字列は次のようになります。

<table class='pageSetup'>    
   <tbody>
     <tr>
      <td>
         <!--Lots of content here, including child tables-->
      </td>
     </tr>
   </tbody>
</table>

テーブルを含むその td のコンテンツを損なうことなく、その外部テーブル (およびその子テーブル関連のすべてのタグ) を削除したいと考えています。

PHPにアクセスできます。どうにかしてこれを行うためにDOMを使用したいと思っていますが、DOMの経験はあまりありません。

誰かが私を正しい方向に向けることができますか? 私は問題をいじくり回し、レンガの壁にぶつかりました。私はそのコードをまったく持っていません (昨夜、欲求不満で削除しました)。

ありがとう！

score 1 · Accepted Answer

これを使用できますhttp://simplehtmldom.sourceforge.net/

html コンテンツ全体をオブジェクトにロードしてから、必要な部分のみを抽出してみてください

オブジェクトに hmtl をロードする方法については、このクイックスタートを参照してください。
次に、コンテンツを次のように検索します。

$ret = $html->find('table[class=pageSetup] tbody tr td', 0);
最後に、次のように必要なコードにアクセスします。

$ret->innertext

この助けを願っています

php - 内部テーブルを傷つけることなく外部テーブルを削除しますか?

1 に答える 1

Related

Reference