テーブルの多いページを DOMXpath でスクレイピングするのに少し問題があります。
レイアウトは本当に醜いです。つまり、テーブル内のテーブル内のテーブルからコンテンツを取得しようとしています。Firebug FirePath を使用して、テーブル要素に対して次のパスを取得しています。
html/body/table/tbody/tr[3]/td/table[1]/tbody/tr[2]/td[1]/table[1]/tbody/tr[3]/td[4]
さて、無限の実験の結果、スタンドアローンのテーブルを機能させるには「tbody」タグを削除する必要があることがわかりました。しかし、これはテーブル内のテーブルには十分ではないようです。だから私の質問は、テーブル内のテーブル内のテーブルからコンテンツを取得するにはどうすればよいですか?
ここにスクレイピングしようとしているファイルをアップロードしました: 1