TIDYでHTMLファイルでいっぱいのフォルダをクリーンアップした後、さらに処理するためにテーブルのコンテンツをどのように抽出できますか?
6 に答える
私は過去にそのようなものにBeautifulSoupを使用して大成功を収めました。
提案を確認した後、HtmlUnitを使用することになりました。
HtmlUnitを使用すると、Javaコードをカスタマイズして、フォルダー内の各HTMLファイルを開き、TABLEタグに移動し、各列のコンテンツをクエリして、CSVファイルの作成に必要なデータを抽出することができました。
どのような処理をしたいかによります。XML の一種である XHTML を生成するように Tidy に指示できます。つまり、結果に対して XSLT や XQuery などの通常の XML ツールをすべて使用できます。
それらを Microsoft Excel で処理したい場合は、HTML からテーブルをスライスしてファイルに入れ、そのファイルを Excel で開くことができるはずです。HTML テーブルをスプレッドシート ページにうまく変換します。次に、それを CSV または Excel ワークブックなどとして保存できます (これを Web サーバーで使用することもできます。HTML テーブルを返しますが、Content-Type
ヘッダーを次のように設定しapplication/ms-vnd.excel
ます。Excel が開いてテーブルをインポートし、それをスプレッドシートに変換します)。 .)
CSV をデータベースにフィードする場合は、以前と同じように Excel を使用できます。または、プロセスを自動化したい場合は、選択した XML ナビゲート API を使用してテーブルの行を反復処理し、それらをCSVとして保存します。Python の Elementtree および CSV モジュールを使用すると、これが非常に簡単になります。
.NETでは、HTMLAgilityPackを使用できます。
詳細については、StackOverflowに関するこの前の質問を参照してください。
テキストを繰り返し、正規表現を使用します:)
HTML マークアップからコンテンツを抽出する場合は、ある種の HTML パーサーを使用する必要があります。そのためにはたくさんありますが、ニーズに合ったものを 2 つ紹介します。
http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/