java - HTMLファイルのグループからテーブルコンテンツを抽出するための最良の方法は何ですか？

Question

TIDYでHTMLファイルでいっぱいのフォルダをクリーンアップした後、さらに処理するためにテーブルのコンテンツをどのように抽出できますか？

score 2 · Accepted Answer

2

私は過去にそのようなものにBeautifulSoupを使用して大成功を収めました。

于 2008-09-16T01:56:12.270 に答える

score 1 · Accepted Answer

提案を確認した後、HtmlUnitを使用することになりました。

HtmlUnitを使用すると、Javaコードをカスタマイズして、フォルダー内の各HTMLファイルを開き、TABLEタグに移動し、各列のコンテンツをクエリして、CSVファイルの作成に必要なデータを抽出することができました。

score 1 · Accepted Answer

どのような処理をしたいかによります。XML の一種である XHTML を生成するように Tidy に指示できます。つまり、結果に対して XSLT や XQuery などの通常の XML ツールをすべて使用できます。

それらを Microsoft Excel で処理したい場合は、HTML からテーブルをスライスしてファイルに入れ、そのファイルを Excel で開くことができるはずです。HTML テーブルをスプレッドシートページにうまく変換します。次に、それを CSV または Excel ワークブックなどとして保存できます (これを Web サーバーで使用することもできます。HTML テーブルを返しますが、Content-Typeヘッダーを次のように設定しapplication/ms-vnd.excelます。Excel が開いてテーブルをインポートし、それをスプレッドシートに変換します)。 .)

CSV をデータベースにフィードする場合は、以前と同じように Excel を使用できます。または、プロセスを自動化したい場合は、選択した XML ナビゲート API を使用してテーブルの行を反復処理し、それらをCSVとして保存します。Python の Elementtree および CSV モジュールを使用すると、これが非常に簡単になります。

score 0 · Accepted Answer

.NETでは、HTMLAgilityPackを使用できます。

詳細については、StackOverflowに関するこの前の質問を参照してください。

score 0 · Accepted Answer

0

テキストを繰り返し、正規表現を使用します:)

http://www.knowledgehouse.sg

于 2008-11-17T02:40:16.753 に答える

score 0 · Accepted Answer

HTML マークアップからコンテンツを抽出する場合は、ある種の HTML パーサーを使用する必要があります。そのためにはたくさんありますが、ニーズに合ったものを 2 つ紹介します。

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

java - HTMLファイルのグループからテーブルコンテンツを抽出するための最良の方法は何ですか？

6 に答える 6

Related

Reference