1

TIDYでHTMLファイルでいっぱいのフォルダをクリーンアップした後、さらに処理するためにテーブルのコンテンツをどのように抽出できますか?

4

6 に答える 6

2

私は過去にそのようなものにBeautifulSoupを使用して大成功を収めました。

于 2008-09-16T01:56:12.270 に答える
1

提案を確認した後、HtmlUnitを使用することになりました。

HtmlUnitを使用すると、Javaコードをカスタマイズして、フォルダー内の各HTMLファイルを開き、TABLEタグに移動し、各列のコンテンツをクエリして、CSVファイルの作成に必要なデータを抽出することができました。

于 2008-09-18T19:15:10.477 に答える
1

どのような処理をしたいかによります。XML の一種である XHTML を生成するように Tidy に指示できます。つまり、結果に対して XSLT や XQuery などの通常の XML ツールをすべて使用できます。

それらを Microsoft Excel で処理したい場合は、HTML からテーブルをスライスしてファイルに入れ、そのファイルを Excel で開くことができるはずです。HTML テーブルをスプレッドシート ページにうまく変換します。次に、それを CSV または Excel ワークブックなどとして保存できます (これを Web サーバーで使用することもできます。HTML テーブルを返しますが、Content-Typeヘッダーを次のように設定しapplication/ms-vnd.excelます。Excel が開いてテーブルをインポートし、それをスプレッドシートに変換します)。 .)

CSV をデータベースにフィードする場合は、以前と同じように Excel を使用できます。または、プロセスを自動化したい場合は、選択した XML ナビゲート API を使用してテーブルの行を反復処理し、それらをCSVとして保存します。Python の Elementtree および CSV モジュールを使用すると、これが非常に簡単になります。

于 2008-09-16T15:13:48.653 に答える
0

.NETでは、HTMLAgilityPackを使用できます。

詳細については、StackOverflowに関するこの前の質問を参照してください。

于 2008-09-16T01:59:55.507 に答える
0

テキストを繰り返し、正規表現を使用します:)

http://www.knowledgehouse.sg

于 2008-11-17T02:40:16.753 に答える
0

HTML マークアップからコンテンツを抽出する場合は、ある種の HTML パーサーを使用する必要があります。そのためにはたくさんありますが、ニーズに合ったものを 2 つ紹介します。

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

于 2008-09-16T02:03:57.057 に答える