0

私は Java の初心者ではありません。コラージュのときに Java を学びました。私は現在、オンライン Web ページからデータを取得するための小さなプログラムを実行しています。私はグーグルのリサーチを行い、htmlパーサーがそれを行う簡単な方法の1つであることがわかりました。

私の質問は、クラスパスを設定し、HTML パーサー ライブラリを TextPad にインポートする方法です。

- - - 私の答え - - - - - - - - - - - - - - - - - - - - - -----

この問題を解決する方法を見つけました。他の誰かが私と同じ問題を抱えている場合に備えて、ここに投稿する必要があると思います。

これを解決する適切な方法かどうかはわかりません。ここにあります。

リンク http://htmlparser.sourceforge.net/javadoc/doc-files/using.htmlを見つけました

htmlparser zip ファイルをダウンロードし、lib フォルダーを C ドライブに解凍しました。この行を CMD で実行します (Windows ベースのシステムを使用しています) set CLASSPATH=C:\lib\htmlparser.jar;C:\lib\htmllexer.jar;%CLASSPATH% を実行すると、機能します。

この行は、新しい .jar ファイルを古いクラスパスに追加するためのものだと思います。%CLASSPATH% は古いクラスパスを意味します。

4

1 に答える 1

0

かなりの量のスクリーン スクレイピングを行った結果、Java は扱いにくいことがわかりました。私の経験では、Groovy を使用してデータをスクリーンスクレイピングします。厄介なクラスパスをいじる必要はありません。groovy は Java の DSL であり、Java を知っているので、非常に簡単です。Textpad をエディターとして使用することもできます。

例えば:

def slurper = new XmlSlurper()
def htmlParser = slurper.parse("http://stackoverflow.com")

htmlParser.'**'.findAll{ it.@class == 'question-hyperlink'}.each {
   println it
}

上記のコードはブログ投稿からのものです: http://www.maclovin.de/2010/02/robust-html-parsing-the-groovy-way/

于 2012-10-05T04:43:07.517 に答える