-1

ウェブサイトコピーソフトでウェブサイトをダウンロードしました。すべてのページからいくつかの情報を抽出したいと考えています。

多くの製品ページがあり、すべてのページから製品情報のみを収集し、Excel ファイルに保存したいとします。

これを行うための可能な方法を知りたいです。私の友人は、スクリプトを書いてそれを実現できると言っていましたが、スクリプトでこの目的全体をどのように解決できるかわかりません。

そこにフリーソフトウェアやこの仕事をすることができるコードはありますか? 私はJavaをよく知っています。コードを書くことでJavaでそれを実現できる場合は、いくつかのガイダンスを提供してください。

4

2 に答える 2

1

製品ページは Web ページであるため、おそらく Java ではなく JavaScript を使用したいと思うでしょう。そのため、おそらくブラウザーネイティブ言語の方が使いやすいでしょう。私だったら、次のようにアプローチします。

1 - すべてのページを 1 つずつロードするマスター JS スクリプトを作成します。

2 - 各ページで、その製品情報を選択します (おそらく $('#productID') などで)

3 - それらを JSON 形式に変換し、サード パーティのライブラリを使用して CSV にエクスポートします (または、自分でコードを記述します)。そのようなライブラリの例: http://www.zachhunter.com/2011/06/json-to-csv/

于 2012-12-23T09:22:05.613 に答える
0

HTML ドキュメント用の Java ライブラリであるJSoupを見てみましょう。

彼らのウェブサイトにはたくさんのドキュメントがあります。

ドキュメントから特定の要素を選択する CSS セレクターについて学びたいと思うでしょう。例はhttp://jsoup.org/cookbook/extracting-data/selector-syntaxを参照してください。

次に、収集したデータをコンマ区切り値としてテキスト ファイルに書き込み、Excel に読み込むことができます。

于 2012-12-23T09:37:43.063 に答える