0

私はプロジェクトを開始していて、何を質問すればよいかさえわからないため、助けを求めてここに来ました。

要するに、さまざまな情報を解析する必要がある html ファイルがたくさんあるということです。ファイルはオンライン フォーラムからアーカイブされます。私が基本的にやりたいことは、プログラムに html ファイルをフィードし、次の情報をデータベースに書き込むことができるようにすることです。

-各ユーザーが作成した投稿の数、各投稿のタイムスタンプ、特定の文字列がメッセージ本文に表示されるかどうか

他の同様の情報も同様です。

HTML パーサーは進むべき方向でしょうか? 私はそれを見ましたが、正直なところ、それを実装する方法についてあまり理解していません。私はコンピューター サイエンスの理学士号を取得していますが、プログラミングの部分は主にアルゴリズムと基本的な論理問題の解決に焦点を当てていました。複数のファイルを含む大規模なプロジェクトをまとめることについて何も学んだことがないため、.jar ファイルとさまざまなライブラリがどのように実装されているかについての私の知識は基本的に存在しません。

私を正しい方向に向けてくれるものは何でも大歓迎です!

4

1 に答える 1

0

HTML 解析は多くの言語で実行できます。

プログラミング経験がほとんどまたはまったくない場合は、Python から始めることをお勧めします。Java に比べて、すぐに慣れることができます。Codecademy の Python トラックをご覧ください - http://www.codecademy.com/tracks/python

lxml、beautifulsoup、Scrapy など、Python で html をスクレイピングするために使用できるフレームワークは多数あります。どちらを選択するかは、問題の程度によって異なります。たとえば、プログラムを実行するにはどれくらいの速度が必要ですか? 単純な xpath 式を使用して html ファイルをスクレイピングできますか? それともスクレイピング用に独自の関数を実装する必要がありますか?

迅速で汚い解決策として、私は BeautifulSoup をお勧めします。ボールを転がすために xpath を学ぶ必要さえありません。ただし、フレームワークは私の経験からかなり遅いため、長期的なソリューションには適していない可能性があります。

幸運を!

于 2013-06-10T12:40:40.903 に答える