私はプロジェクトを開始していて、何を質問すればよいかさえわからないため、助けを求めてここに来ました。
要するに、さまざまな情報を解析する必要がある html ファイルがたくさんあるということです。ファイルはオンライン フォーラムからアーカイブされます。私が基本的にやりたいことは、プログラムに html ファイルをフィードし、次の情報をデータベースに書き込むことができるようにすることです。
-各ユーザーが作成した投稿の数、各投稿のタイムスタンプ、特定の文字列がメッセージ本文に表示されるかどうか
他の同様の情報も同様です。
HTML パーサーは進むべき方向でしょうか? 私はそれを見ましたが、正直なところ、それを実装する方法についてあまり理解していません。私はコンピューター サイエンスの理学士号を取得していますが、プログラミングの部分は主にアルゴリズムと基本的な論理問題の解決に焦点を当てていました。複数のファイルを含む大規模なプロジェクトをまとめることについて何も学んだことがないため、.jar ファイルとさまざまなライブラリがどのように実装されているかについての私の知識は基本的に存在しません。
私を正しい方向に向けてくれるものは何でも大歓迎です!