1

HTML ページ、具体的にはフォーラムの解析について質問があります。特定の投稿基準を含むフォーラムまたはスレッドを解析したいのですが、以前は構造テキスト形式しか解析していないため、まだアルゴリズムを定義していません。ユースケースはコピー アンド ペーストである可能性があります。各スレッドを手動でプログラムに挿入するか、http://www.forums.com/forum/showthread.php?t=46875&page=3 のような URL を挿入して プログラムにページを解析させます。

このすべてを考えると、私は知りたいです:

  1. HTML ページのフォーラム スレッドを解析することは可能ですか?
  2. これを行うための最良/最速/最も簡単な言語は何ですか?
  3. Java を好む場合、これにはどのようなツール/ライブラリが必要ですか?
  4. 他に考慮すべきことはありますか?
4

3 に答える 3

2

1 / はい

2 / プロトタイピングには、python や ruby​​ などのコンパクトな言語を使用します。

3 / 考慮すべき Java ツール: htmlparser

4 / 特定のテキストまたは特別なクラスのみに関心がある場合は、正規表現で十分な場合があります。しかし、コンテンツの構造をより深く掘り下げたいと思うとすぐに、データを保持するためのある種のモデルが必要になります。したがって、最良の場合、現実世界で発生する不整合に対処できるパーサーが必要になります。 html.

于 2009-11-23T23:13:41.397 に答える
1

これを行うために正規表現を使用するのではなく、ある種のhtml解析ライブラリを調べたいと思うかもしれません。rubypython用の非常に優れたhtmlパーサーがいくつかありますが、簡単なgoogleは、java用のパーサーもいくつかあることを示しています。これらのライブラリの利点は、すべてのエッジケースを正規表現で処理する必要がないことです/それらは不正な形式のhtmlを処理します(どちらも、実行したいことによっては、正規表現では不可能な場合があります)。データを処理する方法(たとえば、美しいスープを使用すると、特定のクラスに属するすべての要素を取得したり、他のcssセレクターを使用して処理するページ要素を制限したりできます)。

個人的には、少なくとも最初は、ライブラリが知られており、この目的でそれらを使用することについて多くの情報があるので、RubyまたはPythonから始めます。また、jvmよりもrubyやpythonでこれらのタイプのものをすばやくプロトタイプ化する方が簡単だと思います。必要に応じて、後でそのコードをjrubyまたはjythonを使用してjvmに取り込むこともできます。

于 2009-11-23T23:17:31.053 に答える
0
  1. はい
  2. 正規表現、任意のフレーバー。
  3. おそらく正規表現付きのもの
  4. あなたのためにこれを行うツールがあります。
于 2009-11-23T23:09:08.763 に答える