3

特定の Web サイトから特定の情報を抽出できるアプリケーションを作成しました。そのために、希望する出力を与える正規表現を使用しました。その単純なクローラーの正規表現よりも効率的なプロセスまたはアイデアはありますか。

4

1 に答える 1

2

問題を解決するのは単純な正規表現であると言うなら、いいえよりも、他に効率的な解決策はありません。クロールに関して言えば、別の方法として、HTML ページ全体をメモリ内の DOM ドキュメントにロードし、XPath または XQuery を使用して検索することもできます。しかし、実際には、正規表現を使用して情報を簡単に抽出できる場合は、特に XPath に慣れていない場合は気にする必要はありません。

複雑な検索を行う場合は、XPath の威力が発揮されます。そして、このタスクでは(少なくともw3cの意見では)正規表現よりもエレガントです。しかし、迅速な解決策が必要な場合は、すでにそれを見つけており、RAM の点でもより効率的です。

于 2012-05-20T17:24:01.593 に答える