9年前にPerlでHTMLとフリーテキストの解析を始めたとき、私はPerlで古典的なデータ変更を読みました。Davidが本を更新する予定があるかどうか、またはXML-Twig、Regexp-Grammarsなどの新しい解析モジュールが説明されている同様の本やWebページがあるかどうかを誰かが知っていますか?
過去9年間で、いくつかのモジュールは以前と同じように優れていると思います。いくつかは最新ですが、新しい興味深い方法があり、いくつかはより良い代替品があります。たとえば、Parse-RecDescentはフリーテキスト解析の唯一のオプションですか、それとも多くのシナリオでPerl 6の影響を受けるRegexp-Grammarsに置き換わるのでしょうか?
私はPerlを使用したアクティブなHTML、XML、またはフリーテキストデータマイニングを4年間行っていないため、この分野のツールキットは少し古くなっている可能性があります。したがって、この分野の現在のCPANモジュールに精通している人々からの、HTMLおよびDOM操作、リンク抽出/検証、MechanizeなどのWebテスト、XML操作、およびフリーテキスト解析に関するフィードバックは大歓迎です。
私のツールキットへのいくつかの新しい追加:
まだ私のツールキットにあります:
- HTML-TableExtract#2006年以降更新されていません
- WWW-機械化
- 解析-RecDescent
- HTML-TokeParser
- URI-エスケープ
- [もっと...]