3

HTML テキスト抽出ツールはたくさんあります。主に Java または Python 用です。私が最も頻繁に遭遇するのは、ボイラーパイプです。あちこちにいくつかの API があり、いくつかはかなりうまく機能しているようです。これを行うPHPの何かを知っている人はいますか?

4

2 に答える 2

0

あなたはphpQueryを試すことができます:

http://code.google.com/p/phpquery/

于 2012-07-07T22:35:06.987 に答える
0

DomDocumentは、HTML ドキュメントを解析できる libxml サポートがあれば、PHP で使用できるクラスです。これにより、HTML ドキュメントを反復処理したり、XPathクエリを発行して DOM ツリー内の特定のノードを検索したりできます。これが理想的な方法です。

または、テキストが十分に単純で統一されている場合は、preg_match()を使用して、正規表現を使用してデータからテキストを抽出できます。

于 2012-07-07T22:35:15.947 に答える