HTML テキスト抽出ツールはたくさんあります。主に Java または Python 用です。私が最も頻繁に遭遇するのは、ボイラーパイプです。あちこちにいくつかの API があり、いくつかはかなりうまく機能しているようです。これを行うPHPの何かを知っている人はいますか?
質問する
1021 次
2 に答える
0
あなたはphpQueryを試すことができます:
于 2012-07-07T22:35:06.987 に答える
0
DomDocumentは、HTML ドキュメントを解析できる libxml サポートがあれば、PHP で使用できるクラスです。これにより、HTML ドキュメントを反復処理したり、XPathクエリを発行して DOM ツリー内の特定のノードを検索したりできます。これが理想的な方法です。
または、テキストが十分に単純で統一されている場合は、preg_match()を使用して、正規表現を使用してデータからテキストを抽出できます。
于 2012-07-07T22:35:15.947 に答える