HTML ドキュメント (Microsoft Word で作成) の内容を解析する必要があります。DOM をトラバースして必要な情報/コンテンツを取得し、必要なものを CSV として出力します。私が知っている脳手術はほとんどありません。
PHP は私の趣味ではなく、スケジュールが厳しいので、http: //simplehtmldom.sourceforge.net/ のPHP Simple HTML DOM Parserを使用することにしました。
スクリプトが機能していないことに気付きました。試行錯誤の結果、これは Word で生成される HTML ファイルのファイル サイズによるものであることがわかりました (3 MB で、30,000 行もの HTML があります!)。PHP Simple HTML DOM Parserとおそらくネイティブ PHP DOMDocument API のいずれかで解析できるファイル サイズの制限があると思いますか? この場合、誰かがこの制限が何であるかを知っていますか? 私は40分間グーグルで検索しましたが、成功しませんでした。
多分私はNode.jsを使うべきですか?