この例のようなフォルダー構造があります
Groups
- apple
-- ahen45.html
-- rev34.html
-- ......
- bat
-- fsf.html
-- ere.html
--....
...
グループは親に折りたたまれています。リンゴ、バットなどのサブフォルダー
このように、500 以上のサブ フォルダーと 20000 以上の html ファイルがあります。今、これらの html ファイルを php で読み込もうとしており、タイトル、メタキーワード、本文、およびサブフォルダーをカテゴリとして分離しています。
<?php
$file =$_SERVER["DOCUMENT_ROOT"];
$dir = new RecursiveDirectoryIterator('groups/',
FilesystemIterator::SKIP_DOTS);
$it = new RecursiveIteratorIterator($dir,
RecursiveIteratorIterator::SELF_FIRST);
$it->setMaxDepth(1);
foreach ($it as $fileinfo) {
if ($fileinfo->isDir()) {
echo $category = $fileinfo->getFilename();
}
else if ($fileinfo->isFile()) {
$fileinfo->getFilename();
$myURL = $file.'/group/groups/'.$category.'/'.$fileinfo->getFilename();
$doc = new DOMDocument();
$doc->loadHTMLFile($myURL);
$elements = $doc->getElementsByTagName('meta');
$elements = $doc->getElementsByTagName('title');
$elements = $doc->getElementsByTagName('body');
foreach ($elements as $el) {
echo $el->nodeValue, PHP_EOL;
}
}
}
?>
このようにしようとすると、ページ全体がチェックされ、タグ(またはのような他のタグ)が閉じられていないなどの警告が表示されます。完璧に仕事をするにはどうすればよいですか?