php - PHP で動的サイト用の Sitemap.xml ファイルを生成する

Question

サイトをクロールしてすべての一意のリンクを取得し、そのそれぞれのドメインのルートに XML ファイルを作成/書き込むにはどうすればよいでしょうか。mydomain.com/generatesitemap.php を呼び出すと、このファイルはドメイン内のすべてのリンクをクロールし、ファイル sitemap.xml に書き込みます。cURLを使用したPHPでこれは可能ですか?

score 0 · Accepted Answer

サイトによって異なります。それが単純なサイトであれば、タスクは単純です。curl または file_get_contents を介してサイトのルートページを取得し、すべてのリンクを preg_match します (参照については、こちらを参照してください http://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression /）、サイト内にあるすべてのリンクを再帰的に取得します。すでに処理されているリンクは処理しません。

JavaScript が登場すると、タスクはより複雑になります。ナビゲーションが JavaScript データを使用している場合、リンクの取得が困難になります。select-combobox をドロップダウンメニューとして使用するなど、他のナビゲーショントリックが存在する可能性もあります。

クエリ文字列を含むページがある場合、タスクはさらに複雑になる可能性があります。カタログセクションがあるとします。URLは次のようになります。

/catalogue
    /catalogue?section=books
    /catalogue?section=papers
    /catalogue?section=magazines

1ページですか？

そして、これはどうですか？

 /feedback
 /feedback?mode=sent

したがって、これらのケースを処理する必要があります。

Google 検索には、このようなクローラーの例がたくさんあります。たとえば、これを見てください：

http://phpcrawl.cuab.de/

php - PHP で動的サイト用の Sitemap.xml ファイルを生成する

1 に答える 1

Related

Reference