1

Google Sitemap Generatorを機能させようとしています。

これが私の(Zend Framework 2)プロジェクト構造です:

/
/...
/public/...
/public/sitemap.xml
/public/urllist.txt
/...
/temp/googlesitemapgen/
/temp/googlesitemapgen/config.xml
/temp/googlesitemapgen/sitemap_gen.py
/...

config.xml

<?xml version="1.0" encoding="UTF-8" ?>
<site
    base_url="http://foo.bar.loc"
    store_into="/var/www/bar/foo/public/sitemap.xml"
    verbose="3"
    suppress_search_engine_notify="0"
>
    <urllist path="/var/www/bar/foo/public/urllist.txt" encoding="UTF-8" />
</site>

urllist.txt

http://foo.bar.loc

生成スクリプトを呼び出すと

user@machine:/var/www/bar/foo/temp/googlesitemapgen# python sitemap_gen.py --config=config.xmlthon sitemap_gen.py --config=config.xml

エラーが発生します:

user@machine:/var/www/bar/foo/temp/googlesitemapgen# python sitemap_gen.py --config=config.xml 
sitemap_gen.py:65: DeprecationWarning: the md5 module is deprecated; use hashlib instead
  import md5
Reading configuration file: config.xml
BaseURL is set to: http://foo.bar.loc/
Input: From URLLIST "/var/www/bar/foo/public/urllist.txt"
Opened URLLIST file: /var/www/bar/foo/public/urllist.txt
[WARNING] Discarded URL for not starting with the base_url: http://foo.bar.loc
[WARNING] No URLs were recorded, writing an empty sitemap.
Sorting and normalizing collected URLs.
Writing Sitemap file "/var/www/bar/foo/public/sitemap.xml" with 0 URLs
Notifying search engines.
[ERROR] When attempting to access our generated Sitemap at the following URL:
    http://foo.bar.loc/sitemap.xml
  we failed to read it.  Please verify the store_into path you specified in
  your configuration file is web-accessable.  Consult the FAQ for more
  information.
[WARNING] Proceeding to notify with an unverifyable URL.
Notifying: www.google.com
Notification URL: http://www.google.com/webmasters/sitemaps/ping?sitemap=http%3A%2F%2Ffoo.bar.loc%2Fsitemap.xml
Number of errors: 1
Number of warnings: 3

このエラーについては、ドキュメントの「トラブルシューティング」セクションに記載されています。しかし、私はすでにbase_urland をチェックしましたstore_into-- 両方とも正しく設定されています。

なぜ今このエラーが発生するのですか? 私は何か間違ったことをしていますか?何?ツールを機能させるには?

どうも

4

1 に答える 1

0

実際の URL を含む urllist.txt が必要です。サイト ジェネレーターは、サイトをスパイダー/クロールしません。Apache ログをチェックしたり、生成された他のサイトマップを参照したりできますが、それ自体ではクロールしません。

私の答えを見てください:

https://webmasters.stackexchange.com/questions/47085/is-there-an-xml-sitemap-generator-with-command-line-interface-for-nginx-on-linux/47105#47105

クロールして特定のサイトの URL リストを生成するためのコマンド文字列があります。

于 2013-04-10T13:03:05.633 に答える