10

私は、約25000のサブURLで構成されるdjangoで開発されたWebサイトを持っています。Web サイトのすべての URL を一覧表示し、リンクが定期的に壊れていないかどうかを確認する必要があるため、スクリプトとして実行できるものを使用したいと考えています。

どの方法に従うべきですか?何か案が ?

4

7 に答える 7

11

これは、優れた @sneawo の回答に基づく改良されたクラスです。機能は次のとおりです。

  • に基づくすべての urlconf の自動ロードsettings.ROOT_URLCONF
  • 含まれている urlconf の再帰的な読み込み。
  • キーワード パラメータを期待する URL パターンのテスト (デフォルト パラメータ経由)。
  • さまざまな http コードのテスト。
  • ログインしたユーザーに対してのみ機能する URL をテストします。

改善は大歓迎です。

    from django import test
    from django.core.urlresolvers import reverse
    from django.conf import settings
    import importlib

    class UrlsTest(test.TestCase):

        def test_responses(self, allowed_http_codes=[200, 302, 405],
                credentials={}, logout_url="", default_kwargs={}, quiet=False):
            """
            Test all pattern in root urlconf and included ones.
            Do GET requests only.
            A pattern is skipped if any of the conditions applies:
                - pattern has no name in urlconf
                - pattern expects any positinal parameters
                - pattern expects keyword parameters that are not specified in @default_kwargs
            If response code is not in @allowed_http_codes, fail the test.
            if @credentials dict is specified (e.g. username and password),
                login before run tests.
            If @logout_url is specified, then check if we accidentally logged out
                the client while testing, and login again
            Specify @default_kwargs to be used for patterns that expect keyword parameters,
                e.g. if you specify default_kwargs={'username': 'testuser'}, then
                for pattern url(r'^accounts/(?P<username>[\.\w-]+)/$' 
                the url /accounts/testuser/ will be tested.
            If @quiet=False, print all the urls checked. If status code of the response is not 200,
                print the status code.
            """
            module = importlib.import_module(settings.ROOT_URLCONF)
            if credentials:
                self.client.login(**credentials)
            def check_urls(urlpatterns, prefix=''):
                for pattern in urlpatterns:
                    if hasattr(pattern, 'url_patterns'):
                        # this is an included urlconf
                        new_prefix = prefix
                        if pattern.namespace:
                            new_prefix = prefix + (":" if prefix else "") + pattern.namespace
                        check_urls(pattern.url_patterns, prefix=new_prefix)
                    params = {}
                    skip = False
                    regex = pattern.regex
                    if regex.groups > 0:
                        # the url expects parameters
                        # use default_kwargs supplied
                        if regex.groups > len(regex.groupindex.keys()) \
                            or set(regex.groupindex.keys()) - set(default_kwargs.keys()):
                            # there are positional parameters OR
                            # keyword parameters that are not supplied in default_kwargs
                            # so we skip the url
                            skip = True
                        else:
                            for key in set(default_kwargs.keys()) & set(regex.groupindex.keys()):
                                params[key] = default_kwargs[key]
                    if hasattr(pattern, "name") and pattern.name:
                        name = pattern.name
                    else:
                        # if pattern has no name, skip it
                        skip = True
                        name = ""
                    fullname = (prefix + ":" + name) if prefix else name
                    if not skip:
                        url = reverse(fullname, kwargs=params)
                        response = self.client.get(url)
                        self.assertIn(response.status_code, allowed_http_codes)
                        # print status code if it is not 200
                        status = "" if response.status_code == 200 else str(response.status_code) + " "
                        if not quiet:
                            print(status + url)
                        if url == logout_url and credentials:
                            # if we just tested logout, then login again
                            self.client.login(**credentials)
                    else:
                        if not quiet:
                            print("SKIP " + regex.pattern + " " + fullname)
            check_urls(module.urlpatterns)
于 2013-10-03T14:50:15.190 に答える
8

出発点として、django-extensionsの show-urlsコマンドを使用します。(ドキュメント)

python manage.py show_urls
于 2013-01-22T11:47:04.590 に答える
4

パラメータのない単純な URL の場合は、次のようなテストを使用できます。

from django import test
from django.core.urlresolvers import reverse
from foo.urls import urlpatterns

class UrlsTest(test.TestCase):

    def test_responses(self):
        for url in urlpatterns:
            response = self.client.get(reverse(url.name))
            self.assertEqual(response.status_code, 200)
于 2013-01-22T08:19:51.500 に答える
1

別のアプローチは、 SentryRavenを使用)のようなロガーを追加し、提供された404ミドルウェアを追加することです(または単に独自のカスタム404ハンドラーを作成します)

于 2013-01-22T09:48:36.893 に答える
0

を使用するアプローチとは少し異なるアプローチを採用しましたreverse。代わりに、実際にサイトをロードしてすべての「href」を検索し、それらすべてを追跡します。以下のコードは、すべての呼び出しを階層として出力します。現在、(リンクをたどった後) 応答コード 200 をアサートします。25000 のサブサイトをテストしている場合は、応答コードをログに記録し、出力を検索するのがおそらく理にかなっています。

from django.conf import settings
from django.test.testcases import TestCase
import re
from urlparse import urlsplit, urljoin

class GenericTestCase( TestCase ):
    fixtures = []

    def test_links( self ):
        self.p1 = re.compile( r'href="([^"]*)"' )
        self.p2 = re.compile( r"href='([^']*)'" )
        self.visited_urls = set()
        self.visit( '/', 0 )

    def visit( self, url, depth ):
        print( '-' * depth + url ),
        self.visited_urls.add( url )
        response = self.client.get( url, follow=True )
        if response.redirect_chain:
            url = urlsplit( response.redirect_chain[-1][0] ).path
            print( ' => ' + url )
            if url in self.visited_urls:
                return
            self.visited_urls.add( url )
        else:
            print( '' )

        self.assertEquals( response.status_code, 200 )

        refs = self.get_refs( response.content )
        for relative_url in refs:
            absolute_url = urljoin( url, relative_url )
            if not self.skip_url( absolute_url, relative_url ):
                self.visit( absolute_url, depth + 1 )

    def skip_url( self, absolute_url, relative_url ):
        return absolute_url in self.visited_urls \
            or  ':' in absolute_url \
            or absolute_url.startswith( settings.STATIC_URL ) \
            or relative_url.startswith( '#' )

    def get_refs( self, text ):
        urls = set()
        urls.update( self.p1.findall( text ) )
        urls.update( self.p2.findall( text ) )
        return urls
于 2015-04-12T01:41:59.603 に答える