1

私はマーケティング チームの開発者ですが、よくリクエストされる機能の 1 つは、X に戻ってサイト (または X ページ) がどのように見えたかを確認できるかということです。

この要求を解決するための良い解決策はありますか?

4

8 に答える 8

3

ソース管理は、社内でリクエストを解決できるはずです。物事に適切にラベルを付け、そのラベルを展開する内部サーバーを用意すれば、問題はないはずです。自動化された展開ツールがあり、ラベルを賢く選択する場合、ユーザーにラベルを入力させるだけで、ラベル X でソースをチェックアウトして展開するアプリを比較的簡単に作成できます。ラベルに日付のようなものがあれば、正しい形式で日付を入力し、デプロイを 5 分待つだけで済みます。

于 2009-05-04T19:59:08.440 に答える
1

Grant が言うように、スペースを節約するために wget をリビジョン管理と組み合わせることができます。Internet Archive や WebCite が無期限に存在するとは信じていないため (そして、それらはあまり検索可能ではありません)、通常のブラウジングでこれを行うためのスクリプトを実際に作成しようとしています。

スクリプトは次のようになります。cd to directory; 正しいwget --mirrorコマンドなどを呼び出します。を実行darcs add $(find .)して、新しいファイルをリポジトリにチェックインします。それからdarcs record --all

Wget は、変更されたファイルを更新されたバージョンで上書きする必要があります。darcs add は、新しいファイル/ディレクトリを記録します。darcs record は変更を保存します。

日付 X のビューを取得するには、レポから日付 X までのすべてのパッチをプルするだけです。

ファイルの内容が実際に変更されない限り、DVCS は履歴を保存しないため、無制限に多くの複製コピーを保存することはありません。ページが変更され、以前にダウンロードした CSS や JS、または画像が不要になるという意味で「ガベージ」が発生しますが、定期的にすべてを削除してパッチとして記録するだけで、次の wget 呼び出しでは必要なものだけが取り込まれます。ウェブページの最新バージョンに必要です。(そして、ディスク上のファイルではなく履歴を検索するだけで、全文検索を行うことができます。)

(大きなメディア ファイルがダウンロードされている場合は、それらが編集rm $(find . -size +2M)される前にそれらを削除するなどの方法で放り込むことができます。)darcs add

編集:私は明示的なバージョン管理に煩わされることはありませんでしたが、wget に複製を作成させ、時々それらをfdupes. http://www.gwern.net/Archiving%20URLsを参照してください。

于 2010-12-17T22:03:13.920 に答える
1

帰りのマシンを見てください。 完璧ではありませんが、私が取り組んだ恥ずかしい古いサイトがまだいくつかあります:)

于 2009-05-04T19:37:41.643 に答える
1

archive.org のウェイバック マシンを見たことがありますか?

http://www.archive.org/web/web.php

それがニーズを満たさない場合は、ソース管理リポジトリを使用して、特定の日付のバージョンを取得できる何かを自動化できます。

于 2009-05-04T19:37:57.650 に答える
1

他の人が提案したものと同様に (動的な Web サイトを想定)、出力キャッシュを使用して Web ページのコードを生成し、Subversion を使用して変更を追跡します。

WayBack マシンの使用は、このシステムをセットアップする前に Web ページを表示するように求められた場合など、おそらく最後の手段にすぎません。WayBack Machine に必要なものがすべて含まれているとは限りません。

于 2009-05-04T20:15:05.907 に答える
1

私の提案は、毎晩サイト上で単純にwgetarchive.yourdomain.comを実行し、それを に保存することです。現在のページの URL を日付ピッカーに渡す適切なアクセス許可を持つユーザーのために、各ページにコントロールを追加します。日付が選択されたら、 load archive.yourdomain.com/YYYYMMDD/original_url.

ユーザーが壊れたリンクなしでサイト全体を閲覧できるようにするには、archive.yourdomain.comURL を書き換えたり、サイトのアーカイブ コピーをリポジトリから のルートにコピーしたりする必要がある場合がありますarchive.yourdomain.com。ディスク容量を節約するには、これが最適なオプションです。コピーwgetを圧縮して保存し、ユーザーが要求した日付を抽出します。これには、複数のユーザーが異なる日付からアーカイブされた複数のページを同時に表示したい場合にどのように対処するかなど、いくつかの問題があります。

wget動的に提供されるコンテンツ、エラー、欠落、ランダムにローテーションされた広告などをすべて備えた、WWW 訪問者に表示されたとおりのページを取得できるため、ソース管理から取得するよりも、毎晩サイトを実行する方が優れていることをお勧めします。

編集:wget出力をソース管理に保存できますが、ソース管理外のファイルシステムに圧縮するよりも何が得られるかわかりません。また、この計画は、任意のサイズの Web サイトを想定して、時間の経過とともに大量のディスク領域を使用することに注意してください。

于 2009-05-04T20:16:32.190 に答える
0

WayBackMachineが役立つかもしれません。

于 2009-05-04T19:37:09.743 に答える
0

ページと正確に何を求めているかによって、ページのコピーをソース管理に置くことを検討するかもしれません。

コンテンツがデータベースにある場合、これはおそらく機能しませんが、時間の経過とともに変更される単なる HTML ページである場合は、SCM がこれを行う通常の方法です。誰もが言及している WayBackMachine は優れていますが、このソリューションはより企業固有のものであり、時間の経過に伴う変化のニュアンスを捉えることができます。WayBackMachine を制御することはできません (私の知る限り)。

Subversion では、フックを設定してこれを自動化できます。実際、データベースのコンテンツを使用している場合でも、これは機能する可能性があります...

于 2009-05-04T20:01:04.927 に答える