snapshot - 検索エンジンについて: ウェブサイトのスクリーンショットはどのように撮っていますか?

Question

これはばかげた質問かもしれませんが、私にはまったくわからないので、非常に興味があります。だから我慢してください。

私が知っていることは、検索エンジンはサイト内の HTML と単語を読み取るだけだということです。彼らは通常、CSS またはその一部を無視します。彼らは間違いなく画像を読むことができません。彼らは？

彼らが本当にそれらを読むことができない、または無視する場合、私の質問はスクリーンショットを作成する方法です。これは、CSS と同じように表示され、画像を含むページです。

CSS や画像を読み取らず、人間が自分の画面で開くのを好まない場合。彼らはどのようにスクリーンショットを作成しますか?
ありがとう！

score 1 · Accepted Answer

選択したブラウザに表示されているかのようにページのスクリーンショットを撮るアプリがあります。

Browershotは、それを行うオンラインサービスの例です。

ウェブページのサムネイルジェネレータのリンクとプロジェクトは次のとおりです。

Django（Python）を使用して独自のWebサイトサムネイルジェネレーターを構築する
ZubragウェブサイトThumbGenerator（PHP）

score 1 · Accepted Answer

Googleの新しいスクリーンショット機能、または古いキャッシュ機能を参照していますか？あなたの質問はスクリーンショットについて話していて、キャッシュについてはまったく言及していませんが、あなたの質問に対するあなたのコメントは、スクリーンショットではなく、キャッシュを参照していることを示唆しているようです。

スクリーンショットの場合：

あなたは、検索エンジンが通常ウェブサイト上のHTMLとテキストを読むだけであるという点で正しいです、なぜならそれが彼らが必要とするすべてだからです。しかし、それは彼らができないという意味ではありません。

サイトのスクリーンショットを撮りたいときは、ユーザーがサイトにアクセスしたときに通常のブラウザが実行するのとまったく同じように実行します。Webサイト、CSS、画像、その他すべてをダウンロードし、WebKitなどのWebブラウザーのレンダリングエンジンでレンダリングします。

キャッシュの場合：

検索エンジンは通常、HTMLを解析せずに/解析する前に保存するだけです。保存されたHTMLがブラウザに送信され、ブラウザは元のWebサイトからページ内の他のすべてのもの（画像など）を取得します。検索エンジンは何も読み取っていません。ページを逐語的に保存し（URLの書き換えなどの小さな変更を加えて）、ブラウザに提供しているだけです。

score 0 · Accepted Answer

たぶん私はあなたの質問を理解していませんが...

「画像の読み取り」を使用して、画像から検索エンジンにデータを読み込むことを意味しているようです。これは検索エンジンが行います（CSSを含む）。検索エンジンが画像を無視すると言うとき、それは意味のある検索可能なデータとしてそれらを見ていないことを意味します。言い換えれば、「こんにちは」という言葉が含まれている画像を作成し、その画像に単語が含まれていることを確認して理解するという意味で、それを「読む」場合です。通常、検索エンジンはこれを実行しようとはしませんが、後でユーザーに画像を表示できるようにしたい場合は、検索エンジンが画像をストレージに「読み込み」ます。

score 0 · Accepted Answer

検索エンジンは、インデックス作成にCSSと画像コンテンツを使用しませんが、それらをサーバーに保存して、サイトのキャッシュバージョンを作成できます。

グーグルの場合、テキストファイルのみを保存していると思います。HTML、CSS、おそらくJavaScriptですが、画像は保存していません。

snapshot - 検索エンジンについて: ウェブサイトのスクリーンショットはどのように撮っていますか?

4 に答える 4

Related

Reference