python - robots.txt によってブロックされたインターネットページが見つかりません

Question

問題：大学の数学の講義の答えと演習を見つけること。ヘルシンキ

実用上の問題

Disallowrobots.txtにある .com を含むサイトのリストを作成する
*.pdf のファイルを含む (1) のサイトのリストを作成する
(2) のサイトのうち、pdf ファイルに「analyysi」という単語が含まれているサイトのリストを作成する

実用的な問題の提案

問題 3: PDF ファイルからデータをスクレイピングするコンパイラを作成するには

質問

登録されている .com サイトを検索するにはどうすればよいですか?
Python の defaultdict と BeautifulSoap を使用して、実際の問題 1 と 2 をどのように解決しますか?

score 6 · Accepted Answer

「Analyysi」という単語が含まれる PDF ファイルがあるインターネット上のすべての Web サイトを見つけようとしています。

あなたの質問への回答ではありませんが、サイト所有者がインデックスに登録されたくないという希望を尊重してください。

score 4 · Accepted Answer

あなたの質問は間違っています。

(2) に関しては、Web サーバー上のすべての PDF ファイルを見つけることができるという誤った仮定をしています。これは、複数の理由で不可能です。第 1 の理由は、すべてのドキュメントが参照されるわけではないことです。2 つ目の理由は、それらが参照されていても、参照自体が見えない可能性があることです。最後に、オンザフライで生成される PDF リソースがあります。つまり、あなたがそれらを求めるまで、それらは存在しません。そして、それらはあなたの入力に依存するため、それらの数は無限にあります。

質問 3 は、ほとんど同じ理由で間違っています。特に、クエリで使用した場合にのみ、生成された PDF に「analyysi」という単語が含まれる場合があります。例http://example.com/makePDF.cgi?analyysi

score 3 · Accepted Answer

私があなたの要件を理解している場合、どのサイトがあなたの基準に一致するかを確認するために、基本的にすべての可能なサイトをスパイダーする必要があります。使用しているツールに関係なく、より高速で効率的なソリューションは見当たりません。

score 1 · Accepted Answer

私があなたを正しく理解しているなら、すでに述べたように、インターネット全体をスキャンせずにこれがどのように可能であるかはわかりません。あなたはグーグルにないインターネット上のページを探していますか？ネット上のすべてのサイトのデータベースはありません、そしてそれらが検索エンジンによって索引付けされているかどうか...

あなたは文字通りウェブ全体にインデックスを付けてから、各サイトを調べて、それらがグーグル上にあるかどうかを確認する必要があります。

あなたの質問は両方の間で切り替わるように見えるので、これが1つのサイトまたはWebに関連するかどうかも混乱しています。

score 0 · Accepted Answer

大学のイントラネットの Web ページに講義があり、大学のイントラネットの外からこのページにアクセスできるようにしたいということですか。

Uni のイントラネットにアクセスするにはパスワードを入力する必要があり、Google は Uni のイントラネットページをインデックスに登録しないと思いますが、これはイントラネットの性質です。

上記の仮定がすべて正しければ、大学のイントラネット以外の Web サイトで PDF ファイルをホストするだけで済みます。最も簡単な方法は、ブログを開始し (費用はかからず、非常に簡単かつ迅速に行うことができます)、そこに PDF ファイルを投稿することです。

次に、Google はページのインデックスを作成し、PDF から「データをスクレイピング」します。これは、PDF ファイル内のテキストが検索可能になることを意味します。

python - robots.txt によってブロックされたインターネット ページが見つかりません

6 に答える 6

Related

Reference

python - robots.txt によってブロックされたインターネットページが見つかりません