copyscape はどのように Google API を使用していますか? ajax API は JavaScript が有効になっているブラウザでのみ動作するため、この API は使用されません。SOAP API は、商用利用が許可されておらず、1 日あたり 100 件を超えるクエリが許可されていないため、使用されません。
2 に答える
CopyscapeはGoogleAPIを使用せず、代わりにGoogle検索を使用します。http://www.google.com/search? q =SearchKeywordshereへの単純なcurlリクエストを実行します。次に、正規表現パターンを使用して、タイトル、説明、リンク、およびユーザーへの表示を検索します。ただし、これはGoogleの利用規約に厳密に違反しているため、禁止される可能性もあります。そのため、プロキシ(またはその他のIP非表示方法)を使用して、検索ごとにIPを非表示にします。
彼らのよくある質問から、彼らはそれをどのように行うかを説明しました.
Copyscape はどこで結果を取得しますか?
Copyscape は Google と Yahoo! を使用しています。合意された条件の下で、検索プロバイダーとして。これらの検索プロバイダーは、後処理なしで標準の検索結果を Copyscape に送信します。Copyscape は複雑な独自のアルゴリズムを使用してこれらの検索結果を変更し、?剽窃チェック サービスを提供します。料金は Copyscape の付加価値サービスに対するものであり、検索プロバイダーによる検索結果の提供に対するものではありません。
分析
CopyScape のおかげで、Google と Yahoo が特別な契約を結んでいることを 100% 確信できました。CopyScape が、検索エンジンが提供するGoogle Enterprise Searchと同様の検索ソリューション (おそらく公開されていないが類似している) を使用していることは 80% 確信しています。
CopyScape は結果をスクレイピングしませんが、json や xml などの API ベースの形式を取得しています。これは、プロバイダー (Google と Yahoo) にとって、帯域幅と応答時間の改善に役立ちます。この部分を思いついたのは、Python を介してフレーズ検索 (「フレーズ マッチング」) で Google 検索結果をスクレイピングしようとした以前の試みからです。あなたのスクレイピング ボットは 503 をバイパスできませんし、Google が数百回の結果 (100 回の検索間隔または 50 回の検索間隔) 後に応答するという既知の方法もありません。
彼らは明らかに、ブラウザーの自動化を行ってから、Web ドライバーと Python などのプログラミング言語との間でデータをフェッチしていませんでした。私はそれを試してみましたが、同様の結果が得られましたが、自動サーチャーがキャプチャに手動で介入する必要があり、スクレイピングを続行できることを除いて. また、数分/秒でパッチが適用された最新のバイパスを使用してみました。確かに、彼らは検索エンジンからの自動スクレイピングを行っていません。長期的には機能しません。
彼らは特権をどのように使っているのでしょうか?
彼らは報われた/特別な条件を持っているので、特別な API から自動化できるようになりました。彼らは、Google Search Enterprise と Yahoo Search Marketing Enterprise を使用しているか、より特別なソリューションを使用しています。
リストを使用しない
- 通常/無料の API (Google と Yahoo が無料にしたかどうかは不明)
- スクレイパー (スクレイピー、美しいスープ、セレンなど)
リストの使用
- エンタープライズ レベルの API
- サーバー Bash スクリプト / Python スクリプト / Ruby スクリプト / スケーラビリティなどのための PHP スクリプト。
希望
CopyScape の誰かが情報を漏らして、人々が推測しないようにして、CopyScape がより多くの競争を持つようになることを願っています。