私はプログラムで検索エンジンとやり取りしていますが、ロボットではなく、クエリを作成する人間であると認識させる必要があります。これには、「ncaa サッカー スケジュール」や「月面着陸はいつですか」など、通常のユーザーが検索する可能性が高いと思われるクエリの生成が含まれます。私はこれらのクエリを毎日 1,000 件以上作成していますが、辞書からランダムな単語を検索しても、それはうまくいきません。
これまで、現実的なクエリを生成する方法をいくつか考えてきました。
- その日の上位の Google (または Yahoo や Bing など) 検索のリストを取得する
- Google のオートコンプリート機能を利用するには、辞書からランダムな単語を入力し、その後にスペースを入力して、推奨されるクエリをスクレイピングします。
後者のアプローチは、多くのリバース エンジニアリングを伴うように思えます。そして、前者のアプローチでは、80 ほどを超えるクエリのリストを見つけることができませんでした。私が見つけた情報源は、AOL トレンド(50 ~ 100) とGoogle トレンド(30) だけです。
人間のような検索フレーズの大規模なセットを生成するにはどうすればよいですか?
(言語に依存する回答: Python でプログラミングしています)