2

単語が出現するWebページの量を私に与えることができる良いサービスはありますか?

正規化されたGoogle距離を計算するためにこれが必要です。数年前、Google Web検索APIがありました。これを呼び出して、オカレンスと検索結果(実際には必要ありません)を取得できます。

このWeb検索APIは現在Googleカスタム検索APIに置き換えられていますが、このサービスのコストは私の目的には高すぎます。

BingSearchAPIとYahoo! BOSS Search APIは、最大50の検索結果のみを返し、単語の出現の推定値を返さないため、オプションでもありません。

すでにインターネットでかなりの検索を行っていますが、必要な情報を提供するものを見つけることができません。

提案をありがとう。

4

3 に答える 3

0

(遅くなりましたが、同じ問題を解決しようとしているときにこれを見つけただけです)

おそらくまともな代替品は、Google の Web1T Corpusでしょう。あなたのユースケースにとって完璧ではないことは間違いありませんが、おそらく何もないよりはましです。特に、コーパスには 5 グラムしか含まれていないため、f(x, y)カウントは最大 3 つの他の単語で区切られた単語からのみ導出できます。これは、多くの場合、カウントがゼロになることを意味します。実際のGoogleの結果からカウントします(グレッグのリンクが私たちに言ったように、番号が存在すると仮定します)。もう 1 つの潜在的な問題は、2006 年までのデータしか含まれておらず (気にしないかもしれません)、英語しか含まれていないことです ( 10 のヨーロッパ言語のバージョンですが)。もご利用いただけます)。ああ、それは 150 ドルです。わいせつではありませんが、経理部門に対処しなければならないことを意味する可能性があります。

于 2013-02-24T07:22:33.933 に答える
0

Rcurlを使用してRで行います

search_result_adress <- sprintf("http://www.google.com/search?q=%s",searched_expression) result_page_source_as_string <- getURL(search_result_adress,.opts = list(ssl.verifypeer = FALSE))[[1]]

次に、結果は「About」と「results」の間の文字列に配置されます。正規表現のスキルが恥ずかしくて、自分のソリューションを表示できませんが、きっと理解していただけると思います:)。

ページ数は確かに正確ではありませんが、とにかく存在しない単語を検索から削除することで、より安定した結果を得ることができるため、Google はよりハードに検索します。私はそれらをもっと信頼する傾向があります。

「文字」の検索例

文字は 290,000,000 の結果を返します。

character -potato は 931,000,000 を返します

文字 -hincbhjvmzsslzlkjed は 1,780,000,000 を返します

character -zzzanjbedlkjzd も 1,780,000,000 を返し、安定化を示しています

一般的ではないクエリの場合、見積もりはより適切です。

「Google は私をイライラさせます」は 3,920 件の結果を返します。

「Google は私をイライラさせます」 -potato は 2,870 を返します。

「グーグルは私をイライラさせます」 -hincbhjvmzsslzlkjed は 2,860 を返します。

于 2014-09-12T09:53:04.280 に答える
0

まず、以下をお読みください:

http://searchengineland.com/why-google-cant-count-results-properly-53559

これを行うために blekko API の結果を提供しますが、主要な検索エンジンが提供するカウントは不正確であるため、この手法全体が無効であると考えています.

于 2012-11-28T23:08:53.193 に答える