3

URL のリストがあり、それらの「説明」を収集しようとしています。説明とは、たとえば、リンクをグーグルで検索した場合に何が表示されるかを意味します。たとえば、http://stackoverflow.com">Google: http://stackoverflow.com では、説明が次のように表示されます。

言語に依存しない共同編集された、プログラマー向けの質問と回答のサイト。ユーザーの投票とタグによって表示される質問と回答。

これは、私が持っている URL について蓄積しようとしているデータです。

URL のメタ ディスクリプションを解析してみましたが、ほとんどの場合、メタ ディスクリプションがありません (それでも、Google や他の検索エンジンはなんとかしてディスクリプションを取得しています)。

何か案は?各リンクを「ググって」データをスクレイピングするだけですか? Googleはこれを好まない気がします...

みんなありがとう。

4

7 に答える 7

1

検索エンジンが異なれば、説明のメタ タグがない場合にページから説明を取得するためのアルゴリズムも異なります。タグがあっても無視する人もいます。

Google の説明が必要な場合、それを取得する最も正確な方法は、それをスクレイピングすることです。それ以外の場合は、独自のコードを作成するか、それを実行するコードを Web で調べてください。

于 2008-11-19T05:51:28.223 に答える
1

これらはスニペットと呼ばれます。

Google は独自の (そしておそらく特許を取得した) 方法を使用してこの情報を収集するため、簡単な答えはありません。

あなたが提案するように、メタディスクリプション情報があればそれを使用します。( Google に役立つメタ情報を設定する方法.)

また、スニペットを含めないというページの作成者からの要求も尊重します。( Google がスニペットを表示しないようにする方法) おそらくこれも尊重する必要があります (もちろん、robots.txt も同様です)。

OTSなどの既存の自動要約パッケージで運が良いかもしれません。

于 2008-11-19T13:09:50.413 に答える
0

AboutUs.org(つまり、http: //www.aboutus.org/StackOverflow.com )を確認することをお勧めします。ただし、サイトにaboutusページがあり、メタディスクリプションがない可能性はほとんどありません。

于 2008-11-19T05:57:07.573 に答える
0

グーグルがこれをどのように行うかを説明するかもしれないいくつかの情報:

于 2008-11-19T05:58:55.650 に答える
0

私はGoogleAPIに精通していませんが、おそらくそのような情報を取得する公式の方法があります。

于 2008-11-19T06:22:32.560 に答える
0

英語のコンテンツを想定できる場合は、最初にメタディスクリプションを検索できます。それが機能しない場合は、最初の2つまたは3つの文のような単語シーケンスを検索できます。

私が取り組んだ製品は、ピリオドで区切られた>n個の「単語」のシーケンスを複数含む最初のPまたはDIVを探しました。要約段落として、合計x語までの2つまたは3つの文のようなシーケンスを使用します。100%正確ではありませんでしたが、平均的なケースには十分でした。ナビゲーション要素などを排除するために、単語数を数回調整しました。

于 2008-11-19T07:05:06.280 に答える
0

面白い。一部のソースは他のソースよりも優れています。

「audiotuts.com」については、 GoogleはAboutUs.comよりも悪い説明をしています。

グーグル

11 月 18 日 一般 Joel Falconer 著 · 1. 最近、AUDIOTUTS の読者からクリエイティブなプロセスについて尋ねられました。これは一筋縄ではいかない話題ですが…

AboutUs.com:

AUDIOTUTS は、ミュージシャン、プロデューサー、オーディオ ジャンキーのためのブログ/チュートリアル サイトです。人気の PSDTUTS、VECTORTUTS、NETTUTS の姉妹サイトです。

私はこのような問題が大嫌いです... 些細なはずなのに、そうではありません!

于 2008-11-19T06:29:32.187 に答える