「ネットワークは何を知っておくべきですか?」にURLを貼り付けると ボックス(Facebookのステータスボックスに似ています)は、私のサイトからデータを取得し、下のボックスにタイトル、URL、テキストを入力します。
しかし、それが引っ張っているテキストは、主要な記事ではなく、私の右のイベントのレールからのものです。
プルする必要があると思われる情報を指定または通知する方法はありますか?
LinkedInは、Facebookがページに関するメタデータを提供するために使用するOpenGraphタグのサブセットもサポートしています。これはここに文書化されています: https ://developer.linkedin.com/documents/setting-display-tags-shares
ただし、LinkedInスクレーパーは、ページが共有されるときにページデータをキャッシュすることに注意してください。キャッシュにあるもの以外の詳細情報を探すために毎週ページを再スクレイプすることになっていますが、再スクレイピングは現在(2012年4月下旬現在)正しく機能していません-これは、ページ名を変更するか、試す必要があることを意味しますページを再読み込みするための偽のクエリパラメータを使用したキャッシュバスティング。
ページ上のからタイトルを引き出しているよう<h1>
です。
元々はページの最後から引っ張っていました-それを削除すると、ページの 最初<h1>
からタイトルが取得されました。 <h1>
どちらも正しくなかったので<h1>
、記事の実際のタイトル(とにかくそうあるべきだった)だけが残るまでタグを削除し続け、それが機能しました。
この変更後、正しいタイトルとテキスト(<h1>
記事のタイトルの直後のヘッダータグでラップされていないテキストの最初のビット)がプルされました。