定義方法はわかりませんが、基本的には、特定の URL から関連する画像とテキストの要約を取得したいと考えています。
たとえば、ユーザーが Facebook の共有ボックスへのリンクを貼り付けると、記事のタイトルや記事自体からの短いテキスト ブロック、および関連する画像がすぐに取得されます。サイトのロゴや記事自体のテキストなど、間違った画像を取得することはありません...
Google+ やその他のソーシャル ネットワークやサービスについても同様です。
以下のコードを使用してページのコンテンツを読む必要があると想定して始めました。どの画像が (記事本文から) 関連する画像で、どのテキストが記事のテキストであるかをどのように判断できますか?
URL oracle = new URL("http://www.oracle.com/");
BufferedReader in = new BufferedReader(
new InputStreamReader(oracle.openStream()));
String inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
in.close();
もちろん、ここでコードを求めているわけではありません (たとえば、誰かがスニペットを持っていて、喜んで共有する場合を除きます) が、これにアプローチする方法についても... どこから始めればよいでしょうか?
どんな助けでも大歓迎です!