java - ボイラーパイプを使用してニューヨークタイムズの記事を解析できません

Question

「ニューヨークタイムズ」の URL からニュース記事を取得しようとしていますが、何も出力されませんが、他の新聞を試してみると、出力が得られます。コードに何か問題があるのか、それともボイラーパイプがフェッチできないのか知りたいです。さらに、出力が英語ではない場合があります。これは、主に「毎日のニュース」でユニコードで表示されることを意味します。その理由も知りたいです。java.io.InputStream をインポートします。java.net.URL をインポートします。

import org.xml.sax.InputSource;

import de.l3s.boilerpipe.document.TextDocument;
import de.l3s.boilerpipe.extractors.ArticleExtractor;
import de.l3s.boilerpipe.extractors.DefaultExtractor;
import de.l3s.boilerpipe.sax.BoilerpipeSAXInput;

class ExtractData
{
    public static void main(final String[] args) throws Exception 
    {
        URL url;
        url = new URL(
                "http://www.nytimes.com/2013/03/02/nyregion/us-judges-offer-addicts-a-way-to-avoid-prison.html?hp&_r=0");

        // NOTE We ignore HTTP-based character encoding in this demo...
        final InputStream urlStream = url.openStream();
        final InputSource is = new InputSource(urlStream);
        final BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
        final TextDocument doc = in.getTextDocument();
        urlStream.close();

        // You have the choice between different Extractors

        //System.out.println(DefaultExtractor.INSTANCE.getText(doc));
        System.out.println(ArticleExtractor.INSTANCE.getText(doc));
    }
}

score 1 · Accepted Answer

Nytimes.com has a paywall and it returns HTTP 303 for your request, you could try to handle the redirect and cookies. Trying other user-agent strings might also work.

java - ボイラーパイプを使用してニューヨークタイムズの記事を解析できません

1 に答える 1

Related

Reference