私はJavaを使用していて、ページ上のテキストを分析できるようにWebサイトのコンテンツを取得しようとしていますが、サーバーからの応答を「GET」するたびに、それはWebサイトページではなくログインページからのものです私が見ていること。
私はすべてのブラウザーで Web サイトにログインしていますが、私のアプリケーションはページを自分のように見ることができません。
また、「Yandex」という API を使用しようとしました --> http://api.yandex.com/rca/ を回避策として使用しました。しかし、(コンテンツを取得する) Yandex からページを呼び出すと、返されたログイン ページに基づく情報しか表示されません。
誰か調査の指示をくれませんか? 私が働いている Web サイトのページで 1 つのアイテムを取得できるようにしたいのですが、それは不可能のようです。
m_strseedpath = "http://myUrl.com/mypage.html"; //not https
URLConnection connection = new URL("http://rca.yandex.com/?key={MyActualKeyNotThisText}&url=" + m_strSeedUrlPath + "").openConnection();
connection.setRequestProperty("Accept-Charset", "UTF-8");
InputStream response = connection.getInputStream();
StringWriter writer = new StringWriter();
IOUtils.copy(response, writer, "UTF-8");
String strString = writer.toString();
System.out.println(strString);