1

私が行っている映画分析の完全なリストをダウンロードするために、サーバーにこのページを取得させています: http://www.imdb.com/chart/top

しかし、そうすると、多くの映画のタイトルが別の言語で表示されます. たとえば、The Shawshank Redemption の代わりに、次のように表示されます。

私は curl を使用していますが、PHP の単純な file_get_contents が再現する最速の方法です。

何が起こっているのか、どうすれば修正できるのか、誰にもアイデアがありますか?

更新: IMDB は、奇妙な理由で私のサーバーが別の国にあると解釈している可能性があります。米国にあることを強制する方法はありますか?

4

2 に答える 2

1

ユーザーアカウントを使用し、 https://secure.imdb.com/register-imdb/siteprefsでタイトル表示言語を設定します

次に、スクレイパー内でログイン プロセスを自動化し、通常のプロセスに従います。

于 2011-01-04T03:59:01.170 に答える
0

Windows環境でこれを処理する方法を知っています。サーバー OS についても同じアイデアを借りることができます。

WebBrowser コントロールを備えた Windows では、メニューの [View] -> [Encoding] を使用して、テキストを適切に表示する言語を選択できます。その後、ブラウザ コントロールからソース ページを取得すると、正しいコーディングになります。

映画の分析には、Windows プラットフォームでのみ動作する IRobotSoft Web スクレーパーを簡単に使用できます。

于 2010-12-30T14:21:53.060 に答える