0

カレッジボードなどのWebサイトで、JavaまたはPythonを使用して、さまざまな大学から大量の情報を収集する方法はありますか?

このようなことを行う方法を知りたいのですが、デフォルトのライブラリ以外で実際にプログラミングしたことはありません. アプローチを開始する方法がわかりません。

例:

このように見えるリストに大学の大きなリストを入力します

https://bigfuture.collegeboard.org/print-college-search-results

次に、コードは次のような各大学のページを見つけます。

https://bigfuture.collegeboard.org/college-university-search/alaska-bible-college?searchType=college&q=AlaskaBibleCollege

次に、授業料、サイズなどの情報をページから収集します。

そして、分析などに使用できるクラスに保存します

このようなことは可能ですか?ソーシャル ネットワークで同様のプログラムを見たのを覚えています。これについてどうすればいいですか?

4

4 に答える 4

0

ここで質問しているのはスクレイピングと呼ばれるもので、一般的に正しく行うのは非常に難しいものです。たくさんのことを心配する必要があります:

  1. データは、プログラムによる消費ではなく、表示用にフォーマットされています。ごちゃごちゃしていたり​​、一貫性がなかったり、不完全だったりする可能性があります。
  2. 動的コンテンツが存在する場合があります。つまり、ページの最終状態を取得するために JavaScript VM などを実行する必要がある場合があります。
  3. フォーマットは頻繁に変更される可能性があります。

したがって、最初にすべきことは、スクレイピングに頼る前に、別の方法でデータにアクセスできるかどうかを確認することです。これらのページのソースを調べてみると、XML または JSON で表示レイヤーにデータを供給する Web サービスが見つかる場合があります。それは始めるのにはるかに良い場所です。

于 2013-06-01T01:41:33.640 に答える