ルビーで不均一なテキストデータを解析するパーサーを開発しています。そのための十分な数の平文データをどこで入手できるか、誰か教えてもらえますか?
7260 次
2 に答える
6
ここでは、多くのリストを取得できます。
http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
そして私のお気に入りは:
http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/
于 2011-04-26T03:54:16.280 に答える
5
ウィキペディアをスクレイピングすることもできます(または単に を介して実行することもできますlynx -dump
)。これにより、英語以外のテキストの膨大なソースも得られます。Project Gutenbergは、大量のプレーン テキストのもう 1 つの優れたソースです。
于 2011-04-26T04:01:35.730 に答える