7

ルビーで不均一なテキストデータを解析するパーサーを開発しています。そのための十分な数の平文データをどこで入手できるか、誰か教えてもらえますか?

4

2 に答える 2

6

ここでは、多くのリストを取得できます。

http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public

そして私のお気に入りは:

http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/

于 2011-04-26T03:54:16.280 に答える
5

ウィキペディアをスクレイピングすることもできます(または単に を介して実行することもできますlynx -dump)。これにより、英語以外のテキストの膨大なソースも得られます。Project Gutenbergは、大量のプレーン テキストのもう 1 つの優れたソースです。

于 2011-04-26T04:01:35.730 に答える