dataset - 解析実験用の膨大な量の平文データ

Question

ルビーで不均一なテキストデータを解析するパーサーを開発しています。そのための十分な数の平文データをどこで入手できるか、誰か教えてもらえますか?

score 6 · Accepted Answer

ここでは、多くのリストを取得できます。

そして私のお気に入りは：

score 5 · Accepted Answer

ウィキペディアをスクレイピングすることもできます(または単にを介して実行することもできますlynx -dump)。これにより、英語以外のテキストの膨大なソースも得られます。Project Gutenbergは、大量のプレーンテキストのもう 1 つの優れたソースです。

2 に答える 2