0

学習したデータに基づいて話すマルコフ連鎖をコーディングしました。オンラインで大量のテキスト データのリソースが欲しいのですが、見つかりません (ウィキペディアなどのほとんどのサイトには、プレーン テキスト ファイルではなく、ジャンクがたくさんあります)。

マルコフ連鎖をテストするのに適したテキスト ファイルがたくさんあるサイトはありますか?

4

4 に答える 4

2

gutenberg.org にいくつかのリソースがあるかもしれません。たとえば、テキスト ファイル形式の白鯨の群れのように見えるものを次に示します。

http://www.gutenberg.org/files/2701/2701.txt

于 2016-03-14T03:05:06.920 に答える
1

ウィキペディアからタグを削除することだけが問題である場合は、タグを削除するこのようなソースを使用してみてはどうでしょうか?

http://kopiwiki.dsd.sztaki.hu/

于 2016-03-14T03:02:33.297 に答える
0

NLTK テキスト コーパスを試しましたか?

于 2016-03-14T02:51:13.157 に答える
0

Enron の電子メール データセットを検討してください: https://www.cs.cmu.edu/~./enron/

また、Amazon AWS でもホストされています: https://aws.amazon.com/datasets/enron-email-data/

于 2016-03-14T03:06:09.670 に答える