学習したデータに基づいて話すマルコフ連鎖をコーディングしました。オンラインで大量のテキスト データのリソースが欲しいのですが、見つかりません (ウィキペディアなどのほとんどのサイトには、プレーン テキスト ファイルではなく、ジャンクがたくさんあります)。
マルコフ連鎖をテストするのに適したテキスト ファイルがたくさんあるサイトはありますか?
gutenberg.org にいくつかのリソースがあるかもしれません。たとえば、テキスト ファイル形式の白鯨の群れのように見えるものを次に示します。
ウィキペディアからタグを削除することだけが問題である場合は、タグを削除するこのようなソースを使用してみてはどうでしょうか?
NLTK テキスト コーパスを試しましたか?
Enron の電子メール データセットを検討してください: https://www.cs.cmu.edu/~./enron/
また、Amazon AWS でもホストされています: https://aws.amazon.com/datasets/enron-email-data/