0

アルゴリズムのテストに使用できるオンラインのサンプル テキストがあるかどうか疑問に思っています。たとえば、単純なトークン化関数を作成していて、単語の途中の句読点 ("don't"、"O'Brien")、ダッシュ (私の目的では、"Sacksville -Baggins" は単一のトークンである必要があります)、国際文字など。

同様に、グーテンベルグで良いサンプル テキストを作成したり検索したりするのではなく、他のアルゴリズムを作成するときに、それらをテストするのに理想的なドキュメントを手元に用意しておくと便利です。

また、スペルや文法ツールなどのテストに使用できるテキストも役立ちます。

4

1 に答える 1

0

このウィキペディアのエントリには、多数のテキスト コーパスがリストされています。また、NLTK corpora listにはいくつかの適切なポインタがあります。また、 Google ngram datasetsを確認することもできます。

于 2012-10-24T16:27:03.383 に答える