文字の頻度に基づいて「通常の英語」のテキストを暗号化および復号化するソフトウェアを作成するように依頼されました。
問題は、公式の頻度が一致するテキスト サンプルをどこで見つけることができるかということです。
今までレフ・トルストイの「戦争と平和」をやってみたのですが、うまくいきませんでした..
LE: 単語のリストだけではなく、処理を行うためのテキスト サンプルが必要です。
LE2: 目標は、2000 文字の長さのテキストで 26 から 20 を推測することです。
文字の頻度に基づいて「通常の英語」のテキストを暗号化および復号化するソフトウェアを作成するように依頼されました。
問題は、公式の頻度が一致するテキスト サンプルをどこで見つけることができるかということです。
今までレフ・トルストイの「戦争と平和」をやってみたのですが、うまくいきませんでした..
LE: 単語のリストだけではなく、処理を行うためのテキスト サンプルが必要です。
LE2: 目標は、2000 文字の長さのテキストで 26 から 20 を推測することです。
infochimpsをチェックしてください; 便利な無料のデータセットがたくさんあります。
英語のテキストコーパスを検索しています。例: http: //faculty.washington.edu/ebender/corpora/corpora.html#modern。そこにリストされているものから、私はプロジェクトグーテンベルクが無料であることを知っています。他の多くはそうではないかもしれません。
公式の度数分布が何を意味するのかわかりません。度数分布のポイントは、実際に見られるものと一致することです。一致しない場合は、度数分布表の問題です。
この英単語のリストを試してください。