これはOCRのプロセスの一部です。これは次のとおりです。
文を単語に分割し、次に文字に分割する方法は?
このタスクの候補アルゴリズムは何ですか?
これはOCRのプロセスの一部です。これは次のとおりです。
文を単語に分割し、次に文字に分割する方法は?
このタスクの候補アルゴリズムは何ですか?
As a first pass:
Now all you need a a good enough definition of "large".
まず、NIST (国立標準技術研究所) は、約 15 年前にNIST Form-Based Handwriting Recognition System として知られるプロトコルを公開しました。 OCR の機械学習アルゴリズムへの入力。NIST のこのグループのメンバーも、このシステムに関する多数の論文を発表しました。
彼らの分類器の性能は、アルゴリズムと共に公開されたデータ (「NIST 手書きサンプル フォーム」) によって実証されました。
私がダウンロードして使用した半ダース程度の OCR データ セットのそれぞれは、アルゴリズムへの入力用のデータを準備するために NIST が使用するデータ抽出/準備プロトコルを参照しています。特に、OCR のベンチマーク リファレンス データと見なされているボストン大学の手書き数字データベースを作成するために、これが信頼された方法論であると確信しています。
したがって、NIST プロトコルが真の標準ではない場合、少なくとも OCR アルゴリズムへの入力用に text-as-image を準備する実証済みの方法論です。そこから始めて、そうしない正当な理由がない限り、そのプロトコルを使用してデータを準備することをお勧めします。
要するに、NIST データは、32 ビット x 32 ビットの正規化されたビットマップを事前に印刷されたフォームから直接抽出することによって準備されました。
次に例を示します。
00000000000001100111100000000000 00000000000111111111111111000000 00000000011111111111111111110000 00000000011111111111111111110000 00000000011111111101000001100000 00000000011111110000000000000000 00000000111100000000000000000000 00000001111100000000000000000000 00000001111100011110000000000000 00000001111100011111000000000000 00000001111111111111111000000000 00000001111111111111111000000000 00000001111111111111111110000000 00000001111111111111111100000000 00000001111111100011111110000000 00000001111110000001111110000000 00000001111100000000111110000000 00000001111000000000111110000000 00000000000000000000001111000000 00000000000000000000001111000000 00000000000000000000011110000000 00000000000000000000011110000000 00000000000000000000111110000000 00000000000000000001111100000000 00000000001110000001111100000000 00000000001110000011111100000000 00000000111111111111000000000000000000000000000000000000000111111111111100000000000000000000000000000001111111110000000000000000000000111111110000000000000000000000000000000000000000000000000000000000000000001111111000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000.
BU データ準備手法は NIST 手法を包含していると思いますが、忠実度を高めることを念頭に置いてではなく、ファイル サイズを縮小するために、最後にいくつかの手順を追加しました。特に、BU グループ:
101000000000000000010000001 のようなバイナリシーケンスを見つけるため シーケンス 0000,0001,001,01,1 を検出
matlab で画像処理ツールボックスを使用していると仮定しています。
画像内のテキストを区別する。あなたはフォローしたいかもしれません:
試行錯誤により、5 番目のステップの後に得られる画像に、各文字/単語/行/段落を囲む凸領域が含まれるような適切な係数が得られます。
ノート:
オンライン ドキュメントの「ドキュメントの例」セクションを確認するか、Matlab ヘルプ メニューの画像処理ツールボックス ドキュメントを参照してください。
そこに示されている例は、呼び出す適切な関数とそのさまざまな形式を示しています。