1930 年の米国国勢調査は、一連の大きな PDF ファイルとしてオンラインで入手できます。悲しいことに、私が見る限り、OCR も実行している無料のサービスはありません。一方、「熱狂的なアマチュア」によって行われた成功した OCR のオンライン例はたくさんあります。それでは、最初から始めましょう。
たとえば、単一のページはhttp://i47.tinypic.com/2i7tt8k.pngで見ることができ、別のページは次のとおりです。
画像からさまざまな単語を抽出して、それらを認識するシステムのトレーニングを開始できるようにするには、どのような方法がよいでしょうか? 最終的に、私はこれをトリッキーな機械学習の問題と見なしています。
http://archive.org/details/newyorkcensus00reel1475および関連リンクから画像ファイル全体をダウンロードできます。