image-processing - 1930 年米国国勢調査の OCR

翻译自：https://stackoverflow.com/questions/14592996 2013-01-29T21:53:30.633

145 次

1930 年の米国国勢調査は、一連の大きな PDF ファイルとしてオンラインで入手できます。悲しいことに、私が見る限り、OCR も実行している無料のサービスはありません。一方、「熱狂的なアマチュア」によって行われた成功した OCR のオンライン例はたくさんあります。それでは、最初から始めましょう。

たとえば、単一のページはhttp://i47.tinypic.com/2i7tt8k.pngで見ることができ、別のページは次のとおりです。

ここに画像の説明を入力

画像からさまざまな単語を抽出して、それらを認識するシステムのトレーニングを開始できるようにするには、どのような方法がよいでしょうか? 最終的に、私はこれをトリッキーな機械学習の問題と見なしています。

http://archive.org/details/newyorkcensus00reel1475および関連リンクから画像ファイル全体をダウンロードできます。

0 に答える 0