1

タイトルがあまり意味をなさなかった場合は申し訳ありませんが、必要なものは次のとおりです。

したがって、私はオープンソースのocrプログラムtesseractを実行しており、コマンドプロンプトで使用します(私はWindowsを使用します)。'tesseract input.jgp output.txt'このコマンドはinput.jpgを取得し、output.txtに変換します。

変換する必要のある入力ファイルが何百もあります。(またはそれ以上)さまざまな入力ファイルに対してtesseractプログラムを自動的に実行するようにプログラムを作成する方法はありますか?

説明が足りない場合は本当に申し訳ありません。その場合は、他に何を説明すべきか教えてください。

ありがとうございました

4

3 に答える 3

1

Windowsのcmdシェルを使用して、jpgファイルを含むフォルダーに移動して試してください

 for %i in (*.jpg) do tesseract %i %~ni.txt

これにより、jpgファイルごとにtesseractが実行され、出力は同じ名前のテキストファイルに配置されますが、jpgの代わりに「txt」という接尾辞が付けられます。「for」コマンドの詳細については、コマンドラインで「helpfor」と入力してください。cmdシェルプログラミングのチュートリアルが必要な場合は、次のチュートリアルを試してください:http ://www.csie.ntu.edu.tw/~r92092/ref/win32/win32scripting.html#Win32Scripting-Control-Constructs

于 2013-03-01T22:58:25.447 に答える
0

すべての入力ファイルは1つのフォルダーにありますか?バッチファイルを作成して、フォルダー内のすべてのjpgファイルを反復処理し、それらのファイルに対してtesseractプログラムを実行できます。

「イテレータ」プログラムを特定の言語でプログラムする場合は、その言語にWindowsプログラムを呼び出す方法があるかどうかを確認してください。ほとんどの言語には、これを行うための少なくとも1つの方法があります。

参考までに、入力ファイルが1つのフォルダーにない場合は、「イテレーター」プログラムですべての画像の場所を指定する方法が必要になります。それをどのように行うかは、入力ファイルがどのように分散されているかに基づいています。

于 2013-03-01T22:42:35.240 に答える
0

TesseractのGUIフロントエンドであるVietOCRは、バルクOCR機能のサポートを提供します。

于 2013-03-02T02:42:45.787 に答える