私の個人的な関心事ですが、調査の結果、独自の OCR を開始するのはそれほど簡単ではないことがわかりました。ただし、文字を認識するだけでなく、フォーマットされた文字列で結果を返すという課題を達成する方法についてのアイデアを聞きたいです。たとえば、テーブルの画像があります (「|」と「_」が直線で描かれた画像だと想像してください):
|数値、別の数値|テキスト|
|1,4 |まあまあ |
サイレント OCR を使用した後、「|Number, AnotherNumber|SomeText|\n|1,4|Blah|」という結果が得られます。どうすればこれを達成できるか、どのようなツール/ライブラリを利用できるかについてのアイデアはありますか? また、これを Visual Studio 2010 を使用して C# で記述したいと思います。理想的には PDF を操作することですが、異なる画像形式でも問題ありません。すでにいくつか見ましたが、C++またはCを使用しているため、互換性がないようです。ありがとうございます。アリーナ。