OCRは、私のコンテンツではうまく機能しません。a)ラスター画像を生成する必要があるベクトル形式であり、必要なDPIで非常に大きくなるためです。b)テキストがまばらで(広い領域に広がっている)、テキスト行に表示されず、回転またはミラーリングされていることがよくあります。プラス面として、テキストはほとんどの場合、一定のサイズ(または少数のサイズ)の中心線を使用してストロークされます。
これは手書き認識と同様の問題であるように思われますが、図面内に大量の非文字データが含まれる大きな座標空間(つまり、一度に1つの文字や単語ではない)で動作する点が異なります。
この種の問題に関する調査作業はほとんどなく、コードもさらに少なくなっています。私が見なければならないコードライブラリまたはアルゴリズムはありますか?