上付き文字付きのテキストを含む画像を取得する必要がある単純なプロジェクトを開始しました。次に、OCR (現在は tesseract を使用しています) を使用して、上付き文字 + 通常の文字を認識する必要があります。
たとえば、Cl² などの化学式がありますが、tesseract を使用してそれを認識すると、Cl2 (すべて 1 行) が得られます。
それで、この問題の解決策は何ですか?上付き文字を読み取る機能を持つ他の OCR API はありますか?
上付き文字付きのテキストを含む画像を取得する必要がある単純なプロジェクトを開始しました。次に、OCR (現在は tesseract を使用しています) を使用して、上付き文字 + 通常の文字を認識する必要があります。
たとえば、Cl² などの化学式がありますが、tesseract を使用してそれを認識すると、Cl2 (すべて 1 行) が得られます。
それで、この問題の解決策は何ですか?上付き文字を読み取る機能を持つ他の OCR API はありますか?
OCR システムのより高度な機能に触れる非常に良い質問です。
まず第一に、OCR システムにあるかもしれない機能を見落としていないことを確認してください。プレーンな TXT 形式ではなく、何らかのリッチ テキスト対応のビューアで結果テストを確認してください。Windows のメモ帳などの TXT ビューアーは、多くの場合、上付き/下付き文字をサポートしていないため、OCR で正しい文字が得られたとしても、ビューアーがそれを表示するように変換できた可能性があります。プログラムでテキスト結果にアクセスしている場合は、直接アクセスするときに適切な添え字の値を取得する必要があるため、それほど問題ではありません。実際に見るには、視聴者がそれをサポートする必要があることに注意してください. この可能な後処理変換を排除し、OCR から添字が返されないことを確認した場合、おそらくそれはサポートされていません。
このテキスト ボックスと同じように、元の質問で上付き文字の例を示そうとしましたが、他の場所からコピー/貼り付けできたにもかかわらず、このテキスト ボックスはそれを受け入れませんでした。
多くの OCR は、下付き文字を認識できる場合でも、他の通常の文字と同じように認識します。使用する OCR は、実際に上付き文字/下付き文字を生成する技術的能力を備えている必要があり、それらの多くはそうしていますが、驚くことではありませんが、商用の OCR システムである傾向があります。
この手紙に答える前に、小さなテストケースを作りました。テスト用に、いくつかの上付き/下付き文字の例を含む画像を生成しました (もちろん、EMC2 が頭に浮かんだ最初の例でした:)。
ここで私のテスト画像を見つけることができます:
www.ocr-it.com/documents/superscript_subscript_test_page.tif
そして、すべてのデフォルト設定を使用してOCR-IT OCR Cloud 2.0 APIを介してこの画像を処理しましたが、MS Word .DOC などのリッチ テキスト形式にエクスポートしました。
ここで私のテスト画像を見つけることができます: www.ocr-it.com/documents/superscript_subscript_test_page_result.doc
また、注意: 上付き/下付き文字の抽出に関心がある場合は、通常のテキストよりも画質に注意してください。これらの文字は小さいため、降下 OCR 品質を達成するには十分な詳細と解像度が必要です。300 dpi の画像でスキャンした場合でも、ピクセルが少なすぎるために小さな文字で問題が発生することがあります。モバイル カメラやデジタル カメラを検討している場合、これはさらに重要になります。
開示: 私の専門は、さまざまな規模の企業向けに内部 OCR ソリューションを実装することです。私の会社はWiseTRENDです。さらに何かお手伝いできることがあれば、私に直接ご連絡ください。