テキスト認識にTesseractを使用しています。
テキスト間のパディングを認識し、同じパディングで pdf や .doc ファイルなどを作成するにはどうすればよいですか?
ソース ページにテキスト (新聞など) を含む 3 つの列が含まれているとします。このテキストを相互に適切なパディングとマージンで認識し、ページにするにはどうすればよいですか?
おそらく、同じアルゴリズムまたはアルゴリズムだけを実行する例またはライブラリを提案できますか?
テキスト認識にTesseractを使用しています。
テキスト間のパディングを認識し、同じパディングで pdf や .doc ファイルなどを作成するにはどうすればよいですか?
ソース ページにテキスト (新聞など) を含む 3 つの列が含まれているとします。このテキストを相互に適切なパディングとマージンで認識し、ページにするにはどうすればよいですか?
おそらく、同じアルゴリズムまたはアルゴリズムだけを実行する例またはライブラリを提案できますか?