最近、Adobe Acrobat ProのOCR機能を使用して、日本語の漢字辞書を処理しました。出力の全体的な品質は、一般的に私が期待していたよりもかなり優れていますが、テキストの英語部分の単語の境界が失われることがよくあります。たとえば、私のファイルの1行は次のとおりです。
softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself
足りない単語の境界をあちこちに挿入することもできますが、これはすでに実質的なタスクに追加されます。いくつかの単語が一緒に実行されるこのようなテキストを分析し、可能性のある単語の境界でテキストを分割できるソフトウェアが存在することを期待しています。そのようなパッケージはありますか?
私はEmacsを使用しているので、問題のパッケージがすでにEmacsパッケージであるか、Emacsに簡単に統合できるとしたら、とても甘いでしょう。そうすれば、上記のような行にカーソルを置いて、繰り返し呼び出すことができます。可能性のある正しさの降順で単語境界の行を分割するコマンド。