text-analysis - 可能性のある英語の単語境界で文字列を分割する

Question

最近、Adobe Acrobat ProのOCR機能を使用して、日本語の漢字辞書を処理しました。出力の全体的な品質は、一般的に私が期待していたよりもかなり優れていますが、テキストの英語部分の単語の境界が失われることがよくあります。たとえば、私のファイルの1行は次のとおりです。

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

足りない単語の境界をあちこちに挿入することもできますが、これはすでに実質的なタスクに追加されます。いくつかの単語が一緒に実行されるこのようなテキストを分析し、可能性のある単語の境界でテキストを分割できるソフトウェアが存在することを期待しています。そのようなパッケージはありますか？

私はEmacsを使用しているので、問題のパッケージがすでにEmacsパッケージであるか、Emacsに簡単に統合できるとしたら、とても甘いでしょう。そうすれば、上記のような行にカーソルを置いて、繰り返し呼び出すことができます。可能性のある正しさの降順で単語境界の行を分割するコマンド。

score 1 · Accepted Answer

私はすでに存在するものを知りません。

最も簡単な方法は、文字列に含まれる最長の単語のセットを辞書と照合することです。もちろん、多くの単語が存在する可能性があるため、すべての組み合わせと順列を計画する必要があります。この方法でそれを行うには計算コストがかかりますが、書くのはかなり速いです。

score 0 · Accepted Answer

私も何も見つかりませんでした、そしてよりインタラクティブなアプローチで行くことになりました。

2 に答える 2