PDF ファイルを解析し、インデックス作成などのために内部のテキストを引き出すシステムがあります。私たちが抱えている問題の 1 つは、Illustrator が「fi」を含む単語を設定して、fi (単一グリフ) の合字を使用することです。
たとえば、この行...
「ベンチと豊かなガラス化セラミック タイル」。
私のJavaデバッガーではこのように表示されます
「エテ ベンチとリッチ ビトリ\u001Fed セラミック タイル。」
\u001F は、Adobe PDF ファイルが合字「fi」に使用する文字コードのようです。\u001F の出現を「fi」に置き換えることは明らかにできますが、これとそのようなケースを処理する堅牢な方法を知っている人はいますか?