一部のpdfファイルでtikaを使用してテキストを抽出し、テキストをテキストファイルに保存しました。今、私はopennlpチャンクパーサーを使用してこれらのファイルを解析したいのですが、ファイル行を解析できませんでした。これは、テキストファイル内の単語間のスペースなしで、いくつかの特殊文字(いくつかの正方形タイプの記号)が含まれているためです(使用できません)これらの四角形の記号、分音記号を表示するため)
51.2.3 Troubleshooting DHCP Configuration ?
62 Module 3: Point-to-Point Protocol (PPP) ?
62.1 Configuring HDLC Encapsulation ?
だから私は次のように行を取得したい
Troubleshooting DHCP Configuratin
Module 3: Point-to-Point Protocol(PPP)
Configuring HDLC Encapsulation
これを行う方法を教えてください。