テキストに変換された PDF を処理しています。問題?不安定な PDF フォーマットや PDF からテキストへの変換が原因で、文が分割されることがあります。
そこで、バラバラになった文を「再構築」するのに役立つツールを探しています。多くの場合、ページのヘッダーまたはフッターが原因です。数字やチャートなどの他の要素も同様に作用する可能性がありますが、それらは今のところ私の主な関心事ではありません.
この問題には、いくつかの方法で対処できます。
NLP 文の検出を行う前にヘッダーとフッターを削除すると、確かに役立ちます。これを行うツールを知りません。ツールや方法を知っていますか?(ページ番号を削除する一般的な考え方は、理論的には「簡単」です。ページごとに約 1 回発生する連続して増加する番号を見つけます。)
文が文法的に正しい可能性を判断できる NLP パーサーを使用すると役立ちます。そうすれば、別々に取られた 2 つの文の文法上の正確さと、それらの融合の正確さを比較することができます。(スタンフォード パーサーは、私が理解しているように、文法の正確さを評価するものではありません。) 役立つツールを知っていますか?
問題に対処するための提案、回答、またはその他の方法があればお知らせください。