pdf - 分割された文を再結合する方法は?

Question

テキストに変換された PDF を処理しています。問題？不安定な PDF フォーマットや PDF からテキストへの変換が原因で、文が分割されることがあります。

そこで、バラバラになった文を「再構築」するのに役立つツールを探しています。多くの場合、ページのヘッダーまたはフッターが原因です。数字やチャートなどの他の要素も同様に作用する可能性がありますが、それらは今のところ私の主な関心事ではありません.

この問題には、いくつかの方法で対処できます。

NLP 文の検出を行う前にヘッダーとフッターを削除すると、確かに役立ちます。これを行うツールを知りません。ツールや方法を知っていますか？(ページ番号を削除する一般的な考え方は、理論的には「簡単」です。ページごとに約 1 回発生する連続して増加する番号を見つけます。)
文が文法的に正しい可能性を判断できる NLP パーサーを使用すると役立ちます。そうすれば、別々に取られた 2 つの文の文法上の正確さと、それらの融合の正確さを比較することができます。(スタンフォードパーサーは、私が理解しているように、文法の正確さを評価するものではありません。) 役立つツールを知っていますか?

問題に対処するための提案、回答、またはその他の方法があればお知らせください。

score 1 · Accepted Answer

1

Apache Tika を使用して、pdf からデータを抽出します。

于 2016-05-23T14:10:46.397 に答える

1 に答える 1