- 私はPDFドキュメントから読み取り可能なコンテンツ(つまりテキスト)を取得することに取り組んでいます。そのほとんどは科学雑誌の記事です。
- Popplerテキストユーティリティを使用してPDFをテキスト形式に変換しています。
- テキストはうまく抽出されますが、残念ながら、記事の他のコンポーネント(数値表など)も同様であり、プレーンテキストで適切にレンダリングすることはできません。
たとえば、記事の途中で次の出力が表示される場合があります。
文字分布ランダムHmax
1 2 3 4
組織c)(種を超えたキャラクターの
A
B
A 0 0 0 + C
B + + + +
C + + + + A
B 4+
H文字分布非ランダムホブ
エントロピ
3+ 2+ 1+
(種に対するキャラクターの多様性
私の質問は、そのような「ノイズ」をどのように識別し、それを通常のテキストブロックと区別するのかということです。既存のアルゴリズムはありますか?私はRubyで作業していますが、どの言語のコードでも役に立ちます。