pdf - アンダースコアと取り消し線を使用してPDFからテキストをスクレイピングする

Question

テキストに多くの下線と取り消し線が含まれているPDFがあります。このPDFをHTMLに変換できるようにしたいと思います。私はさまざまなツールを試しましたが、それらすべてがテキストの書式設定として下線と取り消し線をキャッチする場合もあれば、下線と取り消し線をグラフィックに変換する場合もあります。これは（私が知る限り）役に立たないものです。

これらのプログラムが、テキストをフォーマットする下線とグラフィックに変換される下線をどのように区別するか、そしてドキュメントにアクセスしてすべてをテキストフォーマットとしてキャプチャする方法を知りたいです。

私はこれに関して間違ったアプローチを取っている可能性があり、可能な解決策を受け入れています。正しい方向に向ける必要があると思います。

よろしくお願いします。

score 2 · Accepted Answer

PDFには下線や取り消し線はなく、テキストの上に線が引かれているだけです。アンダースコアと取り消し線を検出するPDFツールは、通常、テキストまたは他の同様のヒューリスティックに十分近い線画を探し、別の形式に変換するときに対応するスタイルをテキスト出力に追加します。ただし、この種のアプローチは、100％の場合には機能しません。

pdf - アンダースコアと取り消し線を使用してPDFからテキストをスクレイピングする

1 に答える 1

Related

Reference