テキストに多くの下線と取り消し線が含まれているPDFがあります。このPDFをHTMLに変換できるようにしたいと思います。私はさまざまなツールを試しましたが、それらすべてがテキストの書式設定として下線と取り消し線をキャッチする場合もあれば、下線と取り消し線をグラフィックに変換する場合もあります。これは(私が知る限り)役に立たないものです。
これらのプログラムが、テキストをフォーマットする下線とグラフィックに変換される下線をどのように区別するか、そしてドキュメントにアクセスしてすべてをテキストフォーマットとしてキャプチャする方法を知りたいです。
私はこれに関して間違ったアプローチを取っている可能性があり、可能な解決策を受け入れています。正しい方向に向ける必要があると思います。
よろしくお願いします。