0

医師の名前のリストを PDF でスクレイピングしようとしています。ファイルは混合エンコーディングのようです。

1 人の医師の名前 (51 ページ) をコピーして貼り付けると、次のようになります。

ダンドナ、スクレシュ

ぎこちない部分だけをテキスト ファイルに貼り付けて enca を実行すると、次のようになります。

enca -L none CHC_test.txt 
Universal transformation format 8 bits; UTF-8

それは違います。

これが以前の質問と重複しない理由は、PDF ビューアーでファイルを表示するだけでアドレスが表示されることです。それは(それをタイプする)です:1601 Main St Suite 306

では、このファイル内のアドレスを変換するにはどうすればよいでしょうか? enca既知のテキスト文字列を取らないようです。サポートされているすべてのエンコーディングをiconvプログラムで実行し、結果が以下に入力したものと等しいかどうかを確認できると思います。Rにはiconvインターフェースがあるので、私はそれを行うかもしれませんが、おそらく誰かがより良い解決策を持っていますか?

エンコーディングに関する通常の注意事項は認識しています。確実に知る方法はなく、Unicode はエンコーディングではないなどです。Joel を読んだことは約束します。:-D

4

1 に答える 1

1

これはエンコーディングの問題ではありません。難読化された PDF を扱っているため、この情報のデータベースに人々がお金を払い続けるための意図的な手段である可能性があります。これは、チューリング完全言語のプログラムとしてインターウェブ間でドキュメントを転送する機能の 1 つです。

あなたの最善の策は、これを画像にレンダリングし、OCR を使用して解析することです。これは、私のテストではうまく機能します ( ImageMagickを使用して 300dpi PNG に変換し、Linux でcuneiformを使用して解析します)。

themel@kallisti: ~/so $ grep Street cuneiform-out.txt 
Adoue Street 
7930 Broadway Street Suite 
6516 Broadway Street Suite 
6516 Broadway Street Suite 
218 East House Street 
303 North Mckinney Street 
826 South Meyer Street 
于 2012-09-12T06:45:44.987 に答える