医師の名前のリストを PDF でスクレイピングしようとしています。ファイルは混合エンコーディングのようです。
1 人の医師の名前 (51 ページ) をコピーして貼り付けると、次のようになります。
ダンドナ、スクレシュ
ぎこちない部分だけをテキスト ファイルに貼り付けて enca を実行すると、次のようになります。
enca -L none CHC_test.txt
Universal transformation format 8 bits; UTF-8
それは違います。
これが以前の質問と重複しない理由は、PDF ビューアーでファイルを表示するだけでアドレスが表示されることです。それは(それをタイプする)です:1601 Main St Suite 306
では、このファイル内のアドレスを変換するにはどうすればよいでしょうか? enca
既知のテキスト文字列を取らないようです。サポートされているすべてのエンコーディングをiconv
プログラムで実行し、結果が以下に入力したものと等しいかどうかを確認できると思います。Rにはiconv
インターフェースがあるので、私はそれを行うかもしれませんが、おそらく誰かがより良い解決策を持っていますか?
エンコーディングに関する通常の注意事項は認識しています。確実に知る方法はなく、Unicode はエンコーディングではないなどです。Joel を読んだことは約束します。:-D