pdftkを使用してpdfファイルからタイトルを解析しています。さまざまな言語固有の文字が含まれています。
私がこれを行う必要があるこのrubyonrailsアプリケーションは、ruby1.8.7とrails2.3.14を使用しているため、ruby1.9に組み込まれているエンコーディングソリューションは現在のところオプションではありません。
私がする必要があることの例:
タイトルにüが含まれている場合、pdftk(コマンドラインまたはruby pdf-toolkit gemのいずれか)を使用してpdfコンテンツを読み取ると、「ü」は次のように変換されます。ü
私のアプリケーションでは、これがWebページやXMLファイルでのニーズにうまく機能しているように見えるので、これが本当に必要です。
ルビーで明示的に文字を変換することができます
>> string = "ü"
=> "ü"
>> string.gsub("ü","ü")
=> "ü"
しかし、明らかに私はこれを一つずつやりたくありません。
Iconvを使用してこれを実行しようとしましたが、これをレンダリングされた文字に変換するために何を指定すればよいかわからないと感じています。たぶんこれはutf-8だと思いましたが、レンダリングされた文字に変換されていないようです
>> Iconv.iconv("latin1", "utf-8","ü").join
=> "ü"
レンダリングされた文字の最終結果を取得するために、ここでどの形式を使用するか、またはどの形式を使用するかについて、私は少し混乱しています。
では、Iconvまたは他のツールを使用して、pdftkからこのHTMLコードに変換されたすべての文字に対してこの変換を行うにはどうすればよいでしょうか。
または、最初にpdfファイルを読んだときにこれを行うようにpdftkに指示する方法!