HTML ページを解析していて、さまざまな文字を比較して、特定のページ要素が必要なものかどうかを確認しています。各要素のテキストを取得しており、最後の文字が「–」長いダッシュ文字であるかどうかを判断したいと考えています。これが私がこれまでに持っているものです:
$currentiterator
私が取り組んでいるテキストです。
if((substr $currentiterator, -1, 1) eq "–") {
print "long dash found"; ## obviously I will do something different
}
ただし、この if ステートメントは決して true を返しません。最後の文字を印刷しただけで、それが長いダッシュを含むインスタンスである場合、疑問符のひし形 (�) が表示され、エンコードの問題が発生するのではないかと感じました。私が問題を抱えているのは、どのコンポーネントを何に変換する必要があるかを理解することです。取得した文字を変換するには、どのエンコーディングが必要substring
ですか? 「–」を同じエンコーディングに変換する必要があると思いますが、どうすれば変換できますか?