以前はエンコードを変換してiconv
いましたが、今日は何か新しいことに立ち寄り
、質問を明確にするためにテストケースを作成しました:
目標はالحلقة الثالثة
、utf8 バージョンに変換することです。
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<title> this text is from arabic language </title>
</head>
<body>
<p><span> الحلقة الثالثة</span></p>
</body>
</html>
のようなエンコーディングを使用しようとしましASCII , LATIN1 , windows-1252
たが、うまくいきませんでした Google 翻訳 + stackoverflow エディタの両方がそれを検出して変換できましたか?
別の例: このウェブサイトhttp://kanjidict.stc.cx/recode.phpは、Assume HTML (default: handle as plain text)
私が欠けているものと、これらの3つのWebサイトは、正しく変換するためにそれを行っていました????