1

クローラーをコーディングして、英語以外の Web サイトのタイトルを取得していました。コンソールでタイトルを印刷すると、次のようになります。

শà§à¦°à§à¦²à¦à§à¦à¦¾à¦° ভালৠসà§à¦à¦¨à¦¾
ফà¦à¦¿à¦°à¦¾à¦ªà§à¦²à§ হাতবà§à¦®à¦¾ বিসà§à¦«à§à¦°à¦£, à¦à¦à¦ ১৬
দà§à¦ বাà¦à¦²à¦¾à¦¦à§à¦¶à¦¿à¦à§ নিà§à§ à¦à§à¦à§ বিà¦à¦¸à¦à¦«
à¦à¦¾à¦®à¦¾à§à¦¾à¦¤ নà§à¦¤à¦¾ সà§à¦²à¦¿à¦®à¦¸à¦¹ দà§à¦à¦¨ à¦à§à¦°à§à¦ªà§à¦¤à¦¾à¦°

上記の文字列から適切なテキストを取得する方法がわかりません。

何か案が?

前もって感謝します。

4

1 に答える 1

5

これは、HTML 文字参照が散在する UTF-8 でエンコードされたベンガル語テキストのように見え、Windows-1252 文字として誤って解釈されます。他のことについても、本当に。

Web ページをクロールするときは、ブラウザや一般的な検索エンジンが文字エンコーディングを決定する際に大まかに行う必要があります。これは些細なことではありません。HTML5 RC では、セクション 8.2.2.1文字エンコーディングの決定は、プロセスを説明する試みです。

于 2013-03-08T08:32:50.163 に答える