私はこのようなヘブライ語のRSSを解析しようとしています: http://rss.walla.co.il/?w=/3/0/12/@rss.e
feedparser と request を使用していますが、問題はエンコーディングが UTF-8 ではなく Windows-1255 であることです。
そのため、通常のヘブライ語のテキストではなく、 ����� ������� のようなテキストが表示されます。
いくつかの変換 (iconv-lite など) を試みましたが、成功しませんでした。
これは私のコードです:
function getAll(URL) {
var request = require('request');
request(URL, function (error, response, body) {
if (!error && response.statusCode == 200) {
var allXML = body.substring(body.indexOf('<title>') + ('<title>').length, body.indexOf('</title>'));
var text = iconv.decode(new Buffer(allXML), 'win1255');
console.log("text = ", text);
}
})
}
これが出力されるものです: text = ן¿½ן¿½ן¿½ן¿½ן¿½! ן¿½ן¿½ן¿½ן¿½ן¿½ - ן¿½ן¿½ן¿½ן¿½ן¿½