爬虫爬到中文乱码该如何解决

利用Node的cheerio插件去爬一个网站的新闻,结果发现从中获得的中文显示为
“������ͼ��20140611����”乱码,求问如何解决,顺便求问不同转码格式的知识点;

茅侃侃
浏览 1573回答 1
1回答

红糖糍粑

首先肯定是确定要爬的页面的编码。如果是GBK的话就需要对爬过来的文字用iconv库做转化,在nodejs中变成UTF8。比如:var request = require('request'),    cheerio = require('cheerio'),    Iconv = require('iconv').Iconv;var iconv = new Iconv('GBK', 'UTF-8');request(opts, function (err, response, body) {    var result = iconv.convert(new Buffer(body, 'binary')).toString();    var $ = cheerio.load(result);    // ......});
打开App,查看更多内容
随时随地看视频慕课网APP