爬虫爬到中文乱码该如何解决

利用Node的cheerio插件去爬一个网站的新闻,结果发现从中获得的中文显示为“������ͼ��20140611����”乱码,求问如何解决,顺便求问不同转码格式的知识点;
慕尼黑5688855
浏览 444回答 2
2回答

幕布斯7119047

首先肯定是确定要爬的页面的编码。如果是GBK的话就需要对爬过来的文字用iconv库做转化,在nodejs中变成UTF8。比如:varrequest=require('request'),cheerio=require('cheerio'),Iconv=require('iconv').Iconv;variconv=newIconv('GBK','UTF-8');request(opts,function(err,response,body){varresult=iconv.convert(newBuffer(body,'binary')).toString();var$=cheerio.load(result);//......});
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

JavaScript