我要抓取的页面的内容是在如下标签内的parent.theZNPKT_CJJS1.innerHTML=' [0000789]Andrew'; 我写的代码:importurllib2frombs4importBeautifulSoupurl='xxx'html=urllib2.urlopen(url)soup=BeautifulSoup(html,from_encoding='gbk')option=soup.findAll('option')f=open("out.txt","w")print>>f,optionf.close()printoption抓取出来的结果全都是[0000049]ANNA这样的,我想提取[0000049]ANNA这个内容怎样做呀? 很多东西都不懂,经过搜索换了一种方法提取出来了。用的是正则的方法:importurllib2importreurl='xxx'html=urllib2.urlopen(url).read()patt=re.compile(r'(.+?)') option=patt.findall(html)f=open("out.txt","w")forvalueinoption:printvaluef.writelines(value+'\n')f.close()
万千封印
Qyouu
相关分类