def get_page_max_list(url,error_count = 1): #error_count=1方面函数内全局的对错误的计数不受for限制 page_max_list = [] Bankuan_link_list = get_Bankuan_link(url) #获取板块的链接,返回的是列表类型 Bankuan_name_list = get_Bankuan_name(url) #获取板块的名,列表 for x in Bankuan_link_list: html = urllib.request.urlopen(url + x) bsObj = BeautifulSoup(html, "lxml") error = Bankuan_link_list.index(x) #error变量是为了后面遇到问题时候能标记到底是哪个板块的问题 error_Bankuan_name = Bankuan_name_list[error] try: num = bsObj.find('input', {'name': 'custompage'}).next_sibling.string[3:-2] #[3:-2]收集字符串从左起第四个 与 从右起倒数第二个 之间的字符串 page_max_list.append(num) except: print ('Error%d: "%error_count,"%s 版块的get_page_max_list无法解决该板块,"需要自己动手查找该页面页数"%error_Bankuan_name,'\n', "该版块的网址是: http://bbs.csu.edu.cn/bbs/%s "%x, '\n' "在版块名、版块链接列表中的第%d位置"%error') print("="*100) error_count = error_count + 1 time.sleep(1) return page_max_list
相关分类