post(异步加载的应用):表单的内容记一下和有两个请求头(来源和头)
post是应用在响应对象中(即要求你下指令之后网页响应的信息)
谷歌内可以使用postman进行查看你想要响应的对象内容是什么
反爬虫还有一个:origin
# 爬出台湾高铁网站 from urllib.request import urlopen from urllib.request import Request from urllib import parse req = Request('http://www.thsrc.com.tw/tw/TimeTable/SearchResult') postData = parse.urlencode([ ('StartStation', '2f940836-cedc-41ef-8e28-c2336ac8fe68'), ('EndStation', '977abb69-413a-4ccf-a109-0272c24fd490'), ('SearchDate', '2018/06/25'), ('SearchTime', '23:30'), ('SearchWay', 'DepartureInMandarin') ]) req.add_header('Origin', 'http://www.thsrc.com.tw') req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36') response = urlopen(req, data=postData.encode('utf-8')) print(response.read().decode('utf-8'))
origin和user-Agent是两个最重要的信息,让网站不认为我们是爬虫