post(异步加载的应用):表单的内容记一下和有两个请求头(来源和头)

post是应用在响应对象中(即要求你下指令之后网页响应的信息)
谷歌内可以使用postman进行查看你想要响应的对象内容是什么
反爬虫还有一个:origin
# 爬出台湾高铁网站
from urllib.request import urlopen
from urllib.request import Request
from urllib import parse
req = Request('http://www.thsrc.com.tw/tw/TimeTable/SearchResult')
postData = parse.urlencode([
('StartStation', '2f940836-cedc-41ef-8e28-c2336ac8fe68'),
('EndStation', '977abb69-413a-4ccf-a109-0272c24fd490'),
('SearchDate', '2018/06/25'),
('SearchTime', '23:30'),
('SearchWay', 'DepartureInMandarin')
])
req.add_header('Origin', 'http://www.thsrc.com.tw')
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
response = urlopen(req, data=postData.encode('utf-8'))
print(response.read().decode('utf-8'))
origin和user-Agent是两个最重要的信息,让网站不认为我们是爬虫