我是报废的新手,我正在做一些报废项目,我试图从下面的 Html 中获取价值:
<div class="buttons_zoom"><div class="full_prod"><a href="javascript:void(0)" onclick="js:getProdID('https://www.XXXXXXX.co.il','{31F93B1D-449F-4AD7-BFB0-97A0A8E068F6}','379104')" title="לחם אחיד פרוס אנג'ל 750 גרם - פרטים נוספים"><img alt="פרטים נוספים" border="0" src="template/images/new_site/icon-view-prod-cartpage.png"/></a></div></div>
我想得到这个值:379104 位于 onclick im 中使用 BeautifulSoup 代码:
for i in page_content.find_all('div', attrs={'class':'prodPrice'}):
temp = i.parent.parent.contents[0]
temp 返回对象列表和 temp= 到 Html 上面有人可以帮助提取这个 id 谢谢!!
编辑****** 哇伙计们感谢惊人的解释!!!!!! 但我有 2 个问题 1.retry 机制没有工作我将其设置为 timeout=1 以使其失败,但一旦失败则返回:
requests.exceptions.RetryError: HTTPSConnectionPool(host='www.XXXXX.il', port=443): Max retries exceeded with url: /default.asp?catid=%7B2234C62C-BD68-4641-ABF4-3C225D7E3D81%7D (Caused by ResponseError('too many redirects',))
你能帮我解决下面的重试机制代码吗: 2. 当我设置超时=6 8000 个项目的报废持续时间为 15 分钟时,没有重试机制的性能问题我如何提高此代码的性能?代码如下:
def get_items(self, dict):
itemdict = {}
for k, v in dict.items():
boolean = True
# here, we fetch the content from the url, using the requests library
while (boolean):
try:
a =requests.Session()
retries = Retry(total=3, backoff_factor=0.1, status_forcelist=[301,500, 502, 503, 504])
a.mount(('https://'), HTTPAdapter(max_retries=retries))
page_response = a.get('https://www.XXXXXXX.il' + v, timeout=1)
except requests.exceptions.Timeout:
print ("Timeout occurred")
logging.basicConfig(level=logging.DEBUG)
else:
boolean = False
繁花如伊
杨__羊羊
相关分类