仅使用美丽的汤从谷歌抓取 src 属性

Google 图片是从（幸运的是）内联 JavaScript 插入到 DOM 中的。打开任何查询的搜索结果的页面源，复制图像src属性，然后在页面源中找到它。要仅提取它bs4，您可以模仿浏览器并使用正则表达式从内联 JavaScript 中提取数据。或者，您可以使用 SerpApi 提取完整图像的 URI。这是一款可免费试用的付费 SaaS。示例用法与curl.curl -s 'https://serpapi.com/search?q=coffee&tbm=isch'Repl.itgoogle-search-results上 Python 包的使用示例。from serpapi import GoogleSearchimport osparams = { "engine": "google", "q": "coffee", "tbm": "isch", "api_key": os.getenv("API_KEY")}client = GoogleSearch(params)data = client.get_dict()print("Images results")for result in data['images_results']: print(f"""Position: {result['position']}Original image: {result['original']}""")输出示例Images resultsPosition: 1Original image: https://upload.wikimedia.org/wikipedia/commons/4/45/A_small_cup_of_coffee.JPGPosition: 2Original image: https://media3.s-nbcnews.com/j/newscms/2019_33/2203981/171026-better-coffee-boost-se-329p_67dfb6820f7d3898b5486975903c2e51.fit-1240w.jpg

仅使用美丽的汤从谷歌抓取 src 属性

3回答