如何从 Bing/Google 新闻提要中解析和获取干净的图像源?

我创建了一个程序,它将抓取 Bing Newsfeed 并分析内容并将标题、摘要和新闻链接通过电子邮件发送给我。到目前为止,我已经能够使用 BeautifulSoup 正确地获得所有这些。我还想通过包含显示在必应新闻源页面中的新闻图像来改进我的程序。我无法获取图像源链接,因为来源似乎不同。


from bs4 import BeautifulSoup

import requests


source = requests.get(https://www.bing.com/news?q=Technology&cf=intr&FORM=NWRFSH).text

soup = BeautifulSoup(source, "html.parser")


for image in soup.find_all("div", class_="image right"):

    print(image.img)

如果我运行上面的代码,它会打印出一些对我来说没有多大意义的奇怪的东西。这是一个例子:


<img class="rms_img" height="132" id="emb249968768" src="/th?id=ON.B139539B9DC398104440D89FAFB6F0C2&amp;pid=News&amp;w=234&amp;h=132&amp;c=14&amp;

rs=2&amp;qlt=90" width="234"/>

所有其他的img标签也是这样。如您所见,此处的 data-src 并不适合获取我在发送电子邮件时可以使用的图像链接。任何人都可以查看该网站(从我的代码中)并检查一下,看看我可能做错了什么,或者在发送电子邮件时如何以干净且可用的方式获取所有图像链接?非常感谢。


江户川乱折腾
浏览 170回答 1
1回答

手掌心

img 标签的 src 属性是完全可以的,这正是你在大多数网站上都能找到的。它是具有绝对路径(以正斜杠开头的路径)的相对 url(没有“方案”或“域名”部分),因此它是客户端(在这种情况下是您的代码)重建完整绝对路径的责任url 使用与初始请求相同的方案和域名以及来自 img 标签的路径 - 在您的示例中,最终结果应该类似于“&nbsp;https://www.bing.com/th?id= ON.B139539B9DC398104440D89FAFB6F0C2&pid=News&w=234&h=132&c=14&rs=2&qlt=90&nbsp;"(确实指向图像)。注意:不要尝试自己将 url 解析为组件,只需使用 stdlib 的urllib.parse模块即可。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python