我使用browserless.js(无头 Chrome)来获取网站的 html 代码,然后使用正则表达式来查找某些图像 URL。
一个例子如下:
https://vignette.wikia.nocookie.net/moviepedia/images/8/88/Adrien_Brody.jpg/revision/latest/top-crop/width/360/height/450?cb\u003d20141113231800\u0026path-prefix\u003dde
存在诸如 之类的 unicode 字符\u003d
,应将其解码(在本例中为=
)。原因是我想将这些图像包含在一个站点中,并且如果不解码,其中一些图像将无法显示(就像上面的图像一样,只需粘贴 URL;它就会给出broken-image.webp
)。
我尝试了很多事情,但没有任何效果。
JSON.parse(JSON.stringify(...))
String.prototype.normalize()
decodeURIComponent
奇怪的是,“\u003d”的正则表达式(即js中的“\\u003d”)与上面的字符串不匹配,但“u003d”却匹配。
这一切都非常奇怪,我目前的猜测是无浏览器在幕后造成了一些奇怪的格式。也就是说,当我控制台记录 URL 并将其复制粘贴到其他地方时,上述每种方法都适用于解码。
我希望有人能在这方面帮助我。
红糖糍粑
相关分类