请教一个火车头采集器可用的纯正规则!

情况是这样的最近在用火车头采集的目标源网站发觉对方的网站有些文章的标题前面有一些特殊符号!
这些特殊符号在标题中有的显示例如:❤♨等等等~~

有的不会显示如图1 图2!
https://img3.mukewang.com/5ba99da600017fc003300039.jpg

https://img3.mukewang.com/5ba99daf000179fa03080030.jpg

那些标题上能显示的还没事儿~~如图1图2上不显示的会出现问题就是免登陆发布文章以后没有标题了!!!

那个符号还不是一个两个!使用替换功能替换只能替换掉当前标题的符号,换个标题就替换不掉了,前后也没有任何参照也不能用截取的方法~

这个事儿很困扰我!总不能采集文章每个都看看吧!挺烦人的这个事儿!!所以来求助来了!

我试了很多方法都不行!前天意外接触到纯正则,发觉这个可以去掉!
但是刚接触这个东西还不会写啊!所以来求助来了!

我的思路是用纯正则替换掉第一个双节字符~~或者替换掉第一个汉字前面的双节字符!!

因为不知道火车头支持什么样的纯正则!目标我知道的只有这类[u4e00-u9fa5a-zA-Z]

请会的大神不吝赐教!感激不尽!


红糖糍粑
浏览 718回答 1
1回答

HUWWW

直接写一个正则表达式可能不好写,你可以换一个思路,写一个正则表达式,表示你想要的一个字符的规则,然后php遍历每一个字符,满足符合的字符,把这些留下的字符拼接下就可以了。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

JavaScript