猿问

正则表达式 怎么提取网页的信息?

求大神帮忙,看了一天了,网页是这个:
<tr><th class="th51" align="left" valign="top" style="border-color:#000; border-width: 1px 0px 0px 1px; border-style: solid"><nobr>Name</nobr></th>
<td class="td51" style="border-color:#000; border-width: 1px 1px 0px 1px; border-style: solid"><div style="width:555px;overflow-x:auto;overflow-y:hidden"><div style="width:555px;overflow-x:auto;overflow-y:hidden">Nadide (JAN/USAN/INN);<br>
Nicotinamide adenine dinucleotide<br>
</div></div></td></tr>
怎么把 Nadide (JAN/USAN/INN)和Nicotinamide adenine dinucleotide 提取出来?

Cats萌萌
浏览 764回答 1
1回答

胡说叔叔

正则表达式可以有多行匹配模式的,具体要看你用什么语言?或者可以先执行文本替换,替换掉换行符,然后再执行正则表达式。关于HTML网页源码的字符编码(charset)格式(GB2312,GBK,UTF-8,ISO8859-1等)的解释另外,关于网站抓取方面的,这里面,基本上有你想要的所有的内容:如何用Python,C#等语言去实现抓取静态网页&nbsp;模拟登陆网站
随时随地看视频慕课网APP
我要回答