HTML:
<html>
<head>
<base href='http://example.com/' />
<title>Example website</title>
</head>
<body>
<div id='demo'>
<div>
美国国家航空航天局(NASA)与英国著名物理学家霍金携手,将共同打造微型星际飞船“纳米飞行器”。\r\n该飞行器将以五分之一光速飞行,并用<span>20</span>年时间飞到距太阳系最近的恒星之一比邻星,帮助人类尽早找到下一个适合居住的星体。
</div>
</div>
</body>
</html>
获取整段文字可以这样写:
In:response.xpath('string(//div[@id="demo"]/div)').extract_first()
Out: u'\r\n\t\t\t\t 美国国家航空航天局(NASA)与英国著名物理学家霍金携手,将共同打造微型星际飞船“纳米飞行器”。\r\n该飞行器将以五分之一光速飞行,并用20年时间飞到距太阳系最近的恒星之一比邻星,帮助人类尽早找到下一个适合居住的星体。'
我想把输出结果里面的空格和换行符去掉,后面加一个re()
函数:
In:response.xpath('//div[@id="demo"]/div/text()').re(r'')
问题:
上面re()
函数中的正则表达式该怎么写?
米脂
翻翻过去那场雪
相关分类