我正在使用 curl 进行网页抓取,并且可以显示感兴趣的结果。
通常,下面的脚本会向我输出 WEB SCRAPER TESTING GROUND 文本,该文本由页面中的“标题”ID 进行刮取和正则表达式。
现在我想检查 $list 数组中是否存在“TESTING”这个词。如果是 - 只是回声“存在”,如果不是 - 回声“不存在”。做这个的最好方式是什么?
我知道如何搜索网页并从中提取文本部分。
$curl = curl_init('http://testing-ground.scraping.pro/textlist'); // cURL
setup
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE); // return the transfer
page as a string
curl_setopt($curl, CURLOPT_HEADER, TRUE);
$page = curl_exec($curl); // executing the request
if(curl_errno($curl)) // check for execution errors
{
echo 'Scraper error: ' . curl_error($curl);
exit;
}
curl_close($curl); // closing the connection
$regex = '/<div id="title">(.*?)<\/div>/s'; // extracting the needed part
if ( preg_match($regex, $page, $list) ) // search matches of $page with
$regex
echo $list[0];
else
print "Not found";