規(guī)則分隔方式,每行一個(gè)采集規(guī)則
程序會(huì)從第一條向下依次執(zhí)行
一條規(guī)則包含操作符、正則表達(dá)式、和參數(shù),有的操作符不需要參數(shù),他們之前用@分隔
操作符說明
match
獲取內(nèi)容
match@正則表達(dá)式
replace
替換內(nèi)容
replace@正則表達(dá)式@替換的內(nèi)容
join
鏈接字符串
join@前面的字符串@后面的字符串
matchall
獲取所有匹配的內(nèi)容,內(nèi)容之前用逗號(hào)分隔,一般用于獲取列表頁(yè)面的所有鏈接,或內(nèi)容頁(yè)中的圖片
matchall@正則表達(dá)式
gettab
獲取一個(gè)標(biāo)簽及內(nèi)容
gettab@標(biāo)簽
例子
內(nèi)容
<p>
<h1 class="title">123</h1>
</p>
gettab@<h1 class="title">
獲取到的是
<h1 class="title">123</h1>