admin

[网络类] 关于正则表达式采集规则制作的一点心得

搜索如下语句

<div><a href="index.asp?boardid=26"><b>校园凉亭</b></a></div>

提取

boardid=(\d*)   => boardid=26


正则式

dispbbs.asp[?]boardID=\w+&amp;ID=\w+&amp;page=\w+

提取

<div class="listtitle"><a href="dispbbs.asp?boardID=15&amp;ID=2654&amp;page=1" title="《新人报到帖》&#xA;作者:蓝色音符&#xA;发表于:2006-11-27 18:08:43&#xA;最后发贴:回复…新人报到...">新人报到帖</a> </div>

dispbbs.asp?boardID=15&amp;ID=2654&amp;page=1


<img src=[^>]*>

<img src="asdfasdf">


000915A7.html">(.*?)</a>

000915A7.html">清除Word文档页眉横线的第N种方法</a>

提取:清除Word文档页眉横线的第N种方法


<div .*?>  替换过滤


<br><br>(.*?)</td></tr>\s+<tr><td align="right">


(.*)


<[Tt](.*?)>

</[Tt](.*?)>

<[Ii][Mm][Gg](.*?)>


多字符正则表达式:

“*”匹配前面的子表达式零次或多次。举例来说, "[ a-z ]*" 匹配以字母开头的表达式零次或多次

“+” 匹配前面的子表达式一次或多次。举例来说, "[ 0-9 ]+" 匹配以数字开头的字符。

“?”匹配前面的子表达式零次或一次。举例来说"xy?z" 匹配 "xy" 或 "xyz".


http://index.baidu.com/main/board.php?bid=1

word=[^>]*" target="_blank">(.*?)</a></td>



  


#1楼
发帖时间:2016-9-9   |   查看数:0   |   回复数:0
游客组