站长快车采集器

 找回密码
 注册
搜索
查看: 10878|回复: 29

15分钟精通正则表达式 快速编写采集规则 [复制链接]

Rank: 9Rank: 9Rank: 9

硬币
1308
体力
5
威望
514
注册时间
2008-12-25
积分
8276
帖子
322
发表于 2009-6-3 07:31:27 |显示全部楼层
  在站长快车的规则采集中,大部分都采用了正则表达式来编写采集规则,介于很多朋友对正则表达式还不够熟悉,所以特别提供了一些资料来和大家学习,让大家能更方便地使用站长快车进行采集。

正则表达式字符描述:
\ 将下一个字符标记为特殊字符或字面值。例如"n"与字符"n"匹配。"\n"与换行符匹配。序列"\\"与"\"匹配,"\("与"("匹配。
^ 匹配输入的开始位置。
$ 匹配输入的结尾。
* 匹配前一个字符零次或几次。例如,"zo*"可以匹配"z"、"zoo"。
+ 匹配前一个字符一次或多次。例如,"zo+"可以匹配"zoo",但不匹配"z"。
? 匹配前一个字符零次或一次。例如,"a?ve?"可以匹配"never"中的"ve"。
.  匹配换行符以外的任何字符。

x|y:匹配 x 或 y。例如 "z|food" 可匹配 "z" 或 "food"。"(z|f)ood" 匹配 "zoo" 或 "food"。
{n}:n 为非负的整数。匹配恰好n次。例如,"o{2}" 不能与 "Bob 中的 "o" 匹配,但是可以与"foooood"中的前两个o匹配。
{n,} :n 为非负的整数。匹配至少n次。例如,"o{2,}"不匹配"Bob"中的"o",但是匹配"foooood"中所有的o。"o{1,}"等价于"o+"。"o{0,}"等价于"o*"。
{n,m} :m 和 n 为非负的整数。匹配至少 n 次,至多 m 次。例如,"o{1,3}" 匹配 "fooooood"中前三个o。"o{0,1}"等价于"o?"。
[xyz] :一个字符集。与括号中字符的其中之一匹配。例如,"[abc]" 匹配"plain"中的"a"。
[^xyz] :一个否定的字符集。匹配不在此括号中的任何字符。例如,"[^abc]" 可以匹配"plain"中的"p".
[a-z] :表示某个范围内的字符。与指定区间内的任何字符匹配。例如,"[a-z]"匹配"a"与"z"之间的任何一个小写字母字符。
[^m-z] :否定的字符区间。与不在指定区间内的字符匹配。例如,"[m-z]"与不在"m"到"z"之间的任何字符匹配。
\b :与单词的边界匹配,即单词与空格之间的位置。例如,"er\b" 与"never"中的"er"匹配,但是不匹配"verb"中的"er"。
\B :与非单词边界匹配。"ea*r\B"与"never early"中的"ear"匹配。
\d :与一个数字字符匹配。等价于[0-9]。
\D :与非数字的字符匹配。等价于[^0-9]。
\f :与分页符匹配。
\n :与换行符字符匹配。
\r :与回车字符匹配。
\s :与任何白字符匹配,包括空格、制表符、分页符等。等价于"[ \f\n\r\t\v]"。
\S :与任何非空白的字符匹配。等价于"[^ \f\n\r\t\v]"。
\t :与制表符匹配。
\v :与垂直制表符匹配。
\w :与任何单词字符匹配,包括下划线。等价于"[A-Za-z0-9_]"。
\W :与任何非单词字符匹配。等价于"[^A-Za-z0-9_]"。
\num :匹配 num个,其中 num 为一个正整数。引用回到记住的匹配。例如,"(.)\1"匹配两个连续的相同的字符。
\n:匹配 n,其中n 是一个八进制换码值。八进制换码值必须是 1, 2 或 3 个数字长。
例如,"\11" 和 "\011" 都与一个制表符匹配。"\0011"等价于"\001" 与 "1"。八进制换码值不得超过 256。否则,只有前两个字符被视为表达式的一部分。允许在正则表达式中使用ASCII码。
\xn:匹配n,其中n是一个十六进制的换码值。十六进制换码值必须恰好为两个数字长。例如,"\x41"匹配"A"。"\x041"等价于"\x04" 和 "1"。允许在正则表达式中使用 ASCII 码。
   好了,常用的方法和属性就是这些了,上面的语法介绍的已经很详细了,我们就没有必要在罗嗦了,接下来我们来看看在具体的例子里面如何使用这些方法和属性来校验数据的合法性,我们还是举个例子吧。

采集一个网页上的电子邮件
  比如,我们想要采集一个网页上的电子邮件,那么,什么样的数据才算是一个合法的电子邮件呢?我可以这样输入:youname@263.net,当然我也会这样输入:xxx@yyy.com.cn,但是这样的输入就是非法的:xxx@@com.cn或者@xxx.com.cn,等等,所以我们得出一个合法的电子邮件地址至少应当满足以下几个条件:
1. 必须包含一个并且只有一个符号“@”
2. 必须包含至少一个至多三个符号“.”
3. 第一个字符不得是“@”或者“.”
4. 不允许出现“@.”或者.@
5. 结尾不得是字符“@”或者“.”
所以根据以上的原则和上面表中的语法,我们很容易的就可以得到需要的模板如下:"(\w)+[@]{1}(\w)+[.]{1,3}(\w)+"
  接下来我们仔细分析一下这个模板,首先“\w”表示邮件的开始字符只能是包含下划线的单词字符,这样,满足了第三个条件;“[@]{1}”表示在电子邮件中应当匹配并且只能匹配一次字符“@”,满足了条件一;同样的“[.]{1,3}”表示在电子邮件中至少匹配1个至多匹配3个字符“.” ,满足了第二个条件;模板最后的“(\w)+”表示结尾的字符只能是包含下划线在内的单词字符,满足了条件五;模板中间的“(\w)+”满足了条件四。


一些常用的正则表达式。

正则表达式用于字符串处理,表单验证等场合,实用高效,但用到时总是不太把握,以致往往要上网查一番。我将一些常用的表达式收藏在这里,作备忘之用。本贴随时会更新。

匹配中文字符的正则表达式: [\u4e00-\u9fa5]

匹配双字节字符(包括汉字在内):[^\x00-\xff]

匹配空行的正则表达式:\n[\s| ]*\r

匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/

匹配首尾空格的正则表达式:(^\s*)|(\s*$)

匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

匹配网址URL的正则表达式:http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?


补充:
^\d+$  //匹配非负整数(正整数 + 0)
^[0-9]*[1-9][0-9]*$  //匹配正整数
^((-\d+)|(0+))$  //匹配非正整数(负整数 + 0)
^-[0-9]*[1-9][0-9]*$  //匹配负整数
^-?\d+$    //匹配整数
^\d+(\.\d+)?$  //匹配非负浮点数(正浮点数 + 0)
^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$  //匹配正浮点数
^((-\d+(\.\d+)?)|(0+(\.0+)?))$  //匹配非正浮点数(负浮点数 + 0)
^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$  //匹配负浮点数
^(-?\d+)(\.\d+)?$  //匹配浮点数
^[A-Za-z]+$  //匹配由26个英文字母组成的字符串
^[A-Z]+$  //匹配由26个英文字母的大写组成的字符串
^[a-z]+$  //匹配由26个英文字母的小写组成的字符串
^[A-Za-z0-9]+$  //匹配由数字和26个英文字母组成的字符串
^\w+$  //匹配由数字、26个英文字母或者下划线组成的字符串
^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$    //匹配email地址
^[a-zA-z]+://匹配(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$  //匹配url


今天有网友问:如何用正则表达式表示要么是数字要么是字母 是字母的话只能是一个字母 数字则无所谓?
我的回答是:
^[a-zA-Z]$|^\d+$

硬币
-23
体力
-150
威望
0
注册时间
2009-6-2
积分
13
帖子
58
发表于 2009-6-4 12:53:54 |显示全部楼层
哈哈,顶你了哦.

使用道具 举报

硬币
-33
体力
-114
威望
0
注册时间
2009-6-2
积分
13
帖子
78
发表于 2009-7-5 09:23:00 |显示全部楼层
本来在潜水,看到LZ这篇矿石奇文,实在忍不住出来冒个泡泡:真TM天书啊!

使用道具 举报

硬币
-24
体力
-145
威望
0
注册时间
2009-6-2
积分
28
帖子
80
发表于 2009-7-8 11:26:12 |显示全部楼层
我卷了~~~~~~~

使用道具 举报

硬币
18
体力
0
威望
6
注册时间
2009-7-19
积分
78
帖子
32
发表于 2009-7-19 15:34:12 |显示全部楼层
一下子难以吃透看懂,看来要慢慢啃

使用道具 举报

硬币
0
体力
0
威望
0
注册时间
2009-7-20
积分
5
帖子
6
发表于 2009-7-20 20:09:20 |显示全部楼层
真TM天书啊!我也觉得。。。

使用道具 举报

硬币
0
体力
0
威望
0
注册时间
2009-7-11
积分
8
帖子
10
发表于 2009-7-21 17:06:34 |显示全部楼层
还没搞明白怎么使用

使用道具 举报

硬币
0
体力
0
威望
0
注册时间
2009-7-11
积分
8
帖子
10
发表于 2009-7-21 17:09:37 |显示全部楼层
本帖最后由 mr_lms 于 2009-7-21 17:11 编辑

</script>

</p>
<br><br>

<a href="http://bz.ugcn.cn/中国国家标准/国家标准-电工卷/GB 1000.1-1988 高压线路针式瓷绝缘子技术条件.pdf?vsid=89eb6f5c7ea666c9e69eda2927e39463">

<font color="#0000FF">GB 1000.1-1988 高压线路针式瓷绝缘子技术条件</font></a>


比如我想采集GB 1000.1-1988;怎么编写?是不是“<font color="#0000FF">^[\u4e00-\u9fa5]</font></a>”,不过我尝试了不行!求高手知道!

使用道具 举报

初级站长

快车粉丝组大组长

Rank: 1

硬币
6
体力
-138
威望
40
注册时间
2009-4-4
积分
567
帖子
197
发表于 2009-7-21 17:38:44 |显示全部楼层
GB 1000.1-1988 高压线路针式瓷绝缘子技术条件

比如我想采集GB 1000.1-1988;怎么编写?是不是“^[\u4e00-\u9fa5]”,不过我尝试了不行!求高手知道!
mr_lms 发表于 2009-7-21 17:09



如果你想采集标题可以直接写 <font color="#0000FF">[adminkc]</font></a>

使用道具 举报

硬币
0
体力
0
威望
0
注册时间
2009-7-11
积分
8
帖子
10
发表于 2009-7-21 22:58:11 |显示全部楼层
9# wodxy


我只想采集标题前半部分,即非汉字字符部分!我该怎么写了?谢谢了

使用道具 举报

硬币
0
体力
0
威望
0
注册时间
2009-7-11
积分
8
帖子
10
发表于 2009-7-21 23:00:04 |显示全部楼层
正则表达式利用实例?<font color="#0000FF">GB 1000.1-1988 高压线路针式瓷绝缘子技术条件</font></a>能不能之采集红色部分?

使用道具 举报

Rank: 9Rank: 9Rank: 9

硬币
1308
体力
5
威望
514
注册时间
2008-12-25
积分
8276
帖子
322
发表于 2009-7-21 23:55:55 |显示全部楼层
正则使用:  
<font color="#0000FF">GB\s[0-9]{4}.[0-9]{1}-[0-9]{4}[adminkc]</font></a>

说明:\s 匹配空格       [0-9]{4} 匹配4位数字

使用道具 举报

硬币
0
体力
0
威望
0
注册时间
2009-7-11
积分
8
帖子
10
发表于 2009-7-22 08:47:12 |显示全部楼层
哦,明白了!谢谢老大!不过还有一个疑问:比如采集<font color="#0000FF">************ **** ***** </font></a>中星号部分,而我只需要星号中前20个字符,或者我只需要其中非汉字字符部分,<font color="#0000FF">GB 1000.1-1988 高压线路针式瓷绝缘子技术条件</font></a>实际采集过程中,红色部分长度不定,有空格等其他特殊字符,而无汉字!琢磨了半天,是不是用<font color="#0000FF"> ^[\u4e00-\u9fa5] </font></a>?或者其他?

使用道具 举报

初级站长

采集发布规则定做

Rank: 1

硬币
388
体力
4
威望
11
注册时间
2009-9-5
积分
948
帖子
157
发表于 2009-9-8 21:48:54 |显示全部楼层
强悍!

使用道具 举报

硬币
0
体力
-4
威望
0
注册时间
2009-10-17
积分
10
帖子
12
发表于 2009-10-18 18:12:41 |显示全部楼层
这个东西有点复杂,要好好背背,有太好学,因为不直观

使用道具 举报

硬币
28
体力
0
威望
0
注册时间
2010-6-23
积分
48
帖子
8
发表于 2010-6-24 11:22:38 |显示全部楼层
留个脚印,正愁不会呢。

使用道具 举报

硬币
21
体力
0
威望
0
注册时间
2010-8-21
积分
36
帖子
6
发表于 2010-8-22 11:18:16 |显示全部楼层
什么时候可以用搜索,现在有问题了,也不让搜索

使用道具 举报

硬币
14
体力
0
威望
0
注册时间
2010-9-26
积分
26
帖子
6
发表于 2010-9-26 10:57:16 |显示全部楼层
保存一下慢慢看

使用道具 举报

硬币
95
体力
0
威望
0
注册时间
2009-11-9
积分
170
帖子
34
发表于 2010-10-6 14:46:52 |显示全部楼层
难以吃透看懂,天书

使用道具 举报

初级站长

采集发布规则定做

Rank: 1

硬币
388
体力
4
威望
11
注册时间
2009-9-5
积分
948
帖子
157
发表于 2010-10-28 17:15:09 |显示全部楼层
这个必须要会的呵呵
杭州交友 网站优化 www.qdnets.com

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

站长快车 |

GMT+8, 2012-5-18 18:25 , Processed in 0.093449 second(s), 12 queries , Gzip On.

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部