iOS 正则表达式使用的三种方式&语法-白红宇

iOS 正则表达式使用的三种方式&语法

阅读量：5065 次

发布时间：2019-06-12

本文共 10565 字，大约阅读时间需要 35 分钟。

一、正则表达式定义

正则表达式：又称规则表达式（英语：Regular Expression，在代码中常简写为regex、regexp或RE，是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

二、特点

灵活性、逻辑性和功能性非常的强

可以迅速地用极简单的方式达到字符串的复杂控制

对于刚接触的人来说，比较晦涩难懂。

三、基本语法

选择
- | 竖直分隔符代表选择。例如“gray|grey”可以匹配grey或gray。

数量限定
- 某个字符后的数量限定符用来限定前面这个字符允许出现的个数。最常见的数量限定符包括“+”、“?”和“*”（不加数量限定则代表出现一次且仅出现一次）：
- + 加号代表前面的字符必须至少出现一次。（1次、或多次）。例如，“goo+gle”可以匹配google、gooogle、goooogle等;
- ？问号代表前面的字符最多只可以出现一次。（0次、或1次）。例如，“colou?r”可以匹配color或者colour;
- * 星号代表前面的字符可以不出现，也可以出现一次或者多次。（0次、或1次、或多次）。例如，“0*42”可以匹配42、042、0042、00042等。

匹配
- 圆括号可以用来定义操作符的范围和优先度。例如，“gr(a|e)y”等价于“gray|grey”，“(grand)?father”匹配father和grandfather。
- 上述这些构造子都可以自由组合，因此，“H(ae?|ä)ndel”和“H(a|ae|ä)ndel”是相同的。

表达式全集

字符	描述
\	将下一个字符标记为一个特殊字符(File Format Escape)、或一个原义字符（Identity Escape)、或一个向后引用(backreferences)、或一个八进制转义符。例如，“n”匹配字符“n”。“\n”匹配一个换行符。序列“\\”匹配“\”而“\(”则匹配“(”。
^	匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。
$	匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性，$也匹配“\n”或“\r”之前的位置。
*	匹配前面的子表达式零次或多次。例如，zo能匹配“z”、“zo”以及“zoo”。等价于{0,}。
+	匹配前面的子表达式一次或多次。例如，“zo+”能匹配“zo”以及“zoo”，但不能匹配“z”。+等价于{1,}。
?	匹配前面的子表达式零次或一次。例如，“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。
{n}	n是一个非负整数。匹配确定的n次。例如，“o{2}”不能匹配“Bob”中的“o”，但是能匹配“food”中的两个o。
{n,}	n是一个非负整数。至少匹配n次。例如，“o{2,}”不能匹配“Bob”中的“o”，但能匹配“foooood”中的所有o。“o{1,}”等价于“o+”。“o{0,}”则等价于“o*”。
{n,m}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，“o{1,3}”将匹配“fooooood”中的前三个o。“o{0,1}”等价于“o?”。请注意在逗号和两个数之间不能有空格。
?	非贪心量化（Non-greedy quantifiers）：当该字符紧跟在任何一个其他重复修饰符（*,+,?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串“oooo”，“o+?”将匹配单个“o”，而“o+”将匹配所有“o”。
.	匹配除“\n”之外的任何单个字符。要匹配包括“\n”在内的任何字符，请使用像“(.\|\n)”的模式。
(pattern)	匹配pattern并获取这一匹配的子字符串。该子字符串用于向后引用。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“$”或“$”。
(?:pattern)	匹配pattern但不获取匹配的子字符串（shy groups)，也就是说这是一个非获取匹配，不存储匹配的子字符串用于向后引用。这在使用或字符“(\|)”来组合一个模式的各个部分是很有用。例如“industr(?:y\|ies)”就是一个比“industry\|industries”更简略的表达式。
(?=pattern)	正向肯定预查（look ahead positive assert），在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“Windows(?=95\|98\|NT\|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	正向否定预查(negative assert)，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“Windows(?!95\|98\|NT\|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始
(?<=pattern)	反向(look behind)肯定预查，与正向肯定预查类似，只是方向相反。例如，“(?<=95\|98\|NT\|2000)Windows”能匹配“2000Windows”中的“Windows”，但不能匹配“3.1Windows”中的“Windows”。
(?<!pattern)	反向否定预查，与正向否定预查类似，只是方向相反。例如“(?<!95\|98\|NT\|2000)Windows”能匹配“3.1Windows”中的“Windows”，但不能匹配“2000Windows”中的“Windows”。
x\|y	匹配x或y。例如，“z\|food”能匹配“z”或“food”。“(?:z\|f)ood”则匹配“zood”或“food”。
[xyz]	字符集合（character class）。匹配所包含的任意一个字符。例如，“[abc]”可以匹配“plain”中的“a”。特殊字符仅有反斜线\保持特殊含义，用于转义字符。其它特殊字符如星号、加号、各种括号等均作为普通字符。脱字符^如果出现在首位则表示负值字符集合；如果出现在字符串中间就仅作为普通字符。连字符 - 如果出现在字符串中间表示字符范围描述；如果如果出现在首位则仅作为普通字符。
[^xyz]	排除型字符集合（negated character classes）。匹配未列出的任意字符。例如，“[^abc]”可以匹配“plain”中的“plan”。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。
[^a-z]	排除型的字符范围。匹配任何不在指定范围内的任意字符。例如，“[^a-z]”可以匹配任何不在“a”到“z”范围内的任意字符。
[:name:]	增加命名字符类（named character class）中的字符到表达式。只能用于方括号表达式。
[=elt=]	增加当前locale下排序（collate）等价于字符“elt”的元素。例如，[=a=]可能会增加ä、á、à、ă、ắ、ằ、ẵ、ẳ、â、ấ、ầ、ẫ、ẩ、ǎ、å、ǻ、ä、ǟ、ã、ȧ、ǡ、ą、ā、ả、ȁ、ȃ、ạ、ặ、ậ、ḁ、ⱥ、ᶏ、ɐ、ɑ 。只能用于方括号表达式。
[.elt.]	增加（collation element）elt到表达式中。这是因为某些排序元素由多个字符组成。例如，29个字母表的西班牙语， "CH"作为单个字母排在字母C之后，因此会产生如此排序“cinco, credo, chispa”。只能用于方括号表达式。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如，“er\b”可以匹配“never”中的“er”，但不能匹配“verb”中的“er”。
\B	匹配非单词边界。“er\B”能匹配“verb”中的“er”，但不能匹配“never”中的“er”。
\cx	匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的“c”字符。
\d	匹配一个数字字符。等价于[0-9]。
\D	匹配一个非数字字符。等价于[^0-9]。
\f	匹配一个换页符。等价于\x0c和\cL。
\n	匹配一个换行符。等价于\x0a和\cJ。
\r	匹配一个回车符。等价于\x0d和\cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于[^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于\x09和\cI。
\v	匹配一个垂直制表符。等价于\x0b和\cK。
\w	匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_]”。
\W	匹配任何非单词字符。等价于“[^A-Za-z0-9_]”。
\ck	匹配控制转义字符。k代表一个字符。等价于“Ctrl-k”。用于ECMA语法。
\xnn	十六进制转义字符序列。匹配两个十六进制数字nn表示的字符。例如，“\x41”匹配“A”。“\x041”则等价于“\x04&1”。正则表达式中可以使用ASCII编码。.
\num	向后引用（back-reference）一个子字符串（substring），该子字符串与正则表达式的第num个用括号围起来的捕捉群（capture group）子表达式（subexpression）匹配。其中num是从1开始的十进制正整数，其上限可能是9、31、99甚至无限。例如：“(.)\1”匹配两个连续的相同字符。
\n	标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字（0-7），则n为一个八进制转义值。
\nm	3位八进制数字，标识一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式，则nm为向后引用。如果\nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。
\nml	如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
\un	Unicode转义字符序列。其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号（©）。

优先权

优先权	符号
最高	\
高	( )、(?: )、(?= )、[ ]
中	*、+、?、{n}、{n,}、{m,n}
低	^、$、中介字符
最低	\|

四、速记理解技巧

1、’.’ , ‘[ ]’, ‘^’ , ‘$’ 是基础的正则表达式，所有语言都支持。正则难理解是因为里面有一个等价的概念，增加了理解难度。

2、等价：同样的功能，用不同符号来书写

　　?,*,+,\d,\w 都是等价字符

　　?等价于匹配长度{0,1}

　　*等价于匹配长度{0,}

　　+等价于匹配长度{1,}

　　\d等价于[0-9]

　　\D等价于[^0-9]

　　\w等价于[A-Za-z_0-9]

　　\W等价于[^A-Za-z_0-9]。

3、常用运算符与表达式：

　　^ 开始

　　（）域段

　　[] 包含,默认是一个字符长度

　　[^] 不包含,默认是一个字符长度

　　{n,m} 匹配长度

　　. 任何单个字符(\. 字符点)

　　| 或

　　\ 转义

　　$ 结尾

　　[A-Z] 26个大写字母

　　[a-z] 26个小写字母

　　[0-9] 0至9数字

　　[A-Za-z0-9] 26个大写字母、26个小写字母和0至9数字

　　，分割

4、分割语法：

[A,H,T,W] 包含A或H或T或W字母

[a,h,t,w] 包含a或h或t或w字母

[0,3,6,8] 包含0或3或6或8数字

5、语法与释义：

基础语法 "^([]{})([]{})([]{})$"

　　正则字符串 = "开始（[包含内容]{长度}）（[包含内容]{长度}）（[包含内容]{长度}）结束"

　　?,*,+,\d,\w 这些都是简写的,完全可以用[]和{}代替，在(?:)(?=)(?!)(?<=)(?<!)(?i)(*?)(+?)这种特殊组合情况下除外。

　　初学者可以忽略?,*,+,\d,\w一些简写标示符，学会了基础使用再按表自己去等价替换

　　6 、iOS 中使用正则表达式有三种方式

/** 方式一：使用谓词 */    - (void)regexUsePredicateWithText:(UITextField *)cardTextField {        /** Visa */        NSString *visaRegex = @"^4\\d{15}$";        NSPredicate *visaPredicate = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", visaRegex];                        /** Maestro */        NSString *maestroRegex = @"^(50|(5[6-9])|(6[\\d]))\\d{10,17}$";        NSPredicate *maestroPredicate = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", maestroRegex];                        /** MasterCard */        NSString *masterCardRegex = @"^(5[1-5][\\d]{2}|222[1-9]|22[3-9][\\d]|2[3-6][\\d]{2}|27[0-1][\\d]|2720)\\d{12}$";        NSPredicate *masterCardPredicate = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", masterCardRegex];                /** American Express */        NSString *americanExpRegex = @"^(3(4|7))\\d{10,16}$";        NSPredicate *americanExpPredicate = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", americanExpRegex];                        /** Diners Club International */        NSString *dinersRegex = @"^((30(9|[0-5])|((36|38|39)\\d)))\\d{5,15}$";        NSPredicate *dinersPredicate = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", dinersRegex];                        if ([visaPredicate evaluateWithObject:cardTextField.text]) {            NSLog(@"已经匹配到Visa卡");        } else if ([maestroPredicate evaluateWithObject:cardTextField.text]) {            NSLog(@"已经匹配到Maestro卡");        } else if ([masterCardPredicate evaluateWithObject:cardTextField.text]) {            NSLog(@"已经匹配到Maestro卡");        } else if ([americanExpPredicate evaluateWithObject:cardTextField.text]) {            NSLog(@"已经匹配到American Express卡");        } else if ([dinersPredicate evaluateWithObject:cardTextField.text]) {            NSLog(@"已经匹配到Diners Club International卡");        } else {            NSLog(@"没有匹配到信用卡");        }    }    /** 方式二：使用rangeOfString：option：直接查找  */    /** Visa */    NSString *visaRegex = @"^4\\d{15}$";    NSRange range = [theTextField.text rangeOfString:visaRegex options:NSRegularExpressionSearch];    if (range.location != NSNotFound) {        NSLog(@"已经匹配到Visa卡");    } else {        NSLog(@"没有匹配到信用卡");    }            /** 方式三：使用正则表达式类 */    NSError *error = NULL;    NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:visaRegex options:NSRegularExpressionCaseInsensitive error:&error];    NSTextCheckingResult *result = [regex firstMatchInString:theTextField.text options:0 range:NSMakeRange(0, [theTextField.text length])];        if (result) {        NSLog(@"已经匹配到Visa卡");    } else {        NSLog(@"没有匹配到信用卡");    }- (BOOL)textField:(UITextField *)textField shouldChangeCharactersInRange:(NSRange)range replacementString:(NSString *)string {        /** 只允许输入 空格 数字 小括号（） */    NSPredicate *visaPredicate = [NSPredicate predicateWithFormat:@"SELF MATCHES %@", @"^(\\s|[\\d()-])+$"];    if ([visaPredicate evaluateWithObject:string]) {        return YES;    } else {        return NO;    }}

7、实例：

字符串；tel:086-0666-88810009999

　　原始正则："^tel:[0-9]{1,3}-[0][0-9]{2,3}-[0-9]{8,11}$"

　　速记理解：开始 "tel:普通文本"[0-9数字]{1至3位}"-普通文本"[0数字][0-9数字]{2至3位}"-普通文本"[0-9数字]{8至11位} 结束"

　　等价简写后正则写法："^tel:\d{1,3}-[0]\d{2,3}-\d{8,11}$" ，简写语法不是所有语言都支持。

　　1.验证用户名和密码：（"^[a-zA-Z]\w{5,15}$"）正确格式："[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位；

　　2.验证电话号码：（"^(\d{3,4}-)\d{7,8}$"）正确格式：xxx/xxxx-xxxxxxx/xxxxxxxx；

　　3.验证手机号码："^1[3|4|5|7|8][0-9]\\d{8}$"；

　　4.验证身份证号（15位或18位数字）："\d{14}[[0-9],0-9xX]"；

　　5.验证Email地址：("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$")；

　　6.只能输入由数字和26个英文字母组成的字符串：("^[A-Za-z0-9]+$")；

　　7.整数或者小数：^[0-9]+([.][0-9]+){0,1}$

　　8.只能输入数字："^[0-9]*$"。

　　9.只能输入n位的数字："^\d{n}$"。

　　10.只能输入至少n位的数字："^\d{n,}$"。

　　11.只能输入m~n位的数字："^\d{m,n}$"。

　　12.只能输入零和非零开头的数字："^(0|[1-9][0-9]*)$"。

　　13.只能输入有两位小数的正实数："^[0-9]+(\.[0-9]{2})?$"。

　　14.只能输入有1~3位小数的正实数："^[0-9]+(\.[0-9]{1,3})?$"。

　　15.只能输入非零的正整数："^\+?[1-9][0-9]*$"。

　　16.只能输入非零的负整数："^\-[1-9][0-9]*$"。

　　17.只能输入长度为3的字符："^.{3}$"。

　　18.只能输入由26个英文字母组成的字符串："^[A-Za-z]+$"。

　　19.只能输入由26个大写英文字母组成的字符串："^[A-Z]+$"。

　　20.只能输入由26个小写英文字母组成的字符串："^[a-z]+$"。

　　21.验证是否含有^%&',;=?$\"等字符："[%&',;=?$\\^]+"。

　　22.只能输入汉字："^[\u4e00-\u9fa5]{0,}$"。

　　23.验证URL："^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$"。

　　24.验证一年的12个月："^(0?[1-9]|1[0-2])$"正确格式为："01"～"09"和"10"～"12"。

　　25.验证一个月的31天："^((0?[1-9])|((1|2)[0-9])|30|31)$"正确格式为；"01"～"09"、"10"～"29"和“30”~“31”。

　　26.获取日期正则表达式：\\d{4}[年|\-|\.]\d{\1-\12}[月|\-|\.]\d{\1-\31}日?

　　评注：可用来匹配大多数年月日信息。

　　27.匹配双 (包括汉字在内)：[^\x00-\xff]

　　评注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1）

　　28.匹配空白行的正则表达式：\n\s*\r

　　评注：可以用来删除空白行

　　29.匹配HTML标记的正则表达式：<(\S*?)[^>]*>.*?</>|<.*? />

　　评注：网上流传的版本太糟糕，上面这个也仅仅能匹配部分，对于复杂的嵌套标记依旧无能为力

　　30.匹配首尾空白的正则表达式：^\s*|\s*$

　　评注：可以用来删除行首行尾的空白字符(包括空格、、换页符等等)，非常有用的表达式

　　31.匹配网址URL的正则表达式：[a-zA-z]+://[^\s]*

　　评注：网上流传的版本功能很有限，上面这个基本可以满足需求

　　32.匹配帐号是否合法(字母开头，允许5-16 ，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

　　评注：表单验证时很实用

　　33.匹配腾讯QQ号：[1-9][0-9]{4,}

　　评注：腾讯QQ号从10 000 开始

　　34.匹配中国邮政编码：[1-9]\\d{5}(?!\d)

　　评注：中国邮政编码为6位数字

　　35.匹配ip地址：([1-9]{1,3}\.){3}[1-9]。

　　评注：提取ip地址时有用

　　36.匹配MAC地址：([A-Fa-f0-9]{2}\:){5}[A-Fa-f0-9]

转载于:https://www.cnblogs.com/10-19-92/p/6758455.html

你可能感兴趣的文章

基于grunt构建的前端集成开发环境

查看>>

MySQL服务读取参数文件my.cnf的规律研究探索

利用循环播放dataurl的视频来防止锁屏：NoSleep.js

Educational Codeforces Round 46 (Rated for Div. 2)

查看>>

Abstract Factory Pattern

查看>>

C# 实现Bresenham算法（vs2010）

查看>>

基于iSCSI的SQL Server 2012群集测试(一)--SQL群集安装

查看>>

list 容器排序函数.xml

查看>>

Activity启动过程中获取组件宽高的五种方式

Mono源码学习笔记:Console类(四)

查看>>

Android学习路线（十二）Activity生命周期——启动一个Activity

查看>>