正则在C++中使用的详细介绍

这次给大家带来正则在c++中使用的详细介绍，正则在c++中使用的注意事项有哪些，下面就是实战案例，一起来看一下。
正则表达式regex(regular expression)是一种强大的描述字符序列的工具。在许多语言中都存在着正则表达式，c++11中也将正则表达式纳入了新标准的一部分，不仅如此，它还支持了6种不同的正则表达式的语法，分别是：ecmascript、basic、extended、awk、grep和egrep。其中ecmascript是默认的语法，具体使用哪种语法我们可以在构造正则表达式的时候指定。
正则表达式是一种文本模式。正则表达式是强大、便捷、高效的文本处理工具。正则表达式本身，加上如同一门袖珍编程语言的通用模式表示法(general pattern notation)，赋予使用者描述和分析文本的能力。配合上特定工具提供的额外支持，正则表达式能够添加、删除、分离、叠加、插入和修整各种类型的文本和数据。
完整的正则表达式由两种字符构成：特殊字符(special characters)称为”元字符”(meta characters)，其它为”文字”(literal)，或者是普通文本字符(normal text characters，如字母、数字、汉字、下划线)。正则表达式的元字符提供了更强大的描述能力。
和文本编辑器一样，绝大多数高级编程语言均支持正则表达式，如perl、java、python、c/c++，这些语言都有各自的正则表达式包。
一个正则表达式仅仅为一个字符串，它没有长度限制。“子表达式”指的是整个正则表达式中的一部分，通常是括号内的表达式，或者是由”|”分割的多选分支。
默认情况下，表达式中的字母是要区分大小写的。
常用的元字符：
1.      “.”：匹配除\n之外的任何单个字符，若要匹配包括\n在内的任意字符，需使用诸如[\s\s]之类的模式；
2.       “^”：匹配输入字符串的开始位置，不匹配任何字符，要匹配”^”字符本身，需使用”\^”；
3.      “$”：匹配输入字符串结尾的位置，不匹配任何字符，要匹配”$”字符本身，需使用”\$”；
4.      “*”：零次或多次匹配前面的字符或子表达式，”*”等效于”{0,}”，如”\^*b”可以匹配”b”、”^b”、”^^b”、…；
5.      “+”：一次或多次匹配前面的字符或子表达式，等效于”{1,}”，如”a+b”可以匹配”ab”、”aab”、”aaab”、…；
6.      “?”：零次或一次匹配前面的字符或子表达式，等效于”{0,1}”，如”a[cd]?”可以匹配”a”、”ac”、”ad”；当此字符紧随任何其他限定符”*”、”+”、”?”、”{n}”、”{n,}”、”{n,m}”之后时，匹配模式是非贪心的。非贪心的模式匹配搜索到的、尽可能短的字符串，而默认的贪心的模式匹配搜索到的、尽可能长的字符串。如，在字符串oooo中，o+?只匹配单个o，而o+匹配所有o；
7.      “|”：将两个匹配条件进行逻辑或(or)运算,如正则表达式”(him|her)”匹配itbelongs to him和it belongs to her，但是不能匹配itbelongs to them.；
8.      “\”：将下一字符标记为特殊字符、文本、反向引用或八进制转义符，如，”n”匹配字符”n”,”\n”匹配换行符，序列”\\”匹配”\”,”\(“匹配”(“；
9.      “\w”：匹配字母或数字或下划线，任意一个字母或数字或下划线，即a~z，a~z,0~9,_中任意一个；
10. “\w”：匹配任意不是字母、数字、下划线的字符；
11. “\s”：匹配任意的空白符，包括空格、制表符、换页符等空白字符的其中任意一个，与”[ \f\n\r\t\v]”等效；
12. “\s”：匹配任意不是空白符的字符，与”[^\f\n\r\t\v]”等效；
13. “\d”：匹配数字，任意一个数字，0~9中的任意一个，等效于”[0-9]”；
14. “\d”：匹配任意非数字的字符，等效于”[^0-9]”；
15. “\b”：匹配一个字边界，即字与空格间的位置，也就是单词和空格之间的位置，不匹配任何字符，如，er\b匹配never中的er，但不匹配verb中的er;
16. “\b”：非字边界匹配,er\b匹配verb中的er，但不匹配never中的er；
17. “\f”：匹配一个换页符，等价于”\x0c”和”\cl”；
18. “\n”：匹配一个换行符，等价于”\x0a”和”\cj”；
19. “\r”：匹配一个回车符，等价于”\x0d”和”\cm”；
20. “\t”：匹配一个制表符，等价于”\x09”和”\ci”；
21. “\v”：匹配一个垂直制表符，等价于”\x0b”和”\ck”；
22. “\cx”：匹配”x”指示的控制字符,如，\cm匹配control-m或回车符，”x”的值必须在”a-z”或”a-z”之间,如果不是这样，则假定c就是c字符本身；
23. “{n}”：”n”是非负整数，正好匹配n次，如，o{2}与bob中的o不匹配，但与food中的两个o匹配；
24. “{n,}”：”n”是非负整数,至少匹配n次,如，o{2,}不匹配bob中的o，而匹配foooood中的所有”o”，o{1,}等效于o+，o{0,}等效于o*；
25. “{n,m}”：”n”和”m”是非负整数，其中n<=m，匹配至少n次，至多m次，如，"o{1,3}"匹配"fooooood"中的头三个o，'o{0,1}'等效于'o?'，注意,不能将空格插入逗号和数字之间；如”ba{1,3}”可以匹配”ba”或”baa”或”baaa”；
26. “x|y”：匹配”x”或”y”，如，”z|food”匹配"z"或"food"；”(z|f)ood”匹配"zood"或"food"；
27. “[xyz]”：字符集，匹配包含的任一字符，如，"[abc]"匹配"plain"中的"a";
28. “[^xyz]”：反向字符集，匹配未包含的任何字符，匹配除了”xyz”以外的任意字符，如，"[^abc]"匹配"plain"中的"p"；
29. “[a-z]”：字符范围，匹配指定范围内的任何字符，如，"[a-z]"匹配"a"到"z"范围内的任何小写字母；
30. “[^a-z]”：反向范围字符，匹配不在指定的范围内的任何字符，如，"[^a-z]"匹配任何不在"a"到"z"范围内的任何字符；
31. “( )”：将”(“和”)”之间的表达式定义为”组”group，并且将匹配这个表达式的字符保存到一个临时区域,一个正则表达式中最多可以保存9个，它们可以用”\1”到”\9”的符号来引用；
32. “(pattern)”：匹配pattern并捕获该匹配的子表达式，可以使用$0…$9属性从结果”匹配”集合中检索捕获的匹配；
33. “(?:pattern)”：匹配pattern但不捕获该匹配的子表达式，即它是一个非捕获匹配，不存储供以后使用的匹配，这对于用”or”字符” (|)”组合模式部件的情况很有用, 如，”industr(?:y|ies)”是比”industry|industries”更简略的表达式；
34. “(?=pattern)”：非获取匹配，正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串，该匹配不需要获取供以后使用。如，"windows(?=95|98|nt|2000)"能匹配"windows2000"中的"windows"，但不能匹配"windows3.1"中的"windows"。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始；
35. “(?!pattern)”：非获取匹配，正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串，该匹配不需要获取供以后使用。如"windows(?!95|98|nt|2000)"能匹配"windows3.1"中的"windows"，但不能匹配"windows2000"中的"windows"；
要匹配某些特殊字符，需在此特殊字符前面加上”\”，如要匹配字符”^”、”$”、”()”、”[]”、”{}”、”.”、”?”、”+”、”*”、”|”，需使用” \^”、” \$”、” \ (“、”\)”、” \ [“、”\]”、” \{“、”\}”、” \.”、” \?”、” \+”、” \*”、” \|”。
在c++/c++11中，gcc版本是4.9.0及以上，vs版本为vs2013及以上时，会有regex头文件，此头文件中会有regex_match、regex_search、regex_replace等函数可供调用，以下是测试代码：
#include "regex.hpp" #include <regex> #include <string> #include <vector> #include <iostream> int test_regex_match() { std::string pattern{ \\d{3}-\\d{8}|\\d{4}-\\d{7} }; // fixed telephone std::regex re(pattern); std::vector<std::string> str{ 010-12345678, 0319-9876543, 021-123456789}; /* std::regex_match:   判断一个正则表达式(参数re)是否匹配整个字符序列str,它主要用于验证文本   注意，这个正则表达式必须匹配被分析串的全部，否则返回false;如果整个序列被成功匹配，返回true */ for (auto tmp : str) {   bool ret = std::regex_match(tmp, re);   if (ret) fprintf(stderr, %s, can match\n, tmp.c_str());   else fprintf(stderr, %s, can not match\n, tmp.c_str()); } return 0; } int test_regex_search() { std::string pattern{ http|hppts://\\w*$ }; // url std::regex re(pattern); std::vector<std::string> str{ http://blog.csdn.net/fengbingchun, https://github.com/fengbingchun,   abcd://124.456, abcd https://github.com/fengbingchun 123 }; /* std::regex_search:   类似于regex_match,但它不要求整个字符序列完全匹配   可以用regex_search来查找输入中的一个子序列，该子序列匹配正则表达式re */ for (auto tmp : str) {   bool ret = std::regex_search(tmp, re);   if (ret) fprintf(stderr, %s, can search\n, tmp.c_str());   else fprintf(stderr, %s, can not search\n, tmp.c_str()); } return 0; } int test_regex_search2() { std::string pattern{ [a-za-z]+://[^\\s]* }; // url std::regex re(pattern); std::string str{ my csdn blog addr is: http://blog.csdn.net/fengbingchun , my github addr is: https://github.com/fengbingchun  }; std::smatch results; while (std::regex_search(str, results, re)) {   for (auto x : results)    std::cout << x <<  ;   std::cout << std::endl;   str = results.suffix().str(); } return 0; } int test_regex_replace() { std::string pattern{ \\d{18}|\\d{17}x }; // id card std::regex re(pattern); std::vector<std::string> str{ 123456789012345678, abcd123456789012345678efgh,   abcdefbg, 12345678901234567x }; std::string fmt{ ******** }; /* std::regex_replace:   在整个字符序列中查找正则表达式re的所有匹配   这个算法每次成功匹配后，就根据参数fmt对匹配字符串进行替换 */ for (auto tmp : str) {   std::string ret = std::regex_replace(tmp, re, fmt);   fprintf(stderr, src: %s, dst: %s\n, tmp.c_str(), ret.c_str()); } return 0; } int test_regex_replace2() { // reference: http://www.cplusplus.com/reference/regex/regex_replace/ std::string s(there is a subsequence in the string\n); std::regex e(\\b(sub)([^ ]*)); // matches words beginning by sub // using string/c-string (3) version: std::cout << std::regex_replace(s, e, sub-$2); // using range/c-string (6) version: std::string result; std::regex_replace(std::back_inserter(result), s.begin(), s.end(), e, $2); std::cout << result; // with flags: std::cout << std::regex_replace(s, e, $1 and $2, std::regex_constants::format_no_copy); std::cout << std::endl; return 0; }
相信看了本文案例你已经掌握了方法，更多精彩请关注其它相关文章！
推荐阅读：
使用正则表达式提取字符串详解（附代码）
容易产生错误的js手机号码验证
以上就是正则在c++中使用的详细介绍的详细内容。

正则在C++中使用的详细介绍

VIP推荐