基础知识 - 正则表达式

文章摘要： 正则表达式（Regular Expression）是一种文本模式。

简介

简要说明

正则表达式（Regular Expression）是一种文本模式。
由普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"）组成。
正则表达式用于对字符串进行复杂的模式匹配和查找操作。

主要功能

搜索：在大量文本中查找特定的字符串或模式。
替换：找到匹配的字符串后，用新的字符串替换它们。
分割：根据特定的模式将字符串分割成多个子字符串。
验证：检查字符串是否符合特定的格式，如电子邮件地址、电话号码等。

注意事项

转义字符：在正则表达式中，某些字符具有特殊含义，如果需要匹配这些字符本身，需要使用反斜杠 \ 进行转义。
匹配多个可能性：使用方括号 [] 来指定一个字符集合，匹配集合中的任意一个字符。
贪婪与懒惰：默认情况下，量词（如 *、+）是贪婪的，会匹配尽可能多的字符。使用 ? 可以使其变为懒惰模式，匹配尽可能少的字符。
性能问题：复杂的正则表达式可能导致性能问题，尤其是在处理大量数据时。应尽量优化表达式，避免回溯。
兼容性：不同的编程语言和平台可能支持不同的正则表达式特性，需要注意兼容性问题。

适用场景

数据验证：在用户输入数据时，确保数据格式正确，如表单验证。
文本处理：在文本编辑器中查找和替换文本，或者在日志文件中搜索特定模式。
数据分析：从大量文本数据中提取有用信息，如日志分析、自然语言处理。
字符串操作：编程中处理字符串时，进行搜索、替换、分割等操作。
网络爬虫：从网页中提取链接、数据等信息。

语法

基本匹配

.：匹配除换行符之外的任意单个字符。
[abc]：匹配方括号内的任意一个字符（a、b 或 c）。
[^abc]：匹配不在方括号内的任意一个字符。
\d：匹配任意一个数字字符（等价于 [0-9]）。
\D：匹配一个非数字字符。等价于 [^0-9]。
\w：匹配任意一个字母数字或下划线字符（等价于 [a-zA-Z0-9_]）。
\W：匹配任何非单词字符。等价于 [^A-Za-z0-9_]。
\s：匹配任意一个空白字符（空格、制表符、换行符等）。
\S：匹配任何非空白字符。

量词

*：匹配前面的子表达式零次或多次。
+：匹配前面的子表达式一次或多次。
?：匹配前面的子表达式零次或一次。
{n}：匹配前面的子表达式恰好 n 次。
{n,}：匹配前面的子表达式至少 n 次。
{n,m}：匹配前面的子表达式至少 n 次，但不超过 m 次。

定位符

^：匹配输入字符串的开始位置。
$：匹配输入字符串的结束位置。
\b：匹配一个单词边界。
\B：非单词边界匹配。

分组和引用

(exp)：匹配 exp 并捕获文本到自动命名的组里。
(?:exp)：匹配 exp 但不捕获匹配的文本。
\n：引用编号为 n 的捕获组匹配的文本。

选择符

|：匹配两个或多个分支选择的任意一个。

常见推荐规则

详细总结：基础知识-正则表达式-热门推荐-常见规则