正则表达式以及在Python的的使用

修Bug

2023 年 08 月 20 日

4127 次浏览

2 条评论

2420字数

Python相关

正则表达式的基本语法

元字符：具有固定含义的特殊字符

常用元字符：

1：. 匹配除换行符以外的任意一个字符，在python的re模块中是一个坑

2：\w 匹配字母或数字或下划线

3：\s 匹配任意的空白符

4：\d 匹配任意1个数字

5：\n 匹配一个换行符

6: \t 匹配一个制表符

7：^ 匹配字符串的开始

8：$ 匹配字符串的结尾

9：\W 匹配非字母或数字或下划线

10：\D匹配非数字

11：\S匹配非空白符

12：| 表示或者的意思例：a|b 匹配字符 a或b

13：() 匹配括号内的表达式，也表示一个组类似数学中的小括号的含义

14：匹配括号内的表达式例：[abcde] 就是匹配 a 匹配b 匹配c 匹配d 匹配e 也可以[a-zA-Z0-9] 形式进行匹配表示匹配所有字母和数字

15：[^] 匹配除了字符组中字符的所有字符

量词：控制前面元字符出现的次数

1： 重复零次或更多次会往最多的匹配比如\d 进行匹配时 10000 只会匹配出10000 而不是 1 0 10 100 1000 10000

2：+重复一次或更多次也是会往最多的匹配

3：？重复零次或一次 \d? 进行匹配时 10000 匹配的就是 1 0 0 0 0

4：{n} 重复n次用来限定匹配重复多少次的比如用来匹配手机号：\d{11}

5 ：{n,} 重复n次或者更多次

6：{n，m} 重复n到m次

贪婪匹配和惰性匹配

1：.* 贪婪匹配尽可能多的进行匹配例：我要玩游戏而且我只爱玩单机游戏你也爱玩吗我.游戏匹配出的结果就是：“我要玩游戏而且我只爱玩单机游戏”

2：.*？惰性匹配尽可能少的进行匹配同样是上面例子匹配的结果就是 “我要玩游戏”和“我只爱玩单机游戏”

正则表达式在Python中的使用方法

re模块

re模块是python自带的正则表达式模块，可以直接同 import re 进行引入

import re

result=re.findall(r"正则表达式","字符串内容")\\由于转义字符的问题 一般会使用 r""来忽视转义来减少麻烦
例：re.findall(r"\d+","我今年18，身高180") 返回的结果是列表形式的结果

result=re.finditer((r"\d+","我今年18，身高180")  \\返回的是一个迭代器结果
for item in result： \\从迭代器中拿内容
print(item.group()) \\从匹配到的结果中拿数据 这一个用的比较多，因为使用了迭代器提升了程序的执行效率

result=re.search(r"\d+",“我叫阿修，今年18岁，身高180”)//search只会匹配到第一次匹配到的内容
print(result.group())


re.match(r"\d+",“我叫阿修，今年18岁，身高180”)  //match,在匹配时候是从字符串的开头进行匹配的，类似在正则前面加上了^
//用的较少//match也是匹配到第一个匹配到的内容就返回

在实际应用过程过程中我们会遇到同一个正则表达式被多次使用，这势必会造成资源的损耗比如：
for item in xxxxx:
re.findall("xxx","xxx")
那么这个时候就可以使用预加载来解决问题  预加载，提前把正则对象加载完毕
例：
    obj=re.compile(r"正则表达式")
    for item in xxxxx:
        obj.finditer(item)
    当然不是循环调用也是可以用预加载的 比如：obj.findall("我叫阿修，今年18岁，身高180")

通过re提取分组数据

import re
s="""
<div class='abc'><span id='10001'>中国移动</span></div>
<div class='abc'><span id='10002'>中国电信</span></div>        
"""
res=re.findall(r"<span id='\d+'>.*?</span>",s)
print(res)，
//可以发现提取出的结果是["<span id='10001'>中国移动</span>", "<span id='10002'>中国电信</span>"]，那么如果只是想要提取出10001中国移动 10002中国电信 这两组有用的信息该怎么办呢，只需将re语句加上小括号即可

res=re.findall(r"<span id='(\d+)'>(.*?)</span>",s)
print(res)  

//但是如果提取时想要将 10001和10002分为一组，中国移动和中国电信分为一组方便数据管理又该怎么办呢，这时就需要在re语句中对这两处分别进行设置名字且需要使用.finditer进行提取
res=re.finditer(r"<span id='(?P<num>\d+)'>(?P<name>.*?)</span>",s)
for item in res:
num=item.group("num")
print(num)
name=item.group("name")
print(name)

关于.的使用的细节补充

由于用.进行匹配时是无法匹配换行符的，但日常网页提取时，很多标签之间都是有换行出现的，那么这时候就会产生问题，如何来能将换行符匹配进来呢，比较常用的方法是使用re.S来进行解决

例：
res=re.finditer(<a target="_blank" href=".*?">(?P<name>.*?)</a>',response.text,re.S)

正则表达式以及在Python的的使用

修Bug • 2023 年 08 月 20 日

milyznaefs
September 27th, 2024 at 12:21 pm

怎么收藏这篇文章？

回复
safinpevzi
September 22nd, 2024 at 06:09 pm

博主真是太厉害了！！！

回复

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

akswwoooop
怎么收藏这篇文章？
milyznaefs
怎么收藏这篇文章？
wzmaukzssl
怎么收藏这篇文章？
wiovgsulhz
不错不错，我喜欢看
diippdwyjq
不错不错，我喜欢看

正则表达式以及在Python的的使用

正则表达式的基本语法

常用元字符：

量词：控制前面元字符出现的次数

贪婪匹配和惰性匹配

正则表达式在Python中的使用方法

re模块

通过re提取分组数据

关于.的使用的细节补充

2 条评论

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

AI绘画开源项目Stable Diffusion保姆级使用教程

Python网络爬虫中Xpath表达式语法

正则表达式以及在Python的的使用

CSS编程学习笔记

Python学习笔记文档

Python网络爬虫中Xpath表达式语法

正则表达式以及在Python的的使用

Stable Diffusion模型分类

Python学习笔记文档

CSS编程学习笔记

正则表达式以及在Python的的使用

正则表达式的基本语法

常用元字符：

量词：控制前面元字符出现的次数

贪婪匹配和惰性匹配

正则表达式在Python中的使用方法

re模块

通过re提取分组数据

关于.的使用的细节补充

2 条评论

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

正则表达式以及在Python的的使用

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款