本文讲述 golang 中如何进行正则表达式的子模式匹配。运用子模式匹配可用于文本的抽取,在爬虫系统中会经常用到。

例如,我们想抽取资讯详情页地址https://toutiao.weaoo.com/detail/1080888_1.html中的资讯ID,即1080888,我们可以使用"正则表达式中的子模式匹配"功能,来提取出我们想要的文本。代码如下

submatchArr := regexp.MustCompile(`toutiao.weaoo.com/detail/(\d+)_\d+.html`).FindStringSubmatch("https://toutiao.weaoo.com/detail/1080888_1.html")
newsId := submatchArr[1]
fmt.Print(newsId)

例如,我们想替换字符串 Hello2019.09.13 中的年月日日期为空字符串。代码如下

str := "Hello2019.09.13"
result := regexp.MustCompile(`(\d{4}\.\d{2}\.\d{2})`).ReplaceAllString(str, "")
println(result)


点赞(731)

评论列表共有 0 条评论

立即
投稿
返回
顶部