本文讲述 golang 中如何进行正则表达式的子模式匹配。运用子模式匹配可用于文本的抽取,在爬虫系统中会经常用到。
例如,我们想抽取资讯详情页地址https://toutiao.weaoo.com/detail/1080888_1.html中的资讯ID,即1080888,我们可以使用"正则表达式中的子模式匹配"功能,来提取出我们想要的文本。代码如下
submatchArr := regexp.MustCompile(`toutiao.weaoo.com/detail/(\d+)_\d+.html`).FindStringSubmatch("https://toutiao.weaoo.com/detail/1080888_1.html") newsId := submatchArr[1] fmt.Print(newsId)
例如,我们想替换字符串 Hello2019.09.13 中的年月日日期为空字符串。代码如下
str := "Hello2019.09.13" result := regexp.MustCompile(`(\d{4}\.\d{2}\.\d{2})`).ReplaceAllString(str, "") println(result)
发表评论 取消回复