最简单的正则表达式匹配单词是匹配一个简单的字符如字母、数字和标点等。对于标点等特殊字符通常被称为“metacharacter”,在匹配这些元字符时R语言里面需要使用'\'。主要嘚元字符有:. $ * + ? | \ ^ [ ] { } ( )等
Sequences用于匹配字符序列,主要的序列有:
字符类或字符集是用“[ ]”括起来的字符集只偠匹配字符集中的任意类。例如[aA]表示匹配任意小写a或大写字母A,[]表示匹配任意单个数字这里要区别字符类与字符的区别。常见的一些字符類有: [AEIOU] 匹配任何一个大写元音 [] 匹配任意单个数字
POSIX字符类是用"[[ ]]“括起来的正则表达常见的POSIX字符類有: [[:space:]] 空格字符:制表符,换行符, 垂直制表符,换页符,回车和空格
Quantifiers在要满足特定条件的匹配一定数量的字符时使用,用于设定符合匹配表达的实唎数常见的数量词表达有: '?' 前面的待匹配的项目是可选的,且最多匹配一个 '*' 前面待匹配的项目可以匹配0个或更多个 '+' 前面待匹配的项目将匹配一个或多个 '{n}' 前面待匹配的项目将匹配n个 '{n,}' 前面待匹配的项目将匹配n个或更多个 '{n,m}' 前面待匹配的项目将匹配至少n个最多m个
|
正则表达其实就是对文本进行模式匹配所有语言中的正则表达式匹配单词都有一些共同的特征。我们使用help(regex)命令查看R正则表达的帮助内容下面我们对元字符(metacharacters)、数量词(quantitifiers)、序列(sequences)、字符类(character class)和POSIX字符类分别进行说明。
加载中请稍候......