求一个能匹配数字、大小写字母、中文、日文假名与日本汉字的js正则表达式式(PHP,UTF-8)

php 汉字字母数字下划线正则表达式-Php入门-Php教程-壹聚教程网php 汉字字母数字下划线正则表达式匹配首尾空白字符的正则表达式:^\\s*|\\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
匹配首尾空白字符的正则表达式:^s*|s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
$action = trim($_get['action']);
if($action == &sub&)
&&& $str = $_post['dir'];&&&
&&& //if(!preg_match(&/^[&.chr(0xa1).&-&.chr(0xff).&a-za-z0-9_]+$/&,$str)) //gb2312汉字字母数字下划线正则表达式
&&& if(!preg_match(&/^[x{4e00}-x{9fa5}a-za-z0-9_]+$/u&,$str))&& //utf-8汉字字母数字下划线正则表达式
&&&&&&& echo &&font color=red&您输入的[&.$str.&]含有违法字符&/font&&;&&
&&&&&&& echo &&font color=green&您输入的[&.$str.&]完全合法,通过!&/font&&;&&
&form method=&post& action=&&&
输入字符(数字,字母,汉字,下划线):
&&& &input type=&text& name=&dir& value=&&&
&&& &input type=&submit& value=&提交&&
匹配网址url的正则表达式:[a-za-z]+://[^s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求
匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-za-z][a-za-z0-9_]{4,15}$
评注:表单验证时很实用
匹配国内电话号码:d{3}-d{8}|d{4}-d{7}
评注:匹配形式如
匹配腾讯qq号:[1-9][0-9]{4,}
评注:腾讯qq号从10000开始
匹配中国邮政编码:[1-9]d{5}(?!d)
评注:中国邮政编码为6位数字
匹配身份证:d{15}|d{18}
评注:中国的身份证为15位或18位
匹配ip地址:d+.d+.d+.d+
评注:提取ip地址时有用
上一页: &&&&&下一页:相关内容php判断是否为中文正则表达式大全(转) -
- ITeye技术网站
博客分类:
/DavidYan/articles/2032115.html
php判断是否为中文正则表达式大全
$str="aaa";
if(!eregi("[^\x80-\xff]","$str"))
echo "是";
echo "不是";
$str = "中国";
echo "&hr&";
//if (preg_match("/^[".chr(0xa1)."-".chr(0xff)."]+$/", $str)) {
//只能在GB2312情况下使用
if (preg_match("/^[\x7f-\xff]+$/", $str)) { //兼容gb2312,utf-8
echo "正确输入";
echo "错误输入";
如果想判断一个字符串内是否有含有中文,请用下面的代码:
if (preg_match("/[\x7f-\xff]/", $string)) {
echo "有中文";
echo "没有中文";
判断中文和编码有关
gbk是双字节,utf8是三字节,可以根据中文的范围来判断
编码范围1. GBK
(GB2312/GB18030)
GBK双字节编码范围
\x80-\xff 中文
\u4e00-\u9fa5
\x3130-\x318F
\xAC00-\xD7A3
\u0800-\u4e00
韩文是大于[\u9fa5]的字符
preg_replace(”/([\x80-\xff])/”,”",$str);
preg_replace(”/([u4e00-u9fa5])/”,”",$str);
//判断内容里有没有中文-GBK (PHP)
check_is_chinese(
preg_match(
'/[\x80-\xff]./'
//获取字符串长度-GBK (PHP)
gb_strlen(
(preg_match(
"/[\x80-\xff]/"
//截取字符串字串-GBK (PHP)
gb_substr(
(preg_match(
"/[\x80-\xff]/"
//统计字符串长度-UTF8 (PHP)
utf8_strlen(
'Not a UTF-8 compatible string'
//截取字符串-UTF8(PHP)
utf8_substr(
$start_position
$start_byte
$end_position
$start_position
$start_position
$start_byte
$start_byte
$end_position
'Not a UTF-8 compatible string'
$start_position
$end_position
$start_position
//判断是否是有韩文-UTF-8 (JavaScript)
checkKoreaChar(str) {
(i=0; i&str. i++) {
(((str.charCodeAt(i) & 0x3130 && str.charCodeAt(i) & 0x318F) || (str.charCodeAt(i) &= 0xAC00 && str.charCodeAt(i) &= 0xD7A3))) {
//判断是否有中文字符-GBK (JavaScript)
check_chinese_char(s){
(s.length != s.replace(/[^\x00-\xff]/g,
).length);
UTF-8匹配:
在javascript中,要判断字符串是中文是很简单的。比如:
var str = "php编程";
if (/^[\u4e00-\u9fa5]+$/.test(str)) {
alert("该字符串全部是中文");
alert("该字符串不全部是中文");
php中,是用\x表示十六进制数据的。于是,变换成如下的代码:
$str = "php编程";
if (preg_match("/^[\x4e00-\x9fa5]+$/",$str)) {
print("该字符串全部是中文");
print("该字符串不全部是中文");
貌似不报错了,判断的结果也正确,不过把$str换成“编程”两字,结果却还是显示“该字符串不全部是中文”,看来这样的判断还是不够准确。
重要:查阅了&精通正则表达式&发现,对于[\x4e00-\x9fa5]这块东西,自己做一个强化的解释
php的正则中, [\x4e00-\x9fa5],其实就是 字符和字符组的概念, \x{hex},表达一个16进制数,
需要注意的是hex 可以是1-2位的,也可以是4位的,但是如果是4位的必须加上大括号,
同时,如果是大于x{FF}的hex,必须和u 修饰符连用,不然会非法出错
网上只能找到匹配全角字符的正则:
^[\x80-\xff]*^/
,这里可以不加大括号
[\u4e00-\u9fa5]可以匹配中文,但是PHP又不支持
不过,既然\x表示的十六进制数据,为什么和js里边提供的范围\x4e00-\x9fa5不一样呢?于是我就换成了下边的代码,发现真的准确了:
$str = "php编程";
if (preg_match("/^[\x{4e00}-\x{9fa5}]+$/u",$str)) {
print("该字符串全部是中文");
print("该字符串不全部是中文");
知道了php中utf-8编码下用正则表达式匹配汉字的最终正确表达式——/^[\x{4e00}-\x{9fa5}]+$/u,
参考以上文章写了如下一段测试代码(复制以下代码保存成.php文件)
$action = trim($_GET['action']);
if($action == "sub")
$_POST['dir'];
//if(!preg_match("/^[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+$/",$str))
//GB2312汉字字母数字下划线正则表达式
if(!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z0-9_]+$/u",$str))
//UTF-8汉字字母数字下划线正则表达式
echo "&font
color=red&您输入的[".$str."]含有违法字符&/font&";
echo "&font
color=green&您输入的[".$str."]完全合法,通过!&/font&";
&form method="POST"
action="?action=sub"&
输入字符(数字,字母,汉字,下划线):
&input type="text" name="dir"
&input type="submit"
value="提交"&
preg_match("/^[".chr(0xa1)."-".chr(0xff)."A-Za-z0-9_]+$/",$str);
//GB2312汉字字母数字下划线正则表达式
$str="aaa";
if(!eregi("[^\x80-\xff]","$str"))
echo "是";
echo "不是";
$str = "中国";
echo "&hr&";
//if (preg_match("/^[".chr(0xa1)."-".chr(0xff)."]+$/", $str)) {
//只能在GB2312情况下使用
if (preg_match("/^[\x7f-\xff]+$/", $str)) { //兼容gb2312,utf-8
echo "正确输入";
echo "错误输入";
如果想判断一个字符串内是否有含有中文,请用下面的代码:
if (preg_match("/[\x7f-\xff]/", $string)) {
echo "有中文";
echo "没有中文";
浏览: 33131 次
来自: 宁波页面导航:
→ 正文内容 正则表达式 匹配汉字
php中utf-8编码下用正则表达式如何匹配汉字
知道了php中utf-8编码下用正则表达式匹配汉字的最终正确表达式――/^[\x{4e00}-\x{9fa5}]+$/u
在javascript中,要判断字符串是中文是很简单的。比如:
代码如下: var str = "php编程"; if (/^[\u4e00-\u9fa5]+$/.test(str)) { alert("该字符串全部是中文"); } else { alert("该字符串不全部是中文"); }
想当然的,在php中来判断字符串是否为中文,就会沿袭这个思路:
代码如下: &?php $str = "php编程"; if (preg_match("/^[\u4e00-\u9fa5]+$/",$str)) { print("该字符串全部是中文"); } else { print("该字符串不全部是中文"); } ?&
不过,很快就会发现,php并不支持这样的表达,报错: Warning: preg_match() [function.preg-match]: Compilation failed: PCRE does not support \L, \l, \N, \U, or \u at offset 3 in test.php on line 3 刚开始从google上查了很多次,想从php正则表达式对于十六进制数据的表达方式上进行突破,发现在php中,是用\x表示十六进制数据的。于是,变换成如下的代码: $str = "php编程"; if (preg_match("/^[\x4e00-\x9fa5]+$/",$str)) { print("该字符串全部是中文"); } else { print("该字符串不全部是中文"); } 貌似不报错了,判断的结果也正确,不过把$str换成“编程”两字,结果却还是显示“该字符串不全部是中文”,看来这样的判断还是不够准确。 后来跑回百度搜“php 匹配汉字 utf 8”,发现文章的匹配程度竟然要比google的高多了,看来百度的“百度更懂中文”还在一定程度上是正确的。在第二篇文章《★★★ 求UTF8下匹配汉字的正则, 在线等.........》中看到了如下的一些内容: 楼主zhiin(┈ Jcan ┈) 15:59:30 在 Web 开发 / PHP 提问 求UTF8下匹配汉字的正则, 不包括全角字符及特殊符号! 网上只能找到匹配全角字符的正则: ^[\x80-\xff]*^/ [\u4e00-\u9fa5]可以匹配中文,但是PHP又不支持 郁闷中....... 1 楼PleaseDoTellMeWhy(Allah bless you!)回复于
16:04:55 得分 11 chr(0xa1) . '-' . chr(0xff)可以匹配所有中文,但是不知道在UTF-8下如何!Top 2 楼zhiin(┈ Jcan ┈)回复于
16:11:34 得分 0 即使在gb2312下, chr(0xa1) . '-' . chr(0xff) 也不对 它把全角符号也匹配进来了Top 3 楼xuzuning(唠叨)回复于
16:19:56 得分 90 模式修正符: u 按照这几位提供的线索逐个试了一下,发现还真的如他们所说,可能还跟编码有关系,因此需要了解一下模式修正符的相关知识――于是继续搜索百度。 在一篇《模式修正符》的文章中了解到: u (PCRE_UTF8) 此修正符启用了一个 PCRE 中与 Perl 不兼容的额外功能。模式字符串被当成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用,在 win32 下自 PHP 4.2.3 起可用。 例子: preg_match('/[\x{2460}-\x{2468}]/u', $str); 匹配 内码汉字 按照他提供的方式进行测试,代码如下:
代码如下: $str = "php编程"; if (preg_match("/^[\x{2460}-\x{2468}]+$/u",$str)) { print("该字符串全部是中文"); } else { print("该字符串不全部是中文"); }
发现这次依然对是否为中文判断失常。不过,既然\x表示的十六进制数据,为什么和js里边提供的范围\x4e00-\x9fa5不一样呢?于是我就换成了下边的代码:
代码如下: $str = "php编程"; if (preg_match("/^[\x4e00-\x9fa5]+$/u",$str)) { print("该字符串全部是中文"); } else { print("该字符串不全部是中文"); }
本来以为铁定成功了的事情,没想到,warning又一次产生了: Warning: preg_match() [function.preg-match]: Compilation failed: invalid UTF-8 string at offset 6 in test.php on line 3 看来又有错误的表达方式了,于是对照了一下那篇文章的表达方式,给“4e00”和“9fa5”两边分别用"{"和“}”包起来,跑了一遍,发现真的准确了:
代码如下: $str = "php编程"; if (preg_match("/^[\x{4e00}-\x{9fa5}]+$/u",$str)) { print("该字符串全部是中文"); } else { print("该字符串不全部是中文"); }
知道了php中utf-8编码下用正则表达式匹配汉字的最终正确表达式――/^[\x{4e00}-\x{9fa5}]+$/u,于是我又用这个表达式去百度搜索,发现竟然还真有别人得出过这样正确的结论,只不过通过常规的方式很难找到而已,而且仅仅搜到有一篇――《用正则删除汉字》,看来互联网上对于信息的正确性的筛选还是亟待加强的。 ps:对google不死心,也搜索了一下,又发现了一篇文章《php常用类》,还是在百度空间的,呵呵,有意思!
您可能感兴趣的文章:
上一篇:下一篇:
最 近 更 新
热 点 排 行
12345678910求一正则表达式,匹配由3位数字3位字母组成的字符串,数字和字母可任意排列
[问题点数:30分,结帖人he1qaz1]
求一正则表达式,匹配由3位数字3位字母组成的字符串,数字和字母可任意排列
[问题点数:30分,结帖人he1qaz1]
不显示删除回复
显示所有回复
显示星级回复
显示得分回复
只显示楼主
相关帖子推荐:
2012年6月 Web 开发大版内专家分月排行榜第二2012年5月 Web 开发大版内专家分月排行榜第二2011年5月 PHP大版内专家分月排行榜第二2008年9月 硬件使用大版内专家分月排行榜第二
2012年7月 Web 开发大版内专家分月排行榜第三2011年8月 PHP大版内专家分月排行榜第三2011年8月 Web 开发大版内专家分月排行榜第三2011年7月 PHP大版内专家分月排行榜第三2011年4月 Web 开发大版内专家分月排行榜第三2008年9月 Windows专区大版内专家分月排行榜第三
2012年6月 Web 开发大版内专家分月排行榜第二2012年5月 Web 开发大版内专家分月排行榜第二2011年5月 PHP大版内专家分月排行榜第二2008年9月 硬件使用大版内专家分月排行榜第二
2012年7月 Web 开发大版内专家分月排行榜第三2011年8月 PHP大版内专家分月排行榜第三2011年8月 Web 开发大版内专家分月排行榜第三2011年7月 PHP大版内专家分月排行榜第三2011年4月 Web 开发大版内专家分月排行榜第三2008年9月 Windows专区大版内专家分月排行榜第三
2012年6月 总版技术专家分月排行榜第二
2012年6月 Web 开发大版内专家分月排行榜第一2012年5月 Web 开发大版内专家分月排行榜第一
2012年6月 总版技术专家分月排行榜第二
2012年6月 Web 开发大版内专家分月排行榜第一2012年5月 Web 开发大版内专家分月排行榜第一
本帖子已过去太久远了,不再提供回复功能。PHP正则表达式及实例 - Just Code - ITeye技术网站
博客分类:
对于开发人员来说,正则表达式是一个非常有用的功能。它提供了 查找,匹配,替换 句子,单词,或者其他格式的字符串。在这篇文章里,我已经编写了15个贼拉有用的正则表达式,WEB开发人员都应该将它收藏到自己的工具包。 开始使用正则表达式 对初学者来说,正则 看起来很难学习和使用。事实上他们并非你想想的那么难,在我们深入掌握正则之前,先迅速看看这些入门基础: 正则表达式语法 正则表达式
foo ——————字符串“foo”
^foo ——————以“foo”开头的字符串
foo$ ——————以“foo”结尾的字符串
^foo$ ——————“foo”开头和结尾,(只能是他自己 )
[abc]—————— a 或者b 或者c
[a-z] —————— a到z之间任意字母
[^A-Z]——————除了 A-Z这些之外的字符
(gif|jpg)——————“gif”或者 “jpeg”
[a-z]+—————— 一个或者多个 a到z之间任意字母
[0-9.-]—————— 0-9之间任意数字,或者 点 或者 横线
^[a-zA-Z0-9_]{1,}$—————— 至少一个字母数字下划线
([wx])([yz])—————— wy或wz或xy或xz
[^A-Za-z0-9]—————— 字符数字之外的字符
([A-Z]{3}|[0-9]{4})—————— 三个大写字母或者4个数字
\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("。
^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\n' 或 '\r' 之后的位置。
$ 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '\n' 或 '\r' 之前的位置。
* 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
? 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。
{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m} m 和 n 均为非负整数,其中n &= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
. 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。
(pattern) 匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在JScript 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '\(' 或 '\)'。
(?:pattern) 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。
(?=pattern) 正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?!pattern) 负向预查,在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始
x|y 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。
[xyz] 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz] 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z] 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\cx 匹配由 x 指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
\d 匹配一个数字字符。等价于 [0-9]。
\D 匹配一个非数字字符。等价于 [^0-9]。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。
\xn 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。.
\num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。
\n 标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。
\nm 标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。
\nml 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。
\un 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。
常用的正则表达式
1、非负整数:”^\d+$”
2、正整数:”^[0-9]*[1-9][0-9]*$”
3、非正整数:”^((-\d+)|(0+))$”
4、负整数:”^-[0-9]*[1-9][0-9]*$”
5、整数:”^-?\d+$”
6、非负浮点数:”^\d+(\.\d+)?$”
7、正浮点数:”^((0-9)+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$”
8、非正浮点数:”^((-\d+\.\d+)?)|(0+(\.0+)?))$”
9、负浮点数:”^(-((正浮点数正则式)))$”
10、英文字符串:”^[A-Za-z]+$”
11、英文大写串:”^[A-Z]+$”
12、英文小写串:”^[a-z]+$”
13、英文字符数字串:”^[A-Za-z0-9]+$”
14、英数字加下划线串:”^\w+$”
15、E-mail地址:”^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$”
16、URL:”^[a-zA-Z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\s*)?$”
php 正则表达式的方法
方法描述:
preg_match() 该函数preg_match按照模式去匹配字符串,如果符合则返回TRUE,否则返回FALSE
preg_match_all() 该函数 preg_match_all() 在字符串中匹配出全部符合模式的字符串.
* preg_match() 返回 pattern 所匹配的次数。要么是 0 次(没有匹配)或 1 次,因为 preg_match() 在第一次匹配之后将停止搜索。
* /imagesnew/software/php/zh/function.preg-match.html
* preg_match_all() 则相反,会一直搜索到 subject 的结尾处。如果出错 preg_match() 返回 FALSE。
* /imagesnew/software/php/zh/function.preg-match-all.html
preg_replace()
该函数与ereg_replace()类似,不同在于它利用匹配的模式去替换输入的参数
/imagesnew/software/php/zh/function.preg-replace.htm
preg_split() 该函数与split()类似 不同在于它将与正则表达式匹配的字符当做分割的模式
/imagesnew/software/php/zh/function.preg-split.html
preg_grep() 该函数preg_grep() 匹配数组中全部元素,返回符合正则表达式的元素组成的数组
preg_quote() 转义正则表达式字符
验证域名 检验一个字符串是否是个有效域名.
$url = "/";
if (preg_match('/^(http|https|ftp)://([A-Z0-9][A-Z0-9_-]*(?:.[A-Z0-9][A-Z0-9_-]*)+):?(d+)?/?/i', $url)) {
echo "Your url is ok.";
echo "Wrong url.";
从一个字符串中 突出某个单词 这是一个非常有用的在一个字符串中匹配出某个单词 并且突出它,非常有效的搜索结果
$text = "Sample sentence from KomunitasWeb, regex has become popular in web programming. Now we learn regex. According to wikipedia, Regular expressions (abbreviated as regex or
regexp, with plural forms regexes, regexps, or regexen) are written in a formal language that can be interpreted by a regular expression processor";
$text = preg_replace("/b(regex)b/i", '&span style="background:#5fc9f6"&1&/span&', $text);
突出查询结果在你的 WordPress 博客里就像刚才我说的,上面的那段代码可以很方便的搜索出结果,而这里是一个更好的方式去执行搜索在某个WordPress的博客上打开你的文件 search.php ,然后找到 方法 the_title() 然后用下面代码替换掉它
Now, just before the modified line, add this code:
= get_the_title();
$keys= explode(" ",$s);
= preg_replace('/('.implode('|', $keys) .')/iu',
'&strong&\0&/strong&',
Save the search.php file and open style.css. Append the following line to it:
strong.search-excerpt { background: }
从HTML文档中获得全部图片 如果你曾经希望去获得某个网页上的全部图片,这段代码就是你需要的,你可以轻松的建立一个图片下载机器人
$images = array();
preg_match_all('/(img|src)=("|')[^"'&]+/i', $data, $media);
unset($data);
$data=preg_replace('/(img|src)("|'|="|=')(.*)/i',"$3",$media[0]);
foreach($data as $url)
$info = pathinfo($url);
if (isset($info['extension']))
if (($info['extension'] == 'jpg') ||
($info['extension'] == 'jpeg') ||
($info['extension'] == 'gif') ||
($info['extension'] == 'png'))
array_push($images, $url);
删除重复字母 经常重复输入字母? 这个表达式正适合.
$text = preg_replace("/s(w+s)1/i", "$1", $text);
删除重复的标点 功能同上,但只是面对标点,白白重复的逗号
$text = preg_replace("/.+/i", ".", $text);
匹配一个XML或者HTML标签 这个简单的函数有两个参数:第一个是你要匹配的标签,第二个是包含XML或HTML的变量,再强调下,这个真的很强大
function get_tag( $tag, $xml ) {
$tag = preg_quote($tag);
preg_match_all('{&'.$tag.'[^&]*&(.*?)&/'.$tag.'&.'}',
PREG_PATTERN_ORDER);
return $matches[1];
匹配具有属性值的XML或者HTML标签 这个功能和上面的非常相似,但是它允许你匹配的标签内部有属性值,例如你可以轻松匹配 &div id=”header”&
function get_tag( $attr, $value, $xml, $tag=null ) {
if( is_null($tag) )
$tag = '\w+';
$tag = preg_quote($tag);
$attr = preg_quote($attr);
$value = preg_quote($value);
$tag_regex = "/&(".$tag.")[^&]*$attr\s*=\s*".
"(['\"])$value\\2[^&]*&(.*?)&\/\\1&/"
preg_match_all($tag_regex,
PREG_PATTERN_ORDER);
return $matches[3];
匹配十六进制颜色值 web开发者的另一个有趣的工具,它允许你匹配和验证十六进制颜色值.
$string = "#555555";
if (preg_match('/^#(?:(?:[a-fd]{3}){1,2})$/i', $string)) {
echo "example 6 successful.";
查找页面 title 这段代码方便查找和打印 网页 &title& 和&/title& 之间的内容
$fp = fopen("/blog","r");
while (!feof($fp) ){
$page .= fgets($fp, 4096);
$titre = eregi("&title&(.*)&/title&",$page,$regs);
echo $regs[1];
fclose($fp);
解释 Apache 日志 大多数网站使用的都是著名的Apache服务器,如果你的网站也是,那么使用PHP正则表达式解析 apache 服务器日志 怎么样?
//Logs: Apache web server
//Successful hits to HTML files only.
Useful for counting the number of page views.
'^((?#client IP or domain name)S+)s+((?#basic authentication)S+s+S+)s+[((?#date and time)[^]]+)]s+"(?:GET|POST|HEAD) ((?#file)/[^ ?"]+?.html?)??((?#parameters)[^ ?"]+)? HTTP/[0-9.]+"s+(?#status code)200s+((?#bytes transferred)[-0-9]+)s+"((?#referrer)[^"]*)"s+"((?#user agent)[^"]*)"$'
//Logs: Apache web server
//404 errors only
'^((?#client IP or domain name)S+)s+((?#basic authentication)S+s+S+)s+[((?#date and time)[^]]+)]s+"(?:GET|POST|HEAD) ((?#file)[^ ?"]+)??((?#parameters)[^ ?"]+)? HTTP/[0-9.]+"s+(?#status code)404s+((?#bytes transferred)[-0-9]+)s+"((?#referrer)[^"]*)"s+"((?#user agent)[^"]*)"$'
使用智能引号代替双引号 如果你是一个印刷爱好者,你将喜欢这个允许用智能引号代替双引号的正则表达式,这个正则被WORDPRESS在其内容上使用
preg_replace('B"b([^"x84x93x94rn]+)b"B', '?1?', $text);
检验密码的复杂度 这个正则表达式将检测输入的内容是否包含6个或更多字母,数字,下划线和连字符. 输入必须包含至少一个大写字母,一个小写字母和一个数字
'A(?=[-_a-zA-Z0-9]*?[A-Z])(?=[-_a-zA-Z0-9]*?[a-z])(?=[-_a-zA-Z0-9]*?[0-9])[-_a-zA-Z0-9]{6,}z'
WordPress: 使用正则获得 帖子上的图片
我知道很多人是WORDPRESS的使用者,你可能会喜欢并且愿意使用 那些从帖子的内容检索下来的图像代码。使用这个代码在你的BLOG只需要复制下面代码到你的某个文件里
&?php if (have_posts()) : ?&
&?php while (have_posts()) : the_post(); ?&
$szPostContent = $post-&post_
$szSearchPattern = '~&img [^&]* /&~';
// Run preg_match_all to grab all the images and save the results in $aPics
preg_match_all( $szSearchPattern, $szPostContent, $aPics );
// Check to see if we have at least 1 image
$iNumberOfPics = count($aPics[0]);
if ( $iNumberOfPics & 0 ) {
// Now here you would do whatever you need to do with the images
// For this example the images are just displayed
for ( $i=0; $i & $iNumberOfP $i++ ) {
echo $aPics[0][$i];
自动生成笑脸图案 被WordPress使用的另一个方法, 这段代码可使你把图像自动更换一个笑脸符号
$texte='A text with a smiley
echo str_replace(':-)','&img src="smileys/souriant.png"&',$texte);
移除图片的链接
&meta http-equiv="Content-Type" content="text/ charset=utf-8" /&
&a href="/"&5idev&/a&其他字符
&a href="/"&sohu&/a&
&a href="/"&&img src="http://www.fashion-press.net/img/news/3176/mot_06.jpg" /&&/a&
preg_replace("/(&a.*?&)(&img.*?&)(&\/a&)/", '$2', $str);
preg_replace("/(&a.*?&)(&img.*?&)(&\/a&)/", '\2', $str);
PHP 常用正则表达式整理
表单验证匹配
验证账号,字母开头,允许 5-16 字节,允许字母数字下划线:^[a-zA-Z][a-zA-Z0-9_]{4,15}$
验证账号,不能为空,不能有空格,只能是英文字母:^\S+[a-z A-Z]$
验证账号,不能有空格,不能非数字:^\d+$
验证用户密码,以字母开头,长度在 6-18 之间:^[a-zA-Z]\w{5,17}$
验证是否含有 ^%&',;=?$\ 等字符:[^%&',;=?$\x22]+
匹配Email地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配腾讯QQ号:[1-9][0-9]{4,}
匹配日期,只能是
格式:^\d{4}\-\d{1,2}-\d{1,2}$
匹配国内电话号码:^\d{3}-\d{8}|\d{4}-\d{7,8}$ 评注:匹配形式如 010- 或 8 或
匹配中国邮政编码:^[1-9]\d{5}(?!\d)$
匹配身份证:\d{14}(\d{4}|(\d{3}[xX])|\d{1}) 评注:中国的身份证为 15 位或 18 位
不能为空且二十字节以上:^[\s|\S]{20,}$
匹配由 26 个英文字母组成的字符串:^[A-Za-z]+$
匹配由 26 个大写英文字母组成的字符串:^[A-Z]+$
匹配由 26 个小写英文字母组成的字符串:^[a-z]+$
匹配由数字和 26 个英文字母组成的字符串:^[A-Za-z0-9]+$
匹配由数字、26个英文字母或者下划线组成的字符串:^\w+$
匹配空行:\n[\s| ]*\r
匹配任何内容:[\s\S]*
匹配中文字符:[\x80-\xff]+ 或者 [\xa1-\xff]+
只能输入汉字:^[\x80-\xff],{0,}$
匹配双字节字符(包括汉字在内):[^\x00-\xff]
只能输入数字:^[0-9]*$
只能输入n位的数字:^\d{n}$
只能输入至少n位数字:^\d{n,}$
只能输入m-n位的数字:^\d{m,n}$
匹配正整数:^[1-9]\d*$
匹配负整数:^-[1-9]\d*$
匹配整数:^-?[1-9]\d*$
匹配非负整数(正整数 + 0):^[1-9]\d*|0$
匹配非正整数(负整数 + 0):^-[1-9]\d*|0$
匹配正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$
匹配负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$
匹配浮点数:^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
匹配非负浮点数(正浮点数 + 0):^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
匹配非正浮点数(负浮点数 + 0):^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
匹配HTML标记的正则表达式(无法匹配嵌套标签):&(\S*?)[^&]*&.*?&/\1&|&.*? /&
匹配网址 URL :[a-zA-z]+://[^\s]*
匹配 IP 地址:((25[0-5]|2[0-4]\d|[01]?\d\d?)\.){3}(25[0-5]|2[0-4]\d|[01]?\d\d?)
匹配完整域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+\.?
上述正则表达式通常都加了 ^ 与 $ 来限定字符的起始和结束,如果需要匹配的内容包括在字符串当中,可能需要考虑去掉 ^ 和 $ 限定符。
以上正则表达式仅供参考,使用时请检验后再使用
浏览 14911
浏览: 3988360 次
来自: 洛杉矶
好文章 顶了!!!
还是md5加随即干扰字符的方式,比较方便
阿斯蒂芬阿斯蒂芬
[col阿萨德发射点发or=red][/color]

我要回帖

更多关于 js正则表达式 的文章

 

随机推荐