用什么方法能将这段HTML里面指定的字符串excel提取指定字符串出来

博客访问: 227900
博文数量: 56
博客积分: 610
博客等级: 上士
技术积分: 731
注册时间:
IT168企业级官微
微信号:IT168qiye
系统架构师大会
微信号:SACC2013
分类: C/C++
QString, QByteArray, 和
QVariant这三个类和容器有许多相同之处,并且在一些情况下可以被当作特殊的容器。 同样,像容器,这些类使用隐式共享来优化内存和速度。
我们将从QString开始。 字符串被每个GUI程序所使用,不仅是用户界面而且还有数据结构。 C++原生提供两种字符串: 传统的C风格以'\0'结尾的字符数组和std::string类。 与这些不同,QString使用16-bit
Unicode值。 Unicode 包含 ASCII 和 Latin-1 这个子集和它们的普通数值。 而QString是16-bit,所以它可以表示世界上绝大多数语言的字符。 Unicode的更多信息,请看十七章。
当使用QString时,我们不必操心如此隐秘的细节像分配足够的内存或着是数据是'\0'结尾的。 总的来说,QString可以被认为是一个QChar向量。一个QString能嵌入'\0'字符。
length()函数返回整个字符串大小,包括嵌入的'\0'。
QString提供一个二元+操作符来连接两个字符串和一个+=操作符来向一个字符串追加字符串。 因为QString在字符串的结尾处自动预分配内存,所以通过反复追加字符来增加一个字符串是非常快的。
这是一个+和+=结合的例子:
QString str = "User: ";
str += userName + "\n";
还有一个QString::append()函数与+=操作符有这一样的功能:
str = "User: ";
str.append(userName);
str.append("\n");
组合字符串的一个完全不同的方式是使用QString的sprintf()函数:
str.sprintf("%s %.1f%%", "perfect competition", 100.0);
支持同样的格式说明符像C++库的sprintf()函数。 在上面的例子中,str被赋值为 "perfect competition 100.0%"。
从另外一个字符串或数字来构建字符串还有另外一种方式,就是使用arg():
str = QString("%1 %2 (%3s-%4s)")
.arg("permissive").arg("society").arg(1950).arg(1970);
在这个例子中,"%1"被"permissive"替换,"%2被"society"替换,"%3"被"1950"替换,而"%4"被
"1970"替换。 结果是"permissive society (s)"。 arg()重载支持各种各样的数据类型。 某些重载有附加参数来控制域宽,数字基数,或浮点精度。 通常,arg()是比sprintf()更好的解决方案,因为它是类型安全(type-safe)的,完全支持Unicode,并且允许translators对"%n"参数重新排序。
QString能将数字转换为字符串,通过使用静态函数QString::number():
str = QString::number(59.6);
或者使用setNum()函数:
str.setNum(59.6);
逆向变换,就是将一个字符串转换为一个数字,使用的是toInt(),
toLongLong(), toDouble(),等等。 例如:
double d = str.toDouble(&ok);
这些函数接受一个可选的bool类型的指针并设置这个bool变量为TRue或false,这取决于转换成功与否。 如果转换失败,这些函数返回0。
一旦我们有一个字符串,我们经常想要提取它的一些部分。 mid()函数返回一个给定起始位置(第一个参数)和长度(第二个参数)的字串。 例如,下面的代码在控制台上打印"pays":[*]
[*]使用实用的qDebug() << arg语法需要包含头文件,而qDebug("...", arg)语法在任何至少包含一个Qt头文件的文件中可用。
QString str = "polluter pays principle";
qDebug() << str.mid(9, 4);
如果省略第二个参数,mid()返回从指定的起始位置到这个字符串结尾的子串。 例如,下面的代码在控制台上打印"pays principle":
QString str = "polluter pays principle";
qDebug() << str.mid(9);
还有left()和right()函数,它们也执行类似的工作。 他们俩都接受一个表示字符数量的数字,n,并返回并返回最前面或最后面的n个字符。 例如,下面的代码在控制台上打印"polluter principle":
QString str = "polluter pays principle";
qDebug() << str.left(8) << " " << str.right(9);
如果我们希望找出一个字符串是否包含某个字符,字串,或正则表达式,我们可以使用QString的indexOf()函数中的一个:
QString str = "the middle bit";
int i = str.indexOf("middle");
i将被置为4。indexOf()函数返回-1在失败时,并接受一个可选的起始位置和大小写敏感标志。
如果我们希望检查一个字符串是否是以某物开始或结束,我们可以使用startsWith()和endsWith()函数:
if (url.startsWith("http:") && url.endsWith(".png"))
这个要比下面的简单快速:
if (url.left(5) == "http:" && url.right(4) == ".png")
使用==操作符的字符串比较是大小写敏感的。 如果我们正在比较用户级(user-visible)字符串,localeAwareCompare()经常是正确的选择,并且如果我们希望大小写不敏感,我们可以用toUpper()或toLower()。
if (fileName.toLower() == "readme.txt")
如果我们希望用一个字符串替换另一个字符串的某一部分,可以用replace():
QString str = "a cloudy day";
str.replace(2, 6, "sunny");
结果是"a sunny day"。 可以改用remove()和insert():
str.remove(2, 6);
str.insert(2, "sunny");
首先,我们删除从位置2开始的6个字符,产生一个字符串"a day"(有两个空格),然后我们在位置2处插入"sunny"。
有重载版本的replace(),它们能将所有出现第一个参数的地方用第二个参数替换。 例如,这是如何将所有出现"&"的地方用"&"来替换:
str.replace("&", "&");
一个经常的需求是过滤掉字符串中的空白符(如空格,制表符,和换行符)。 QString有一个函数能从字符串的两端删除空白符:
QString str = "
qDebug() << str.trimmed();
字符串str可被描述为:
trimmed()返回的字符串是:
当处理用户输入时,我们经常希望将一个或多个内部空白符替换为单个空格,另外还要过滤掉两端的空白符。 这就是simplified()函数所做的:
QString str = " BOB \t THE \nDOG \n";
qDebug() << str.simplified();
simplified()返回的字符串是:
一个字符串能被分成为一个装有子串的QStringList,通过使用QString::split():
QString str = "polluter pays principle";
QStringList words = str.split(" ");
在上面的例子,我们把"polluter pays principle"分成三个子串: "polluter", "pays", 和 "principle"。
split()函数有一个可选的第三个参数(译者注:Qt4.4版应该是第二个参数)用来决定保留(缺省)还是丢弃空的子串。
QStringList能被组成单个的字符串,通过使用join()。
join()的参数被插入到每对被组合的字符串之间。 例如,下面展示的是如何创建单个的字符串,它由QStringList中的字符串组成,字符串之间按字母顺序排序并用换行符分开:
words.sort();
str = words.join("\n");
当处理字符串时,我们经常需要判断一个字符串是否是空。 调用isEmpty()或检查length()是否为0就可以达到目的。
在大多数情况下,从const char *字符串到QString的转换是自动的,例如:
str += " (1870)";
这里我们将一个const char *加到一个QString上,没有任何约束。 要将一个const char *显示转换成一个QString,就简单地使用一个QString
cast,或者调用fromAscii()或fromLatin1()。 (See Chapter 17 for an explanation of handling literal strings in other encodings.)
要将一个QString转换为一个const
char *,就使用toAscii()或toLatin1()。 这些函数返回一个QByteArray,它能被转换为一个const char *,通过使用QByteArray::data()或QByteArray::constData()。
printf("User: %s\n", str.toAscii().data());
为了方便,Qt提供qPrintable()宏,它执行和toAscii().constData()顺序相同的操作。
printf("User: %s\n", qPrintable(str));
当我们在一个QByteArray上调用data()或constData(),返回的字符串属于QByteArray对象所有。 这意味着我们不用担心内存泄漏;Qt将会为我们回收内存。
另一方面,我们小心不能使用这个指针太长时间。如果QByteArray没有保存在一个变量中,在语句结束时,它将会被自动删除。
QByteArray有着与QString相似的API。 像left(),
right(), mid(),
toLower(), toUpper(),
TRimmed(), 和 simplified() 在QByteArray中和QString中相应的函数有着同样的语义。
QByteArray对存储纯二进制数据(raw binary data)和8-bit编码文本字符串有用。 一般地,我们推荐使用QString来存储文本而不是用QByteArray,因为QString支持Unicode。
为了方便,QByteArray自动确保the "one past the last"byte总是 '\0',使得传递一个QByteArray给一个带有const char *类型参数的函数时操作变得简单。
QByteArray还支持内嵌的'\0'字符,这允许我们用它来存储任意二进制数据(arbitrary binary data)。
在有些情况下,我们需要用共一个变量存储不同类型的数据。 一种处理是将数据编码成一个QByteArray或一个QString。 例如,一个字符串可以保存一个文本值或一个数字值以字符串形式。 这些处理是灵活的,却抹杀了C++的好处,尤其是类型安全和效率。 Qt提供一个更洁净的方式来处理支持不同类型的变量。
QVariant。
QVariant类支持许多Qt类型的值,包括 QBrush,
QColor, QCursor,
QDateTime, QFont,
QKeySequence, QPalette,
QPen, QPixmap,
QPoint, QRect,
QRegion, QSize, 和QString, 和 基本的C++数值类型,像
double 和 int。
QVariant类还支持容器: QMap,
QStringList, 和QList。
可变类型(Variants )被条目视图类(item view classes),数据库模块,和QSettings所广泛使用,它允许我们读写条目数据,数据库数据,和用户参数等任何兼容于QVariant的类型。 我们已经看过第三章中这样的例子,我们传递了一个QRect,一个QStringList,和一对bool作为可变类型给QSettings::setValue(),并作为可变类型对它们解引用。
创建任意复杂的数据结构是可能的,通过用QVariant套用容器的值类型:
QMap pearM
pearMap["Standard"] = 1.95;
pearMap["Organic"] = 2.25;
QMap fruitM
fruitMap["Orange"] = 2.10;
fruitMap["Pineapple"] = 3.85;
fruitMap["Pear"] = pearM
我们已经创建了一个map,它的键是字符串(产品名),它的值是浮点数(价格)或maps。
顶级map包含三个键: "Orange", "Pear", 和"Pineapple"。 与"Pear"键相关联的值是一个map,它包含两个键("Standard" 和"Organic")。 当在持有可变类型值的容器上迭代时,我们需要用type()来检查可变类型所持有的类型以便我们做出适当的响应。
像这样创建数据结构是很吸引人的,因为我们可以用我们喜欢的方式组织数据。 然而QVariant的方便导致了性能和可读性的损耗。 一般地,只要有可能,用它定义一个适当的C++类来存储我们的数据是值得的。
QVariant被Qt的元对象系统所使用并且因此是QtCore模块的一部分。 不过,当我们连接上QtGui模块,QVariant能存储GUI-related类型,如QColor,
QFont, QIcon,
QImage, 和QPixmap:
QIcon icon("open.png");
QVariant variant =
为了从QVariant将GUI-related类型值解引用,我们可以使用QVariant::value()模板函数像下面这样:
QIcon icon = variant.value();
value()还用于non-GUI数据类型和QVariant之间的转换,但实践中我们一般为non-GUI类型使用to...()转换函数(例如,toString())。
QVariant还可以被用来保存自定义数据类型,假如它们提供一个缺省构造函数和一个拷贝构造函数。 为了这个能工作,我们必须首先使用Q_DECLARE_METATYPE()宏注册类型,放在头文件中类定义的下方:
Q_DECLARE_METATYPE(BusinessCard)
这使我们像这样写代码:
BusinessCard businessC
QVariant variant = QVariant::fromValue(businessCard);
if (variant.canConvert()) {
BusinessCard card = variant.value();
因为编译器的限制,这些模板函数在MSVC
6中不可用。如果你需要使用这个编译器,用全局函数qVariantFromValue(),
qVariantValue(), 和qVariantCanConvert()来代替。
如果自定义数据类型有<<和>>操作符为了写读一个QDataStream,我们可以用qRegisterMetaTypeStreamOperators()注册它们。
此外,这使得通过QSettings来存储自定义数据类型的参数成为可能。 例如:
qRegisterMetaTypeStreamOperators("BusinessCard");
这章的重点是Qt容器,以及QString, QByteArray, 和QVariant。 除了这些类,Qt还提供一些其他的容器。 一个是QPair,它简单地存储两个值,类似于std::pair。 另一个是QBitArray,我们将在第十九章第一节使用它。 最后是QVarLengthArray,QVector的一个底层替代品(low-level alternative)。
因为它在栈上预分配内存并且不是隐式共享,所以它的开销要比QVector小,这使得它适合高效的循环(tight loops)。
Qt的算法,包括一些没有在这里提到的像qCopyBackward()和qEqual(),在Qt的文档里有描述。 Qt容器的更多信息,包括它们的时间复杂度和增长策略,参见。
阅读(48973) | 评论(0) | 转发(6) |
相关热门文章
给主人留下些什么吧!~~
请登录后评论。javascript中html字符串转化为jquery dom对象的方法
字体:[ ] 类型:转载 时间:
最近项目需求要开发百度地图相关的一个应用,需要从硬编码的html字符串中提取自己想要的元素以及属性信息,由于在js中或者jq中操作元素节点以及属性都是使用dom对象或者jq对象。下面介绍javascript中html字符串转化为jquery dom对象的方法,需要的朋友可以参考下
原html字符串如下:
var text="&div id='overLay' style='width:50height:60background:url(imgs/back.png) left top no- position:'&"
+ "&img style='margin-left:4margin-top: 3' src='ima.png' width='43px' height='43px'/&"
+ "&/div&";
&  1、下面使用Jquery库将text字符串变量转为Jquery对象。
Jquery代码如下:
  alert($(text).html());
  其中$(text)就text字符串转为了一个Jquery对象,最后将该Jquery对象的html()将html内容以字符串的形式输出,结果如下:
&img style='margin-left:4margin-top: 3' src='ima.png' width='43px' height='43px'/&
  说明了,$(text)Jquery对象代表的是最外层的html元素div。
  2、将Jquery对象和DOM对象之间互转。
代码如下:
var element= $(text).get(0) //element就是一个dom对象
  var jqueryobj=$(element);//jqueryobj就是一个Jquery对象。
注意:DOM对象和Jquery对象区别
在我理解,Jquery对象和DOM对象都是封装的html元素,可以对html元素节点进行操作,方便编程,但是他们之间的方法有些是不能共用的,如Jquery对象的html()方法,DOM对象就使用不了;而DOM对象的GetElementById(),Jquery对象也不能使用。所以在必须要的时候可以进行相互转换。
  3、使用js代码将text字符串变量转为DOM对象。
js代码如下:
/*字符串转dom对象*/
function loadXMLString(txt)
try //Internet Explorer
xmlDoc=new ActiveXObject("Microsoft.XMLDOM");
xmlDoc.async="false";
xmlDoc.loadXML(txt);
//alert('IE');
return(xmlDoc);
try //Firefox, Mozilla, Opera, etc.
parser=new DOMParser();
xmlDoc=parser.parseFromString(txt,"text/xml");
//alert('FMO');
return(xmlDoc);
catch(e) {alert(e.message)}
return(null);
其中js代码将text字符串转为DOM对象与浏览器有关,所以。。。。。。分开写。  
这样就实现了html字符串向Jquery对象和DOM对象的转换。
jQuery对象与dom对象相互转换方法介绍
刚开始学习jQuery,可能一时会分不清楚哪些是jQuery对象,哪些是DOM对象。至于DOM对象不多解释,我们接触的太多了,下面重点介绍一下jQuery,以及两者相互间的转换。
什么是jQuery对象?
---就是通过jQuery包装DOM对象后产生的对象。jQuery对象是jQuery独有的,其可以使用jQuery里的方法。
$("#test").html() 意思是指:获取ID为test的元素内的html代码。其中html()是jQuery里的方法
这段代码等同于用DOM实现代码:
document.getElementById("id").innerHTML;
虽然jQuery对象是包装DOM对象后产生的,但是jQuery无法使用DOM对象的任何方法,同理DOM对象也不能使用jQuery里的方法.乱使用会报错。比如:$("#test").innerHTML、document.getElementById("id").html()之类的写法都是错误的。
还有一个要注意的是:用#id作为选择符取得的是jQuery对象与document.getElementById("id")得到的DOM对象,这两者并不等价。请参看如下说的两者间的转换。
既然jQuery有区别但也有联系,那么jQuery对象与DOM对象也可以相互转换。在再两者转换前首先我们给一个约定:如果一个获取的是 jQuery对象,那么我们在变量前面加上$,如:var $variab = jQuery对象;如果获取的是DOM对象,则与习惯普通一样:var variab = DOM对象;这么约定只是便于讲解与区别,实际使用中并不规定。
jQuery对象转成DOM对象:
两种转换方式将一个jQuery对象转换成DOM对象:[index]和.get(index);
(1)jQuery对象是一个数据对象,可以通过[index]的方法,来得到相应的DOM对象。
var $v =$("#v") ; //jQuery对象
var v=$v[0]; //DOM对象
alert(v.checked) //检测这个checkbox是否被选中
(2)jQuery本身提供,通过.get(index)方法,得到相应的DOM对象
var $v=$("#v"); //jQuery对象
var v=$v.get(0); //DOM对象
alert(v.checked) //检测这个checkbox是否被选中
DOM对象转成jQuery对象:
对于已经是一个DOM对象,只需要用$()把DOM对象包装起来,就可以获得一个jQuery对象了。$(DOM对象)
var v=document.getElementById("v"); //DOM对象
var $v=$(v); //jQuery对象
转换后,就可以任意使用jQuery的方法了。
通过以上方法,可以任意的相互转换jQuery对象和DOM对象。需要再强调注意的是:DOM对象才能使用DOM中的方法,jQuery对象是不可以用DOM中的方法。
您可能感兴趣的文章:
大家感兴趣的内容
12345678910
最近更新的内容
常用在线小工具最近在写一个文章编辑和搜索的web程序,编辑的文章带有html标签,并以BLOB类型保存在数据库。在显示搜索结果时,以字符串类型输出,但我只想把文章的概要显示出来而不是整篇文章,就想着要是能把字符串中的html标签去掉,只提取其中的纯文本就好了。在网上搜了一下,发现有很多使用js、jQuery的replace()方法过滤html标签,感觉比较复杂也比较繁琐。继续寻找,发现了这个解析库,使用起来也很方便。
import java.util.L
import org.htmlparser.P
import org.htmlparser.visitors.TextExtractingV
public class test {
public static void main(String[] args) throws Exception {
String str = &&div class=&#39;download-bar&#39;&Looking for the latest version? &strong&&span&Download src0_82.jar (25.7 kB)&/span&&/strong&&/div&&;
Parser parser = new Parser(str);
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
System.out.println(visitor.getExtractedText());
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:5298次
排名:千里之外
原创:14篇如何使用php无损截取包括html标签的字符串 | BS架构后台语言 | 稚子的成长博客
& 如何使用php无损截取包括html标签的字符串
如何使用php无损截取包括html标签的字符串
字符串截取很简单,但是像很多网站有些模块显示的地方是截取一部分文字的方式来显示部分文本..
在做模板的时候发现问题,首页截取出来的内容中包含了没有闭合的html标签,结果导致样式或内容显示有问题:
假如有一段字符串,例如:
“Thanks for use &a href=&#8221;”&#8221;&wordpress&/a&”,
如果要截取前面15个字符串,那肯定没问题,如果截取的是20个字符串,那肯定就落在&a&标签里,
这么一来截取后再显示取来的内容就有问题,标签不完整,可能会影响样式..
于是搜索了下,果然有料,腾讯的面试题?:php截取HTML字符串
围观了很久,试了几个贴出来的代码,都不行,人品问题?
索性还是自己写个,思路跟他们不一样:
* 字符串切割
* 功能:截取字符串(支持中文),如果字符串中包括&a title="查看与html标签有关的文章" href="/tag/html%e6%a0%87%e7%ad%be" target="_blank"&html标签&/a&,截取的字符串则会保留完整的&a title="查看与html标签有关的文章" href="/tag/html%e6%a0%87%e7%ad%be" target="_blank"&html标签&/a&
* 如果截取的字符串中包含不完整的html标签,则从字符串位置0开始截取到html标签前
* @param string $string
* @param int $length
* @param string $replace
* @return string
function htmlSubStr ($string, $length = 0, $replace = '…') {
// 先截取指定长度的字符串,支持中文
if (strlen ( $string ) & $length) {
$string = substr ( $string, 0 );
$char = ord ( $string [$length - 1] );
if ($char &= 224 && $char &= 239) {
$string = substr ( $string, 0, $length - 1 );
$char = ord ( $string [$length - 2] );
if ($char &= 224 && $char &= 239) {
$string = substr ( $string, 0, $length - 2 );
$string = substr ( $string, 0, $length );
// 开始标签集合,当前开始标签字符串(a,span,div...),结束标签集合
$starts = $start_str = $ends = array ();
// 提取截取的字符串中出现的开始标签结合和结束标签集合
preg_match_all ( '/&\w+[^&]*&?/', $string, $starts, PREG_OFFSET_CAPTURE );
preg_match_all ( '/&\/\w+&/', $string, $ends, PREG_OFFSET_CAPTURE );
// 初始化&a title="查看与字符串截取有关的文章" href="/tag/%e5%ad%97%e7%ac%a6%e4%b8%b2%e6%88%aa%e5%8f%96" target="_blank"&字符串截取&/a&点
$cut_pos = 0;
// 最后追加的字符串
$last_str = '';
if (! empty ( $starts [0] )) {
$starts = array_reverse ( $starts [0] );
if (! empty ( $ends [0] )) {
$ends = $ends [0];
foreach ( $starts as $sk =& $s ) {
// 判断开始标签是否包括XHTML语法的闭合标签&img alt=""&
if ($auto != false && $auto = strripos ( $s [0], '/&' )) {
// 如果有,则将&a title="查看与字符串截取有关的文章" href="/tag/%e5%ad%97%e7%ac%a6%e4%b8%b2%e6%88%aa%e5%8f%96" target="_blank"&字符串截取&/a&点设置为当前标签的起始位置
if ($cut_pos & $auto) {
$cut_pos = $s [1];
$last_str = $s [0];
unset ( $starts [$sk] );
// 提取开始标签名:a,div,span...
preg_match ( '/&(\w+).*&?/', $s [0], $start_str );
if (! empty ( $ends )) {
foreach ( $ends as $ek =& $e ) {
// 提取结束标签名
$end_str = trim ( $e [0], '&/&' );
// 如果开始标签名与结束标签名一致,并且结束标签的索引值比开始标签的索引值大,则该标签是完整的有效.
if ($end_str == $start_str [1] && $e [1] & $s [1]) {
// 如果字符串截取点还没有确定,给它赋值
if ($cut_pos & $e [1]) {
$cut_pos = $e [1];
// 并且将闭合标签作为最后的字符串追加
$last_str = $e [0];
// 将这个正确的标签去掉结束标签,并且滚入下一个开始标签的判断
unset ( $ends [$ek] );
* 如果empty($ends),说明第一个开始标签没有对应的闭合标签 说明这一段截取的内容不完整,只能将字符串截取到第一个开始标签前为止
$last_str = '';
$cut_pos = $s [1];
// 拼凑剩余的字符串
$res_str = substr ( $string, 0, $cut_pos ) . $last_
$less_str = substr ( $string, strlen ( $res_str ) );
$less_pos = strpos ( $less_str, '&' );
$less_str = $less_pos !== false ? substr ( $less_str, 0, $less_pos ) : $less_
$string = $res_str . $less_str . $
$str = 'Welcome to hello world,&div class="" class="title"&Hey, guys..&b&Hello&/b&Look at thie picture&img src="/test.jpg" class="image" /&&span&&a href="#"&Just so so..&/a&&/span&&/div&Yeah, U R right.&div class="footer"&About&/div&&span&Follow us..&a href=""&FB&/a&&/span&';
echo htmlSubStr ( $str, 260 );
// Welcome to hello world,&div class="" class="title"&Hey, guys..&b&Hello&/b&Look at thie picture&img src="/test.jpg" class="image" /&&span&&a href="#"&Just so so..&/a&&/span&&/div&Yeah, U R right.&div class="footer"&About&/div&
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899
/** * 字符串切割 * * 功能:截取字符串(支持中文),如果字符串中包括&a title="查看与html标签有关的文章" href="/tag/html%e6%a0%87%e7%ad%be" target="_blank"&html标签&/a&,截取的字符串则会保留完整的&a title="查看与html标签有关的文章" href="/tag/html%e6%a0%87%e7%ad%be" target="_blank"&html标签&/a& * 如果截取的字符串中包含不完整的html标签,则从字符串位置0开始截取到html标签前 * * @param string $string&&&&&&&&
* @param int $length&&&&&&&&
* @param string $replace&&&&&&&&
* @return string */function htmlSubStr ($string, $length = 0, $replace = '…') { // 先截取指定长度的字符串,支持中文 if (strlen ( $string ) &lt; $length) { $string = substr ( $string, 0 ); } else { $char = ord ( $string [$length - 1] ); if ($char &gt;= 224 &amp;&amp; $char &lt;= 239) { $string = substr ( $string, 0, $length - 1 ); } else { $char = ord ( $string [$length - 2] ); if ($char &gt;= 224 &amp;&amp; $char &lt;= 239) { $string = substr ( $string, 0, $length - 2 ); } else { $string = substr ( $string, 0, $length ); } } }& // 开始标签集合,当前开始标签字符串(a,span,div...),结束标签集合 $starts = $start_str = $ends = array (); // 提取截取的字符串中出现的开始标签结合和结束标签集合 preg_match_all ( '/&\w+[^&]*&?/', $string, $starts, PREG_OFFSET_CAPTURE ); preg_match_all ( '/&\/\w+&/', $string, $ends, PREG_OFFSET_CAPTURE );& // 初始化&a title="查看与字符串截取有关的文章" href="/tag/%e5%ad%97%e7%ac%a6%e4%b8%b2%e6%88%aa%e5%8f%96" target="_blank"&字符串截取&/a&点 $cut_pos = 0; // 最后追加的字符串 $last_str = '';& if (! empty ( $starts [0] )) { $starts = array_reverse ( $starts [0] ); if (! empty ( $ends [0] )) { $ends = $ends [0]; }& foreach ( $starts as $sk =&gt; $s ) { // 判断开始标签是否包括XHTML语法的闭合标签&img alt=""& $auto = false; if ($auto != false &amp;&amp; $auto = strripos ( $s [0], '/&' )) { // 如果有,则将&a title="查看与字符串截取有关的文章" href="/tag/%e5%ad%97%e7%ac%a6%e4%b8%b2%e6%88%aa%e5%8f%96" target="_blank"&字符串截取&/a&点设置为当前标签的起始位置 if ($cut_pos &lt; $auto) { $cut_pos = $s [1]; $last_str = $s [0]; unset ( $starts [$sk] ); } } else { // 提取开始标签名:a,div,span... preg_match ( '/&(\w+).*&?/', $s [0], $start_str ); if (! empty ( $ends )) { foreach ( $ends as $ek =&gt; $e ) { // 提取结束标签名 $end_str = trim ( $e [0], '&/&' ); // 如果开始标签名与结束标签名一致,并且结束标签的索引值比开始标签的索引值大,则该标签是完整的有效. if ($end_str == $start_str [1] &amp;&amp; $e [1] &gt; $s [1]) { // 如果字符串截取点还没有确定,给它赋值 if ($cut_pos &lt; $e [1]) { $cut_pos = $e [1]; // 并且将闭合标签作为最后的字符串追加 $last_str = $e [0]; } // 将这个正确的标签去掉结束标签,并且滚入下一个开始标签的判断 unset ( $ends [$ek] ); break; } } } else { /* * 如果empty($ends),说明第一个开始标签没有对应的闭合标签 说明这一段截取的内容不完整,只能将字符串截取到第一个开始标签前为止 */ $last_str = ''; $cut_pos = $s [1]; } } } // 拼凑剩余的字符串 $res_str = substr ( $string, 0, $cut_pos ) . $last_str; $less_str = substr ( $string, strlen ( $res_str ) ); $less_pos = strpos ( $less_str, '&' ); $less_str = $less_pos !== false ? substr ( $less_str, 0, $less_pos ) : $less_str; $string = $res_str . $less_str . $replace; } return $string;}&$str = 'Welcome to hello world,&div class="" class="title"&Hey, guys..&b&Hello&/b&Look at thie picture&img src="/test.jpg" class="image" /&&span&&a href="#"&Just so so..&/a&&/span&&/div&Yeah, U R right.&div class="footer"&About&/div&&span&Follow us..&a href=""&FB&/a&&/span&';&echo htmlSubStr ( $str, 260 );// Welcome to hello world,&div class="" class="title"&Hey, guys..&b&Hello&/b&Look at thie picture&img src="/test.jpg" class="image" /&&span&&a href="#"&Just so so..&/a&&/span&&/div&Yeah, U R right.&div class="footer"&About&/div&
转载请注明来自:
Posted on 07月21日
Posted on 04月15日
Posted on 12月07日
Posted on 01月26日
注意: 评论者允许使用'的方式将自己的评论通知另外评论者。例如, ABC是本文的评论者之一, '(不包括单引号) ',将会将评论发送给之前所有其它评论者。请务必注意user必须和评论者名相匹配(大小写一致)。
2016年九月
12131415161718
19202122232425
2627282930

我要回帖

更多关于 提取html指定标签 c 的文章

 

随机推荐