如何用nodejs打开本地超文本浏览框打开网页文件并在网页中显示

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>电脑网络 >>如何用nodejs打开本地超文本浏览框打开网页文件并在网页中显示

如何用nodejs打开本地超文本浏览框打开网页文件并在网页中显示

来源：蜘蛛抓取(WebSpider) 时间：2016-01-25 07:40 标签：网页打开本地程序

nodejs使用富文本编辑器保存后的内容在页面上显示的是html源码_小组_ThinkSAAS
nodejs使用富文本编辑器保存后的内容在页面上显示的是html源码
nodejs使用富文本编辑器保存后的内容在页面上显示的是html源码
使用ckeditor编辑的内容保存以后在页面上显示的是源码，其实原因很简单，因为使用ejs标签显示的时候用的是&%= blog.content%&这种形式，只要改为&%- blog.postDate%&就行，“=”改为“-”。1、&% code %&：JavaScript 代码。 2、&%= code %&：显示替换过 HTML 特殊字符的内容。 3、&%- code %&：显示原始 HTML 内容。以上为ejs的三种标签，&%= code %&和&%- code %&的区别在于前者显示原始内容，不对内容进行转换，即使内容中包含代码都全部显示为字符串，后者相反，会解析html代码
PHP开发框架
服务器环境
ThinkSAAS商业授权：
ThinkSAAS为用户提供有偿个性定制开发服务
ThinkSAAS将为商业授权用户提供二次开发指导和技术支持
手机客户端
ThinkSAAS接收任何功能的Iphone(IOS)和Android手机的客户端定制开发服务
让ThinkSAAS更好，把建议拿来。当前位置： &
Node.js 中如何用异步的方式读取一个文件
人气指数：&来源：&&&时间： 10:00:10
Node.js 中如何用异步的方式读取一个文件，下面是一个例子：
//readfile.js
var fs = require('fs');
fs.readFile('file.txt', 'utf-8', function(err, data) {
if (err) {
console.error(err);
console.log(data);
console.log('end.');
运行的结果如下：
Contents of the file.
&&&&&&&&&&
Node.js 也提供了同步读取文件的 API：
//readfilesync.js
var fs = require('fs');
var data = fs.readFileSync('file.txt', 'utf-8');
console.log(data);
console.log('end.');
运行的结果与前面不同，如下所示：
$ node readfilesync.js
Contents of the file.
同步式读取文件的方式比较容易理解，将文件名作为参数传入 fs.readFileSync 函
数，阻塞等待读取完成后，将文件的内容作为函数的返回值赋给 data 变量，接下来控制台
输出 data 的值，最后输出 end.。
异步式读取文件就稍微有些违反直觉了，end.先被输出。要想理解结果，我们必须先
知道在 Node.js 中，异步式 I/O 是通过回调函数来实现的。fs.readFile 接收了三个参数，
第一个是文件名，第二个是编码方式，第三个是一个函数，我们称这个函数为回调函数。
本站欢迎任何形式的转载，但请务必注明出处，尊重他人劳动成果
转载请注明：文章转载自：
您可能感兴趣的文章
响应式设计
爱思资源网 Copyright
All rights reserved.(晋ICP备号-1)几个月之前，有同事找我要PHP CI框架写的OA系统。他跟我说，他需要学习PHP CI框架，我建议他学习大牛写的国产优秀框架QeePHP。
我上QeePHP官网，发现官方网站打不开了，GOOGLE了一番，发现QeePHP框架已经没人维护了。API文档资料都没有了，那可怎么办？
毕竟QeePHP学习成本挺高的。GOOGLE时，我发现已经有人把文档整理好，放在自己的个人网站上了。我在想：万一放文档的个人站点也挂了，
怎么办？还是保存到自己的电脑上比较保险。于是就想着用NodeJS写个爬虫抓取需要的文档到本地。后来抓取完成之后，干脆写了一个通用版本的，
可以抓取任意网站的内容。
爬虫原理抓取初始URL的页面内容，提取URL列表，放入URL队列中，从URL队列中取一个URL地址，抓取这个URL地址的内容，提取URL列表，放入URL队列中
。。。。。。。。。。。。
NodeJS实现源码
* @desc 网页爬虫抓取某个站点
* @todolist
* URL队列很大时处理
* 处理COOKIE
* iconv-lite解决乱码
* 大文件偶尔异常退出
* @author WadeYu
* @copyright by WadeYu
* @version 0.0.1
* @desc 依赖的模块
20 var fs = require("fs");
21 var http = require("http");
22 var https = require("https");
23 var urlUtil = require("url");
24 var pathUtil = require("path");
* @desc URL功能类
29 var Url = function(){};
* @desc 修正被访问地址分析出来的URL 返回合法完整的URL地址
* @param string url 访问地址
* @param string url2 被访问地址分析出来的URL
* @return string || boolean
39 Url.prototype.fix = function(url,url2){
if(!url || !url2){
return false;
var oUrl = urlUtil.parse(url);
if(!oUrl["protocol"] || !oUrl["host"] || !oUrl["pathname"]){//无效的访问地址
return false;
if(url2.substring(0,2) === "//"){
url2 = oUrl["protocol"]+url2;
var oUrl2 = urlUtil.parse(url2);
if(oUrl2["host"]){
if(oUrl2["hash"]){
delete oUrl2["hash"];
return urlUtil.format(oUrl2);
var pathname = oUrl["pathname"];
if(pathname.indexOf('/') & -1){
pathname = pathname.substring(0,pathname.lastIndexOf('/'));
if(url2.charAt(0) === '/'){
pathname = '';
url2 = pathUtil.normalize(url2); //修正 ./ 和 ../
url2 = url2.replace(/\\/g,'/');
while(url2.indexOf("../") & -1){ //修正以../开头的路径
pathname = pathUtil.dirname(pathname);
url2 = url2.substring(3);
if(url2.indexOf('#') & -1){
url2 = url2.substring(0,url2.lastIndexOf('#'));
} else if(url2.indexOf('?') &　-1){
url2 = url2.substring(0,url2.lastIndexOf('?'));
var oTmp = {
"protocol": oUrl["protocol"],
"host": oUrl["host"],
"pathname": pathname + '/' + url2,
return urlUtil.format(oTmp);
* @desc 判断是否是合法的URL地址一部分
* @param string urlPart
* @return boolean
90 Url.prototype.isValidPart = function(urlPart){
if(!urlPart){
return false;
if(urlPart.indexOf("javascript") & -1){
return false;
if(urlPart.indexOf("mailto") & -1){
return false;
if(urlPart.charAt(0) === '#'){
return false;
if(urlPart === '/'){
return false;
if(urlPart.substring(0,4) === "data"){//base64编码图片
return false;
return true;
* @desc 获取URL地址路径部分不包含域名以及QUERYSTRING
* @param string url
* @return string
119 Url.prototype.getUrlPath = function(url){
return '';
var oUrl = urlUtil.parse(url);
if(oUrl["pathname"] && (/\/$/).test(oUrl["pathname"])){
oUrl["pathname"] += "index.html";
if(oUrl["pathname"]){
return oUrl["pathname"].replace(/^\/+/,'');
return '';
* @desc 文件内容操作类
137 var File = function(obj){
var obj = obj || {};
this.saveDir = obj["saveDir"] ? obj["saveDir"] : ''; //文件保存目录
* @desc 内容存文件
* @param string filename 文件名
* @param mixed content 内容
* @param string charset 内容编码
* @param Function cb 异步回调函数
* @param boolean bAppend
* @return boolean
153 File.prototype.save = function(filename,content,charset,cb,bAppend){
if(!content || !filename){
return false;
var filename = this.fixFileName(filename);
if(typeof cb !== "function"){
var cb = function(err){
console.log("内容保存失败 FILE:"+filename);
var sSaveDir = pathUtil.dirname(filename);
var self = this;
var cbFs = function(){
var buffer = new Buffer(content,charset ? charset : "utf8");
fs.open(filename, bAppend ? 'a' : 'w', 0666, function(err,fd){
var cb2 = function(err){
fs.close(fd);
fs.write(fd,buffer,0,buffer.length,0,cb2);
fs.exists(sSaveDir,function(exists){
if(!exists){
self.mkdir(sSaveDir,"0666",function(){
* @desc 修正保存文件路径
* @param string filename 文件名
* @return string 返回完整的保存路径包含文件名
199 File.prototype.fixFileName = function(filename){
if(pathUtil.isAbsolute(filename)){
if(this.saveDir){
this.saveDir = this.saveDir.replace(/[\\/]$/,pathUtil.sep);
return this.saveDir + pathUtil.sep +
* @递归创建目录
* @param string 目录路径
* @param mode 权限设置
* @param function 回调函数
* @param string 父目录路径
* @return void
219 File.prototype.mkdir = function(sPath,mode,fn,prefix){
sPath = sPath.replace(/\\+/g,'/');
var aPath = sPath.split('/');
var prefix = prefix || '';
var sPath = prefix + aPath.shift();
var self = this;
var cb = function(){
fs.mkdir(sPath,mode,function(err){
if ( (!err) || ( ([47,-4075]).indexOf(err["errno"]) & -1 ) ){ //创建成功或者目录已存在
if (aPath.length & 0){
self.mkdir( aPath.join('/'),mode,fn, sPath.replace(/\/$/,'')+'/' );
console.log(err);
console.log('创建目录:'+sPath+'失败');
fs.exists(sPath,function(exists){
if(!exists){
} else if(aPath.length & 0){
self.mkdir(aPath.join('/'),mode,fn, sPath.replace(/\/$/,'')+'/' );
* @递归删除目录待完善异步不好整
* @param string 目录路径
* @param function 回调函数
* @return void
258 File.prototype.rmdir = function(path,fn){
var self = this;
fs.readdir(path,function(err,files){
if(err.errno == -4052){ //不是目录
fs.unlink(path,function(err){
} else if(files.length === 0){
fs.rmdir(path,function(err){
for(var i = 0; i & files. i++){
self.rmdir(path+'/'+files[i],fn);
* @desc 简单日期对象
286 var oDate = {
time:function(){//返回时间戳毫秒
return (new Date()).getTime();
date:function(fmt){//返回对应格式日期
var oDate = new Date();
var year = oDate.getFullYear();
var fixZero = function(num){
return num & 10 ? ('0'+num) :
var oTmp = {
y: (year+'').substring(2,4),
m: fixZero(oDate.getMonth()+1),
d: fixZero(oDate.getDate()),
H: fixZero(oDate.getHours()),
i: fixZero(oDate.getMinutes()),
s: fixZero(oDate.getSeconds()),
for(var p in oTmp){
if(oTmp.hasOwnProperty(p)){
fmt = fmt.replace(p,oTmp[p]);
* @desc 未抓取过的URL队列
317 var aNewUrlQueue = [];
* @desc 已抓取过的URL队列
322 var aGotUrlQueue = [];
* @desc 统计
327 var oCnt = {
total:0,//抓取总数
succ:0,//抓取成功数
fSucc:0,//文件保存成功数
* 可能有问题的路径的长度超过打监控日志
336 var sPathMaxSize = 120;
* @desc 爬虫类
341 var Robot = function(obj){
var obj = obj || {};
//所在域名
this.domain = obj.domain || '';
//抓取开始的第一个URL
this.firstUrl = obj.firstUrl || '';
//唯一标识
this.id = this.constructor.incr();
//内容落地保存路径
this.saveDir = obj.saveDir || '';
//是否开启调试功能
this.debug = obj.debug || false;
//第一个URL地址入未抓取队列
if(this.firstUrl){
aNewUrlQueue.push(this.firstUrl);
//辅助对象
this.oUrl = new Url();
this.oFile = new File({saveDir:this.saveDir});
* @desc 爬虫类私有方法---返回唯一爬虫编号
* @return int
367 Robot.id = 1;
368 Robot.incr = function(){
return this.id++;
* @desc 爬虫开始抓取
* @return boolean
377 Robot.prototype.crawl = function(){
if(aNewUrlQueue.length & 0){
var url = aNewUrlQueue.pop();
this.sendReq(url);
oCnt.total++;
aGotUrlQueue.push(url);
if(this.debug){
console.log("抓取结束");
console.log(oCnt);
return true;
* @desc 发起HTTP请求
* @param string url URL地址
* @return boolean
399 Robot.prototype.sendReq = function(url){
var req = '';
if(url.indexOf("https") & -1){
req = https.request(url);
req = http.request(url);
var self = this;
req.on('response',function(res){
var aType = self.getResourceType(res.headers["content-type"]);
var data = '';
if(aType[2] !== "binary"){
//res.setEncoding(aType[2] ? aType[2] : "utf8");//非支持的内置编码会报错
res.setEncoding("binary");
res.on('data',function(chunk){
res.on('end',function(){ //获取数据结束
self.debug && console.log("抓取URL:"+url+"成功\n");
self.handlerSuccess(data,aType,url);
data = null;
res.on('error',function(){
self.handlerFailure();
self.debug && console.log("服务器端响应失败URL:"+url+"\n");
}).on('error',function(err){
self.handlerFailure();
self.debug && console.log("抓取URL:"+url+"失败\n");
}).on('finish',function(){//调用END方法之后触发
self.debug && console.log("开始抓取URL:"+url+"\n");
req.end();//发起请求
* @desc 提取HTML内容里的URL
* @param string html HTML文本
* @return []
443 Robot.prototype.parseUrl = function(html){
if(!html){
return [];
var a = [];
var aRegex = [
/&a.*?href=['"]([^"']*)['"][^&]*&/gmi,
/&script.*?src=['"]([^"']*)['"][^&]*&/gmi,
/&link.*?href=['"]([^"']*)['"][^&]*&/gmi,
/&img.*?src=['"]([^"']*)['"][^&]*&/gmi,
/url\s*$[\\'"]*([^\($]+)[\\'"]*\)/gmi, //CSS背景
html = html.replace(/[\n\r\t]/gm,'');
for(var i = 0; i & aRegex. i++){
var aRet = aRegex[i].exec(html);
this.debug && this.oFile.save("_log/aParseUrl.log",aRet.join("\n")+"\n\n","utf8",function(){},true);
a.push(aRet[1].trim().replace(/^\/+/,'')); //删除/是否会产生问题
}while(aRet);
* @desc 判断请求资源类型
* @param string
Content-Type头内容
* @return [大分类,小分类,编码类型] ["image","png","utf8"]
475 Robot.prototype.getResourceType = function(type){
if(!type){
return '';
var aType = type.split('/');
aType.forEach(function(s,i,a){
a[i] = s.toLowerCase();
if(aType[1] && (aType[1].indexOf(';') & -1)){
var aTmp = aType[1].split(';');
aType[1] = aTmp[0];
for(var i = 1; i & aTmp. i++){
if(aTmp[i] && (aTmp[i].indexOf("charset") & -1)){
aTmp2 = aTmp[i].split('=');
aType[2] = aTmp2[1] ? aTmp2[1].replace(/^\s+|\s+$/,'').replace('-','').toLowerCase() : '';
if((["image"]).indexOf(aType[0]) & -1){
aType[2] = "binary";
* @desc 抓取页面内容成功调用的回调函数
* @param string str 抓取的内容
* @param [] aType 抓取内容类型
* @param string url 请求的URL地址
* @return void
508 Robot.prototype.handlerSuccess = function(str,aType,url){
if((aType[0] === "text") && ((["css","html"]).indexOf(aType[1]) & -1)){ //提取URL地址
aUrls = (url.indexOf(this.domain) & -1) ? this.parseUrl(str) : []; //非站内只抓取一次
for(var i = 0; i & aUrls. i++){
if(!this.oUrl.isValidPart(aUrls[i])){
this.debug && this.oFile.save("_log/aInvalidRawUrl.log",url+"----"+aUrls[i]+"\n","utf8",function(){},true);
var sUrl = this.oUrl.fix(url,aUrls[i]);
/*if(sUrl.indexOf(this.domain) === -1){ //只抓取站点内的这里判断会过滤掉静态资源
if(aNewUrlQueue.indexOf(sUrl) & -1){
if(aGotUrlQueue.indexOf(sUrl) & -1){
aNewUrlQueue.push(sUrl);
//内容存文件
var sPath = this.oUrl.getUrlPath(url);
var self = this;
var oTmp = urlUtil.parse(url);
if(oTmp["hostname"]){//路径包含域名防止文件保存时因文件名相同被覆盖
sPath = sPath.replace(/^\/+/,'');
sPath = oTmp["hostname"]+pathUtil.sep+sP
if(sPath){
if(this.debug){
this.oFile.save("_log/urlFileSave.log",url+"--------"+sPath+"\n","utf8",function(){},true);
if(sPath.length & sPathMaxSize){ //可能有问题的路径打监控日志
this.oFile.save("_log/sPathMaxSizeOverLoad.log",url+"--------"+sPath+"\n","utf8",function(){},true);
if(aType[2] != "binary"){//只支持UTF8编码
aType[2] = "utf8";
this.oFile.save(sPath,str,aType[2] ? aType[2] : "utf8",function(err){
self.debug && console.log("Path:"+sPath+"存文件失败");
oCnt.fSucc++;
oCnt.succ++;
this.crawl();//继续抓取
* @desc 抓取页面失败调用的回调函数
* @return void
565 Robot.prototype.handlerFailure = function(){
this.crawl();
* @desc 外部引用
572 module.exports = R
var Robot = require("./robot.js");
var oOptions = {
domain:'', //抓取网站的域名
firstUrl:'/', //抓取的初始URL地址
saveDir:"E:\\wwwroot/baidu/", //抓取内容保存目录
debug:true, //是否开启调试模式
var o = new Robot(oOptions);
o.crawl(); //开始抓取
后记还有些地方需要完善1.处理302跳转2.处理COOKIE登陆3.大文件偶尔会非正常退出4.使用多进程5.完善URL队列管理
6.异常退出之后处理
实现过程中碰到了一些问题，最后还是解决了，爬虫原理很简单，只有真正实现过，才会对它更加理解，原来实现不是那么简单，也是需要花时间的。
7.下载地址:&/wadeyu/nodejsrobot/zip/master
参考资料[1]NodeJShttps://nodejs.org/[2]Nodejs抓取非utf8字符编码的页面/fengmk2/archive//2047109.html[3]iconv-lite编码解码/package/iconv-lite
阅读(...) 评论()

如何用nodejs打开本地超文本浏览框打开网页文件并在网页中显示

我要回帖

更多关于网页打开本地程序的文章

随机推荐

如何用nodejs打开本地超文本浏览框打开网页文件并在网页中显示

我要回帖

更多关于 网页打开本地程序 的文章

随机推荐

更多关于网页打开本地程序的文章