如何excel批量导入txt从TXT提取URL主域名?

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>电脑/网络 >>如何excel批量导入txt从TXT提取URL主域名?

如何excel批量导入txt从TXT提取URL主域名?

来源：蜘蛛抓取(WebSpider) 时间：2015-04-18 09:41 标签： txt编码批量转换

Python从url中提取域名的几种方法
本文是一个Python实现的可以从url中提取域名的方法,本文给出了3种方法实现在URL中提取域名的需求,需要的朋友可以参考下
本文是一个Python实现的可以从url中提取域名的方法,本文给出了3种方法实现在URL中提取域名的需求,需要的朋友可以参考下
从url中找到域名,首先想到的是用正则，然后寻找相应的类库。用正则解析有很多不完备的地方，url中有域名，域名后缀一直在不断增加等。通过google查到几种方法，一种是用Python中自带的模块和正则相结合来解析域名，另一种是使第三方用写好的解析模块直接解析出域名。
要解析的url
urls = [&http://meiwen.me/src/index.html&,
&&&&&&&&& &/game/index.html&,
&&&&&&&&& &http://see./cpp/html/1429.html&,
&&&&&&&&& &https://docs.python.org/2/howto/regex.html&,
&&&&&&&&& &&&.hk/search?client=aff-cs-360chromium&hs=TSj&q=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&oq=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&gs_l=serp.3....0..2.0.0.0.541.j0j1j1.8.0....0...1c.1j4.53.serp..26.2.547.IuHTj4uoyHg&&&,
&&&&&&&&& &file:///D:/code/echarts-2.0.3/doc/example/tooltip.html&,
&&&&&&&&& &http://api.mongodb.org/python/current/faq.html#is-pymongo-thread-safe&,
&&&&&&&&& &https://pypi.python.org/pypi/publicsuffix/&,
&&&&&&&&& &http://127.0.0.1:8000&
&&&&&&&&& ]
使用urlparse+正则的方式
from urlparse import urlparse
topHostPostfix = (
&&& '.com','.la','.io','.co','.info','.net','.org','.me','.mobi',
&&& '.us','.biz','.xxx','.ca','.co.jp','.','.',
&&& '.','.mx','.tv','.ws','.ag','.com.ag','.net.ag',
&&& '.org.ag','.am','.asia','.at','.be','.com.br','.net.br',
&&& '.bz','.com.bz','.net.bz','.cc','.com.co','.net.co',
&&& '.nom.co','.de','.es','.com.es','.nom.es','.org.es',
&&& '.eu','.fm','.fr','.gs','.in','.co.in','.firm.in','.gen.in',
&&& '.ind.in','.net.in','.org.in','.it','.jobs','.jp','.ms',
&&& '.com.mx','.nl','.nu','.co.nz','.net.nz','.org.nz',
&&& '.se','.tc','.tk','.tw','.com.tw','.idv.tw','.org.tw',
&&& '.hk','.co.uk','.me.uk','.org.uk','.vg', &.com.hk&)
regx = r'[^.]+('+'|'.join([h.replace('.',r'.') for h in topHostPostfix])+')$'
pattern = re.compile(regx,re.IGNORECASE)
print &--&*40
for url in urls:
&&& parts = urlparse(url)
&&& host = parts.netloc
&&& m = pattern.search(host)
&&& res =& m.group() if m else host
&&& print &unkonw& if not res else res
运行结果如下:
python.org
mongodb.org
python.org
127.0.0.1:8000
基本可以接受
urllib来解析域名
import urllib
print &--&*40
for url in urls:
&&& proto, rest = urllib.splittype(url)
&&& res, rest = urllib.splithost(rest)
&&& print &unkonw& if not res else res
运行结果如下：
docs.python.org
api.mongodb.org
pypi.python.org
127.0.0.1:8000
会把www.也带上，还需要进一步解析才可以
使用第三方模块 tld
from tld import get_tld
print &--&*40
for url in urls:
&&&&&&& print& get_tld(url)
&&& except Exception as e:
&&&&&&& print &unkonw&
运行结果：
python.org
mongodb.org
python.org
结果都可以接受
其他可以使用的解析模块：
tldextract
publicsuffix
Copyright &
All Rights Reserved百度url批量提交工具，自动识别验证码（6月已出最新版） - 麒麟软件工作室
关注我们感兴趣的人和事!
最新公告：
网罗全球创新事物，点缀生活乐趣!
百度url批量提交工具，自动识别验证码（6月已出最新版）
注意：该款软件于号，全新升级改版，带百度账号自动登陆功能，详情请看以下链接：/item.htm?id=&spm=2.0.0这款软件非常适合站长用的哈。批量提交站点各各页面,提交的时候不需要再手工输入验证码了。全自动操作。&百度URL提交平台，是百度站长平台为站长提供单条url提交通道，您可以提交想被百度收录的url，百度搜索引擎会按照标准处理，但不保证一定能够收录您提交的url。URL提交接口/sitesubmit/index软件特点：1、实现单条链接自动提交（多线程操作），代替手工操作。2、提交的时候有验证码，软件自动识别，无需手工操作，全自动3、如遇到IP限制，软件自动暂停，提醒需要换IP，此时用户换个IP，可继续操作，一般不会遇到。做了一个备用功能4、提交链接成功与否，都会有状态提求，可分开导出，没有成功的可单独导出，接着提交即可。操作方法简单：将所有需要提交的网址链接放在TXT文本里面，导入到软件内，点开始提交&软件操作个界面：&&购买此软件的用户，在确认收货+文字好评，即可向掌柜获取●URL批量查询收录工具●（原创软件），可导出收录与未收录的链接（txt文本），将未收录的链接再导入到URL批量提交里面，第二天可以通过此款工具查询收录状况哦。非常实用的工具！！以下是软件界面图&，软件更新了，增加了两个自定义功能，第一个自定义功能：用户可以自定义设置提交间隔时间（建议速度慢点），第二个自定义功能：用户可以自定义设置提交线程数。什么是叫多线程：同一个程序的不同部分开同时进行，以达到高效率。&注：现推出这款工具可以跟URL提交可以配合使用如：你要提交哪些链接，就要采集站点的URL文章链接，然后查下有没有收录，再提交没收录的，或是提交后，查收录情况也可以（提取URL链接、查收录工具），两款软件一起购买，原价30+79=109元，现只需要95元将未收录的链接通过百度URL批量提交到百度站长平台，增加收录机会。想知道百度URL提交后有没有收录，那直接将之前提交的链接导入到软件里面查询即可。&软件试用下载：软件更多详情地址：/item.htm?id=&spm=2.0.0可做软件定制服务，欢迎咨询php提取当前url参数或者网页内容 php输出生成txt文件：
气死我了，网上找了好久php输出txt文件的代码，没找到。还有碰到个极品网站，N个步骤，结果发现是个骗子，擦！！！
这里把最后找到的分享给大家。主要就几句代码，前面大家的自己摸索着改吧，学着成长不是。
推荐使用QQ旋风下载本站软件，使用 WinRAR v3.10 以上版本解压本站软件。
如果这个软件总是不能下载的请联系我们（见页尾）,谢谢合作!!
凡本站资源经过站长查毒后上传，以防万一，如发现问题请立刻联系我们。
如果遇到什么问题，请到本站论坛去咨询，我们将在那里提供更多、更好的资源！
本站提供的外挂资源均来自网络,本站只做收集汇总工作,由外挂导致的任何问题与本站无关!

如何excel批量导入txt从TXT提取URL主域名?

我要回帖

更多关于 txt编码批量转换的文章

随机推荐

如何excel批量导入txt从TXT提取URL主域名?

我要回帖

更多关于 txt编码批量转换 的文章

随机推荐

更多关于 txt编码批量转换的文章