如何excel批量导入txt从TXT提取URL主域名?

Python从url中提取域名的几种方法
本文是一个Python实现的可以从url中提取域名的方法,本文给出了3种方法实现在URL中提取域名的需求,需要的朋友可以参考下
本文是一个Python实现的可以从url中提取域名的方法,本文给出了3种方法实现在URL中提取域名的需求,需要的朋友可以参考下
从url中找到域名,首先想到的是用正则,然后寻找相应的类库。用正则解析有很多不完备的地方,url中有域名,域名后缀一直在不断增加等。通过google查到几种方法,一种是用Python中自带的模块和正则相结合来解析域名,另一种是使第三方用写好的解析模块直接解析出域名。
要解析的url
urls = [&http://meiwen.me/src/index.html&,
&&&&&&&&& &/game/index.html&,
&&&&&&&&& &http://see./cpp/html/1429.html&,
&&&&&&&&& &https://docs.python.org/2/howto/regex.html&,
&&&&&&&&& &&&.hk/search?client=aff-cs-360chromium&hs=TSj&q=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&oq=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&gs_l=serp.3....0..2.0.0.0.541.j0j1j1.8.0....0...1c.1j4.53.serp..26.2.547.IuHTj4uoyHg&&&,
&&&&&&&&& &file:///D:/code/echarts-2.0.3/doc/example/tooltip.html&,
&&&&&&&&& &http://api.mongodb.org/python/current/faq.html#is-pymongo-thread-safe&,
&&&&&&&&& &https://pypi.python.org/pypi/publicsuffix/&,
&&&&&&&&& &http://127.0.0.1:8000&
&&&&&&&&& ]
使用urlparse+正则的方式
from urlparse import urlparse
topHostPostfix = (
&&& '.com','.la','.io','.co','.info','.net','.org','.me','.mobi',
&&& '.us','.biz','.xxx','.ca','.co.jp','.','.',
&&& '.','.mx','.tv','.ws','.ag','.com.ag','.net.ag',
&&& '.org.ag','.am','.asia','.at','.be','.com.br','.net.br',
&&& '.bz','.com.bz','.net.bz','.cc','.com.co','.net.co',
&&& '.nom.co','.de','.es','.com.es','.nom.es','.org.es',
&&& '.eu','.fm','.fr','.gs','.in','.co.in','.firm.in','.gen.in',
&&& '.ind.in','.net.in','.org.in','.it','.jobs','.jp','.ms',
&&& '.com.mx','.nl','.nu','.co.nz','.net.nz','.org.nz',
&&& '.se','.tc','.tk','.tw','.com.tw','.idv.tw','.org.tw',
&&& '.hk','.co.uk','.me.uk','.org.uk','.vg', &.com.hk&)
regx = r'[^.]+('+'|'.join([h.replace('.',r'.') for h in topHostPostfix])+')$'
pattern = re.compile(regx,re.IGNORECASE)
print &--&*40
for url in urls:
&&& parts = urlparse(url)
&&& host = parts.netloc
&&& m = pattern.search(host)
&&& res =& m.group() if m else host
&&& print &unkonw& if not res else res
运行结果如下:
python.org
mongodb.org
python.org
127.0.0.1:8000
基本可以接受
urllib来解析域名
import urllib
print &--&*40
for url in urls:
&&& proto, rest = urllib.splittype(url)
&&& res, rest = urllib.splithost(rest)
&&& print &unkonw& if not res else res
运行结果如下:
docs.python.org
api.mongodb.org
pypi.python.org
127.0.0.1:8000
会把www.也带上,还需要进一步解析才可以
使用第三方模块 tld
from tld import get_tld
print &--&*40
for url in urls:
&&&&&&& print& get_tld(url)
&&& except Exception as e:
&&&&&&& print &unkonw&
运行结果:
python.org
mongodb.org
python.org
结果都可以接受
其他可以使用的解析模块:
tldextract
publicsuffix
Copyright &
All Rights Reserved百度url批量提交工具,自动识别验证码 (6月已出最新版) - 麒麟软件工作室
关注我们感兴趣的人和事!
最新公告:
网罗全球创新事物,点缀生活乐趣!
百度url批量提交工具,自动识别验证码 (6月已出最新版)
注意:该款软件于号,全新升级改版,带百度账号自动登陆功能,详情请看以下链接:/item.htm?id=&spm=2.0.0这款软件非常适合站长用的哈。批量提交站点各各页面,提交的时候不需要再手工输入验证码了。全自动操作。&百度URL提交平台,是百度站长平台为站长提供单条url提交通道,您可以提交想被百度收录的url,百度搜索引擎会按照标准处理,但不保证一定能够收录您提交的url。URL提交接口/sitesubmit/index软件特点:1、实现单条链接自动提交(多线程操作),代替手工操作。2、提交的时候有验证码,软件自动识别,无需手工操作,全自动3、如遇到IP限制,软件自动暂停,提醒需要换IP,此时用户换个IP,可继续操作,一般不会遇到。做了一个备用功能4、提交链接成功与否,都会有状态提求,可分开导出,没有成功的可单独导出,接着提交即可。操作方法简单:将所有需要提交的网址链接放在TXT文本里面,导入到软件内,点开始提交&软件操作个界面:&&购买此软件的用户,在确认收货+文字好评,即可向掌柜获取●URL批量查询收录工具●(原创软件),可导出收录与未收录的链接(txt文本),将未收录的链接再导入到URL批量提交里面,第二天可以通过此款工具查询收录状况哦。非常实用的工具!!以下是软件界面图&,软件更新了,增加了两个自定义功能,第一个自定义功能:用户可以自定义设置提交间隔时间(建议速度慢点),第二个自定义功能:用户可以自定义设置提交线程数。什么是叫多线程:同一个程序的不同部分开同时进行,以达到高效率。&注:现推出这款工具可以跟URL提交可以配合使用如:你要提交哪些链接,就要采集站点的URL文章链接,然后查下有没有收录,再提交没收录的,或是提交后,查收录情况也可以(提取URL链接、查收录工具),两款软件一起购买,原价30+79=109元,现只需要95元将未收录的链接通过百度URL批量提交到百度站长平台,增加收录机会。想知道百度URL提交后有没有收录,那直接将之前提交的链接导入到软件里面查询即可。&软件试用下载:软件更多详情地址:/item.htm?id=&spm=2.0.0可做软件定制服务,欢迎咨询php提取当前url参数或者网页内容 php输出生成txt文件:
气死我了,网上找了好久php输出txt文件的代码,没找到。还有碰到个极品网站,N个步骤,结果发现是个骗子,擦!!!
这里把最后找到的分享给大家。主要就几句代码,前面大家的自己摸索着改吧,学着成长不是。
推荐使用QQ旋风下载本站软件,使用 WinRAR v3.10 以上版本解压本站软件。
如果这个软件总是不能下载的请联系我们(见页尾),谢谢合作!!
凡本站资源经过站长查毒后上传,以防万一,如发现问题请立刻联系我们。
如果遇到什么问题,请到本站论坛去咨询,我们将在那里提供更多 、更好的资源!
本站提供的外挂资源均来自网络,本站只做收集汇总工作,由外挂导致的任何问题与本站无关!

我要回帖

更多关于 txt编码批量转换 的文章

 

随机推荐