求Python 编程 爬取新浪热点新闻评论,按点击量或评论量排行的十条新闻,代码怎么实现

准备工作:安装requests和BeautifulSoup4。打开cmd,输入如下命令
pip install requests
pip install BeautifulSoup4
打开我们要爬取的页面,这里以新浪新闻为例,地址为:
按F12打开开发人员工具,点击左上角的图片,然后再页面中点击你想查看的元素:
我点击了新闻标题处的元素,查看到该元素为class=news-item的元素:
在这里,我们要获取新闻的时间,标题和链接,查看到分别在如下位置:
现在,就可以根据元素的结构编写爬虫代码了:
import requests
from bs4 import BeautifulSoup
url = '.cn/china/'
res = requests.get(url)
res.encoding = 'UTF-8'
soup = BeautifulSoup(res.text, 'html.parser')
for news in soup.select('.news-item'):
h2 = news.select('h2')
if len(h2) & 0:
time = news.select('.time')[0].text
title = h2[0].text
href = h2[0].select('a')[0]['href']
print(time, title, href)
运行程序,结果如下图所示:
本文已收录于以下专栏:
相关文章推荐
Python进阶(十八)-Python3爬虫小试牛刀之爬取CSDN博客个人信息
这篇文章主要介绍了如何使用Python3爬取csdn博客访问量的相关资料,在Python2已实现的基础上实现Pytho...
给Python爬虫做一个界面.成品
一、实验简介
1.1 实验内容
通过 PyQt 给妹子图网的Python爬虫做一个交互界面,从而对 PyQt 有初步的理解,并学会如何使用 Qt ...
网络绝对是任何系统的核心,对于容器而言也是如此。Docker 作为目前最火的轻量级容器技术,有很多令人称道的功能,如 Docker 的镜像管理。然而,Docker的网络一直以来都比较薄弱,所以我们有必要深入了解Docker的网络知识,以满足更高的网络需求。
工欲善其事,必先利其器。我们要进行数据挖掘,就必须先获取数据,获取数据的方法有很多种,其中一种就是爬虫。下面我们利用Python2.7,写一个爬虫,专门爬取中新网http://www.chinanew...
作者博客地址:http://andyheart.mePython爬虫一步一步爬取文章背景最近在学习机器学习算法,分为回归,分类,聚类等,在学习过程中苦于没有数据做练习,就想爬取一下国内各大网站的新闻,...
网站分析为了方便爬取,所以选择了手机版的简版网易新闻网址。
获取新闻链接列表的网址为/touch/article/list/BA8J7DG9wangning/1-4...
最近也是学习了一些爬虫方面的知识。以我自己的理解,通常我们用浏览器查看网页时,是通过浏览器向服务器发送请求,然后服务器响应以后返回一些代码数据,再经过浏览器解析后呈现出来。而爬虫则是通过程序向服务器发...
最近因为手里头需要不断查看某校的新闻发布,不想频繁的刷新网页,于是就有了下面的这个轻量级的爬虫出现了,闲言少叙,步入正题~
环境介绍:
python 2.7 
BS4(这是一个强大的三方moud...
缘起我的好朋友的毕业论文需要爬取基金经理的新闻数量,并且统计新闻数量与基金的成交率的关系,我当然义不容辞啦。
任务描述:爬取三百位基金经理“百度新闻”中的搜索结果,并且将其分别按月和按季度统计新闻数...
#-*-coding:utf-8-*-
from urllib import urlretrieve  
from urllib import urlopen  
#获取网页信...
FROM:http://blog.csdn.net/androidlushangderen/article/details/
鉴于最近在做观点挖掘的相关工...
他的最新文章
讲师:王渊命
讲师:蔡栋
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)热门新闻每日排行_新闻中心_新浪网
快速跳转: |
新闻总排行
点击量排行
评论数排行
分享数排行
点击量排行
评论数排行
分享数排行
点击量排行
评论数排行
分享数排行
点击量排行
评论数排行
分享数排行
点击量排行
评论数排行
分享数排行
点击量排行
评论数排行
分享数排行
点击量排行
评论数排行
分享数排行
点击量排行
评论数排行
分享数排行
点击量排行
评论数排行
分享数排行
本页面为实时新闻排行榜,点击量排行显示从当前时间起24小时内各频道新闻浏览量最高的排行情况,每小时更新一次;
评论数排行显示从当前时间起24小时内各频道新闻评论数量最高的排行情况,每小时更新一次。
 电话:010-    欢迎批评指正
Copyright &
SINA Corporation, All Rights Reserved
北京市通信公司提供网络带宽
1新浪财经06-04 16:48:00:
2新浪财经05-31 17:31:00:
3新浪财经05-27 05:01:00:
4新浪财经05-10 13:31:00:
5新浪财经05-09 05:31:00:
6新浪财经05-10 13:31:00:
61新华网12-01 14:17:00:
62参考消息网12-01 09:35:00:
63综合12-01 09:48:00:
64观察者网12-01 09:34:00:
1央视新闻09-18 08:13:32:
2法制晚报09-17 23:28:13:
3环球网09-18 08:15:59:
4澎湃新闻09-18 10:18:18:
5中国网09-18 11:02:19:
6人民日报海外版-海外网09-18 08:19:39:
7参考消息09-18 00:24:48:
8中国网09-18 01:51:11:
9中国新闻网09-18 17:58:49:
10澎湃新闻09-18 16:44:49:
1财经杂志09-18 12:38:57:
2大洋网-广州日报09-18 00:02:21:
3环球网09-18 08:38:19:
4新华社09-18 07:40:17:
5新文化报09-18 00:09:47:
6新文化报09-18 00:09:09:
7重庆时报09-18 05:21:53:
8人民日报海外版-海外网09-18 18:05:18:
9长江网-武汉晚报09-18 13:01:16:
10澎湃新闻09-18 07:17:01:
1人民日报海外版-海外网09-18 10:31:23:
2环球时报09-18 14:14:55:
3人民日报海外版-海外网09-18 06:51:52:
4人民日报海外版-海外网09-18 07:22:20:
5重庆时报09-17 23:23:31:
6环球网09-18 19:30:24:
7人民日报海外版-海外网09-18 04:06:17:
8参考消息09-18 00:14:28:
9参考消息09-18 10:09:45:
10人民日报海外版-海外网09-18 10:33:45:
109-17 13:58:05:
209-18 11:19:00:
309-18 14:14:55:
409-18 06:51:53:
509-17 20:18:12:
609-17 18:05:57:
709-18 09:34:37:
809-16 18:17:07:
909-18 08:21:20:
1009-18 09:01:27:
109-18 04:41:14:
209-18 13:43:59:
309-17 22:10:59:
409-15 13:26:16:
509-17 22:49:11:
609-17 19:17:08:
709-17 10:02:21:
809-18 04:45:56:
909-13 18:49:40:
1009-18 06:36:50:
109-17 22:07:50:
209-18 09:48:18:
309-18 10:06:55:
409-18 07:59:16:
509-17 17:38:19:
609-17 18:11:30:
709-18 10:33:33:
809-18 12:17:21:
909-12 22:23:08:
1009-17 21:32:15:
1新浪娱乐02-29 16:52:00:
2环球时报05-22 11:12:00:
3辽一网-华商晨报05-22 12:26:00:
4羊城晚报04-27 16:07:00:
5新浪娱乐_原创04-02 10:18:00:
6新浪娱乐03-30 14:43:00:
7新浪娱乐03-18 10:20:00:
8新浪娱乐_原创03-13 14:28:00:
9新浪娱乐03-16 12:08:00:
10新浪娱乐03-16 11:52:00:
1新浪财经06-04 16:48:00:
2新浪财经05-31 17:31:00:
3新浪财经05-24 13:31:00:
4新浪财经05-24 05:01:00:
5新浪财经05-10 13:31:00:
6新浪财经05-10 05:01:00:
7新浪财经04-27 05:31:00:
8新浪财经04-18 17:31:00:
9新浪财经04-18 05:01:00:
10新浪财经04-18 12:07:00:
1新浪历史12-21 11:41:00:
2新浪历史12-21 12:03:00:
3新浪历史12-21 12:36:00:
4观察者网12-17 07:52:00:
5环球网12-17 08:26:00:
6环球网12-17 09:55:00:
7环球网12-17 10:15:00:
8中国新闻网12-17 08:57:00:
9新浪历史12-21 14:17:00:
10新浪军事12-16 17:45:00:
1新浪体育05-11 05:34:00:
2新浪体育05-11 05:08:00:
3新浪体育05-10 03:25:00:
4新浪体育05-10 03:27:00:
5新浪体育05-10 03:12:00:
6新浪体育05-03 03:18:00:
7新浪体育05-03 03:23:00:
8新浪体育09-16 05:31:00:
9新浪体育09-16 04:35:00:
10新浪体育08-07 11:27:00:
1中关村在线07-19 08:10:00:
2新浪手机06-04 06:18:00:
3新浪手机06-03 06:49:00:
4新浪手机05-30 08:44:00:
5手机中国06-02 10:02:00:
6蜂鸟网06-01 08:40:00:
7新浪手机06-01 06:51:00:
8新浪手机06-01 06:52:00:
9新浪手机06-01 16:22:00:
10手机中国05-30 08:46:00:
109-16 14:17:23:
209-17 16:43:03:
309-15 14:45:49:
409-17 14:53:42:
509-17 10:21:08:
609-16 08:30:55:
709-18 08:32:50:
809-17 00:35:40:
909-18 09:51:29:
1009-18 11:10:46:
109-18 15:10:06:
209-18 12:59:05:
309-18 12:29:49:
409-18 11:49:42:
509-18 11:48:50:
609-18 19:09:21:
709-18 00:01:26:
809-18 10:06:58:
909-17 00:20:04:
1009-18 16:41:16:
109-15 09:04:44:
209-18 08:53:07:
309-18 12:30:52:
409-17 08:23:18:
509-18 07:30:04:
609-18 07:34:20:
709-18 08:43:35:
809-18 12:46:44:
909-18 08:35:47:
1009-18 12:06:05:
109-17 21:34:27:
209-18 10:32:11:
309-18 12:47:46:
409-18 12:28:43:
509-17 20:13:33:
609-18 05:53:35:
709-18 09:55:39:
809-18 12:39:02:
909-17 08:05:31:
1009-18 13:52:12:
109-17 10:42:28:
209-12 06:34:00:
309-18 14:14:22:
409-14 09:53:42:
509-15 10:04:52:
609-18 09:07:59:
709-18 04:11:42:
809-16 19:08:11:
909-18 07:14:25:
1009-18 08:29:45:
1新浪娱乐02-29 16:52:00:
2环球时报05-22 11:12:00:
3辽一网-华商晨报05-22 12:26:00:
4羊城晚报04-27 16:07:00:
5新浪娱乐_原创04-02 10:18:00:
6新浪娱乐03-30 14:43:00:
7新浪娱乐03-18 10:20:00:
8新浪娱乐_原创03-13 14:28:00:
9新浪娱乐03-16 12:08:00:
10新浪娱乐03-16 11:52:00:
1新浪财经06-04 16:48:00:
2新浪财经05-31 17:31:00:
3新浪财经05-24 13:31:00:
4新浪财经05-24 05:01:00:
5新浪财经05-10 13:31:00:
6新浪财经05-10 05:01:00:
7新浪财经04-27 05:31:00:
8新浪财经04-18 17:31:00:
9新浪财经04-18 05:01:00:
10新浪财经04-18 12:07:00:
1新浪体育05-11 05:34:00:
2新浪体育05-11 05:08:00:
3新浪体育05-10 03:25:00:
4新浪体育05-10 03:27:00:
5新浪体育05-10 03:12:00:
6新浪体育05-03 03:18:00:
7新浪体育05-03 03:23:00:
8新浪体育09-16 05:31:00:
9新浪体育09-16 04:35:00:
10新浪体育08-07 11:27:00:
1中关村在线07-19 08:10:00:
2新浪手机06-04 06:18:00:
3新浪手机06-03 06:49:00:
4新浪手机05-30 08:44:00:
5手机中国06-02 10:02:00:
6蜂鸟网06-01 08:40:00:
7新浪手机06-01 06:51:00:
8新浪手机06-01 06:52:00:
9新浪手机06-01 16:22:00:
10手机中国05-30 08:46:00:
1东方IC09-18 08:21:17:
2新浪体育09-18 09:19:24:
3CFP09-18 03:48:55:
4Osports09-17 22:57:56:
5新浪体育09-18 09:46:51:
6其他09-18 13:54:10:
7东方IC09-18 08:50:02:
8其他09-18 12:27:01:
9其他09-18 08:07:33:
10其他09-18 08:27:05:
111-19 07:13:40:
211-19 07:24:58:
311-19 08:51:50:
411-19 07:56:57:
511-18 21:40:36:
611-19 11:17:40:
711-19 08:34:26:
811-18 12:49:53:
911-19 09:12:01:
1011-18 07:51:24:
165609-18 20:51:47:
252709-18 09:13:05:
318109-18 17:27:15:
414909-18 07:41:21:
511109-18 18:05:29:
64609-18 00:09:46:
71509-17 22:49:09:
8909-17 22:10:57:
9811-30 07:24:00:
10809-18 09:16:40:
166209-18 09:34:37:
212709-18 14:02:18:
310809-18 22:59:53:
43109-17 20:15:26:
51509-18 00:12:24:
6907-14 14:01:14:
7507-18 12:37:52:
8507-13 19:56:23:
9511-06 08:17:54:
10507-18 12:08:38:
121509-16 08:13:11:
212009-17 21:32:14:
38809-17 17:35:22:
46909-13 06:40:36:
55109-17 17:38:18:
6909-18 07:40:18:
7709-17 22:07:48:
8509-12 11:51:22:
9505-29 15:15:40:
10504-07 09:52:30:
11709-18 08:33:33:
21609-17 12:32:24:
31409-13 03:38:57:
41209-18 10:03:06:
51009-16 20:05:02:
6609-18 15:27:03:
7609-18 15:02:05:
8509-18 13:40:16:
9509-17 22:21:53:
10501-01 08:00:00:
136308-09 18:28:19:
216309-17 10:42:27:
313609-18 14:14:21:
49009-18 16:47:05:
56509-15 10:04:52:
64409-18 09:49:34:
74309-18 21:53:11:
84109-18 09:48:31:
94009-18 07:14:23:
103309-05 08:00:47:
12,59209-18 15:00:02:
22,04409-18 10:17:01:
31,41909-18 10:45:04:
476609-18 17:37:35:
563309-18 15:49:00:
645301-01 08:00:00:
744209-17 16:43:02:
844101-01 08:00:00:
934709-18 14:33:47:
1030709-18 17:06:04:
120809-18 17:39:22:
214809-18 22:42:16:
39009-18 19:09:16:
47509-18 16:41:14:
56109-18 22:14:12:
65109-18 15:07:29:
74909-17 00:27:45:
84209-18 00:01:24:
93809-18 20:56:53:
103609-18 16:59:33:
114809-18 13:02:37:
214009-18 12:30:51:
39309-18 07:30:03:
49309-18 17:17:13:
53109-18 12:06:04:
6608-09 13:58:36:
7507-12 19:03:41:
8502-28 07:21:29:
9402-22 09:56:06:
10409-18 14:31:45:Python爬取新闻网标题、日期、点击量
时间: 09:29:15
&&&& 阅读:1499
&&&& 评论:
&&&& 收藏:0
标签:&&&&&&&&&&&&最近接触Python爬虫,以爬取学校新闻网新闻标题、日期、点击量为例,记录一下工作进度
目前,感觉Python爬虫的过程无非两步:
Step1.获取网页url(利用Python库函数import urllib2)
Step2.利用正则表达式对html中的字符串进行匹配、查找等操作
自我感觉sublime text2编辑器真心好用,部署Python后不会像WingIDE、notepad++那样存在那么多头疼的小问题,推荐使用
学校新闻网:
# -*- coding: UTF-8 -*-
import urllib2
import sys
#***********fuction define************#
def extract_url(info):
rege=&&li&&span class=\&title\&&&a href=\&(.*?)\&&&#fei tan lan mo shi
re_url = re.findall(rege, info)
n=len(re_url)
for i in range(0,n):
re_url[i]=&http://news./&+re_url[i]
return re_url
def extract_title(sub_web):
re_key = &&h4&\r\n
title = re.findall(re_key,sub_web)
return title
def extract_date(sub_web):
re_key = &日期:(.*?)
date = re.findall(re_key,sub_web)
return date
def extract_counts(sub_web):
re_key = &点击数:(.*?)  &
counts = re.findall(re_key,sub_web)
return counts
#*************main**************#
fp=open('output.txt','w')
content = urllib2.urlopen('http://news./ShowList-82-0-1.shtml').read()
url=extract_url(content)
n=len(url)
for i in range(0,n):
sub_web = urllib2.urlopen(url[i]).read()
sub_title = extract_title(sub_web)
string+=sub_title[0]
string+='
sub_date = extract_date(sub_web)
string+=&日期:&+sub_date[0]
string+='
sub_counts = extract_counts(sub_web)
string+=&点击数:&+sub_counts[0]
string+='\n'
# print string
print string
fp.close()
标签:&&&&&&&&&&&&
&&国之画&&&& &&&&chrome插件
版权所有 京ICP备号-2
迷上了代码!

我要回帖

更多关于 400字的热点新闻评论 的文章

 

随机推荐