大众点评网shopi大众点评hd是什么意思思

反现%1是什么意思啊?大众点评网上的_百度知道
反现%1是什么意思啊?大众点评网上的
就是消费并评价后返1%的红包,一年有效期,下单时选择使用即可,通过61返钱网去下单还额外3%返
其他类似问题
为您推荐:
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁大众点评网的”多商区“是什么意思?_百度知道
大众点评网的”多商区“是什么意思?
大众点评网:于2003年4月成立于上海。大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站。大众点评不仅为用户提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购、餐厅预订、外卖及电子会员卡等O2O(Online To Offline)交易服务。大众点评网的”多商区“:不分地点、区域,只要是这家店就可以
其他类似问题
为您推荐:
提问者采纳
好像就是不分地点、区域,只要是这家店就可以吧,我理解的是这样哈
提问者评价
大众点评网的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁一个网站的诞生03--抓取评论数最多的一万家餐厅
在大众点评网上,有很多种方式对餐厅进行排序,比如
,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但只有750家,少了点。上海有18个区,逐区点击的话,每区都会显示前750家餐厅,比如这个
,是浦东新区八佰伴地段的前750家。上海现在有十万家餐厅,以这种方式至少可以得到top8万家餐厅的数据。
但是拿到这么多数据是没有意义的,因为大部分餐厅都是普通餐厅,提供的是常规餐饮,吃了就吃了,不会有人想着去点评一下。只有特别赞的餐厅,才有人点评。或者只有很在意生意的餐厅,才会雇水军帮自己写点评。
经过数据分析发现,上海只有300家左右的餐厅每月的评论数超过100条,占餐厅总数的0.3%。如果一家餐厅每个月的评论数超过20条,那它就进入了前3000名,其实蛮不可思议的。公众参与度不够高,餐厅参与度不够高,这说明点评界还是大有可为的!
闲话少说,这次我们的目的是抓取上海评论数最多的前一万家餐厅,从上海的每个区抓750个,18个区就是13500个,去掉几百个同时属于两个或者两个以上区的餐厅,一万多个就足够了。这一万多个,足以覆盖每个区有料的餐厅。
以浦东新区为例做抓取。浦东新区评论数最多的前750个餐厅,对应的网址是,注意,category后面的1是上海的城市代码,r5是浦东新区的代码,p1是第一页,有15个餐厅,其他的各符号意义暂且不用管。上海每个区至少有上千家餐厅,所以不用考虑餐厅不到750个的情况,不用处理这个异常。那么,我们至少把这个链接最后一个数,从1到50列出来,抓取html页面,然后提取餐厅信息就可以了。
在抓取前,要把配置文件修改一下,/tmp/srcapy-test/crawdp/crawdp/setting.py,要添加四行代码,修改成如下形式:
------------------------------------
BOT_NAME = 'crawdp'
BOT_VERSION = '1.0'
SPIDER_MODULES = ['crawdp.spiders']
NEWSPIDER_MODULE = 'crawdp.spiders'
USER_AGENT = '%s/%s' % (BOT_NAME, BOT_VERSION)
DOWNLOAD_DELAY = 5
RANDOMIZE_DOWNLOAD_DELAY = True
USER_AGENT = 'Mozilla AppleWebKit/537.36 Chrome/27.0.1453.93 Safari/537.36'
COOKIES_ENABLED = False
-------------------------------------
最后四行代码是新添加的。这次要连续抓取50次页面,每次抓取的间隔时间是5秒,要做随机下载延迟,要禁用Cookie,这些措施为了避免官方服务器禁止抓取。
在/tmp/scrapy-test/crawdp/crawdp/spiders/目录添加文件shopids_spider.py,内容如下
------------------------------------
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class ShopidsSpider(BaseSpider):
name = &shopids_spider&
start_urls = []
for i in range(1,51):
start_urls.append(
&/search/category/1/10/r5o10p%s& % i)
def parse(self, response):
hxs = HtmlXPathSelector(response)
xs = hxs.select('//ul[@class=\&detail\&]')
for x in xs:
print &---------&
shopid = x.select('li[@class=\&shopname\&]/a[@class=\&BL\&]/@href').extract()[0].split('/')[-1]
shopname = x.select('li[@class=\&shopname\&]/a[@class=\&BL\&]/text()').extract()[0]
print &shopid, shopname = %s, %s& % (shopid, shopname)
------------------------------------
然后,在/tmp/scrapy-test/crawdp目录下执行&scrapy crawl shopids_spider&,就可以看到抓取到的餐厅名称,以及它们在大众点评王的shopid,其结果是类似这样的:
shopid, shopname = 5391580, 泰妃阁(新梅广场店)
shopid, shopname = 4043482, 西贝莜面村(金桥店)
shopid, shopname = 2748850, 望湘园(96广场店)
shopid, shopname = 500068, 避风塘(八佰伴店)
shopid, shopname = 5473698, 上上谦串串香火锅(浦东新梅店)
shopid, shopname = 501019, 廊亦舫酒楼(正大店)
shopid, shopname = 559844, 渝乡人家(陆家嘴店)
那么,如何知道上海18个区的id呢?在的左侧,点击“按行政区”,即可列出上海18个区的链接,里面包含了每个区的id,只要做一次抓取就可以得到。
这个做法是最简单的方式。其实还可以加入更多的功能,让抓取过程更智能化,比如判断reponse的返回状态,在被403之后,可以暂停若干秒然后继续抓取,再比如将结果存入数据库,或者存入到json文件。这些东东参考scrapy即可搞定。
本分类共有文章9篇,更多信息详见
& 2012 - 2014 &
&All Rights Reserved. &
/*爱悠闲图+*/
var cpro_id = "u1888441";
/*爱悠闲底部960*75*/
var cpro_id = "u1888128";手机逛国美购物更便捷
扫码下载客户端
(C)&&国美在线电子商务有限公司版权所有&&京公安网备62&&沪ICP备号&&沪B2-号正在发布中的职位
上海长宁区安化路492号易园
下次自动登录
没有账号,
&&&&&&还可以使用以下方式登录&&&&&&

我要回帖

更多关于 大众点评网团购官网 的文章

 

随机推荐