有人知道B站全部分区b站直播数据查询的数据怎么看吗?

本文探讨B站的宏观流量分布情况:哪些分区比较火,哪些分区流量更集中,哪些分区比较适合新人或者腰尾部博主发展。数据样本我们从B站各子分区的月度排行榜中,抄录下上过榜的UP主(博主)的名单,形成博主样本集。然后统计这些UP主三月份发布的视频的浏览量、点赞数等基本数据,形成视频样本集。由于样本的时效性较强,仅代表基于活跃人群抽样的近期的流量环境。各分区播放量对比各分区的视频总播放量对比如下:“生活”和“游戏”两个区遥遥领先,占了大多数的流量,其它各区形成长尾。“生活”这个区占比如此之高,也是因为随着B站内容逐渐大众化,它里面曾经的小类变成了大类,比如“美食”、“搞笑”这样的子分区实际上是大类。“动画”和“鬼畜”相关内容的播放量占比并不高,与以往“B站二次元内容为主”的印象差距较大。各分区播放量具体统计如下:注意这里的播放量占比是基于抽样样本的一种观测,与全局统计可能会有所差异。分区下面有子分区,B站总共有60多个子分区。我们从子分区的角度看一下播放量对比,这里只列出前十:“日常”、“搞笑” 和“美食”属于生活区,“综合”属于动画区。“日常”这个子分区的播放量比绝大多数一级分区还大,占了约14%的流量。子分区播放量总量排名(前20):注意这里的“播放量指数”指数经过线性变换,并非原始数据,只用作分区之间对比,不能用于其它用途。流量分配的不均等如果我们统计不同流量区间的子分区的数量,可以得到以下分布:(横坐标为流量指数,纵坐标为子分区数)可以看到流量高的子分区很少,大多数分区的流量都很低(相对于“搞笑”这种大区而言),整体上并不是正态分布,更接近幂率分布。之前的文章中我们有讲过幂率分布。想深入了解的朋友可以去看下。子分区之间的流量分布没有搞平均主义,马太效应很明显。一个分区的播放量总量很高,是不是就意味着这个分区适合新UP主去发展呢?答案是否定的。因为“幂率分布”的普遍规律,一个分区内部不同视频的浏览量是差异极大,按从大到小排列可能是这样:(横坐标为视频播放量的排名,纵坐标为播放量)不要盲目追热点,如果热点的流量过于集中头部,长尾得到的收益反而更低。极少数头部视频的极高流量跟绝大多数长尾没什么关系。由于播放量之间的差异极大,我们就不能用平均值这个指标来衡量一个分区大部分视频的播放量,而是要用中位数。中位数就是大小排在正中间的数,拿上图的播放量分布举例子,红点标记的位置就是中位数:中位数代表了多数视频的播放量,它通常比平均数要小很多。所以在流量高度集中的情况下,别被“平均播放量”给骗了。各分区播放量的中位数各分区视频播放量中位数:(注意这里的“播放量指数”经过线性变换,并非原始数据,不能与中位数直接对比)可以看到播放量总量跟播放量中位数没有直接关系。“生活”区虽然播放量总量最高,但是中位数比较低,意味着多数生活区内的视频并不能期望获得更高的流量。“游戏”和“时尚”两个分区的播放量中位数是最高的,说明这两个分区流量分配更均匀一些,普遍流量比其它分区高。子分区视频播放量中位数(前20):“美食圈”和“电子竞技”的总播放量和播放量中位数都很高,比较适合腰尾部UP主发展。“短片·手书·配音”(动画区的子分区)虽然总量低,但是中位数高,意味着有趣的动画短片普遍会受到欢迎,而不用担心流量全被头部视频占据了。我们看到最近大品牌也有在动画区做短片了。新博主去流量总量大的区不一定好发展,而“均富”程度高的区,或者说“集中度”低的区更容易获得原始积累。流量集中度的量化关于如何衡量流量分配的不均等,之前的文章中有讲过“基尼指数”,感兴趣的朋友可以去看一下。这里使用一个更简单直观的办法去衡量播放量向头部视频的集中程度。就是参考“2-8”法则,我们去看前10%的头部视频占了百分之多少的浏览量,如果头部占比越高,意味着留给长尾的流量就越少,流量就越集中。对于腰尾部的博主,流量集中度越低越好。各分区流量集中度:视频播放量的中位数与播放量的总量关系不大,而是与流量集中度关系更大。各子分区流量集中度(集中度最低20名):这里面集中度最低的“Mugen”分区,是一个格斗游戏相关的分区。越是小众领域,内容就越个性化,流量集中度就越低。如果过于小众的话,流量总量过小,中位数也很低。值得一提的是,各分区的流量集中度符合正态分布:(横坐标为集中度,纵坐标为分区个数)之前的文章提到过在社交媒体中,正态分布是罕见的。可以认为流量集中度是分区的某种内在属性,没有受到马太效应的影响。寻找最适合的分区适合新人或者腰尾部博主发展的客观条件:所在分区流量总量要大,流量集中度要低。我们把B站的60多个子分区,按照流量总量(Y轴)和流量集中度(X轴),放到二维图像上,结果如下:(横坐标为流量集中度,纵坐标为流量总量)每个点代表一个子分区,形成一个类似三角形的分布。这种三角形分布的成因是流量总量(Y轴)遵循幂率分布(上疏下密),流量集中度(X轴)遵循正态分布(两边疏中间密)。这些点,靠近左上角意味着流量总量大且集中度低,更适合腰尾部博主。我们列举出一些这样的子分区:“电竞”、“美食”、“短片”(动画)、“星海”(军事)这几个分区是B站的强项,一定要重点关注。“服饰”和“美妆”在其它平台是大类,在B站上还是小类,但是中位数高、集中度低,成长潜力很大。“桌游棋牌”、“特摄”、“翻唱”这些特色小分区也值得关注。如果看到这里,你会发现上面这张图的结果,已经与最开始只按总播放量排名的结果相差很大了。我们认为看得更深、更全才有机会更接近真相。总结比起各分区流量的总量,流量的中位数对于腰尾部博主更有参考意义。流量的中位数与流量总量的关系不大,而与流量的集中度更相关。适合新人或者腰尾部博主发展的客观条件是:所在分区流量总量要大,流量集中度要低。综上,我们的建议:不要追逐热点分区,而要看清流量的中位数和集中度,追求头部很难,在长尾中生存很重要。比起流量过于集中的主流分区,找到与自己特长匹配的小众分区更适合起步。收藏并分享最后一张图,它比只看分区热度有意义得多。
写在前面:1、本文是一份初学者的作业,发出来的目的有两个,一是分享,二是希望能得到一些建议。2、本着学以致用的原则,作为一个B站的深度用户,且B站对爬虫支持相对比较友好。三月中旬开始我从B站上爬取了包括视频信息,弹幕,评论等在内的众多信息。均不涉及任何用户隐私,所有信息都是基于哔哩哔哩弹幕网网站下的公开信息。3、我并不是相关专业的学生,所有工具都是自学,数据量大,设备算力有限,本人能力有限,很多指标没能建立准确的模型计算。有不专业之处和错误遗漏之处还请麻烦指正。欢迎交流!其它数据来源:B站UP粉丝量排行等信息:B站UP主@狸子LePtC短视频平台用户活跃时间信息:《2019短视频内容营销白皮书》—卡思数据&火星文化短视频平台赞评比数据:《2020短视频内容营销趋势》—卡思数据互联网用户活跃时间数据,网名年龄结构数据:《第四十四次中国互联网络发展状况统计报告》—中国互联网络信息中心目录一、总览1、全站视频投稿量情况2、全站创作者的拉新和留存情况二、各分区信息1、各分区的基本信息和发展状况2、头部视频所属分区3、头部UP主所属分区三、全站头部化情况和头部流动性1、全站头部化2、全站头部流动性3、分区头部化四、用户行为1、投稿习惯和稿件表现2、用户使用时段和倾向3、各种场景下的用户使用时段对比4、用户行为——赞评比分析5、视频平均时长6、视频时长与弹幕交流倾向7、活跃用户付费倾向五、补充信息1、视频生命周期一、总览1、全站视频投稿量情况截至2020年三月15日,B站二级分区下记录的投稿总量为61368594个,各年度投稿数量如下图:图:B站历年投稿量按月趋势如下预计2020全年的投稿量能达到四千万左右。2、全站创作者的拉新和留存情况(1)总量在用户方面,共有7118698位用户在B站发过视频,截至三月中旬,2020年已有2810934位用户投稿过视频各年度投稿用户数据2020年三个多月时间已达到去年总体67%的水平,去年同期(2019年一月到三月)这一数值为969111,增长190%。(2)拉新或是新用户或是老观众,都会尝试着在B站投稿自己的第一个视频,每年新增投稿用户数如下:如果将一年投稿量在15个视频以上的UP主定义为“核心玩家”,那么每年入坑的“玩家”数量如下:(3)留存B站官方的年用户留存度是80%(一年以后80%的新用户会留下),那我们来看一下B站“创作者”的留存情况。预测数据仅供参考!17年在B站首次投稿的用户数为530825,这些用户在后续继续投稿的人数为294323,这一比例为55%18年在B站首次投稿的用户数为1362675,这些用户在19年和20年继续投稿的人数为673622,这一比例为49.5%19年在B站首次投稿的用户数为3196498,这些用户在20年继续投稿的人数为822697(截至三月中旬)这一比例为25.7%来看活跃投稿用户留存数据:(和前面一样,我将年投稿量在15个视频以上的用户视为活跃内容提供者)18年在B站首次投稿且投稿量超过15个的用户数为106083,这些用户在19年和20年继续投稿的人数为43270,这一比例为40.8%19年在B站首次投稿且投稿量超过15个的用户数为234239,这些用户在20年继续投稿且投稿量超过15的人数为36280(截至三月中旬)这一比例为15.9%,由于今年只过了三个多月,将投稿量限制按比例下放之后,更正后的2020数据为150830(即预测),比例为64.4%。二、各分区信息1、各分区的基本信息和发展状况(1)投稿量变化生活区爆炸式增长,增幅近两倍,为全站的视频内容增长贡献了主要力量。游戏区在原本内容存量就较大的同时维持了不错的增长幅度。此外音乐区,影视区,科技区,数码区都维持着一个不错的增长率,能勉强跑赢全站的平均增长率(110%)(2)投稿量和播放量占比图:各分区投稿量和播放量占比游戏区、音乐区的稿件平均播放量较低。影视区、娱乐区、鬼畜区、动画区和番剧区平均播放量较高。个人觉得原因有以下几个·影视区、娱乐区和生活区类型,都是泛娱乐化的内容,稿件的平均播放量高可能是需求较大而内容供应跟不上需求而导致的·番剧区和动画区作为B站的“核心”之一,稳定的受众和较高的用户活跃度可能是导致平均播放量高的原因之一,此外投稿量低,内容供给不足的情况也可能存在·鬼畜区在平均播放量上相当高与其不低的创作门槛和站内不错的受众有关。(3)投稿平均播放量变化具体来看,随着全站投稿量的上升,稿件的平均播放量下降严重。内容供给的充足,随着优质内容的增多,尾部内容的堆积也导致稿件播放量中位数也大幅下降。从中位数下降比例普遍远高于平均数下降的比例,将两者的差距拉大,全站内容整体右偏。而鬼畜区如一股清流,维持了3%的增幅。1、具体分区信息(1)生活区搞笑的内容依旧火热,美食,动物(萌宠)表现也相当不错。搞笑的内容右偏非常严重,头部效应十分明显。美食内容表现良好,这或许是B站一个很不错的增长点,且这部分内容正是抖快这些短视频平台所不擅长的(美食内容特性),运动、手工和绘画这些内容左偏严重,没有足量的优质内容很难带起这一块的流量。[其他]这一类目表现可以说是相当惨淡,播放量均值最低,投稿尽量不要选这样的分区,这可能是B站内容分发能力不足,分类标签所占推荐权重过大,对具体内容判断不足。(2)游戏区明显可以看到电竞,手游,网游,单机四大支柱,电竞题材专业度高,商业化比较完善,有较多的电竞自媒体做这一部分内容,头部化比较严重,后入场的同学也需要较高的水平,增长趋于平稳。手游表现强势,增长迅速,这和近年来的手游市场高速发展有关,从今年第一季度数据来看,估计手游在20年依旧会有一个强势的表现。此外桌游棋牌的表现也相当不错,但是体量还太小,棋牌这部分内容B站没啥优势。(3)科技区实际上就我个人的看法而言,科技区是B站未来内容存量的一个关键点。全站来看,有长期价值的内容除了部分版权内容外就属科技区。3、头部视频所属分区(视频按播放量排名)图:B站全站播放量过百万视频的分区生活区强势,游戏区头部内容相对较弱,靠几个人撑着。具体来看:在细分的分类上生活区内容依旧强势,单机游戏超过电竞题材有些意外,细一分析不难发现还是靠那几位撑着。手游内容在头部内容中表现惨淡。再看播放量在千万以上的视频:在超过千万播放的视频中(此处已将B站官方发布的番剧、电影等剔除),鬼畜一举逆袭。将视频播放量标准下降到500万-1000万:鬼畜区的表现依旧很好,高质量的鬼畜作品破圈效果好。这一节最后一组数据:在顶部内容中,官方发布的版权内容还是占据的过半比例4、头部UP主所属分区(按粉丝量排名)各分区UP在头部UP中所占比重在19年初到20年年初变化。科技区表现抢眼二、全站头部化情况和头部流动性首先解释我这里指的头部化和头部流动性:头部化:从数据定义上类似“基尼系数”,即“贫富差距”头部流动性:头部UP主换血程度1、全站头部化程度粉丝量排名前113000用20%的投稿量贡献了75%的播放量,排名前两万的up主用9%的投稿量占比贡献了53%的播放量。2、全站头部流动性从2019年1月到2020年3月,B站头部UP主变动比例如下:上图展示的是每个月头部UP的变动情况,数据代表变动百分比,蓝色是前五千名UP,红色是前两万名UP。从数据中可以看出,每个月头部UP都维持着一个约5%-7%的变动,对于目前的头部UP主来说,要维持当前的地位需要付出更多的努力。具体数据如下表:二、用户行为1、投稿习惯和稿件表现从投稿量来看,月内分布基本均匀,月末投稿量整体高于月初,但是差距不大。从播放量来看,分布基本均匀。从投稿在一周内的分布图内可以看出周末投稿量整体更高,周末的平均播放量和工作日持平,流量高的同时竞争也比较激烈。而周五发布的视频平均播放量最高,周一最低,不过整体差距并不大。投稿量从上午10点到晚上九点持续升高,分别在下午两点和傍晚五点达到两个小高潮(这和B站的审核机制也有关,此数据参考价值较弱)一天内的视频平均播放量来看,非常符合中国人的生活习惯,午晚两餐时段发布的视频平均播放量最高。2、用户使用时段和倾向前面已经从一些数据中分析过诸如投稿时间和观看时间的分布,这里从B站弹幕的角度去分析用户活跃时间段图为爬取弹幕的发布时间分布:来源:卡思数据和抖音快手的用户活跃时间做对比,B站用户活跃时间更贴近抖音,峰值时间在21:00-23:00。来源:《第四十四次中国互联网络发展状况统计报告》——中国互联网络信息中心和中国互联网络信息中心发布的短视频使用时段基本一致,快手用户早睡早起,十点钟用户就出现一个很大下滑。3、各种场景下的用户使用时段对比用17年的数据和19年的数据对比,总体变化不大,午餐时段12点的数据有上升,晚上11点到12点用户更为活跃。工作日和周末对比寒暑假和非寒暑假对比4、用户行为——赞评比分析(倾向于认同还是交流)赞评比就是UP视频的总点赞量和视频评论量的比值,横轴数字代表粉丝量排行前n 名UP主的该项对应数值。例如第一根数值13.92的蓝色柱状图,代表粉丝量排名前一百UP的平均赞评比为13.92,即平均一个评论对应13.92个赞和9.39个币。和抖快两个平台对比,首先需要明确各个平台的用户行为是有差异的,B站的点赞和抖音的点赞行为性质不一定完全相同,这里只是作为一个参考。B站整体的赞评比明显比上述两个短视频平台高,且B站的互动方式还有弹幕,赞同方式还有投币。这也符合大众对B站用户粘性高这一判断。从数据趋势上看也有差别,B站的赞评比曲线是单调下降的,而抖快近似一个凸函数曲线。前面提到过,除了点赞和评论B站还有弹幕和投币这两种互动/认同方式,值得关注的有以下几点,第一:硬币和评论的比值趋势和赞评比基本类似,数值上略有下降,这和投币认同度大过点赞这一常规印象相同。第二:点赞和弹幕数量的比值和赞评比的趋势出现了一个反向的差异,越头部的UP主这一比值越小,这说明用户发评论和发弹幕这两种互动方式有着很大的不同,用户对粉丝量大的UP主更倾向于在弹幕互动而不是评论,反而对粉丝量少的UP主更倾向于在评论互动。我对这一点的解释是:对大多数视频,评论区有保底的“抢前排”类互动,评论数量有一定的保证。而大UP的视频评论区通常是比较火热的,在视频发布初期就有大量“玩梗”“抖机灵”的人占据了“热评”,后来者再“玩梗”“抖机灵”上热评的难度大很多。第三:投币和发弹幕的行为在头部UP和普通UP中没有太大差距,这两种方式比较纯粹。5、视频平均时长很多早期B站用户经常抱怨:“短视频变多,视频普遍变短了”,来看数据:各分区的视频时长变化(其他分区见文末)不同内容对时长的需求是不一样的,把一个搞笑场景单独放在15秒内和把几个搞笑场景剪辑在一起发布的效果是不一样的。而部分内容是和长视频内容更加契合的,例如科普类视频,美妆教程,各类技能教程,汽车评测,数码产品评测,Vlog,政经类节目、热点新闻评述等众多内容。短视频和长视频并没有一个明显的界限,从我个人的使用体验来看,我基本上在抖音刷不到长视频,平台的用户使用习惯一旦形成后,想要改变是比较困难的,B站短视频并不少,很多都是搬运的,和在原平台相比,在B站效果是不好的。而抖音用户习惯了短视频后,特别是抖音的“下滑”模式本质对长视频就不友好,一旦不能高密度的信息或者持续良好的观看体验,持续几秒没有“内容”,视频就会被划走。5、视频时长与弹幕交流倾向以下内容基本爬取的B站视频弹幕,因为B站的弹幕会被清,且我不知道B站清弹幕的策略,所以这些弹幕在某些维度上是不是还具有分析价值请自行判断。上图为弹幕发表时间在一个视频中的位置,数值从0-1,也就是从开头到结尾。视频开头的弹幕量高很多,从开头到结束不断下滑,视频尾部有一个上扬。上图是对不同时长的视频的弹幕分布作了一个分析,我的本意是验证“长视频的靠后部分没人看”这一假设,从数据来看,这一情况存在,但并不明显。二十分钟以内的视频基本没有太大的差距,甚至4-8分钟的视频后半段弹幕比例比0-4分钟更高,在视频超过三十分钟才会有一个比较大的变化,而这一比例约5%,并不算特别显著。两个小时以上的视频后半部分的弹幕就下降的很厉害,但是这就没什么参考价值了。7、活跃用户付费倾向以下分析均基于我从各分区下部分头部up的视频中爬取了评论,爬取的评论总数是9152795,UP主选取带有主观倾向,其参考价值请自行判断。其中发表评论用户是大会员的数量是:6253917,占比68.3%,其中年度大会员数量为:2831205占比31%。根据B站年报,B站去年Q4月均付费用户数880万来看,这些头部UP主已经收割了B站71%的大会员。这9152795条评论由3004177个用户所发,其中会员数量是:1830912,占比61%。会员用户的平均评论数量比非会员平均评论数量高38%,也就是说会员er们更喜欢互动,且程度不低。恐怖如斯!!!此外上图为UP评论中独立评论用户数(无多次评论)的比例以何同学的0.74这一数值来说,意思是何同学的评论中有74%来自不重复的用户,数值的最低的TESTV数值是0.3566,意思就是TESTV的评论中有约64%是来自重复用户的多次评论。进一步来看图为UP评论中只评论过一次的用户占比,和上面所展示的趋势一样,能验证上图的部分结论。如果同一用户在视频下方有五条以上的评论可以被视为忠实粉丝的话,那么这些UP的忠实粉丝比例大致如下。注意,这些数据受到多方面影响,UP里有深耕多年的,也有刚开始发视频几个月的。且这只是评论数据这一单一维度,要准确的计算这一数据要考虑弹幕互动,日常互动,私信互动等和视频点击次数等多方面因素。因个人技术和时间等原因我没有继续深入分析。参考价值请自行斟酌。五、补充信息(随便写写)1、视频生命周期上图为评论在时间维度上的分布,横轴时间代表评论时间和视频发布时间的差值,“0”对应49.54%代表在视频发布当天评论的占49.54%,“两年以上”对应2.56%代表在视频发布两年以上评论的数据占比2.56%。有20%以上的评论来自视频发布五天之后,有10%左右的评论来自视频发布一个月之后。两年以后依然有人看视频且发评论。2、B站受众分析:根据《中国互联网发展统计报告》,截至2020年3月,我国网名规模9.04亿,其中城镇人口占比71.8%,共6.49亿三十岁以下城镇网民占比32.09%,共2.88亿根据B站渗透率,平均年龄等数据,斗胆把B站用户的受众分为两部分:一是已经高中毕业上大学或大学毕业且年龄在30岁以下的人群二是还在读中学且年龄处在10-19之间的生活在城镇的初高中生前者我们可以根据近30年来的高考人数和高考录取人数来确定,根据公开数据,从1989年到2019年参加高考的人数共1.9亿人,其中录取1.17亿人。后者根据整体网民年龄结构和城镇比例来确定,结果是1.25亿。如果这部分人群全部成为B站用户,那么B站的目标群体就介于2.42亿-3.15亿之间。满打满算按照B站公布的年80%的留存率来算,即B站的潜在用户数在1.94亿-2.52亿这个区间。根据B站年报,2019年B站全年月均活跃用户数是1.3亿,增长40%。综合考虑前文数据和疫情原因导致的线上娱乐行业的发展,B站今年的增长率势必不低,那么很可能B站明年就会看到天花板。如何拓宽用户人群就成了B站关键。以上所有的计算都只是在误差尽量小的范围内估算,只是提供一个参考。附录:分区信息补充增长情况头部化情况

我要回帖

更多关于 b站直播数据查询 的文章

 

随机推荐