山城小栗旬视频里推荐的洗发水有人知道什么牌子吗?

B站作为一个视频内容平台,具有广泛的受众,其数据具有巨大的分析价值。在本次数据分析项目中,分别从视频角度和up主角度对B站影视区数据集进行了分析,通过描述性统计,维度拆解,聚类等方式进行了较为全面的分析。在分析过程中,特别关注了原创或搬运这个特征,并发现了一些有趣的结论。

数据预处理部分主要是将时间戳变为方便处理的时间格式,并将每一个视频的时间转化为秒,以方便后续的分析


不难发现,B站影视区的投稿量在19、20、21年是处于上升的趋势。但是21年的视频投稿数量有较大的波动,在3月份有一个很明显的上升,4月份又出现了回落,此后不断攀升,在8月份达到极值。8月份是暑期,投稿数量达到巅峰可以理解,但未什么3月份投稿数量会有明显波动呢?
我们对三月份这种投稿数量的变化产生了兴趣,下面分析为什么会产生这种波动。

5.1.2 按照日期进行拆解



可以看到,几乎三月的每一天都比2月份和4月份同期的发稿量多,这样,我们推测可能3月份出现了投稿激励的活动,使得投稿活动变得更加积极。

5.1.3 按照是否原创进行拆解


从图中不难看出,3月份视频量的激增,主要是由于搬运视频量的激增,看来激励的其实是大家水视频的力度,嘿嘿

5.2 视频发布时间分析


从视频发布时间来看,高峰期主要在10-12点以及17-18点,看来大家都喜欢吃饭下班之前传个视频,嘿嘿

5.3 原创视频与搬运视频分析



总体来看,原创视频和搬运视频量并没有很大的差异,原创视频属略大于搬运视频数


接下来将原创分析细化到以年为单位,发现搬运率呈现一个“w”形的趋势,即“下降-上升-下降-上升”的趋势。如果聚焦到近几年来说,视频搬运率处于一个上升的态势,可能是因为视频搬运的成本低,获利高。国内政策目前是鼓励原创视频,因此我们应该思考如何进一步鼓励原创视频,而不是让搬运视频的风气进一步扩散。

5.4以up主为主体的数据分析



从热力图来看,up主平均视频弹幕量和平均视频评论量有较大的关系,弹幕数和平均视频播放量也有较大的相关度。值得注意的是,视频的平均发布数量和原创程度也有一定程度的关系,平均发布视频越多的up主越可能是搬运up主。

这里借用“RFM”模型的思路,选出了up主上一次发布视频距今的天数,平均发视频的间隔,平均视频播放量作为特征输入K-Means模型进行分类,同时加入了我们感兴趣的一个变量——是否原创,来进行更细致的分类。大家也可以进一步选择合适的特征进行聚类分析。

在这里,分析采用轮廓系数判断聚类的好坏。轮廓系数(Silhouette Coefficient),是聚类效果好坏的一种评价方式。最早由 Peter J. Rousseeuw 在 1986 提出。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。

  1. 计算样本i到同簇其他样本的平均距离ai。ai 越小,说明样本i越应该被聚类到该簇。将ai 称为样本i的簇内不相似度。簇C中所有样本的a i 均值称为簇C的簇不相似度。
  2. 计算样本i到其他某簇Cj 的所有样本的平均距离bij,称为样本i与簇Cj 的不相似度。定义为样本i的簇间不相似度:bi =min{bi1, bi2, …,bik},bi越大,说明样本i越不属于其他簇。
  3. 根据样本i的簇内不相似度a i 和簇间不相似度b i ,定义样本i的轮廓系数每个样本的轮廓系数计算公式为:(b-a)/Max(a,b)。轮廓系数越接近1说明结果越好(聚类越准确),越接近-1说明结果越差,若值在0值附近,则说明样本在两个簇的边界上。


由聚类结果可视化可知,最佳的聚类数为4左右

在一部分,定义一个方法,通过该方法,我们可以通过输入标准化后的up主特征dataframe,需要聚类的个数以及选择的聚类特征,便可以直接进行K-Means聚类并绘制雷达图。


 
 
 
 
 
 
 
 
 


通过雷达图可知,up主被分成了4类,下面总结如下:

**普通up。**这是小up群体,其视频平均发布间隔一般(这里由于特征处理的原因,也可能是只发布过一条视频,需要进一步确定),视频播放量较少,最近有发布视频,是占比最大的一个群体。对于他们,我们需要进一步增加其曝光度,提高其知名度,让他们也能有发挥的空间。

**需要挽回的up。**这一类up的最大特点是视频的平均播放量较大,但是距离上一次发布时间较长。

**大水王up。**这一类up搬运视频较多,活跃度较大,但是视频质量不高,平均视频播放量较低,属于需要整治的up。

**沉默up。**这一类up的平均发视频间隔较长,距今也有一段时间没有发视频,需要分析其不活跃的原因,通过活动等手段唤醒其发视频的欲望。

我要回帖

更多关于 山城哪个城市 的文章

 

随机推荐