如何利用简单的Excel操作来预测用户流失率预测

关于用户流失,运营不可不知的数据处理方法-活动盒子
关于用户流失,运营不可不知的数据处理方法
阅读:1079
活动盒子活动运营工具,一站式解决APP运营拉新、促活、留存难题,提升用户转化!
数据运营能为用户运营什么帮助。
简单来说,用户流失率是指用户的流失数量与全部使用/消费产品(或服务)用户的数量的比例,是用户流失的定量表述,以及判断的主要指标,直接反映了产品的市场接受程度如何,以及运营工作的好坏。
一般来说,这个指标用在&订阅型产品&的情形居多,如信息订阅类App&锤子阅读&、绝大多数的在线SaaS产品,甚至传统的牛奶订购。由于留住当前的用户要比获取新用户来的划算,所以预测流失率的目标在于:
预测用户将会在哪个时间点离开(在订阅期结束前),在合适的时间点对这些用户施加影响,挽留他们,如通过短信、邮件或,利用超低价商品吸引回访或者专属优惠券等,这些策略对于一些流失用户是很有效的!
接下来,笔者将利用简单的统计学知识,介绍一种基于用户不活跃记录的用户流失预测模型。该模型在不使用机器学习算法的情况下,可以给出一个容易理解的用户流失预测,以便我们对将要离开的用户有一个相当准确的洞察。
废话不多说,进入正题吧~
1 用户活跃的操作性定义
在我们正式开始预测用户流失率之前,我们需要记录用户的历史活跃情况。做这个的目的在于,了解用户是否在使用我们的产品或服务。那么,问题就来了,用户的&活跃&该做怎样的操作性定义(即根据可观察、可测量、可操作的特征来界定变量含义的方法)?实际上,&用户活跃&的定义取决于你的业务背景,跟产品或者服务具体场景密切相关,不同类型的产品对&用户活跃&有不同的定义。
以新浪微舆情的&信息监测&为例,它是一款订阅型的社会化大数据产品,用户通过设置各种关键词组合来检索相关信息,然后选择邮件或者客户端订阅,通过自定义的接收频次来准时收取订阅信息。
对于这款大数据产品来说,&用户活跃&可以这样定义---如果一个用户是活跃的,那么,ta在指定时间段内(分析的时间单位取决于分析者对业务的理解,可以是天、周、月、季度或年),应该包含如下付费、使用或者互动行为:
该用户对&信息监测&的订阅尚未过期;
该用户在web端或者移动端登录产品页面;
该用户使用了产品的部分或全部功能,如基于信息源或者地域的定向监测功能;
该用户在此期间产生了一定消费,如文本数据下载、订阅续费、定制报告等;
该用户在此期间对该产品有各种反馈,包括投诉。
对于这款产品来说,以月份为单位来分析用户行为是很有意义的---因为该产品最短的订阅期是一个月,最长的订阅期是一年。
一旦清晰的界定了&用户活跃&的定义,我们就可以用这些操作性定义来对每个月份的用户(不)活跃情况进行编码,利用二进制值(0,1)---假如在X月份,用户是活跃的,将ta的活跃值设定为1,否则设定为0。
2 建立&用户不活跃档案&
现在,对于每位用户,我们有了一个以月为单位的&活跃标记&,接下来我们以此为基础,建立起&用户不活跃档案&。这意味着,对于每个用户,笔者想对他们连续不活跃的月份数进行计数统计。
在这里,笔者选择了一年的&分析窗口&(也就是把12个月作为分析的时间范围),将&活跃档案&和&不活跃档案&以表格的形式呈现---蓝色表单显示每位用户在各个月份上的活跃记录,绿色表单则显示用户的不活跃记录。根据用户在此时间段内可能出现的活跃情形,笔者枚举出3种典型用户,如下表所示:
用户A:该用户在刚进入&分析窗口&时是活跃的,然而在5月变得不活跃(也就是说,5月份是第一个不活跃的月份)。接下来,这个用户的不活跃状态持续到了12月,也就一直持续到了&分析窗口&的末尾。因此,从5月到12月,&用户不活跃档案&对用户连续不活跃的月份进行逐月累加的计数统计。
用户B:跟用户A一样,该用户刚开始也是活跃的。不同的是,该用户在3~6月期间是不活跃的,在7月仅维持了一个月的活跃状态, 接着在8月和9月又进入不活跃状态,最后在&分析窗口&的10月,11月和12月又回到活跃状态。在这种情况下,每当用户由不活跃状态返回活跃状态时,前面的不活跃月份计数需要重置。也就是说,当我们再次对该用户的连续不活跃月份进行计数时,需要重新从1开始计数,前面的不活跃月份计数不再累加。
用户C:与上述提及的两类用户不同,该用户刚进入&分析窗口&时,是不活跃的状态。这种情形的发生,可能是用户的订阅早已过期(最好在正式分析前排除这种情形,因为很难处理),或者该用户在&分析窗口&开始前就是不活跃的。因为我们看不到&分析窗口&前的用户活跃情况,所以用户在此之前的活跃状态,我们是不了解的。鉴于此状况,我们对这些月份进行特殊的标记---使用-1标记用户C头几个不活跃的月份。该用户其他的不活跃情形,可以参照前面两类用户方式进行计数。
Note:后面绿色的表单,也就是&用户不活跃档案&,才是我们接下来建立用户流失模型的数据基础。
3 构建用户流失模型
有了上述的关于用户不活跃的操作性定义,我们就可以在&分析窗口&内(1月份到12月份)以月份为单位,对从0到12的连续不活跃月份数上的用户数量进行计数统计。
这个步骤可以通过数据透视表实现---通过聚合每个月、每个不活跃级别的用户数量。 如下表所示:
上表中,从列的方向上来看,每个单元格的数值表示每个月的连续不活跃X个月的用户的数量。举个例子来说,上表中第一个高亮数值(574),代表1月份已经不活跃1个月的用户数量,该数值来自于前面12月份的4815个活跃用户。第二个高亮数值(425)表示在2月份已经连续不活跃2个月的用户数量---425来自于574(1月份不活跃1个月的用户数,它是2月份不活跃2个月的用户数的基数)。值得注意的是,第一行的0个连续不活跃月份数,其实表示的是基数中活跃用户的数量。
使用这些,我们可以计算出在&分析窗口&内,每个月连续不活跃月份数的用户占比情况。如下面的绿色表格所示:
上表中,高亮的数值(74%)表示2月份已经连续2个月不活跃的用户占比。该百分比是这样计算得到的:
笔者想获得最具代表性的数值,由此可以对&分析窗口&的最末4个月(9月,10月,11月和12月)取平均值。我们可能没有足够的数据去计算这些平均值(比如10月份,11月份和12月份)---在这种情况下,我们取所有可用数值的平均值(用于计算平均值的数值区域以红色线框标记):
4 计算用户流失概率
哈哈,如果你还在看这篇文章,那么恭喜你!我们将要探讨最激动人心的部分...在这部分,我们将用上一点统计学的小知识。
让我们回顾一下本文的终极目标---计算各个连续不活跃月份数(0-12)下的用户流失概率。
也就是说,如果某个用户已经连续X个月不活跃,那么这个用户接下来将要流失的可能性有多大?从数学上来说,我们可以使出贝叶斯公式这个大杀器来计算用户流失率。贝叶斯公式尽管是一个数学公式,但它的原理不要数字也能明了。如果,你看到一个人总是做一些好事,则那个人多半会是一个好人。该数学公式包含着朴素的真理:
当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。
用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。它的数学形式如下:
在这里,A和B都代表事件(Event),同时P(B)&0。P(A)和P(B) 分别代表A和B的先验概率或边缘概率。之所以称为&先验&是因为它不考虑任何A(B)方面的因素。P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。
在本案例中,对应的公式如下所示:
然并卵,上面公式里有一项是没啥意义的---P(连续X个月不活跃|流失),它的含义是&在已经流失的情况下,连续X个月不活跃的概率&。试想一下,假如你已经流失掉了,你不可能是一个不活跃的状态,这个概率值是么有啥业务意义的。鉴于此种情形,笔者果断抛弃这一项(谨记!)。由此,我们得到了一个终极版的流失率计算公式:
接下来,让我们看看公式右端的两项(分子和分母),然后计算它们在每个不活跃月份上的数值,进而得到我们想要的用户流失概率值(注意,它是一个条件概率值,也就是在连续不活跃X个月的情况下的用户流失概率)。
先说说分母P(连续X个月不活跃),笔者之前已经计算过它们---也就是&分析窗口&最后4个月占比平均值:
P(1) = 19%
P(2) = 81%
P(3) = 89%
P(4) = 92%
P(5) = 93%
P(6) = 95%
P(7) = 96%
P(8) = 97%
接下来,我们再来通过例子求解分子P(流失)。首先,1个月不活跃的用户的流失概率P(C1)是多少呢?对于这些将要流失的用户,他们将要连续性的不活跃的月份数已经在我们所考虑的集合之内了,换言之,这些用户将要不活跃的月份数为1个月,2个月,3个月,&,。因而,我们这样定义已经不活跃1个月的用户的流失概率P(C1):
现在, 以同样的方式, 持续2个月不活跃的用户的 P(流失) ,也就是P(C2)是多少呢?对于这些将要流失的用户,他们将要持续性的不活跃,2个月,3个月,4个月,&,12个月。因而,我们这样定义已经连续不活跃2个月的用户的流失概率P(C2):
通过归纳和演绎,我们以同样的方式来计算每个不活跃月份的用户流失概率:
在这里,n是连续不活跃月份数的极限值,而我们发现,这个概率是稳定的。从上面的表单里可以到,这个发生在第7个连续的月份,这里的概率值维持在95~96%。
简化起见,我们假设,在连续月份上不活跃是相互独立的事件。此时, P(A & B )= P(A)* P(B)。因而,我们可以采用如下的公式:
现在,我们已经算出了每个不活跃月份概率对应的分子和分母,那我们就可以启动最后一步---算出每个各个连续不活跃月份数的用户流失概率。先前我们已经讨论过了,n的值为7。
最终的计算结果如下表所示:
请注意,活跃用户(也就是第一行连续0个月不活跃的情形)的流失率由P(1) Ⅹ P(2) Ⅹ P(3) Ⅹ P(4) Ⅹ & Ⅹ P(7)计算得出。这里我们并没有除以任何值,这是因为---当用户处于活跃状态时, P(连续0个月不活跃)为1。
最后,我们还可用一条流失率曲线来直观的反映流失率的变化情况,由此决定对非活跃用户进行挽留操作的最佳时机,该曲线所下图所示:
在本文中,笔者并没有提供该模型批量化使用的具体执行细节,假如你理解了这个模型构建的逻辑,那么你可以使用SQL、Python,甚至是Excel来实现它。
此外,在实践中,这个模型最好是分不同的用户群进行运行。在本文中,笔者仅仅在某一类用户上运行,然而,根据不同的标准来划分用户群体会对实际业务更有意义。比如,你可以根据用户价值进行划分,然后对每个用户子群体进行用户流失预测。
当然,笔者只是在月份的尺度上进行用户流失分析,但是,对于很多业务场景,更细粒度的分析视角可能更有意义,比如按周和按天。
最后,以《神雕侠侣》中的一段话作结,我想,感悟到数学之美、不受分析工具的限制,并能灵活运用到实际业务中的感受大抵如此:
过了良久,青衣人又将巨剑放下,去取第三柄剑,那却是一柄木剑,落在手中轻若无物,但见剑下的石刻道:
&四十岁后,不滞于物,草木竹石均可为剑。自此精修,渐进于无剑胜有剑之境!&
参考资料:
1.维基百科&Customer ChurnRate&词条
2.维基百科&贝叶斯定理&词条
3.新浪微舆情&信息监测&
作者:苏格兰折耳喵:新浪微舆情数据产品,擅长数据分析和可视化表达,热衷于用数据发现洞察,指导实践。个人微信号:g。
来源:微信公众号,运营喵是怎样炼成的。
数据化运营
APP活动运营工具
数据驱动活动运营
提高APP转化率
APP运营解决方案
助力APP运营实现拉新、
促活、留存,提升转化率出错啦 - PMCAFF产品经理社区 中国第一产品经理人气组织::专注于研究互联网产品
PMCAFF目前不支持IE浏览器, 请用其它的浏览器打开PMCAFF, 如果是双核浏览器, 请选择极速模式关于游戏流失用户预测的探索 - 简书
关于游戏流失用户预测的探索
目前很多游戏产品,会对回流的用户推送回归礼包,以增强其回归后的留存。但是很多时候更希望的是在用户流失之前就“未卜先知”,对有流失风险的用户及时采取措施。继上回尝试在游戏中做付费道具关联分析,TEAM又尝试了用户流失预测的建模。大体的思路参考了张文彤教授著的《IBM SPSS数据分析与挖掘实战案例精粹》中应用的电信用户预测案例,该模型的泛用性强,对数据的要求也并不严苛,很适合放在游戏中进行。1. 数据采集数据采集周期上我们以两个月的数据作为分析基础。利用第一个月用户的数据表现作为因变量,然后根据同一批用户第二个月的用户留存/流失情况,建立预测模型得到流失规则。考虑到公司儿童游戏的特点(生命周期长且季节性波动明显),以月度作为预测跨度,即根据用户前一个月的游戏情况,预测其在下一个月(即接下来30天)。如果是手游,以周甚至日为跨度可能更适合?
数据采集周期
接下来的问题是,到底需要采集哪些字段的数据?即哪些变量可能影响到用户留存/流失?这一步应该尽量考虑周全,能够反映用户在游戏中各个维度表现的数据都可以加入,可能包括以下几个方面:1)反映用户活跃:登录天数、在线时长、登录频次等等;2)反映用户游戏表现:等级、竞技场段位、VIP等级、战斗力等等;3)反映用户游戏行为:某些关键功能的使用情况、关卡通关情况、BOSS挑战情况、重要活动参与率等等;4)反映用户资源拥有情况:服装/装备/宠物拥有数量、强力服装/装备/宠物拥有情况、游戏货币拥有情况等等;5)反映用户社交情况:家族参与情况、活跃好友数量、发言情况等等。6)反映用户消费情况:历史游戏货币兑换量、当月游戏货币兑换量、VIP开通月数、当月VIP续费情况等等;2. 数据探索与建模SPSS MODELER提供了多种预测方法,根据业务需要我们采用的是C5.0决策树模型,该模型可以直观判别各变量对流失预测的重要程度并输出一系列预测规则。首先,我们对原始数据进行探索,对比流失用户和留存用户在各变量上的特征,以便我们对流失用户和留存用户的区别有所认识。
流失与留存用户战斗力对比,在中段区间上存在明显差异
第二,我们对数据进行类型、选择、分区、追加等调整,以便使数据的结构更符合建模要求。例如实际数据中,活跃用户的30日流失占比仅约10%左右,比例过低可能对模型有所影响(命中的规则绝大部分可能是针对留存用户的,而业务层面上我们更关注流失用户的规则),因此我们对留存用户进行随机抽样以使样本总体中留存与流失的比例为3:1。
MODELER流示例
第三,调整C5.0的参数,包括误分类损失成本(将部分低活跃用户也预测为流失用户的成本)、修剪严重性及子分支记录数(减少最终产出的规则数量)等,以优化模型。评估模型是否有效可以通过几个指标来判断:查全率、命中率和模型提升度。1)命中率:预测流失用户准确数/实际流失用户数2)查全率:(预测流失用户准确数+预测留存用户准确数)/整体用户数上述指标到底达到多少才算是比较好的模型呢?其实并没有统一的标准,达到80%以上我们认为就可以接受了。实际操作中,除了看指标外,还应当考虑后续业务的实际应用情况,过分追求指标可能会导致最终产生的规则过多/过少、覆盖的命中用户比例过少等情况,不利于实际业务应用。3. 结果输出与应用在多次尝试调整参数后,最终得出一个指标和业务理解都比较能够接受的模型。主要输出的结果包括预测变量重要性和规则集。
模型输出:变量对流失的影响重要程度
透过上图我们可以了解到哪些变量对用户的流失与否产生了较重要的影响,从而更深入地对比流失/留存用户在这些变量上的特征,进而在业务上做相应的优化。举个例子,我们得知战斗力是一个重要的变量, 而战力段位在3W-4.5W区间的用户更容易流失,在此区间的流失用户平均只拥有1件强力装备而同区间留存用户则平均拥有3件,那么我们或许可以认为流失用户在获取强力装备上存在障碍以至留存动力不足,考虑对有流失风险的该区间用户在获取强力装备上采取协助引导的措施。
模型输出:流失预测规则集
得出的规则表示如果某个用户前一个月的数据表现满足该规则,则该用户在下个月很有可能会流失。模型所产出的规则是互相独立的,每个有流失风险的用户只可能满足其中某一条规则。在得到这些规则后,开发人员可以根据这些规则进行设计,当某个用户登陆游戏时,通过后台自动分析该用户前一个月的数据表现,若发现符合某一条预测规则,则对该用户推送某些营销活动以期望延缓其流失。最后,我们可以跟踪这批被打上流失风险标签的用户进行跟踪,分组对比有推送营销活动与没推送营销活动的留存情况,以检验模型及营销活动的有效性。
热爱用户研究的处女座如何用excel做数据预测
画散点图:选择你要预测的数据,绘制散点图,如下图所示;添加趋势线:选择一个点,单击右键,选择添加趋势线;选择预测的函数: 从散点图上可以看出,点呈现指数增长形势;我们选择指数。...excel毕竟不是专业的数学软件,只能预测简单的,并且预测的正确性等方面无法相比,有条件的可以使用专业的工具。
学习常用函数公式,和更复杂些的报表模型交互,大幅度提高数据结果处理的效率,提高数据分析的深度和广度,做更多的分析 3进行VBA程序的开发应用,进行十万数量级以上的数据处理分析,建议更智能,更强大的数据分析模型 4开发级用户 开发Excel本没有的插件功能,比如郭安定老师的OIIO效率专家,Excelhome的易用宝,罗版主的Excel百宝...
7、为了进一步了解 Excel 数据预测工作表的运行机制,下面让我们来仔细看看其他选项。除了上面提到的“预测结束”和“季节设置”之外,Excel 的预测工作表还有以下几个主要参数:预测开始:从历史数据中的哪一期数据开始预测。置信区间:设置预测值的上限和下限;该值越小,则上下限之间的范围越小。使用以下方式填充缺失...
在数据分析中,对于成对成组数据的拟合是经常遇到的,涉及到的任务有线性描述,趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专业软件,比如在化工中经常用到的Origin和数学中常见的MATLAB等等。它们虽很专业,但其实使用Excel就完全够用了。我们已经知道在Excel自带的数据库中已有线性拟合工具,但是它还稍...
先在已经进入大数据时代,数据分析变的越来越重要,excel中添加的趋势线是图表中的一种扩展线,它可以直观的看出数据的趋势,根据实际数据预测未来数据,处理几百万条数据的时候效果尤为突出,还可以添加公式,给人最直观的结论,以下为效果图,折线为数据显示,圆弧线为趋势线,本数据以风能测试数据为例 1、下图为我们要...
标准误差:实际数据与预测数据(移动平均数据)的标准差,用以显示预测与实际值的差距。数字越小则表明预测情况越好。数字越小则表明预测情况越好 3.输入完毕后,则可立即生成相应的数据和图表。生成相应的数据和图表 从生成的图表上可以看出很多信息。根据要求,生成的移动平均数值在9:02时已经达到了15.55MPa,也就是说,...
在日常的EXCEL编辑中,我们经常运用各类图表来表达或比较数据的各类形态,但我们该从EXCEL在丰富的图表类型中选择哪些图表呢?小编刚刚看到了一份图表类型选择指南的文档,总结的很不错。下面小编就为大家带来如何在EXCEL中选择合适的图表类型方法,推荐给大家,希望对大家有所帮助!工具/原料 Excel 图表数据 方法/步骤 ...
在使用办公软件Excel制作图表时,在某些情况下图表的系列会表达的不够准确,数据之间存在误差,给图标增加误差线可以轻松可以解决这个问题,误差线是指系列中的数值与实际值的偏差的一条线,只有这样我们才能让自己的图表表达的更为准确,下面是详细的制作教程,大家可以参考下。误差线用来反映基线的偏差范围例如:设定...
标准误差:实际数据与预测数据(移动平均数据)的标准差,用以显示预测与实际值的差距。数字越小则表明预测情况越好。3.输入完毕后,则可立即生成相应的数据和图表。从生成的图表上可以看出很多信息。根据要求,生成的移动平均数值在9:02时已经达到了15.55MPa,也就是说,包含本次数据在内的四个数据前就已经达到了15MPa,那么...
左侧在“趋势预测/回归分析类型”中选择“线性”(本例的数据点分布为直线)。然后勾选上“显示公式”、“显示R平方值”。最后点击“关闭”按钮即可。5.拟合得到的效果图如下。相关系数为0.9997还不错。若是要拟合曲线,就更改散点图的样式, 若是要拟合多项式,选择完散点图后,在添加趋势线中,可以选择需要拟合的曲线...出错啦 - PMCAFF产品经理社区 中国第一产品经理人气组织::专注于研究互联网产品
PMCAFF目前不支持IE浏览器, 请用其它的浏览器打开PMCAFF, 如果是双核浏览器, 请选择极速模式

我要回帖

更多关于 游戏用户流失预测 的文章

 

随机推荐