【数据】是如何坑人的?(坑人的大数据)

先说案例:

有两个广告素材A和B,测试哪一个更能吸引用户转化,评价指标是转化率。(转换率=转换次数/曝光次数)

为了保证实验的公平性,他们都设置了相同的预算,都是中午12点开始,然后晚上12点同时关门。

跑了半天,两组广告基本都花光了预算,发现:

共曝光6500次,转化用户70人,转化率1.077%;

b共曝光6200次,也转化了70个用户,转化率1.129%;

****商小李看到结果后,认为B料的转化率更高。

这时候营销总监老王说:到目前为止,我更愿意相信A更高。

小李一脸惊愕,问,为什么?

王老喝了一口星巴克,解释道:即使是同一个广告,在不同的时间段也会有不同的转化率。一般来说,下午的转化率比晚上低,因为大部分人白天都有事,不容易被转化。晚上大家都有空,比较容易被转化。

小李又问:你说的没错,但是和这个发射实验有什么关系?

老王继续:我刚从后台看了一下素材量——素材A下午转化为50个素材,曝光5000次,晚上转化为20个素材,曝光1500次;B料下午转换成20料,曝光2200次,晚上转换成50料,曝光4000次。其实无论下午还是晚上,A的转化率都更高。而你之所以觉得B更高,主要是因为B只在晚上跑出来——它捏的“软柿子”更多,你误以为它更厉害...

【数据】是如何坑人的?(坑人的大数据)(图1)

看到这里,也许你还有点疑惑:是的,如果分开看,确实A更高,但如果结合起来看总数,也比B更高...那么应该怎么看待呢?

坑1:辛普森悖论
上述现象是典型的“辛普森悖论”(Simpson # 39paradox)——一定条件下的两组数据,分开讨论会满足某种性质,但一旦结合起来,就可能得出相反的结论。

这也是其他工作领域经常遇到的现象,在《骗中骗》中也经常见到。

几乎每个公司,老板都会要求下属汇总业务层面的各种数据,然后向自己汇报,自以为了解“整体”情况。

然而,一位谷歌数据大牛曾经说过:“聚合的数据往往是一坨屎,没有任何意义。”

为什么这么说?

抛开专业的数学分析,如果用最通俗的语言解释,我觉得是:20头猪是20头猪,50棵树是50棵树。但如果硬要把它们加起来(20+50=70),这个70就没有意义了——它能代表什么?什么都不意味着什么。

【数据】是如何坑人的?(坑人的大数据)(图2)

收集到的数据,除了象征性的报告工作,往往没有其他意义。

为什么是“象征性”的?

因为如果汇报工作是为了指导决策,很可能会把人引入一个坑。

就像上面的广告素材案例,如果营销总监想偷懒,只看最后的结果,很可能会误判广告素材的优劣。更有甚者,甚至会导致后续材料沿着“坏材料”的方向优化。

好在他有一定的数据分析基础,避免了这个坑。

所以在真实情况下,如果非要下定论的话,A更高是真的。(当然,继续实验更科学,通过增加预算/严格控制时间段来减少几率和不同性质数据比例的差异)

【数据】是如何坑人的?(坑人的大数据)(图3)

除了广告,辛普森悖论还经常出现在各种统计活动中——需要计算比率的统计数据基本都会出现,比如:转化率、留存率、合格率、负债率、投资回报率等等。...

那么,如何才能避免汇总数据可能造成的坑呢?

记住8个关键词:性质不同,拆开来算。

坑2:误把相关当因果
大家应该都听说过“啤酒和纸尿裤”的故事——商家通过相关性分析发现,啤酒的销量和纸尿裤的销量高度正相关。所以他们把啤酒和尿布放在一起展示以增加销量。

【数据】是如何坑人的?(坑人的大数据)(图4)

当然,这是一个完全不切实际的捏造的故事。(**是Teradata公司的经理——可能是营销经理,为了说服商家购买他的数据服务,编了一篇软文)

这里我想说的是:相关性分析。

如今,无论是传统行业还是互联网行业,数据已经成为企业最重要的资产之一。

而各个公司的数据分析师几乎每天都在做的一件事就是:分析各种因素之间的相关性,并以此找到增长的方法。

比如游戏公司发现,用户玩游戏的时间越长,留存越好,于是着力增加新用户的游戏时长,从而大大增加其留存。

比如便利店通过监测发现,人们逆时针逛店的时间比例越大,人均消费越高。因此,在装饰和陈列中应尽量引导人们逆时针行走。(因为右撇子比较多,而且一般逆时针绕圈购物可以让更多的商品出现在人的右侧,拿东西更方便,从而更多)

【数据】是如何坑人的?(坑人的大数据)(图5)

不可否认,通过相关性分析可以找到很多有效的增长方法。

但是,太迷信相关性,有时候会带来相反的结果。

比如一个社交APP想提高留存率。

他们发现,用户发送的消息数量和留存之间的相关系数是最高的。

不仅如此,他们还发现,拥有超过500条消息的用户和没有超过500条消息的用户的留存率存在悬崖般的差异。(“500”在这里,常被称为“***数”)

因此,为了提高留存率,团队建议,如果尝试将新用户发送的消息数量增加到500条以上,留存率可以得到明显提高。

然后通过设置“阶段性中奖任务”(发送一定数量的消息会触发中奖提示,通知下一个中奖任务),他们拉起了所有新用户的消息数量,基本都超过了500条。

但是,最后的结果是:虽然整体短期留存上升了,但整体长期留存下降了。

为什么会这样?显然,邮件数量和保留之间的相关性是最高的。...

其实这是典型的把相关性当成因果,甚至是因果倒置的错误——不是因为文章多,所以保存好,更多的是因为保存好,所以文章多。

虽然短期内可以通过利润提升保留上述方案,但获奖提示对真正愿意使用产品的用户来说可能是一种打扰。另一方面,利益的**会驱使更多的非目标用户(羊毛党)下载使用app,降低用户质量,所以长期留存会下降。

【数据】是如何坑人的?(坑人的大数据)(图6)

最终留存的优化方案其实在广告上:因为APP主要是参考Instagram做的,所以以图片相关功能为特色。

而之前的广告只是含糊地说了“好玩有趣”,并没有突出具体的“功能和使用场景”,造成了用户的预期与产品不一致,留存度不高。

有趣的是,在之前的数据分析结果中,广告与留存的相关系数并不是很高。

坑3:只信看得见的数据
如果以上两个坑是因为对数据和业务理解不够而掉进去的,那么第三个坑可能是你对数据和业务理解得越多,越容易掉进去。

我在之前的文章里也说过:数据最大的问题是只能显示有数据的信息,而不能显示没有数据的信息。

Klein christensen将这两种信息称为:正面数据负面数据。

正数据是指结构化的、可量化的数据。例如:销量、销售额、留存率、转化率、复购率、利润率、付费率、业绩指数、市场规模等...(所有可以标准化整理到Excel的数据都是正数据)

而负数据是指那些没有明确结构,难以发现和量化的数据。比如用户使用产品背后的动机、情感、观念、习惯,以及这些因素随时代的变化等等。

【数据】是如何坑人的?(坑人的大数据)(图7)

从业务诞生的那一天起,企业就会有越来越多的正面数据——哪些产品卖得最多?哪些产品利润最高?回购率是多少?客户年龄分布如何?市场份额如何等等?...

随着正面数据的增加,会对企业产生更大的影响——销售部门会根据不同产品的销量和利润来影响生产计划;品牌会根据互联网上的类目关键热词来调整产品的卖点;投放部门会根据老用户的属性精准投放新用户;客服部门也会根据用户反馈给产品优化建议。...

似乎一切都会正向发展,逐渐沉淀为“经验”。

【数据】是如何坑人的?(坑人的大数据)(图8)

然而,某种“经验之外”的东西正在酝酿和发生。

以电子商务为例。当阿里和JD.COM基于自身的成长经验,拓展客单价更高的品类,抢夺更高净值人群,设立特价促销日,战略放弃低端市场,拼多多异军突起,仅用几年时间就成为全国用户第一。

阿里和JD.COM没有错,但拼多多凭什么?那些低线用户为什么不用拼多多而不用淘宝?

因为更便宜。

品多多为什么便宜?

因为它有很多作坊货和山寨货。

那为什么这些作坊货和山寨货会在拼多多卖?

一方面不允许其他平台销售;另一方面,拼多多的入团模式可以让他们盈利,卖得更多——就像线下参与市场一样。

是的,对于低线用户(包括商家),拼多多是第一个APP——把他们线下的购物场景带到线上——无论是团购、砍价还是买卖便宜的山寨货,都是他们线下的套路。

至于淘宝和JD.COM,它们更像是城市里的购物中心——价格昂贵,去的次数也不多。(而且对他们来说,什么东西贵的话,只有看到实物才踏实。)

【数据】是如何坑人的?(坑人的大数据)(图9)

这跟「正面数据」和「负面数据」有什么关系?

先说“负面数据”。

品多多为什么能看到这个市场机会?还发明了“社交电商”这个新物种?

其实,对于低线用户来说,购物本身就是社交的——大家一起逛街;遇到相熟的摊贩砍价,你买一斤花生,他给你两个枣;你帮隔壁阿姨带点洋葱,隔壁阿姨给你带点盐。既有商品交易,也有情感交流——这是拼多多洞察到的关于用户购物的负面数据。

所以,什么“帮着砍拼送”“社交电商”最初来源于生活,来源于对那些负面数据(动机、情感、想法、习惯等)的洞察。).

拼多多只是把它们搬到了手机上,让它更容易发生。

【数据】是如何坑人的?(坑人的大数据)(图10)

至于阿里和京东,毋庸置疑,他们的核心团队一定

seo运营教程至于阿里和JD.COM,毫无疑问,他们的核心团队必须

是既懂电商业务,又精于数据分析。


但是,为什么这么专业的团队没有在拼多多之前抓住市场先机呢?

这有很多原因。

一个企业要成长,一个团队要成长,自然更愿意专注于利益更大的地方——高净值人群、高客单价产品、高频产品等等。(包括现在的拼多多)

另一方面,如洪水般的正面数据自然将内部注意力集中在产品和指标上——如何提高物流效率?如何增加广告收入?如何提高用户活跃度等等。

这样在利益和数据的驱动下,他们会越来越了解自己的用户,提供越来越好的产品和服务。

但同时他们也会越来越了解谁不是自己的用户——“线低的都不是典型的电商人,我也没有太多精力去关注他们。”

但也正是因为这种由数据造成的,慢慢固化的偏见,市场被分割,被占领,甚至被颠覆。