说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732
全网监测海量数据按需发布监测预警
实时把握舆情动态精准追溯信息源头
嗯?你不知道曹大神是谁?额,那还是先来晒晒他的履历吧。咦,在百度百科上竟然没找到,好吧,果断找到了知乎上的说明。
曹政,网名caoz。俞军(不知道是谁的点这里)的关门弟子,CNZZ统计工具的,前百度商业产品部boss,4399CTO。曾参与创建一统统计,cnzz站长统计,并曾主持搭建百度商业分析支撑平台,数据控。
这里,丢个知乎上关于他的介绍地址好了,有兴趣的亲们,请点进去自己看哈。
不能跑题,这里是继续来说数据分析的,其实也不算是什么博大精深的东西,但是对于俺们这种入门级的玩家来说,也算是一个很好的指导吧。
一、关于数据感
Rude曰:一个甲方的接口人,每次我把报表给他时,他总是一看能发现一些我根本注意不到的问题,之前感觉十分神奇,忽然找到了给他这种本领的定义,数据感。
下面是caoz对数据感的定义:
什么是数据感?是别人说一个数据出来,你会琢磨一下这个是否符合常理,与你日常的数据观测经验是否一致,如果不一致,那么可能的理由是哪些? 比如12306号称几十亿次点击,如果你有数据感,眼会质疑这个“点击”定义的合理性;比如曾经有人说某国内图片分享网站多少亿访问量,眼知道这个“访问量”定义是有歧义的,(事后官方解释是图片加载量,这个和访问量差异几十倍。) 数据感需要不断的培养,和基本的逻辑(比如你应该知道中国有多少网民,每天有多少人上网,一个大概什么类型,什么排名的网站会覆盖网民的比例是多少),以及善于利用各种工具,我以前在巨头公司,得益于公司巨大的数据资源,可以看到很多互联网的核心数据;但是离开后,才发现,其实互联网上公开可获取的数据途径是非常多的,而且善于利用的话非常有效。每天去查询一些感兴趣的数据,经过一段时间积累,想没有数据感都难。
作为公司或团队负责人,怎么培养员工的数据感,我其实也有一个建议,平时可以搞一些小的竞猜,比如团队集体竞猜新产品或产品改版上线后的日活跃用户,或者pv数字,或者收入数据,等等;然后看谁的准,一种是惩罚制,不准的请准的喝奶茶,吃冰淇淋;另一种不惩罚,准的累计积分后公司可以发一些奖品鼓励,这样下去大家的数据感会在日常培养起来,而且对团队的气氛培养也有帮助。
二、关于数据分析的方法
Rude曰:说道这个,或许答案应该是各种语言,各种算法。但是 ,仔细想想,或许此处也应该遵循简单粗暴有效的方式。
曹大神曰:谈数据分析的方法,我的建议是,不炫技,不苛求技术复杂度,简单的数据,所包含的信息往往是有价值的,而很多人恰恰这一步都没做好,总想着弄一堆挖掘算法;数据的价值在于正确的解读,而不是处理算法的复杂度,切不可喧宾夺主。 大公司的kpi制度,往往会产生偏差,比如技术工程师的评定,要讲究“技术复杂度”、“技术性”,直接导致简单的事情没人肯做,基本的工作不认真做!所以往往是大公司的分析工程师,为了评工程师,非要简单问题复杂化,四则运算搞定的事情一定要弄一套诡异的算法,终非但浪费了资源,消耗了时间,而且往往由于工程师对业务理解的漠视,对应的产品人员又对算法的陌生,导致了严重的理解歧义,从而出现各种误读。
三、关于数据解读
Rude曰:这里,表示属于一个空白区,但是,确实可以感受到有时候根据数据下的结论还是有偏差的,我将这种错误归结为逻辑上的偏差。
曹大神曰:
数据解读,不能是为了迎合谁,要遵循数据的本质,要遵循科学的逻辑,要有想象力(配合求证),可能有时候也需要依赖人脉关系所获得的情报,(这个也有很多典型范例),这个具体再怎么说可能我也说不清楚,说几个反面例子也许更容易理解。
1、因果关联错误,或忽略关键因素,A和B的数据高度相关,有人片面认为A影响了B,或者B影响了A;但是,有时候真实原因是C同时影响了A和B,有时候C被忽略掉了。
2、忽略沉默的大多数,特别是网上投票,调查,极易产生这种偏差,参与者往往有一定的共同诉求,而未参与者往往才是主流用户。
3、数据定义错误,或理解歧义,在技术与市场、产品人员沟通中产生信息歧义,直接导致所处理的数据和所需求的数据有偏差,结果显著不正确。
4、强行匹配;不同公司,不同领域的数据定义可能不一致,在同一个公司内或领域内做对比,往往没有问题,大家对此都很习惯,却有评论家不懂装懂,强行将不同定义的数据放在一起对比做结论,显著失真;海外金融机构在分析中国页游和端游市场连续犯这类错误。
5、忽略前提;有些数据结论是基于某种前提,符合某种特定场景下得出的,但是解读者有意或无意忽略前提,将结论扩大化,显著误读。
6、忽略交互;在商业模式改造和产品改进,往往都会出这类问题,简单说,你游戏中的道具降价,对收入的影响是增还是减?如果忽略交互,仅仅依赖于数据推算,当然是减,但是实际呢?做运营的都知道。
7、缺乏常识;如果对一些重要的纪念日,节日,或者网购节不了解,那去处理有关数据显然不知所云了。做行业报告更是如此,很难想像对行业不了解的人能做出怎样的报告。
8、无视样本偏差;我们通常做数据调研,是基于样本数据,而采样过程本身很难做到完全的公平和分散,样本偏差要控制在合理范畴内,即便无法控制,在结论中也需要标注;这才是严谨的数据解读,对样本偏差视而不见,甚至为了某种宣传目的刻意寻找偏差的样本,都不可能做出好的数据结论。
四、关于数据怎么看
Rude曰:数据需要对比,细分之后总能找到问题的症结,这点在之前的工作中相当之有体现。
曹大神曰:
简单说是“对比,细分,溯源” 六字真言,没了。
对比,数据放在那里,是没意义的,你说你游戏周流失率80%,啥情况?不知道,你问我我也不知道。对比起来才知道。
一是横比,你拿出50款游戏来比,别人平均流失率90%,你80%,你游戏还不错勒,别人要平均流失65%,你80%,这有问题了。
二是纵比,和自己时间轴比,你两个月前1.0版本流失率90%,你现在80%,有进步么,你要是两个月前是50%,现在80%,好好反思喽。
所以,我特别强调,在通常企业数据监控,显示一大屏数据的界面上,对比特征要体现,比如所有同比下降超过多少比例的一概红色体现,所有上升多少比例的一概绿色体现,公司运营状况一目了然。
细分,数据出现对比异常,你当然想知道原因,那需要细分了。
细分先分纬度,再分粒度,什么是纬度?你按照时间去分,是时间纬度,按照地区去分,是地区纬度,按照来路去分,是来路纬度,按照受访去分,是受访纬度;你说网站访问量涨了5%,咋回事不知道,你细分一看,大部分网页都没涨,某个频道某个活动页涨了300%,这清楚了,这是细分简单的范例,其实很多领域都通用。 粒度是什么,你时间纬度,是按照天,还是按照小时?这是粒度差异,你来路纬度,是来路的网站,还是来路的url,这是粒度的差异;这样可以将对比的差异值逐级锁定,寻找原因。
溯源,有时候我对比,细分锁定到具体纬度,具体粒度了,依然没有结论,怎么办,溯源,依据锁定的这个纬度和粒度作为搜索条件,查询所涉及的源日志,源记录,然后基于此分析和反思用户的行为,往往会有惊人的发现,我们正是基于这一逻辑发现过产品的一些缺陷,而且你不断通过这个方式分析数据,对用户行为的理解也会逐步加深。
小结:
数据分析,是一条苦逼的路,但是数据驱动决策,却是十分理性的选择。当然,在现实生活中,或许驱动你决策的,更多是信仰。
来自于:《seo科学之美》中的文章均系Rude原创
说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732