说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732
全网监测海量数据按需发布监测预警
实时把握舆情动态精准追溯信息源头
▍数据的获取
01.数据来源平台
多数企业都是直接用统计软件来获取的,如GA、百度统计、CNZZ、51la等,虽然大体是相同的但是仔细分析下来还是会有细微的差距。估计很多朋友也在GA或者百度、cnzz到底用哪个 来统计数据纠结过。如果你的网站上了百度竞价,那么百度统计是更好的选择。现在统计代码基本都是异步加载,不用太过担心速度问题,如果你还纠结,那也可以全部都使用一下。
02.本地保存“即时数据”
统计软件后台一般会有一些分类数据,如来路页面、受访页面等,基本不受时间限制,随时可以的。但是要注意那些需要即时保存的数据栏目,举个例子,CNZZ后台的“访问明细”,该栏目只保存近7天的数据,这意味着如果你一不注意,数据有可能找不回来了。所以,这类数据建议保存在本地。
03.数据格式“.xls”
在统计后台数据的过程中,基本都会出现格式选项,CNZZ是.csv和.xls,百度统计是.csv和.pdf。pdf数据自带图表;csv为纯文本数据格式;xls为Excel专用,便于数据分析。其中.csv文件和.xls下来后,数据的长相极其相似。因为csv文件是纯文本数据,并不是数值,所以不能进行数据上的求和,求平均值,只能计数!如果你不小心用了.csv文件,一定要先处理成数值,否则后期数据分析时会有无法正确统计的情况!
04.多页数据采集及合并
当你需要保存在线数据时,需要注意一个小细节,比如CNZZ的“访问明细”栏,右上角显示的按钮是“本页报表”,而其他栏目的按钮是“报表”,两个仔细一对比你发现了,一看原来只是一页的数据,再想的时候,服务器数据已经过了7天,数据不在了…所以小伙伴们一定要注意,千万不要被坑!
每页报表,会有一个问题是当你的网站访问量很大时,访问明细数据每一页都需要点击。这个很头疼。
我目前的解决办法是使用“火车头采集器”,模拟人工点击,每页数据;
第二个问题是:自动的数据每一张都有表头/尾,人工合并也会累死。可以使用Excel VBA功能,但我的办法是使用“慧办公”插件的合并多表功能,这种有使用限制,需要购买,
大家如果更好的办法也希望分享出来
▍数据清理
01.尽量不对源数据做修改
我做数据分析有个原则,是“坚决反对对源数据进行直接修改”。首先,专业的统计软件在设计统计后台的数据时,已做精选,选出的数据能够限度满足用户的需求。当源数据不符合你的要求时,千万别在源数据中插入行和列,比如要插入日期列,请插入在数据表头或者尾。因为每次保存数据时,都是直接从好的表格中粘贴数据,在源数据表中多出任何一行或列都会增加你的操作成本。
也是说,对源数据尽量减少人为干预,减少出错,省心省力。
02.坑货csv要转化为数值
在数据获取部分我提到了关于源数据是.csv格式的问题,如果你知道这里有坑不进去是的,但是已经进去了,怎么办?我开始源数据一直用csv,因为csv的文件小,速度快,数据分析时蒙B了。那么已经保存为csv格式的数据怎样变成数值呢?答案是Excel的分列功能。
1)Excel打开源数据表,复制部分数据到.txt文本中,观察源数据用的什么符号;
2)选中某列数据,点击导航栏“数据”—“分列”;
3)下一步,如图中的数据分隔符是“Tab”+“””,那么选择Tab和其他两项,继续下一步;
4)选择目标区域(要复制在哪里),搞定。
▍如何制表
01.报表是你思考结果的展示
很多企业可能制表人与分析人都不是同一个。要记住报表是要把分析人的思路更简洁的展示给其他人。所以推荐制表人是分析人本人。不要以浪费时间和办公软件不熟悉为由拒绝,熟练掌握办公软件,我觉得是运营人的基本素质。
思路的展现逻辑一般是“总分总”,以网站分析说,我的框架是:流量趋势→来源渠道→渠道1明细→渠道2明细…→来路分析→受访分析→搜索词→外链。
02.制定表格规范
制表中切记展示图表不能乱用,用折线图表达百分比关系?数据对比用折线图??为数据选择合适的展现图表类型,比较数据间区别时,用条形图;表示不同项在总体的占比时,用饼状图;反映事物变化时,用折线图;观察不同项目长短板时,用雷达图…还有其他诸如符号使用规范、配色规范等,这里不再啰嗦了。总之,你换位思考一下,别人看你的图表的时候能不能理解的透彻呢?
03.数据分析后一定要有可执行建议
把数据做成表格不是为了装逼,让别人看起来很牛。作为一个专业人员始终记得“报表只是你思考结果的展示”,重要的是你通过数据分析出来了对今后工作有指导性的建议。把报表做的漂亮是一种能力,但是美观始终流于表面。只有真正有指导性的建议才能长久的打动人。
这个问题很难了,但如果能分析的好,你不仅仅是个专员。
04.透视表,降维打击
使用Excel做分析的时候,基本上是直接用基本的筛选、公式(sumif、countif、sumproduct)、条件格式之类,虽然操作逐渐变得熟练,速度越来越快。可是想象一下,当你需要对比源数据中两天某一项数据的区别时,可能需要先加入三列辅助列,然后使用countif函数对两列进行计数,第三列使用减法再加上颜色的条件格式。如何对比两个月的数据呢?用sumproduct,多塞几个条件??
透视表工具早学早好,使用的Excel的“数据透视表”功能后,能力会加强太多了,“对比功能”“创建组”功能,分析起来简直不要更爽!另外,对于Excel的学习,基本功也别落下,对数据的基本函数和条件格式,用好了也能带你飞。
▍分析要素
01.日记:当天有特殊情况记录在趋势表中
一个网站的运营者,每天上班的必做是粗略过一遍昨天的统计数据。把每天收集到可能影响到网站数据的情况“批注”在趋势表中,等到周报时进行数据对比,会方便很多。包括一些活、EDM等等标注好有利于之后的总结工作。
02.峰值:高峰、低峰都不能放松
在面对图表分析时,峰值为明显。但是很多人只分析不好的低峰而忽略高峰,对高峰擅自代入。
面对峰值时,首先要缩小粒度。如观察8月8日出现低峰,那么再看是在8月8日当天哪几个小时数值降低,再分别筛选出这几个小时的来访及受访数据,逐一分析,找到根源。低峰找出原因,今后避免;高峰,也找出原因,今后重现,验证你找到的原因。
03.对比:约束变量,同轴对比
在上文中提到了“制定表格规范”,其中对比规范的核心是要同轴。比如数据对比坐标轴不能瞎变,这周记录的是星期一到星期天,对比的是本周和上周;下周记录的变成了星期三到星期五,对比的是上半月和下半月。坐标轴一定要按照表格类型来,周报告以周报告为轴,对比的也是本周7天和上周7天的数据。有特殊情况需要在周报告中显示更长的时间段时,应该固定该时间。频繁更换坐标轴是非常不明智的。
04.经验:记住周期性现象,这是你的宝藏
什么叫周期性现象,比如“每逢节假日流量下降”、“每逢流量下降”、“每周三9点PV暴增”等等,多次重复并反映在数据波动上的情况。
针对平台运营,记住所有周期现象,这是你今后工作比别人更专业的经验来源,不需要企业花费大量试错,节省大量人力物力。
05.反常:事出反常必有妖
什么叫反常现象,比如大多网站在中午12-14点间,流量都会因为网民需要休息显著降低,且PC流量降低,移动流量骤升。但是如果某,或者某一周的12-14点流量全体暴增呢?
反常现象是在周期性现象的异变,当多次出现反常现象时,你找到原因后要开始重新审视周期性现象是否产生了变化,是否是政策变化;是否是环境风向变化;是否是平台玩儿变化等。
▍理论误区
01.猜测不代表结论
进行数据分析时,先看日记中记录了哪些行为,再对比数据结果看记录该行为的同时是否产品数据波动,如果数据波动符合日记中的行为常识,那么可以大胆猜测该项数据变化是由该次行为导致。
接着你要做的是通过数据验证它,而不是武断的认为数据波动是这个行为产生的。
比如,公司派同事去路演,路演PPT尾页留有微信公号的二维码。结果在数据分析时,发现当天微信新关注数量暴增。然后运营人员不经过验证直接武断的把新增用户的效果归于路演,甚至得出了要多参加路演的指示。可是在数据分析时,发现当天新关注数的增长来源是“名片分享”而不是“扫描二维码”,后来一问才知道,是社群组的同事进行了一次小范围的社群名片互动。
始终要记住“猜测不代表结论”,提出猜测后,要证实它。当出现实在找不到根源的问题时,先暂时放弃,记录下你的猜测,找机会再验证它。
02.深入分析,结论可能是假的
刚才提到了“猜测不代表结论”,这里面存在连环套。因为数据分析工作面对着大量数据,时间一长,人难免会焦躁,特别是老是找不到原因时,很容易得到假结论。
举个例子,某次分析网站数据时,对比发现有网站的PV暴增许多,缩小粒度后发现数据增幅集中在当天14-17点,然后开始分析“受访页面”的访问次数,一排序,发现某个栏目PV暴增,一问部门同事才发现是因为内容运营开了爬虫,抓取了大量的信息流,提高了PV量。
这时候,如果不细想很容易得出“PV暴增是因为内容组抓取大量内容导致”的表面结论。因为回到问题中,原现象是“14-17点,PV暴增”,现有的表面结论并没有按照小时粒度去分析,终分析14-17点小时数据时,发现原来是因为这三个小时来了一位新访客,浏览了多篇资讯文章,然后把所有栏目都看了一遍。
所以终PV暴增的原因应该是“新访客浏览整站”和“内容组开爬虫”共同作用引起的,而非单一项。在实际工作中,人们很容易只是看到了层表象得出结论,时刻记住多深入分析,想想现有的结论是不是到小粒度了,有没有可能是个陷阱?
▍结语&题外话
01.当你的某项工作长期不见起色,怀疑源头试试
以数据分析来说,分析人员有时候会出现分析来分析去是得不出结论的现象,导致这种现象的原因除了上文提到过的“csv格式”等操作问题时,还有可能是数据源本身出现了错误。别想着机器一定正确,如CNZZ后台统计“来源分类”时,四个来源渠道数量想加出现了不等于总和的情况。这里面有部分来源是后台统计不到的,所以没有计入。也会有数据表格时,后台出错一了张空表,合并时出现大坑。
所以适当的怀疑源头,说不定会有意想不到的发现。
02.三方平台不可靠?那自建
刚才提到了统计后台出错的一些情况,当后台出错的次数很高,降低了运营者对统计软件的信任度。一旦对源数据的正误产生了怀疑,工作起来绝不会顺心。
既然三方平台不可靠,有实力让公司的技术人员自行搭建后台吧。在技术人员实力过硬的情况下,不仅可靠,而且可扩展性强,分析粒度也更细(如CNZZ不能统计用户行为路径),可以完全按照运营人的数据要求进行定制,后期为用户建模时,提供的数据支撑。
03.数据不会说话,但你要负责
在数据分析中,会慢慢得到一些乐趣,次学会用Excel某个函数的得意、次知道透视表时的兴奋、次制作PPT被夸奖时的欣喜…你发现了很多坑,也学了很多小技巧。会从小白变成大神,能轻易的使用某个小聪明的手段,掩盖掉真实数据的缺点。这些,数据永远不能开口说话,但是你要对自己负责。
本文来源于网络,欢迎大家一起交流分享
推荐阅读
竞价推广分析 竞价推广该如何分析数据 | 文军营销竞价推广分析——竞价推广该如何分析数据 第一、要知彼。 在竞价推广之前一定要清楚的了解同行的动向,了解同行的优势卖点,了解同行竞价推广的关键词、推广区域、创意编写、展现形式、语句长短的等等方面,做到知彼,这样才能知道如何让自己的创意与众不同; 第二、要知己。 要清楚的了解自己的优势,特别是于同行之间的差距...百度竞价数据分析 | 文军营销百度竞价数据分析 做数据分析要抓住核心的东西“转化率”,采用:对比、细分、溯源的分析方法,凭借福尔摩斯的聪明才智,一定可以做出完美的数据分析。 为近100家大中型企业提供优质搜索引擎营销服务 为近1000家行业客户提供专业搜索软件产品 平均节约约50%的营销成本 平均提供200%的流量...百度竞价关键词结合搜索词分析出的数据价值 | 文军营销2、搜索词数据分析要点:展现量,点击量,创意标题,创意描述1,创意描述2,你会怎么去分析? 系统中提供给我们这些数据指标,展现量与点击量这两个数据指标和关键词的两个数据指标同属原理分析,但搜索词展现量和关键词展现量有很大区别,这点我之前问过百度推广客服,原因是系统对于搜索词的展现量过滤了一部分,算作是屏蔽...
说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732