美团阿里能做大数据平台,创业公司就不能?这思绪大多数人没看过
作者头像
  • 金正辉
  • 2020-06-17 13:51:36 2

了解“认知心理学”的朋友们应该知道:人类对事物的认知通常是逐步深入的。然而,每个人的思考深度差异很大,关键在于思考的方法。

通过提问三步法:WHAT(是什么)-> HOW(怎么做)-> WHY(为什么),我们可以逐步从事物的表面深入到本质。例如,在学习一个新的技术框架时,需要逐步弄清楚它是做什么的、如何使用以及为何这样设计,从而实现由浅入深的学习。

“WHY + HOW + WHAT”,是我最喜欢的一种思维方式。它不仅适用于认知过程中的思考方式,还可以通过不同的顺序组合应用于不同的场景。

例如,在规划一个项目时,我们可以采用“WHY -> WHAT -> HOW”的思维模式。首先明确为什么要做这个项目,然后确定需要完成哪些任务,最后考虑具体的技术选型和实施方法。这种思维模式将在本系列的后续文章中广泛应用。

在创业公司中,尤其是在从零开始构建数据系统时,资源分配往往不像大公司那样细致明确。所有的工作都需要在有限的资源下完成。回顾过去,我认为总结一下经验分享很有意义。接下来,我们将结合实际案例谈谈如何开展数据分析。如果有什么不足之处,还请大家批评指正。

作为系列文章的开篇,本文将按照“WHY -> WHAT -> HOW”的思路来探讨以下几个问题:

  1. 为什么创业公司需要进行数据分析?
  2. 创业公司在数据分析方面需要做哪些事情?
  3. 如何实现这些数据需求?

WHY

随着移动互联网的发展和大数据理念的普及,越来越多的创业者和投资者开始重视数据的作用,而不是凭直觉行事。“数据驱动决策”、“精准化运营”和“产品快速迭代”等概念被广泛提及和应用,而这一切都离不开精确的数据分析。

对于大多数互联网创业公司而言,他们通常缺乏强大的资源和资金支持。如何在有限的人力和物力条件下快速探索并避免走弯路至关重要。基于“数据驱动”进行决策、运营和产品开发将成为关键因素。以下是两个具体的例子:

【例一】

微信公众号已成为各家公司争夺用户的重要战场之一。通过利用微信社交关系链来推广H5海报页面是许多线上活动和拉新手段的重要组成部分。无论是线上推广活动还是通过线下渠道引导用户分享和注册,都需要设定目标来衡量活动效果,从而明确运营方向。

数据在这里起到了关键作用!活动产生的浏览量、分享量、新注册用户数和用户留存率都是重要的指标。这一切都离不开有效的数据跟踪和分析。如果有100个类似的渠道活动,如何有效地管理和分析这些数据将是不可忽视的问题。

【例二】

每逢节假日,国内各大旅游景点都会出现人流密集的情况。尽管大家都知道外出旅行可能会遇到这种情况,但仍然抱着一丝侥幸心理出行。去年国庆期间,我曾利用百度景区热力分布图提前了解情况,从而避开了一些高峰时段和拥挤的景点。大家可以尝试一下这种方法。

回到主题,对于许多创业公司,特别是那些基于地理位置服务的企业来说,了解“用户在哪里”以及“哪些地方是用户感兴趣的”非常重要,这样才能更好地确定早期投资的方向。全面开花、多点出击的做法并不适合创业公司。

通过位置数据,我们可以分析用户集中在哪些区域,主要分布在商业区还是高校,是否受到交通因素的影响等。此外,还可以聚合出用户的常驻地点,并分析用户位置与商户位置的距离,从而制定推荐方案,优化产品和服务。

WHAT

对于大多数互联网创业公司来说,在进行数据分析时,必须结合自身业务,合理控制成本,以实现最佳效果。

诸如数据挖掘、机器学习和推荐算法等技术都需要一定的人力和物力支持。即使是大型企业,在这些领域的成果也相对有限,且很多时候实际效果并不理想。

举例来说,很多高端的推荐算法在投入使用后,效果远不如简单的“看了又看”机制。当然,如果你的公司专门从事数据业务,则另当别论。

为了明确需要做什么,首先要结合自身业务进行思考。现阶段,你需要哪些数据来驱动决策、运营和产品改进?具体的数据需求因公司而异。

根据我的经验,早期的数据需求主要集中在两方面:运营数据的统计分析和产品使用情况的统计分析。随着产品线的发展,通常还会衍生出一些与产品相关的数据业务,如在线推荐。

从流程上看,需要做的事情主要包括三个方面:数据采集、数据处理和数据可视化。数据经历原始数据->分析结果->图表展示的过程。

首先,建设基础数据源是进行数据分析的关键。因为如果数据源本身出现问题,那么之后的所有努力都将白费。如果没有提前做好数据采集,后期再想进行分析也会变得困难重重。

其次,数据分析的最终目的是为了向他人展示结果,可能是公司高层,也可能是市场业务人员。直接把一堆数据扔给他们显然不合适,通常需要将其转化为图表形式,这就是数据可视化的职责所在。

从原始数据源到分析结果的过程被称为数据处理,包括数据提取、数据建模和数据分析等多个步骤。

HOW

如今,国内互联网环境发展迅速,第三方服务提供商层出不穷。因此,在很多情况下,我们有两个选择:接入第三方服务或自己动手做。

在数据分析领域,有许多第三方服务可供选择。我将其分为传统数据统计服务和新兴的数据公司两大类。前者以百度统计和Google Analytics为代表,通过嵌入它们的SDK在前端收集数据,并在后台查看相应的统计数据。这种方式的优点是简单易用且成本较低,因此在初创企业中非常普遍。缺点也很明显:一是只能分析一些基本的访问量、点击率和活跃用户数量,无法深入结合业务数据进行分析;二是需要在前端多个位置埋点上报,耦合性较高;三是数据存储在第三方服务器上,无法直接获取数据源。

如果选择自己做数据分析,可以根据自身的业务需求灵活操作,并尽早探索数据业务,逐步建立自己的数据系统。当然,自己动手并不意味着要从头开始打造每一个工具,而是充分利用现有的开源框架来实现相应功能。

鉴于每家公司的业务都不尽相同,谈论架构而不考虑具体业务是没有意义的。因此,在接下来的文章中,我将结合自身经验探讨一些数据系统的构建方法。

下图展示了我们当前的数据系统架构,主要分为数据采集、数据处理和数据应用三个层次。从下至上,数据采集层负责从前端应用程序、H5页面和服务器日志中收集数据,通过Kafka接入后存入Elasticsearch和Neo4j中。同时,业务数据库也是一个重要的数据来源。

数据处理层负责数据的提取、清洗、建模等工作,然后存入MongoDB和MySQL中,整个过程由Airflow任务调度管理系统进行管理和监控。

也许有人会质疑,既然没有使用Hadoop,怎么能称为在做数据分析呢?我确实考虑过这个问题,并尝试过引入Hadoop,但由于数据增长较慢且需求不明显,目前的架构已经能够在相当长的一段时间内应对数据需求。

希望以上内容能对你有所帮助。如果你有任何疑问或建议,欢迎随时留言交流。

    本文来源:图灵汇
责任编辑: : 金正辉
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
数人阿里思绪大多看过不能创业数据平台公司
    下一篇