大数据市场发展迅猛,然而全球的人才供给却面临严重不足。根据腾云大学(TalkingData University)报告,至2025年中国大数据人才缺口将达到200万,而目前的中国大数据人才仅有30万左右。
前在传统企业中,专业数据人才的需求增长处呈现如下一些特点:
核心专业数据人才在数据企业和传统企业都缺乏。增加学习数据的人数才有可能形成数据人才的上升;
带头人才获取成本高,而且从高科技企业挖来的人才也面临不适用的风险;不同的原始数据的使用也会让数据人才的产出效率不同;目前市场上仅有的几家专业猎头只适合高级人才的获取,且价格不菲;
大多数的企业现有员工的数据知识陈旧,还止步于上一代的IT和数仓技能。对于最新的数据科学知识缺乏;缺少数据团队的人才梯队规划;
人才成长不配套:数据科学家难以以现有的高校教育来形成,因为其成长需要大量的计算资源和数据集,并且需要全生命周期的终身成长的平台,就职后也需要提供社群平台保证其不断成长和知识更新;
行业及企业之间人才流动不充分,不利于知识的扩展,数据团队的整体素养亟待提高。
那么什么是专业数据人才呢?
1、专业数据人才分类
专业数据人才是从事数据业务的核心技术人才。依据数据行业的多年实践经验,TalkingData将专业数据人才分为四类:数据科学家、数据工程师、数据分析师和数据产品经理。
数据科学家
数据科学家是综合运用数据科学领域知识对数据进行采集、处理、挖掘、建模等操作以形成洞察并最终解决问题的专业型人才(见图1)。数据科学家致力于用数据产生实际的价值。
尽管市场上现有数据科学家往往具有不同的教育背景和工作经验背景,但是在专业角度上,他们一般需要如上图所示四个方面有能力:
业务领域:业务领域方面的知识和能力是必备的。数据科学家要对问题所在领域的知识有充分的掌握和理解,,例如接触金融数据项目,就需要理解金融行业的趋势和业务模型,能够进行专业化的数据分析。数据科学家对业务领域的了解和知识储备是提升数据价值的关键。
机器学习:机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。这些学科都可以用来帮助数据科学家梳理业务领域中遇到的各种数据问题,进行建模并得出指标和预测值来辅助业务。
工程能力:工程能力代表的是数据科学家的动手能力,影响数据科学家的工作效率和产出质量。
沟通能力:沟通能力可以帮助数据科学家发现并解决问题。数据科学家的沟通能力应该能够将数据的价值以通俗易懂的方式表达出来,以确保数据发挥真正的价值。随着业务领域的深入,数据科学家应该能经常发现和提出新的洞察和建议,以帮助企业实现其目标。
数据工程师
数据项目一般是一个工程项目,负责工程部分的实施人员就是数据工程师。数据工程师负责搭建架构和实现数据工程所需的技术平台和工具(包括数据连接器、数据存储和计算引擎、数据可视化能力、工作流引擎等),保证稳定可靠的数据处理,为数据架构师、数据科学家和数据分析师的工作提供支持。
数据工程师需要具备的能力包括但不限于如下:
技术能力:包括编程能力、架构设计能力、工程能力等;
业务能力:主要是对于业务的理解能力;
实战能力:包括数据意识、结果导向和文档撰写能力;
团队协作能力:包括学习辅导、沟通、合作以及影响力。
目前,市场上的数据工程师一般来自团队现有的人员,但是需要扩展数据技术相关的能力。数据工程师的主要职责是维护数据仓库和开发对应的服务。数据工程师在职位上贡献最多的是数据的抽取、转换和上载 (Extraction、Transformation、Load, ETL),将所需的数据从不同来源不同格式的数据源中提取出来,转换类型以便使用,然后归档入数据仓库。通常,数据工程师需要有一定的计算机科学技术背景,需要能够编程和维护数据仓库以及保证服务正常进行。
数据分析师
数据分析师负责将数据中的价值提取、分析并解读出来以指导行动。数据分析师和数据科学家从名字来看十分容易混淆。那么两者之间的区别在哪里呢?
首先,两者使用的工具通常是不同的。数据分析师进行商业智能和分析使用的工具:Microsoft Excel(进行可视化,数据透视表等)的Tableau、SAS、SAP和Qlik。数据分析师考虑的首要因素是快捷地从中间解读结果并验证设想,得出结论;而数据科学家则比较侧重算法选型、模型稳定以及大数据情境下运算的实现。
其次,数据分析师有时会进行数据挖掘和建模工作,倾向于使用数据可视化工具,如IBM SPSS、Rapid Miner、SAS和KNIME。相比较下,数据科学家在执行相同的任务时,偏向于编程类的库,如R或者Python中相关的库。
总结来看数据分析师通常只针对于公司高层提出的问题和目标进行分解、分析,并最终报告他们的发现。然而,数据科学家是主动通过数据和现象了解其业务关联性并采用更先进的统计和建模技术实现数据可视化,并更多以驱动业务的方式来进行汇报。
数据产品经理
相较于其他专业数据人才,数据产品经理是等级更高的交叉型人才。
数据产品经理是面向客户特定数据需求和数据处理流程来开发产品的人。为了满足客户需求,数据产品经理需要履行如下的基本职责:
结合客户的数据需求,并将其分解成数据领域不同范畴的问题:数据集、人、流程、最终产品形态
准备解决问题的数据集,针对客户的特定需求识别数据来源和数据接口,并对数据进行清理、结构化,形成解决问题的完善的数据集;
数据产品经理知道选择何种数据人员来满足客户的需求,例如知道选择擅长何种方向技能的数据科学家来解决这个特定的问题,需要哪些数据工程流程,客户的问题在什么领域并和数据分析师讨论,并能够明确这些人员之间的合作界面和职责分配;
了解整个数据处理的生命周期,能够帮助梳理从数据集到业务洞察的机会列表,明确关键环节和关键环节上的产出,并明确最终产品形态/交付形态如何呈现给客户。所以,数据产品经理的能力包括但不限于:
项目管理:数据科学项目实战流程,实现MVDP(最小可行数据产品);
数据科学:知道建模需要什么计算资源和数据集结构;
数据工程:知道整个平台的结构,流程设计;
数据准备:知道怎么去结构化地准备数据,进行ETL;
数据分析:如何将数据结果更好的呈现给客户-可视化,分析结果的本身含义
行业知识:包括怎么选择指标,怎么设置A/B test,怎么优化模型)等等。
所以,一般来说,好的数据产品经理都是由其他三种资深的专业数据人才晋升而来。
2、专业数据人才能力集
综上所述,专业数据人才的能力集都是复合型的(见图2)。公司现在需要的是既能涉猎较宽,在某些方面也能非常专业的交叉“大T型”人才。从教育的角度来看,成为一名专业数据人才需要明确的学习路径而且需要长期培养才能成为综合素质人才(需要注重培养的方式,科学和创新的培养方法)。
根据TalkingData近期发起的一次专业数据人才心理调研[1], 从初步的结果分析中发现数据科学人才有如下特性:在霍兰德职业兴趣测试中,数据科学人才在“研究型”这一类别上的得分显著高于非数据科学相关岗位人员,在“现实型”和“常规型”的得分也相对较高,而在“企业型”这一类别的得分则相对较低。在五大人格测试中,相比于非数据科学的岗位人员,数据科学人才的开放性相对较高,而他们性格外向性,讨人喜欢的程度和对于工作全盘考量的领导力相对较低。虽然更加深入的分析结果还有待进一步研究,但上述结果可以说明专业数据人才有一定的共性,与其他类型的人才有着显著差异,展现了这个群体的独特性与特殊性。但是找寻和挖掘这类人才也并非易事,加之不同企业的数据人才所熟悉的数据结构和商业情境有限,依赖简单的猎头无法完全满足企业的用人需求,必须依靠深度的教育培养,配合相应的教育资源,结合实际情境,将在数据领域有潜力的青年培育成能堪大任,能够在不同数据岗位上发挥用武之地的优秀人才。
文中内容节选自TDU与美世咨询联合发布的《专业数据人才教育行业生态报告》
[1] 回收问卷总数共计238份,有效问卷数235份;其中152份为专业数据人才,其他为非专业数据行业从业人员。