腾讯大数据高级工程师杨列昂:腾讯移动分析与服务架构
发布时间:2022-11-03 11:28:46 所属栏目:大数据 来源:
导读: 移动APP的分析需求,可以分为四个阶段。首先是最基础指标、报表、移动画像,不同平台的数据都能接入进来,协同做分析。等到APP发展到一定阶段,开始出现付费,有了自己的盈利模式之后,我们就需要更专注于精细化
|
移动APP的分析需求,可以分为四个阶段。首先是最基础指标、报表、移动画像,不同平台的数据都能接入进来,协同做分析。等到APP发展到一定阶段,开始出现付费,有了自己的盈利模式之后,我们就需要更专注于精细化的运营,这个时候我们更加关注用户流失和潜在付费这些特点的群体。 到了APP的推广环节之后,更加关注的是从APP推广的点击、下载到最终的激活,乃至注册、付费整个流程,以及关注营销推广的效果。做完以上这些事情,其实还可以多做一步,应该就是利用大数据的能力,来去解决行业上的一些痛点,比如说金融领域的评估模型,希望能输出一整套的行业解决方案来帮助新进的一些企业和用户能更快地进入他的行业,解决一些运营上的痛点。 回头来看整个过程,其实是从知道、了解业务整体的状态,到有针对性的洞察特定的目标群体,采取动作,最后成为一个行业专家的过程。 业务指标和价值评估体系 关于业务指标,企业在不同阶段可能他们关注的重点会有所不同,在产品最小价值阶段,也就是MVP阶段,企业可能更关注的是能撬动用户需求的功能点。而到了快速增长阶段,我们就更加专注于用户的拉新和留存。到了付费的阶段,我们就会更加的去留意一个盈利周期、渠道转化等等指标。我们根据海盗模型,我们熟知的2A3R的营销理论创建了一整套的业务指标体系,包括用户获取、用户活跃、留存、传播、收入,再结合渠道效果分析、用户生命周期管理、事件分析等等搭建出一整套APP的体系。 此外还要结合业界竞品和行业趋势,比如现在火的AI或者区块链的一些行业,身处这些行业中的一些企业,它未来的发展状况相比夕阳产业所待的企业,大家就更加看好一些。结合APP自身、竞品和行业趋势,推出一个九维的价值评估体系,能更加立刻、客观地来刻画APP整体的运营状态。 多平台接入 业务数据存在形式多种多样,在不同平台上,给出了特定的一个解决方案。首先是移动端,两大主流操作系统,安卓和IOS,我们都提供了十分钟快速接入的能力,目前这一块的接入已经被精简到一行代码就可以解决。HTML5作为移动端特有的一个开发模式,它的开发周期更短,可移植性好、更新也快,普遍应用移动公众号、Web网页等等,我们也针对H5推出了一整套的分析框架。也有一些APP腾讯大数据,比如微信里面集成了H5的容器,我们在这方面做了一些努力打通H5和Hybrid。 微信小程序,我们也推出了自己的统计分析工具,这一块也有很多行业标杆在使用。说到智能硬件,谷歌和苹果最近几年开始发力,推出了自己的一些软件开发包,我们也在这里做了一些布局。还有一些数据是从服务端更新的,比如一些用户帐号的内部的状态更新,我们因此也是提供了服务器端的接入方式。 移动设备画像 接入到MTA的用户经常会问一个问题,我们如何知道用户的分布状态,这就不得不提到我们的移动用户画像。做数据平台的,其实最基础的也就是要有自己的画像体系,我们知道腾讯的业务线是非常广泛的,它在社交、新闻、文娱、金融等各个领域,都有很多的布局。很多APP有数亿甚至数十亿的用户规模,每年产生千亿级的数据流水。如何对这些数据做一个有效的规整,打通数据孤岛,也是我们来解决的一个难题。 数据经过连接、分析,最终得到一个标准化的结果。其中既包括结构化的数据,比如用户属性,用户的商业兴趣,行为特征。也包括一些非结构化的数据,比如语料、声音、图象等信息。再经过整个的处理流程之后,转化成腾讯多维海量的数据资产。这其中涉及到很多的算法和特定的领域问题,其中最基础的,就是涉及到设备特征的识别。 设备识别 提到设备识别,安卓系统可以通过API获取IMEI的标识,但是这个有缺陷,市场山寨机的IMEI是一样的。还有一种情况,终端的模拟器,也会对我们的统计造成干扰,还有一些用户篡改设备号的行为,比如现在市面有很多在安卓root的情况下可以修改IMEI。还有是可能报一些攻击,伪造日志请求,篡改里面的设备号字段。 以上这些情况,都是我们能拿到设备号,但设备号可能不够准确,或者可用性比较差。还有一种情况因为受限于系统权限根本拿不到设备号,比如安卓6.0以后,设备号的管理权限也是收的越来越紧。随着大众对用户隐私的意识、关注度越来越高,谷歌的play商店禁止采集IMEI,欧盟也是在近期不断更新自己的个人信息采集的标准。也是在禁止APP在非必要的情况下去获取设备的IMEI信息。 基于以上事实,我们推出自己的一套方案通过移动端的设备识别,设备指纹信息,在服务器端加密下发的方式,解决了在不同场景下设备识别的问题。我们称之为MID。另外通过一套离线的分析系统,可以把设备、刷机、重置设备而重复分配的MID关联起来,从而实现最终的一致性。前面讲的这些,都是我们在指标统计,在一整套的设备画像上的建设。 归因分析 等企业进入到一个精细化运营的阶段,这时候最重要的是归因分析。这里举个例子,以一个游戏行业的用户流失为例。某个知名游戏APP经过分析发现它的流失用户可以分为三种: 针对这种不同原因造成的用户流失,我们采取的策略显然是各不相同的。这个APP的运营方,如果在成本最大化的同时,来去解决这些用户流失的问题。难道给每一个人发一个调查问卷吗?这就需要一个归因分析的能力。我们这里提供了多种手段方法,比如细分流失用户的特征,通过一些方式来建模,最后去对潜在流失用户做一个预测,我们有一个专门的团队做这样的事。 营销推广与效果监测 前面是讲移动分析能提供的一些服务,接下来重点关注一下在营销推广和广告效果监测的环节中,我们又有哪些流程可以改进。 广告效果监测 在用户获取环节,我们其实有很多的方式,最传统的是付费广告,广告推广的形式。我们从广告推广的四个流程来改进整个的效果。 用户分群 用户分群,这里会提供基于规则和基于算法的两种模型,基于规则包括活跃、非活跃用户,或者已知的自定义实践、用户和设备画像,都可以在这个基础上做一些与或非做一些规则的分群。 基于算法,预测流失用户、预测高潜力用户的分群。 相似人群拓展 如果对前面分群的效果不满意,或者希望拓展新的用户,这里也提供了一个lookalike的形式。这里是某汽车行业线下lookalike的场景,通过和大盘用户的关联,叠加的排序,可以找到它的目标人群在不同兴趣类目上的关联度,可以注意到在一些平常认知不到的类目上,比如家居建材、建筑工程这些行业感兴趣的人群,其实跟它的目标用户的重合度,反而比较高。 这就是一次从线下到线上的一次有效推广,我们借助于Lookalike的能力,为每一个接入的客户提供更好的分析。 数据开放 一键导出 最后可以一键导出到腾讯内部的广告平台上,这是实际操作的界面,可以看到4月份的活跃用户已经推送到了广点通平台。 定制化渠道对接方案 广告界有一句很有名的话,我知道我的广告费有一半都浪费掉了,但我不知道是哪一半。所以广告效果的跟踪是非常非常重要的,这里其实不仅是对接了top10的平台,包括腾讯、爱奇艺、百度、今日头条、陌陌等一些标准的广告渠道,还支持了定制化的平台对接。因为这个渠道对接,在PC端通过用cookie关联数据,因为流量端、分发中心和应用激活分属在不同的层面或者APP,很难串联起来的。 MMA标准:异常流量识别 这时候提供两套方案,一是渠道安装包的可扩展的动态签名方案,在下载安装包的过程中实时对应渠道的安装包。还有一种采用关联算法,通过采集到了LBS信息、指纹信息来搜集下载安装、激活这两部分的行为。 提到移动流量分发,不可避免会想到异常流量的问题,现在有很多的黑产或者商业利益的关系,MMA标准是国内移动广告业通用的标准,里面对异常流量的类型做了简单的分类。通过异常本身是否容易被识别,它的误判和漏判率的高低,可以简单分为常规无效流量和复杂无效流量两个部分。 流量清洗 我们在实现常规无效流量这些场景的同时,更关注到的是认为刷量这一部分,也就是我们俗称的五毛党。他们可能通过网上的派单,通过一些付费的,他们去自己手工的完成整个APP的下载、安装乃至后续的激活注册的流程。我们联合腾讯内部专门做打击黑产的团队,合作完成了这一块数据的识别。 流量清洗模块,大概分为三个部分,规则的识别、建模以及最终应用。这个地方随着黑产的技术在不断地提升,有很多自动化的手段可以去模仿人工的激活,以及后续的注册等等流程。所以这一块我们也是在引入对抗网络和复杂的神经算法来去加强这一块的能力。 互利共生的服务生态 我们如何去利用腾讯的海量数据和计算能力,来赋能企业,建立一个互利共生的服务生态。大数据可以帮助企业洞察用户、行业变迁和资本走向,来辅助公司的战略布局和决策,但应用大数据过程中面临很多的挑战,如何建设底层能力的支撑,如何培养专业的人才梯队等等。我们这里有一些实践经验可以分享。 数据驱动产品运营 可以看到现在我们的指标有很多,我们对它做了一个分级的处理,其中有一些全量的指标,关系到一些历史的状态特征,就比如说一些累计用户留存性的问题,我们采用离线分析的模块。对用户分群的分析,有自己多维实时分析的计算模式。另外还有潜在用户流失,潜在付费用户的在线预测模型,以及基于监控指标和诊断指标的秒级实时分析。 基础技术架构 为了去实现前面的这一些功能和架构,我们也有一套底层的支撑,首先是内部的docker系统,可以给我们提供强大的底层支撑能力。中间实时计算用到这些hadoop、spark等平台,最后暴露给用户的是用户画像、关键指标数据、自定义计算事件上卷和下钻的分析,外层进行了多种多样的接入方式。 赋能企业大数据能力 腾讯经过多年的建设,在存储、计算和调度平台上,都有自己的一些组件上的积累,构建企业大数据的能力需要经过三个部分,首先数据采集,然后是建模,以及分析。我们这里提供了两种方案,一种是可以经过可视化的操作,利用现有的途径降低门槛。或者这些平台也对外开放,企业可以协作或者自建。 企业大数据的建设,涉及到数据采集,算法运用模型和数据透视,以及数据资产管理等多个方面,我们可以直接使用大数据产品化的一个组件,比如腾讯移动分析和黄金眼自助报表等,也可以企业自建平台,利用私有云上用我们的大数据套件去完成整套的分析过程。 单一企业无法满足用户所有的诉求,未来将会有更多的协同合作。我们希望能以MTA为桥梁,对这些基础设施、商业平台和数据服务,加速企业在大数据布局上的能力,大家可以携手共建一个健康完善智能的数据生态,让企业能在大数据中获益,给用户提供更加优质的服务。 (编辑:草根网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


浙公网安备 33038102330469号