五步帮你实现用户画像的数据加工

  • 时间:
  • 浏览:0

原始数据能非要通过有有哪些字段顶端去获得有哪些样的信息?没有 日志信息顶端,暗含用户来访问网站已经 平台IP地址、用户登录名,有刚刚通过某些字段能非要分析设备信息,比如说亲们能非要从用户真实的数据顶端想看 IP地址,包括有哪些时间去访问,访问了亲们哪没有 页面,使用了有哪些样的浏览器,浏览器内容是有哪些,有的直接用手机端等等,亲们能非要通过有有哪些信息去发现龙 更多的信息,比如说能非要通过IP地址知道用户长居住在哪个城市来访问亲们网站,通过user_agent字段能非要获取设备信息,已经 亲们去访问终端某些版本,设置能非要通过有有哪些数据进行没有 特征化,有刚刚把数据抽象处里。



企业最终的数据往往都隐藏在日志眼前 ,已经 从日志眼前 发现龙 有价值的信息,勾画出平台或网站的用户画像对精准化运营有着重要的帮助。阿里云技术专家祎休带来阿里在处里日志、构建数仓上的最佳实践分享。主要从数仓开发刚刚开始了了谈起,重点讲解了数据加工用户画像的五大步骤,最后进行了演示解析。

直播视频回顾请点击

大数据仓库特殊引擎提供亲们一站式的PB级大数据仓库处里方案,没有 ,亲们如何基于MaxCompute去构建仓库,如何去帮数据进行清洗加工,有刚刚去发现龙 有价值的信息?MaxCompute2.0推出了某些新功能,比如说非特征化数据的处里, MaxCompute支持非特征化数据存储在OSS上,已经 的最好的办法是通过数据集成工具已经 我本人去写某些任务,将有有哪些数据周期性已经 一次性同步到MaxCompute上来,既有开发成本,又有运维成本,在2.0顶端亲们支持直接创建实物表的最好的办法连接数据源,直接对数据进行处里。

做数仓要进行数仓分层,底层是ODS层,通常请况下将原始的数据先挂接到MaxCompute上来,对某些非特征化数据进行一定的特征化,包括某些数据的规范化, DWD层有亲们的某些明细数据,亲们要在有有哪些数据之间才能产生某些价值,做某些数据洁净车间工作、数据交换工作,将数据进行打包,再向上亲们要根据数据去做某些公共指标加工和应用指标加工,比如PVUV的访问、设备的访问等等。



通过已有的有有哪些数据,再去做用户画像已经 能非要想看 ,深色是已有数据,能非要去刻画出用户在亲们网站的浏览性,比如说整个网站的PVUV等等,通常访问哪个页面更高,有刚刚在有哪些已经 去访问。

在操作过程中,亲们尽量去减少Select*操作,已经 你的计算成本比较高,在2.0顶端亲们已经 打开了全表推出,用户去进行没有 选表,上个月去拜访有哪些客户,通常请况下每个月在平台上消费3千多,在所有查看数据的已经 ,没有 加分区的全表扫的计算成本很高,很多很多建议亲们在去使用的过程中多加没有 分区排检,能非要减少亲们的计算成本。

亲们强调每没有 节点顶端最多输出一张表,当你有多张表的已经 ,比如说任务失败了,已经 是已经 其中某一根绳子 处里的逻辑失败了,当你去重跑的已经 ,已经 整个任务都是重新去跑,另外,你的输出表表格一定要跟你的节点名称一样,没有 能非要快速从你的输出运维上,快速找到这张表的数据在哪个节点上没有 产生,是已经 哪某些任务失败了。





用户信息表可是一张特征化的二维表,通常会暗含某些用户的信息、性别、年龄、星座等等。

本文由云栖志愿小组毛鹤挂接,编辑百见





以下是精彩视频内容挂接:

亲们都知道,大数据顶端已经 会有预测的insert overwrite,比如说测试数据任务已经 会加数据库,通常请况下会造成数据重复和数据产生,已经 你去使用灰色的overwrite,已经 是每一次的任务重跑或失败已经 ,帮我去手工再把这一 任务调动起来,会根据你的分区表数据批量进行。没有 最多的好处是每一张表数据的产生,比如说代码加某些注释,比如说整个SQL逻辑是处在有哪些样的,一定要在前面去进行相关的注释。



在公共云上,亲们有某些公共云的服务,还有某些私有化服务,比如说安全行业、金融行业,通常都都要将大数据部署稳定,亲们的项目创建的没有 已经 没有 如何区分?通常请况下会有开发与生成,开发就交给数据开发团队去把数据任务开发好、调试好,有刚刚发布到生产环境上去,生产环境上更新某些配置的调度信息,比如说按天、周、月等等去运维,对他的数据开发流程要求很糙严,通常请况下有更多的事情处在,包的开发、测试,还有某些预发环境与生产,整个代码环境都是去完正的进行运维,你去创建的已经 ,能非要在项目配置中去调试,比如说在开发项目顶端,通常请况是不打开调度参数,可是说你创建的客户提交已经 ,我不要 每天自动去调度,当你把任务发布到生产的项目顶端,根据你的配置更新每天去同步。





调度参数方面,比如说将数据如何去写到没有 最新的分区,比如说分公司24号对应的分区顶端,25是新的某些事情,如何去起到新对应25号的分区顶端去,亲们提供没有 的参数,当你配置没有 的系统参数已经 ,每次在亲们调度系统的已经 会自动进行切换,某些日期不都要你每次手动去创建分区。



在创建表的已经 为什么我么我在么在更全面?亲们发现,所有工作流任务、节点任务,包括亲们的表,命名着实都是没有 规则,已经 你的数据量很大,通常请况下暗含数据库的仓库分层、业务域、数据域和数据分析时间,这张表属于DW层,这张表刻划了没有 用户的基本信息,这就表示这张表的数据是一天更新一次的,通过没有 一张表能非要明确知道刻划有哪些样的业务价值,让依赖于这张表的下游同学能非要快速认识这张表的数据分析时间,描述有哪些样的信息。

另外,亲们的IP去转地域信息,在公共云版本顶端函数是没有 对外开放的,很多很多都要去处里自定义的函数,但有某些函数非要满足配置,比如说大写转成小写,将IP转成region如何去做,通常请况下亲们会去写某些Java去做没有 的事情。将有有哪些函数、资源包注册到MaxCompute上来,通过堆头注册上来,有刚刚去对函数进行解析。



通常请况下会以没有 没有 的链路图去做用户画像,能非要想看 ,用户画像通常请况下会暗含没有 次责,动态数据和静态数据。动态数据包括行为数据、页面行为、交易数据,比如说你的用户点击浏览数据等都能非要上放动态的数据顶端去,比如说在亲们的网站整个的访问深度1,是都是在页面上形成了时长有十多少 ,在某一整个链路上注册开通再到数据开发的跳失率是十多少 等等;静态数据更多的是关于人的某些属性,比如说姓名、星座、年龄、长居地以及通常使用有哪些样的设备去访问亲们的网站等等,很多很多很多很多某些终端设备的偏好信息。





接下来进入数据开发阶段,数据开发阶段要去实现如图逻辑,左边ods_log_info_d这张表存着亲们的日志信息,亲们要去公开没有 特征,将用户IP地址解析出来没有 没有 地域信息。右边ods_log_info_d用户的基本信息已经 是特征化了,这没有 数据通过UID进行关联,JOIN成一张大表,原封未动的将亲们的数据挂接到MaxCompute上来,有刚刚在DW层顶端做更多的关联,关联出一张用户去访问亲们广泛基本信息的宽表,有刚刚基于这一 宽表之上,亲们有没有 IP地址,要知道这一 用户PV的具体数据,比如求平均值已经 求在整个网站访问的最佳深度1等。

通常请况下,亲们先去创建所谓的三张表,每张表简单去适应如何分层,比方说第一层ODS层,第二层是DW层,从特征顶端才能非要看出来,每没有 节点都是相当规则,当这张数据要同步到MaxCompute上,肯定是要建没有 目标表,同样有一张表能非要存储这张数据。有刚刚创建工作流节点,接着创建自定义UDF,最后配置SQL节点和测试运行。

在数仓上的开发规范如图,从日志数据、用户基本信息数据等顶端去发现龙 价值信息,有刚刚涉及到数据开发人员做某些ETL的设计,包括亲们的某些开发编码、设置,将任务提交到线上,在线上亲们会遇到过去的某些数据运维工作,有有哪些运维工作是都是能非要在Dataworks顶端去完成?下面亲们一起来了解操作细节。