学习笔记,仅供参考,有错必纠
文章目录
一站式大数据平台DataWorks大数据开发平台-DataWorksDataWorks 的主要功能及作用DataWorks基本操作数据平台开发流程数据处理本地数据导入数据节点开发任务调度配置(略)DataWorks中的参数设置数据管理运维操作智能监控一站式大数据平台DataWorks
大数据开发平台-DataWorks
DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,它提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。
DataWorks 的主要功能及作用
DataWorks 的主要功能有:
全面托管调度数据转化与同步可视化开发监控警告
使用DataWorks,可以对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。
DataWorks提供全链路智能大数据及AI开发和治理服务。通常情况下DataWorks和其他产品结合在一起尤其是MaxCompute搭建数据分析系统。
DataWorks基本操作
DataWorks的使用从主账号(组织管理员)创建项目和子账号开始并赋权开始。不同角色的账号操作模块不同。
数据平台开发流程
数据产生:业务系统产生的结构化的数据,通常存储的数据库中,如MySQL、Oracle、RDS等类型。
数据收集与存储:利用MaxCompute的海量数据存储与处理能力来分析这些已有的数据,首先需要将不同业务系统的数据同步至MaxCompute中。DataWorks提供数据集成服务,可将多种数据源类型数据按照预设的调度周期同步到MaxCompute中。
数据分析与处理:对MaxCompute上的数据进行加工(MaxCompute SQL、MaxCompute MR)、分析与挖掘(数据分析、数据挖掘)等处理,从而发现其价值。
数据提取:分析与处理后的结果数据,需同步导出至其他(业务)系统,供业务人员使用其分析的价值。
数据展现和分享:最后可通过报表、地理信息系统等多种展现方式来展示与分享大数据分析、处理后的成果。
数据处理
本地数据导入
DataWorks支持以下两种操作:
将保存在本地的文本文件中的数据上传到工作空间的表中。
通过数据集成模块将业务数据从多个不同的数据源导入到工作空间。
本地文本文件上传的限制如下:
文件类型:仅支持.txt和.csv格式
文件大小:不超过10 M
操作对象:导入分区表时,分区不允许为中文
数据节点开发
DataWorks中,ODPS SQL节点、Shell节点、PyODPS节点等各类节点的开发过程大同小异,根本区别在于个不同类型节点的数据处理实现。
任务调度配置(略)
DataWorks中的参数设置
数据管理
数据管理为用户提供组织内全局数据视图、用户可以对组织内数据进行分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等操作。
具体功能以及管理模块权限如下图所示:
运维操作
运维中心仅对开发、运维、项目管理员角色的人员开放:
**开发:**进行单个工作流/节点测试、补数据、暂停、重跑任务,查看任务运行日志等操作,还可配置监控报警 ;
运维:经常处理任务异常,运维任务包括:单个工作流/节点测试、补数据、暂停、重跑任务等操作。同时,还可进行批量修改工作流/节点属性、批量杀任务及批量重跑、配置监控报警等干预性操作。
项目管理员:在运维中心模块中拥有与运维人员同等的操作权限。
智能监控
智能监控模块是DataWorks(数据工场)任务运行的监控及分析系统。根据监控规则和任务运行情况,智能监控决策是否报警、何时报警、如何报警以及给谁报警。智能监控会自动选择最合理的报警时间,报警方式以及报警对象。