你想在2022年成为大数据工程技术人员的专业是什么
来源:http://www.gf-vue-admin.com
发布时间:2023-05-03 08:44:01
点击数:0
我想在2022年成为大数据工程的技术人员。数据科学与大数据技术专业,以统计学、数学、计算机为三大学问领域。
大数据工程技术人员的工作内容
大数据工程技术人员在数据流的何处工作,决定了工作的责任。从数据的上游到下游,您可以使用工具组件(Spark、Flume、Kafka等)或代码(Java、Scala等)实现数据收集-数据清洗-数据保存-数据分析统计-数据可视化等功能。
1、数据收集:
数据收集是指从传感器、智能设备、企业在线系统、企业离线系统、社交网络、互联网平台等获取数据的过程。数据包括RFID数据、传感器数据、用户行为数据、社交网络和移动互联网数据,以及结构化、半结构化和非结构化的海量数据。
2、数据清洗:
某些字段可能具有异常的取值,即脏数据。为了保证数据下游的数据分析统计,可以采取高质量的数据,需要对这些记录进行筛选或字段数据回填;一些日志中的字段信息可能是多余的,下游不需要使用这些字段进行分析,但为了节省存储开销,需要删除这些多余的字段信息;。某些日志中的字段信息可能包含用户敏感的信息,需要进行去敏感处理。
3、数据保存:
清洗后的数据可以落入数据仓库,在下游进行离线分析。如果下游的数据分析统计要求实时性,请将记录放入kafka。
4、数据分析统计:
数据分析是数据流的下游,它消耗来自上游的数据。简单的报告在sql中用kylin和hive,复杂的报告在代码级别用Spark和Storm进行统计分析。
5、数据可视化。
将上游数据分析后合计的数据在数据表或图表等中视觉显示。
利用大数据
大数据的活用范围很广,选择范围很广。
例如:大数据开发工程师、操作工程师、大数据架构师、工程师、BI工程师、数据挖掘工程师、ETL开发工程师、Spark开发工程师等。