通过大数据分析企业生产、管理,明确了企业环保、安全生产管理的方向,找出应对措施,使企业的安全环保风险防控由定性、感觉、经验向定量化、本质化、科学化转变。
一、基本概念
大数据:大数据是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集不能用传统的数据库进行转存、管理和处理,是需要新处理模式才能具有更强大的决策力、洞察发现力和流程优化能力的海量、高增差率和多样化的信息资产。
借用Tableau的目标来说明大数据的作用如下:
● 使数据能被更好地理解
● 与其他工具一道,使企业能够把握不断增长的数据流
● 促进数据发现
● 帮助人们进行更好地决策
大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。
注意:大数据虽然具有5个V的特征,但在实际中一般认为数据处理以速度快,真实有价值为目的。至于数据量大、类型多的特点,在不影响真实性的前提下,尽可能节约处理系统资源,简化数据类型。
二、基本工作流程
1. 大数据处理之一:数据采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。
2. 大数据处理之二:数据导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,另外,在导入数据的基础上做一些简单的清洗和预处理工作。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别,为此,有些用户会在导入时采用对数据进行流式计算,不但解决了数据量大的问题,还为以后的部分业务的实时计算需求提供基础。
3. 大数据处理之三:数据统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
4. 大数据处理之四:数据挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,满足高级别数据分析的需求。
该过程的特点和挑战主要是用于挖掘的算法很复杂,且计算涉及的数据量和计算量都很大。目前,常用数据挖掘算法以单线程为主,解决实时/近实时需求的数据挖掘算法常与云平台相结合,通过设计合理的并行计算实现应用的高效解决。
5. 大数据处理之四:数据展现
数据展现即可视化(Visualization),是利用计算机图形学和图像处理技术,借助于人眼快速的视觉感知和人脑的智能认知能力,将数据基本信息、分析及挖掘结果转换成图形或图像在屏幕上显示出来,可以起到清晰有效地传达、沟通并辅助数据分析的作用。目的是为了数据分析更加便捷、知识获取更加方便。
大数据可视化是大数据落地的最后一公里,目前,主要的挑战是数据可视化的交互技术,主要包括自动化的过滤技术、概览+细节技术、多视图关联协调技术等。通过合理的数据可视化展示与分析,转换在具体行业应用中的分析决策能力,才能把大数据应用于具体业务场景的预测研判。
大数据处理
汇数据