大数据时代对我们驾驭数据的能力提出了新挑战,也为获得更全面、睿智的洞察力提供了空间和潜力。大数据领域已经涌现出了大量新技术,它们成为大数据采集、存储、处理和展现的有力武器。随着大数据等新兴技术的发展和应用。我国“十四五”规划提出的碳达峰碳中和、数字化转型、数字经济等一系列战略目标将获得更大的技术支撑。
几年前,一部被中国网友戏称为“白宫甄嬛传”的美国悬疑剧《纸牌屋》火遍网络,其制作方是一家类似于优酷的美国在线视频播放平台Netflix。可以说,该剧每一步都是由平台所拥有的大数据引导的——从数千万观众的客观喜好大数据中分析出“拍什么、谁来拍、谁来演、怎样播、何时播”等一切有用信息,并依此一步步制作出热播剧集。《纸牌屋》的成功让全世界的文化产业界意识到了大数据的魔力,也让其他产业纷纷瞄准大数据这座隐形的金矿。
2020年的新冠肺炎疫情爆发及其后的疫情反复让我国各地民众亲身体验了“行程码+健康码”等大数据的价值和威力。在疫情防控常态化的形势下,大数据充当了健康出行的保护神,也为科学防控、复工复产、民生保障等提供了有力支撑。
大数据的定义多而杂,不同企业、行业等都从自身角度来定义大数据,意思都差不多,就一句话,大数据由巨型数据集组成,这些数据集规模超出了常用软件在可接受时间下的收集、管理、处理和使用能力。
虽然大数据的定义没有统一,但是国际知名咨询公司IDC定义的大数据四个特征却受到业界的广泛接受,也就是4V特征——数据量大(Volume)、数据种类多(Vari⁃ety)、数据价值密度低(Value)以及数据产生和处理速度快(Velocity)。
第一,数据量大(Volume)。传感器、物联网、工业互联网、车联网、手机、平板电脑等等,无一不是数据来源或者承载的方式。当今的数字时代,人们日常生活(微信、QQ、上网搜索与购物等)都在产生着数量庞大的数据。
大数据不再以GB或TB为单位来衡量,而是以PB(1000个T)、EB(100万个T)或ZB(10亿个T)为计量单位,从TB跃升到PB、EB乃至ZB级别。顾名思义,这就是大数据的首要特征。
第二,数据种类多(Variety)。大数据不仅体现在量的急剧增长,数据类型亦是多样,可分为结构化、半结构化和非结构化数据。结构化数据存储在多年来一直主导着IT应用的关系型数据库中;半结构化数据包括电子邮件、文字处理文件以及大量的网络新闻等,以内容为基础,这也是谷歌和百度存在的理由;而非结构化数据随着社交网络、移动计算和传感器等新技术应用不断产生,广泛存在于社交网络、物联网、电子商务之中。
有报告称,全世界结构化数据和非结构化数据的增长率分别是32%、63%,网络日志、音视频、图片、地理位置信息等非结构化数据量占比达到80%左右,并在逐步提升。然而,产生人类智慧的大数据往往就是这些非结构化数据。
第三,数据价值密度低(Value)。大数据的重点不在于其数据量的增长,而是在信息爆炸时代对数据价值的再挖掘,如何挖掘出大数据的有效信息,才是至关重要。价值密度的高低与数据总量的大小成反比。虽然价值密度低是日益凸显的一个大数据特性,但是对大数据进行研究、分析挖掘仍然是具有深刻意义的,大数据的价值依然是不可估量的。毕竟,价值是推动一切技术(包括大数据技术)研究和发展的内生决定性动力。
第四,数据产生和处理速度快(Veloci⁃ty)。美国互联网数据中心指出,企业数据正在以55%的速度逐年增长,互联网数据每年将增长50%,每两年便将翻一番。IBM研究表明,整个人类文明所获得的全部数据中,90%是过去两年内产生的。要求数据处理速度快也是大数据区别于传统数据挖掘技术的本质特征。有学者提出了与之相关的“一秒定律”,意思就是在这一秒有用的数据,下一秒可能就失效。数据价值除了与数据规模相关,还与数据处理速度成正比关系,也就是,数据处理速度越快、越及时,其发挥的效能就越大、价值越大。
大数据技术是IT领域新一代的技术与架构,是从各种类型的数据中快速获得有价值信息的技术。大数据本质也是数据,其关键技术依然不外乎这四大项:大数据采集和预处理;大数据存储与管理;大数据分析和挖掘;大数据展现和应用(大数据检索、大数据可视化、大数据安全等)。
大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是得拥有大量的数据。
采集是大数据价值挖掘最重要的一环,一般通过传感器、通信网络、智能识别系统及软硬件资源接入系统,实现对各种类型海量数据的智能化识别、定位、跟踪、接入、传输、信号转换等。为了快速分析处理,大数据预处理技术要对多种类型的数据进行抽取、清洗、转换等操作,将这些复杂的数据转化为有效的、单一的或者便于处理的数据类型。
就算是大数据服务企业也很难就“哪些数据未来将成为资产”这个问题给出确切的答案。但可以肯定的是,谁掌握了足够的数据,谁就有可能掌握未来,现在的数据采集就是将来的流动资产积累。
数据有多种分类方法,有结构化、半结构化、非结构化;也有元数据、主数据、业务数据;还可以分为GIS、视频、文本、语音、业务交易类各种数据。传统的关系型数据库已经无法满足数据多样性的存储要求。除了关系型数据库,还有两种存储类型,一种是以HDFS为代表的可以直接应用于非结构化文件存储的分布式存储系统,另一种是NoSQL数据库,可以存储半结构化和非结构化数据。大数据存储与管理就是要用这些存储技术把采集到的数据存储起来,并进行管理和调用。
在一般的大数据存储层,关系型数据库、NoSQL数据库和分布式存储系统三种存储方式都可能存在,业务应用根据实际的情况选择不同的存储模式。为了提高业务的存储和读取便捷性,存储层可能封装成为一套统一访问的数据服务(DataasaSer⁃vice,DaaS)。DaaS可以实现业务应用和存储基础设施的彻底解耦,用户并不需要关心底层存储细节,只关心数据的存取。
大数据分析和挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、有用的信息和知识的过程。大数据分析和挖掘涉及的技术方法很多:根据挖掘任务可分为分类或预测模型发现、关联规则发现、依赖关系或依赖模型发现、异常和趋势发现等;根据挖掘方法可分为机器学习、统计方法、神经网络等。其中,机器学习又可细分为归纳学习、遗传算法等;统计方法可细分为回归分析、聚类分析、探索性分析等;神经网络可细分为前馈网络、反馈网络等。
面对不同的分析或预测需求,所需要的分析挖掘算法和模型是完全不同的。上面提到的各种技术方法只是一个处理问题的思路,面对真正的应用场景时,都得按需求来调整这些算法和模型。
大数据的使用对象远远不只是程序员和专业工程师,如何将大数据技术的分析成果展现给普通用户或者公司决策者,这就要看数据展现的可视化技术了,它是目前解释大数据最有效的手段之一。在数据可视化中,数据结果以简单形象的可视化、图形化、智能化的形式呈现给用户供其分析使用。常见的大数据可视化技术有标签云、历史流、空间信息流等。
我国的大数据应用广泛存在于商业智能、政府决策和公共服务等重点领域,疫情防控、反电信、智能交通、环境监测等日常生活场景都有大数据的功劳。
大数据时代对我们驾驭数据的能力提出了新挑战,也为获得更全面、睿智的洞察力提供了空间和潜力。大数据领域已经涌现出了大量新技术,它们成为大数据采集、存储、处理和展现的有力武器。随着大数据等新兴技术的发展和应用,我国“十四五”规划提出的碳达峰碳中和、数字化转型、数字经济等一系列战略目标将获得更大的技术支撑。