编者按:时下,大数据产业的发展,已经渗透到传统行业的方方面面。比如交通行业、汽车行业、能源行业,等等。进入数字时代,我们主要做什么?我们该怎么认识大数据?该怎么运营数据?数据怎样才能变成有价值资产?大数据的未来会是什么样子?
图注:工信部中国信息通信研究院大数据与区块链业务主管、通信标准协会大数据技术标准推进委员会工作组长马鹏玮:大数据产业发展的问题和风向
在刚闭幕的2019首届全球能源新基础设施峰会上,工信部中国信息通信研究院大数据与区块链部业务主管、信标准协会大数据技术标准推进委员会工作组长马鹏玮作为特邀嘉宾出席,并发表题为《大数据产业发展的问题和风向》的主旨演讲,就大数据整个的产业现状和问题进行深入浅出的分析,并就大数据相关的谜题,带来了个人的所思所想。
据悉,本次峰会由日照市政府主办,日照市发改委、日照市工信局、日照市商务局、日照市东港区人民政府、日照中央活力区办公室、能链集团(车主邦/团油/快电)、山东数字能源交易中心、日照市财金投资集团承办,石油观察、石油观察智库协办。
马鹏玮分享主要观点如下:
1. 究竟该怎么认识大数据?可从三种层次看待:第一个层次是一种战略资源;第二个层次是一套数据处理工具;第三个层次,是一种思维理念。
2. 数据一定是从现实世界产生的,也就是我们的实体世界,产生之后去了哪里?去了我们的虚拟世界,也就是数字网络、数字设施里面,也就是现实到数字,从数字里面经过一串转化、衍生、挖掘之后,最后要回馈到现实领域。
3. 大数据产业当下的三个问题:一个是技术,一个是管理,一个是安全。
4. 分布式,以前从单一硬件向大集群、大数据中心的转换,这是未来基础设施的必然的方向。
5. 未来,我们如果说真的要把数据转化到资产,我们需要"两条腿"走路,第一个是管理手段,第二是技术手段,也就是我们管理要建立相应的数据管理模式才可以数据到资产化进行平稳的过渡。
6. 为了实现隐私保护,我们要做"两条腿",也就是管理和技术。
以下为马鹏玮演讲实录:(略有删改)
尊敬的各位领导、各位专家,大家上午好!
很荣幸今天能来到咱们非常隆重的盛会,首先我简单自我介绍一下,我是来自中国信息通信研究院云计算与大数据研究所。我个人研究大数据领域大概5-6年的时间,信通院作为第三方的相当于研究机构、研究组织。我们做行业的动态研究,做行业的标准制订,做企业的产品测试,做整个政策支撑,在5-6年工作时间里面,我个人觉得有一些不同的思考角度来看待这个行业、领域、技术的发展,所以我今天想给大家分享一些我工作中的一些思考,来帮助大家更好的认识大数据整个当前的产业现状和问题。
首先,我提出第一个问题,怎么来认识大数据?这其实是值得大家非常长时间的讨论,因为大数据从2017年被提到国家战略为止到现在有两年的时间,从技术的发展路线来看已经经过很长周期的迭代演进,所以我认为可以从三种层次看待,大数据究竟是什么东西。
我们看第一个层次是一种战略资源。数字时代,我们主要做什么?互联网、移动支付、电商等等,这些主要输入是什么?数据,我们认识到第一个层次,这是一种战略资源。认识到这个层次之后我们会做很多的事情。
第二个层次是一套数据处理工具。把数据留到整个存储设备以后就可以用它了吗?就可以真正产生价值了吗?没有,还浪费了存储资源,我们需要一套数据处理资源,我们一定要有一套数据处理的工具,而且是瞄准大数据的,如果没有专门的数据处理工具,未来的应用根本不可能长出来,我们针对它研发,比如说数据计算的工具、数据存储工具、数据应用工具、数据管理工具、数据服务工具、数据运营工具等等。
我们再看第三个层次,是一种思维理念。我们想数据从哪来?数据一定是从现实世界产生的,也就是我们的实体世界,产生之后去了哪里?去了我们的虚拟世界,也就是数字网络、数字设施里面,也就是现实到数字,从数字里面经过一串转化、衍生、挖掘之后,最后要回馈到现实领域,也就是先进去再出来的整个工作思路,所以最终目的一定是指导未来现实世界的发展,所以这是整个闭环,也就是用数据指导现实世界理论的一个思想方法论。这也是我们最近常说的一种"数字孪生、数字城市"的概念,这就是如何认识大数据的三个层次。
2019年大数据产业地图,其实可以明显的看出来针对刚刚三个层次有很多的针对性企业在做相关的事情,比如我们总结上游数据、中游产品、下游服务。上游数据是做数据的收集、流通,比如帮助你采集数据,帮助你把数据从一个单位流转到另外一个单位,这是上游数据干的事情。
中层产品做什么?专门做数据处理、数据存储、数据运营的一套工具以及服务,比如阿里、华为提供了很多的大数据平台给到各地的地方政府、国企单位,告诉他们用数据产生之后就可以把数据进行转化、抽取、存储。
下游服务,针对某个具体领域把数据产生真正的价值,也就是第三个理念,比如金融的风控,有了数据、工具,加上行业属性之后就可以判断出怎么做,也就是形成三个层次,每个领域都有非常多的公司做相关的事情。
一个大数据产业链的思维,其实是讲的如何思考大数据产业链,我们其实把它可以类比成石油产业链,究竟是干什么?我们建机构、建平台、数据加工与应用,这是整个流程化的东西,比如我们组建队伍,做石油的勘探,这样其实看究竟哪里有石油才可以干这个事情,还有就是钻井,接入数据,建设油库和炼化厂,然后炼制成产品,最后定价营销,这就是数据运营。
接下来三个点看一下大数据当下的问题:一个是技术,一个是管理,一个是安全。
首先讲一下技术,其实大数据发展非常早,从2003年就开始已经有相关的公司做事情了,标志性事情就是谷歌发布了DFS论文,以前的大数据为什么发展不起来?是因为我们根本存不下,我们没有相应的技术存下,连存下都做不到怎么发展?2003年发展谷歌发布了DFS论文,2004年谷歌发布了MapReduce论文,存下来以后没有用,2004年开始终于有了一项技术,可以把它算出来,可以把里面的价值进行挖掘,我们没有技术难点之后,后续的应用才会快速的发展,一直到2014年、2018年,以前的批处理、流处理慢慢成为最新的趋势。
未来,大数据技术层面有很多关注的动向,比如开源。我们很多的大数据产品经过我们的观察,国内的一些企业都是借鉴了国外的一些企业的思想,这不是不对,开源从上世纪末期开始互联网领域非常时兴的做法,做法是把产品的一部分开放出去,让整个社会的智力不断的填充,而不是依靠公司自己的人力、智囊把这个产品完善,而是依靠整个社会的智囊力量发展的非常快。未来,中国也一定要重视整个开源的发展,包括开源模式的创新。
分布式,以前从单一硬件向大集群、大数据中心的转换,这是未来基础设施的必然的方向。比如数据仓储OLAP/OLTP的融合,现在出现新的融合技术,不需要建两套系统,购买两次成本,现在因为实时的技术发展用一套系统解决两个问题。同时,模块化、运维自动化、容器化、专用硬件等,这是未来可能关注的技术动向,这是技术层面,我们要思考的问题。
第二个问题,管理层面,数据接入进来之后,要怎么去用?有一句话是过去三年我只知道数据是资产,我只知道资产,真正变成资产了吗?为你产生价值了吗?我们要看两个关键特征,一个是为企业带来经济效益,无论是节省成本、增加额外收入也好都是增加经济效益,第二是可计量成本收益,比如存了1T数据值多少钱?以后能带来多少钱?这些其实我们没有量化的标准,都没有一个计算的模式,所以其实这两个问题我们都没有解决,未来,我们如果说真的要把数据转化到资产,我们需要两条腿走路,第一个是管理手段,第二是技术手段,也就是我们管理要建立相应的数据管理模式才可以数据到资产化进行平稳的过渡。
第一是盘点数据;首先起码要知道有什么数据,然后还有什么细分的数据类别,这是第一步,也就是自来水服务里面的水源和水质了解。
第二是质量提升;因为以前没有重视这块工作,所以很多的数据是不能用的,出现脏数据、假数据、坏数据,所以第二步是质量提升,从源头开始,之后要进行污水处理。
第三是打通壁垒;以前我们说是数据孤岛,各单位之间的数据是互相不流通的,怎么能让他们交叉产生价值呢?也就是建立管道打通壁垒。
第四是提升数据的可得性;要给每一个终端用户建设数据可用的模式,如果没有这个模式,根本达不到可用的范围。
第五是保障安全;自来水工程或者是下水道工程随着时间的推移一定会出现很多的污垢和问题,所以要定期的检查管道还有没有好。
第六是数据运营。当所有的工作做完之后,我们可以做最后的事情,给数据进行定价,这块数据值多少钱,用人民币或者是其他的法币模式衡量,有了这个定价之后才可以真正的变为一种资产可以进行交易和流通等模式。
第三点是合规,也就是安全,数据安全最近越来越重要。近两年很多的互联网案件当中都有这样的体现,国家安全、用户隐私、便利性其实是三者不可兼容的关系。所以,为了实现隐私保护,我们要做"两条腿",也就是管理和技术。欧盟出台了一个GDPR的整套流程,告诉你什么可用什么不可用,国内有大量的机构做大量的研究。我们除了通过规章制度做这个事情之外,还可以通过技术,比如群签名、环签名、差分隐私、区块链、同态加密等,比如比尔盖茨和王健林互相比谁有钱,互相补知道有多少钱的情况下,通过这个技术可以比出来,我不知道数据长什么样,但是可以因为数据可以为业务做服务,目前我们院进行相关的研究,也得到了一些成果,这是我们认为的两条腿走路的方式。
大数据产品能力评测。从上图可以看到,横向是国内做这些产品的企业大概是什么规模,如有华为、阿里、腾讯、百度。纵坐标看产品体系的丰富度。如知识图谱、用户行为分析、商务智能等,纵坐标越长,代表国内产品体系越繁荣,红色点是代表这个企业在这个基础方向上完成的测试,企业的红点越多,代表这个企业的综合产品能力越强,也就是产品体系越丰富。
我的演讲就到这里,谢谢大家!