北大信息化与信息管理研究中心秘书长、北大CIO班教务办公室主任姚乐博士主持了以“大数据的应用场景与策略”、“大数据应用的未来之路”为议题的论坛高峰对话。中国智能交通系统IT副总监王磊先生、中信健康投资管理信息总监刘晓军先生、恒生电子股份CIO金豪义先生和国家电力监管委员会信息中心副主任胡红升先生参与对话环节,与大家分享了在各自行业对大数据的理解,并就开放数据、大数据具体技术应用等问题回答了在场人员的提问,以下为演讲实录:
主持人:下面的对话由我来主持,首先有请对话嘉宾上台,他们是:国家电力监管委员会信息中心副主任胡红升先生;中国智能交通系统(控股)有限公司IT副总监王磊先生;恒生电子股份有限公司CIO金豪义先生;中信健康投资管理有限公司信息总监刘晓军先生。欢迎各位嘉宾台上就坐!
今天的对话环节是开放、自由畅谈的,形式也比较活跃。不光台上嘉宾讲,听众有问题也可以提问。今天对话议题是两个:大数据应用场景与策略和大数据应用的未来之路。首先请台上的嘉宾做个自我介绍,再谈一下各自对这两个议题的观点。
王磊:很荣幸来到这里,衣食住行必取其一,君子爱财取之有“道”。我是一名交通人,来自中国智能交通系统(控股)有限公司。我们是国内首屈一指的整体解决方案及专业解决方案提供商。交通行业大数据产生于每时每刻。现在路上跑的车辆,大家也可以看到路上有固定的检测仪器,所有的公交系统车辆以及出租车都是有GPS的,这些是动态的采集信息点,那么这些数据产生以后汇集到数据中心在北京市交委将会分析处理提供实时的路况信息,大家的Android系统、苹果系统都有这些实时路况的服务,比如百度地图等。这些服务只是一种雏形,今后会大有可为。待会儿咱们详细交流!
刘晓军:大家好,我来自中信健康投资管理有限公司,主要业务范围是医疗健康行业进行投资管理、经营运作。从大数据角度来说,对于医疗行业,其实在很久以前就不断在产生大数据。现在随着科技进步,数据量变大,电子化进程越来越化,医疗行业的数据会有两个方面的主要大数据:
第一个是大家比较熟悉的医疗影像。以CT为例,CT片子64排CT已经非常普及了,128、256排的有很多医院在使用。这是怎样的数据概念呢?大家可以想象一下,例如做头部CT是128排的,相当于把你的脑袋切成128个薄片,每一片都是一张黑色的胶片。这一层的数据大概是在10多M左右,128张叠起来才能还原出人体病灶情况供医生诊断参考,这个数据量是相当大的。一些大的先进医院每年都需要购买存储设备,这是一种应用场景。
第二,现在医学对于人体研究西医是基于“尸体的医学”,也就是说在死去人的身上做研究,在活人身上不可能。那么我们如何了解自己的健康水平呢?就要监测身体各种数据,各种生命体征数据形式是非常不一样的,例如心跳、血压、呼吸、血糖等等,你对自己身体健康比较了解大概需要监测100多项数据,这也是一个大数据产生的数据源。
对于这两个主要的数据源的使用价值,我想它在于人对于自身的认识是在整个自然界里面往往是最差、最薄弱的,对自身身体机能认知非常少,通过对这些数据监测、研究,可以使人更加健康,规避一些不健康的生活方式,提早预知可能罹患的各种疾病以及它的科学合理治疗方法,我想这是医疗行业大数据最有价值的一块。谢谢大家!
金豪义:大家好!我来自恒生电子股份有限公司,恒生电子是为中国金融行业,包括证券、基金、银行提供信息化整体方案的,我们是全国金融IT100强。
刚才听了很多大数据的介绍。我举个例子,证券交易行情信息是典型的大数据,这个数据量是什么概念呢?一天有几个G的量。那么长年累月积累下来是海量的数据库,而且里面没有垃圾,因为都是真实交易数据结果,还有里面的峰值处理能力也是非常大的。历史上成交峰值最高有两万笔/秒,这个有点像流媒体的概念。这些数据怎么用起来呢?今年证监会郭主席讲到要金融创新,很重要的概念就是量化交易概念会拿起来。一般我们讲到股票投资或者基金投资,大家都知道索罗斯、巴菲特这些人,因为他们是价值投资的典型代表人物。其实后面有一个人不太显山露水叫西蒙斯,从1986年,文艺复兴基金成立以来到2009年,每年复合增长率都在35%以上,横比超过巴菲特基金。美国证券市场73%的交易通过量化交易实现,量化交易怎么实现呢?基于历史大数据的处理分析基础上准确捕获价值洼地,通过快速处理,把这个洼地发现,然后实施交易,可以叫做对冲或者风险转换。这种情况是接下来我国金融行业一个发展的方向,所以我觉得大数据在这方面会有比较长远的应用和比较快的发展。谢谢大家!
胡红升:大家好,其实我们政府部门,特别是我们电监会这块数据可能不是那么多。但是我们行业数据是很多的。电是无时不在的,24小时实时生产、实时管理,24小时都是不能间断的,所以生产、调度、管理方面,数据会连续不断的产生,量是非常大的。今天有机会跟大家交流大数据这个新概念,我感到非常荣幸。我看到国网信通的刘总也在下面,我觉得他谈这个问题最合适,他才是专家。谢谢大家!
主持人:刚才各位嘉宾都谈了一下自己所属行业大数据应用的问题。我们这四位嘉宾蛮具有代表性的,行业分别是交通、医疗、金融、电力。这些行业里面,有的是已经有很大数据量的应用了,特别是电力、金融的,有的是在急切盼望大数据产生到应用,就像医疗、交通。过去咱们还没有有效地采集起来,随着物联网下一步的发展,特别是各种各样传感器,例如对自然界以及我们身体信息的采集等。每个企业也是随着信息化不断推进,除了一些结构化数据要处理和应用,还会有大量非结构数据可以处理和应用,例如网络用户访问行为的数据,物联网通过传感器产生的数据,我想数据量会越来越大。这是大数据一个主要的真谛所在,它可能更多的是针对我们还没有去处理、应用到的非结构化的数据。
刚才四位嘉宾也说了一下相关的行业现状。今天台下还有很多专家,今天这是一个互动式的交流。所以台下的嘉宾也可以谈一下自己的观点,也可以向台上嘉宾提问。
现场:胡主任很谦虚,他是这方面的专家,也是信息安全方面的专家。我想他肯定对于网络安全、云安全、大数据安全有很多想法,我就简单说一下吧。北大CIO组织经常给我发邮件,我先表示感谢。但是之前我没有每次来,的确是时间不足。
我就介绍两个内容,谈谈自己的感想。我们2009年开始做物联网的应用,在北京、上海各个地方做,当时数据量非常大、非常多,应用的数据也比较多。我们电子系统实时的应用,包括怎么样处理、提炼都是我们非常关注的。
另外一个事,从去年4月份开始我们在甘肃20个企业做云计算应用方面的工作,中电联也刚刚做了鉴定。20个高耗能企业5分钟一个点,每天是3、4G数据,这个数据是相当客观的。这个云计算的应用为他们提高用电效率8.6%,一般是3%到5%。这些数据经过合理分析、合理应用,可以提高企业应用,感觉很好,他们也非常认可这个应用。
这里我提一个观点,今天所有领导、专家讲的大数据,都讲的非常好也非常实际。但是我们也有一个大数据应用实验室,我的定义是:大数据是一个大数据时代,不是说大数据就是多。大部分讲的都是“多”,我是希望数据更少。讲的“大数据时代”说明我们工业和信息化结合进入了数据反应工业先进性的时代,这是一个大的数据时代,并不说数据多就是好事。反而我挺赞成“第四个V”的提议,就是数据要精炼的提炼,数据要更有用,就是说我们在大数据时代合理使用精炼的数据,这是我的想法。虽然电网系统数据很多,但是我们要将它用好,产生更多价值。如果都是在3%到5%的话,那么节能减排就相当可观了。谢谢!
主持人:谢谢刘总的分享!刘总给我们分享了一个非常好的案例,就是国家电网在大数据的应用方面所取得的成绩,他也谈了自己很好的观点。大数据不一定非得需要“大”,关键是它的价值挖掘。确实是这样,大数据不一定非得要把数据做到某种级别就是大。首先数据不断增长这是我们面对的现实,只要你开展电子商务、通过互联网采集数据,这个量必然在增长。结构化的、非结构化的等等各种各样的。这些确实有很多东西可以挖掘,这个价值确实是有待挖掘。其实最终核心还是要挖掘它的价值。还有没有哪位嘉宾要分享的?
现场:我想问一下第一位嘉宾。我也是做智能交通行业的,广州亚运会的时候也有大量数据,比如说视频、监控数据、车载导航数据等等,这些数据量非常庞大。以前我们采用数据库,像负载均衡等方面,也基本上可以满足需求,但是随着未来数据量的扩大,大数据方面的应用也是我们将来的应用,我想问一下,中交方面有没有类似的经验?是什么推动你们做这个应用?有没有一些好的效果体现出来?谢谢!
王磊:关于智能交通和大数据的关系以及它所产生的价值,目前来讲,其实企业本身这方面还是刚刚起步,但是在业内基本应用模式是这样的,无论是城市的可变情报板、高速公路诱导系统都来源于获得信息之后的信息处理。这些信息怎么获得呢?比如说路测、固化车辆检测系统,可以检测车辆车型,还有气象、能见度等等方面。这些数据分布之广、量之大也是有目共睹的,原来只为道路管理服务,我说的实时路况只是刚刚起步,开始逐渐向公共服务转变。
我们都知道云计算,在交通领域也把数据即服务的理念给提出了,交通出行数据也是一种服务。我们每天都要出行,从甲地到乙地,到底什么方式、什么交通工具、什么路线才是最佳的?这些东西我们每个人都需要获得结果。那么这个结果怎么产生的呢?是基于历史各条路段、各种出行方式的积累。包括公交卡上下车刷卡,高速路进出口IC卡的刷卡,这些也是在积累一定的数据,积累到一定时候进行有效分析,为后行者提供有效的交通出行指导信息,这就是有效的数据。
现在做的比较好的是基于北航计算机学院所做的“行云工程”。其实技术,无论哪家企业学院走到前沿,那我们就有义务给它推广出去,让每个人得到受益。谢谢!
主持人:还有哪位要分享的?
现场:各位领导大家好,我是来自IBM软件园的,我们有两款产品,一个是负责开源软件而做的Hadoop,还有一个是基于流计算应用软件。过去这段时间我们有很多跟大数据相关的客户聊,大数据非常热门,用户很感兴趣,但是谈到落地点的时候有一些难点。我的感受是,在业务支撑点,寻找这个点的过程并不是非常清晰,所以希望可以听到在座领导专家们的心得分享。谢谢!
金豪义:我们感觉之前没有大数据概念的时候,九几年证券业已经开始了,很多数据已经在积攒了,当时实时处理能力跟不上的时候把上交所的数据做六秒的切片,在2006年之前是这么分析数据的。但是2006年之后是每三秒做一次,大数据应用落地可能真的是需要一些契机。刚才我介绍的金融行业,有一个契机就是今年要搞金融创新,包括场外交易场内化等等,这样的主题确定之后对相关存储需求、数据量推送需求、数据处理需求会马上要求起来。
我们行情推送是三个毫秒级别延迟。比如说一个快速交易处理,最快的是在0.3秒可以完成一笔数据的处理,数据间隔最快的是3秒,就是说数据本身它的断层是落后于数据推送能力和处理能力的。本来在1秒之内完成套利交易,这个谁最快实现就是谁获利。其实机会很多,但稍纵即逝。我想这个要求会提起来,所以要有相关的东西来推动,至少在我们这个行业我是这样看的!
刘晓军:医疗行业是一个比较特殊的行业,中国内地90%多以前都是公立医院的架构。从医院角度来说是最需要类似于大数据分析,也很需要其他各个方面技术进步。但我总体感觉就是推动比较慢,也有一些厂商感觉落不了地,不知道在哪里落地。我认为可能是体制问题,例如北京的协和、301,你去晚了根本看不了病,挂号也挂不上。你愿意去的那家医院一定是非常抢手热门的,想去看病也很困难,所以医院并不担心业务来源,也没有驱动力推动变革。
另外,医疗是一个非常特殊的行业,纯靠经验积累。本科学习非常重要,但是动手操作的能力更重要。简单来讲,在中国的一些省会或者二线城市,一个医院一天要四五千左右的门诊量,在这样的情况下,医生不断地练手,他的医疗水平会远远高过美国一个城市里面的医生水平,因为那边可能一个月才看两三百个病人。由于医疗行业是积累型行业,所以导致相关人员非常缺乏,那么握有资源的医院更没有变革动力了,所以很多东西落地确实比较困难。
话又说回来,现在“看病难、看病贵”也受到了国家高层领导重视,想办法改。比如说某个城市的所有公立医院取消药品加成,把诊疗费、挂号费按级别高收。这能解决问题了么?根本解决不了。据统计,医院里面利润最高的恰恰不是开药,药的利润对医院来说是非常少的,这也就解决不了过渡医疗的问题。
我们国家医保透支等等问题非常严重,所以国家一定会想办法逼迫医院改革。随着医疗市场不断放开,比如非公立资本进来,相信随着竞争加剧,这些公立医院感受到竞争之后才会有推动力推动他们改进,那时你们会有更多机会。这些公立医院往往有几十年上百年的积累,他们运用大数据的能力、科研的能力会远远超过只有八九年、十年积累的医疗机构,所以长远还是看好。
很多厂商前段时间谈的是云计算,现在是大数据,不知道以后谈什么。很多人在说这些事情,但是没有说透。感觉你跟我说“大数据”好像就是要卖你的存储,没有站在甲方立场上定个解决方案,所以这可能也是甲方不敢动手的原因之一吧。谢谢!
主持人:我也借此机会谈一下看法。我觉得技术跟应用确实是一个相辅相成、互相驱动的。今天我们谈大数据的应用,实际上不是说我们现在马上回去必须得考虑大数据该怎么用。我们希望通过这个论坛让大家理解到,其实技术发展跟应用是相辅相成互动发展的过程。当信息化到来时,我们还有很多有价值的数据可以用,特别是通过互联网、物联网积累,过去我们没有意识到有技术手段来处理,你可能认为是信息泛滥,因为信息太多无法管理。而我们知道有技术可以挖掘它,这个时候就变废为宝。例如Hadoop方式,Google在这个领域就改变了很多。这么大数据的量,无法用甲骨文的数据库存储。还有一个改变,存储数据硬件方面可以用横向能力扩展代替纵向的高性能,不见得非得买大机。我觉得技术革命和进步也带来了我们对应用领域的一些重新思考,大数据需要有技术驱动,同时技术一定要结合现实应用。下面还有哪位要提问的?
现场:开源推动软件行业发展,现在有大数据处理技术,比如说Hadoop,也得益于开源。美国有个“开放数据”的概念。比如说美国有个网站是data.gov开放数据这块,在咱们中国这边做的好像比较少。所以想请教几位专家,开放数据价值对于这个行业会带来什么?谢谢!
刘晓军:我们行业最特殊,开放数据对医疗行业基本没价值。为什么呢?有价值的数据没有人愿意开放给别人,愿意开放的数据几乎都没有价值。
王磊:实时路况其实就是数据开放,如果不开放怎么得知什么路最适合呢?交通数据有很多,比如政府每年建设情况,建了多少路、桥、上了多少税。像一些相关网站也都是有的,据我所知就是这些。
金豪义:我们上交所在这做的还不错,2005年建成了14个号称当时最大的数据仓库,在上面可以看到股票上市信息、成交信息、具体分析数据、大事件等等。这方面其实给券商、机构甚至个人投资者,带来了一些帮助,我们证监会在这边做得也不错。
胡红升:从政府角度来说,信息公开是现在必须要面对的社会问题。所以“三公”之类的,很多都是要公开。政府还是需要公平、公正、公开,这是很需要的。
主持人:刘总讲的是针对医院可能不愿意开放数据,这是国内医院一个现实的状况。那么我讲一个美国政府开放数据的例子。美国健康与人类服务部的首席技术官现在做了美国国家首席技术官,他最近通过一系列开放数据行动来催生与能源、教育、安全和非盈利部门等有关的新行业。通过把用户的数据拿出来向社会开放,目的是带动社会的创新,用社会的力量开发针对这些人的服务,目前这个事情正在进行当中。其实我国政府部门有很多好的数据,这些数据如何为社会创造价值呢?是很值得探讨的。比如咱们政府搞智慧城市的建设,政府掌握了人的数据、企业法人的数据、地理信息的数据、文化数据等等,如果这些都能够开放(当然是有限的开放),我想前景还是蛮大的。再比如欧洲有一家银行基于它的大数据做开放式创新,让其他机构可以用它的客户数据开发服务,它通过这种方式让其他机构开发的很多应用针对这个银行,通过这种方式带来了更大的客户黏性,因为有很多好的服务。银行毕竟不是IT公司,它力量有限。通过客户数据开放(当然不是把数据暴露给别人),比如说新浪微博接口开放出来,也是大数据开放,所以我想里面会有很多很多机会。
现场:我想问一下在座的金融、交通、医疗、电力的专家,有四类数据,是海量实时、结构化、非结构化、空间信息。这些数据如何做统一的数据交互标准形成共享平台,能够实现跨业务精细化的分析?目前市面上有很多商业类的数据挖掘工具,比如说SAS等等,它们也是各有优缺点,刚才各位专家也提到Hadoop平台,我想听一下各位专家在这位方面有怎样的建议?谢谢。
金豪义:我们公司有一次战略调整,大概用十几年为行业解决“怎么买”的工具,接下来就要解决“买什么”的问题。原来你有一亩地,那么我只要给你一个挖掘机,你刨一遍地就知道下面有没有金矿,而有一亿亩的时候就刨不过来了。所以我们做的工作是做一个系统进行相关分析,你会推测出哪里有金矿,做一些预测,因为大数据很重要的一个观点我们是往前看,不是看历史,所以我们这块有一些布局,会有一些公司专门对这个方面做研究,希望把这样的价值提供出来,目前还在努力。谢谢!
刘晓军:对于数据分析这块要分两个方面讲,把医院看成企业作为日常经营管理、成本核算等等这样一些数据的话,我觉得借助一些成熟的软件、统计学方面的专业人才去做这样的管理,提高医院经营效益,优化流程,这是非常有实用价值的。但是从人才角度来说,现在医疗系统总体来讲还是缺乏复合型人才。
前两年有一个数据显示,二级以上医院信息中心主任有50%以上不是学IT出身的,医院有个科室叫图书馆,很多信息中心主任是从图书馆主任转到信息中心主任去的,显然是缺少人才。而有专业知识的人才往往在医院的病案室,对于这个部门来说的话,他关注的是病情的记录,例如医嘱、用药,这些东西绝大部分是非结构化的数据。现在随着国家对于卫生信息化的投资,普及结构化的电子病历。以前医生写病历的字体龙飞凤舞,看不懂。现在是电子病历,根据你的年龄、性别、初步诊断然后形成后面一些结构化的描述。当结构化的电子病历为核心的病案、病程记录,逐步普及,这个数据量大了之后这样使用软件工具进行分析,我个人才是比较有它的现实意义。
现在对同一个病,两个医生的描述可能就不一样,那么软件分析就非常困难。我们曾经也做过试点,试图对以往就诊记录进行分析,根据过往五年数据预测某一种病在某一个时间段,比如今年10月份,这种病的病人大概会有多少人。把数据分析提供给医院的医务部门,提示他们在这个时间段我们要准备相应药品,增加医生、护士,改善病人体验等等,是非常好的。我觉得医疗信息化、统计分析这块还是有相当长的路要走。至于说疾病的控制、流行病学调查,可能会有一些进展。
主持人:美国联邦政府在数据共享交换方面也是探索了很多很多年,2001年到2005年的时候他们基本上达成了一个共识,就是关于数据交换参考模型。因为数据太浩瀚了,所以最后定了一个参考模型,有数据分类、描述等等做了一些相关标准要求,大家用统一标准描述,当需要共享交换的时候可以相互共享交换。当时做这个模型没有考虑到大数据,当时也没有这个概念,我想Hadoop确实改变了很多。过去对于数据的处理基于对于数据很清晰地描述、认识,或者怎么用它才能用好,而Hadoop告诉你另外一个思路,就是事先不知道这个数据能给我干什么,它通过这种方式挖掘,能挖掘出很多为决策有用的东西。
举个例子,Google上的一个应用,在美国的一个人给国内朋友发邮件说在美国找保姆非常难,第二天发邮件的人和收邮件的人打开他们Gmail的时候,都有一个推荐保姆的邮件,其实这也是大数据典型应用。就是说很多应用不是说事先定义好的,在Hadoop方式里面这些不是预先定义好的格式、需求,而是通过这样的方式去挖掘出还没有意料到的甚至很多有价值的东西。
由于时间关系,我们只能交流到这里了。大数据确实涉及到的领域非常广,技术架构需要云计算支撑,技术方面也需要Hadoop类似技术的支持。借用刚才嘉宾的一个词“数据金矿”,大数据就好像挖矿一样,以前数据是石头,后来认为是金矿,最后还能挖出更多稀有金属。那么利用到什么程度要看我们的技术发展。希望大家在大数据宝藏里挖出越来越多的金矿、稀有金属,为社会创造更大的价值。今天的论坛就到这里,谢谢大家!