中新社北京6月3日电 (记者 张素)中国科学院学部第五届学术年会的全体院士学术报告会3日在北京举行。“大数据概念存在‘炒作’现象,似乎各行各业均可将其作为争取资源的‘马甲’。”上海交通大学副校长、中国科学院院士梅宏在作学术报告时说。
当前,全球数据规模持续呈指数级增长,预计在2020年将达到440亿TB(1TB等于1024千兆)。梅宏在这股热潮中提出了“冷思考”。他说,大数据概念存在“炒作现象”,目前很多“大数据应用”仍是传统方法技术在“量”上的扩展,在一些地方政府、国有企业中则存在超前投资、重复投资导致的资源浪费现象。
来自国际数据公司(IDC)的数据显示,2016年中国数据中心市场规模将突破1000亿元(人民币,下同),占全球数据中心市场的1/3。大批数据中心在利用率不高、能力不足的情况下消耗大量能源,各地不同类型的数据中心总体耗电量已占全社会用电量的1.5%,几近于三峡大坝全年的发电量。
“当前对于大数据的理论和技术仍处于发展早期阶段。”他说,研究还表明,人类产生并采集数据的速度总是领先于处理数据的技术,当前全球企业约有52%的数据被称为未被利用、价值不明的“暗数据”。
梅宏注意到,中国的数据多为手工开采且“自给自足”,大数据基础设施与分析技术主要依赖国外开源软件,大数据基础与核心算法基本源自国外学术界,基础理论和底线共性技术深入研究偏少。
梅宏建议,首先是解决在中国尤为突出的数据开放共享技术。“保守估算,中国至少有10万个政府信息系统,按现有技术实现方案,系统全部开放成本在1000亿元。”他说,迫切需要为数据开放共享提供高效方案。其次是要形成自主基础技术产品体系,培养大数据人才队伍,在新一代信息技术竞争中抢占先机。
来源:中国新闻网