更多>>技术动态
更多>>企业访谈
技术动态 > 正文
城市交通大数据技术及智能应用系统
   2016/1/26 09:05    关键字:      浏览量:

  2015年两会上,“大数据(big data)”一词首次写入政府工作报告。在交通领域,大数据一直被视作缓解交通压力的技术利器。应用大数据有助于了解城市交通拥堵问题中人的出行规律和原因,实现交通和生活的和谐,提高城市的宜居性,为政府精准管理提供基于数据证据的综合决策[1]。同时,大数据的挖掘和使用还有利于催生信息消费新模式,促进信息消费产业发展。

  随着手机网络、全球定位系统(global positioning system,GPS)/北斗车载导航、车联网、交通物联网的发展,交通要素的人、车、路等的信息都能够实时采集,城市交通大数据来源日益丰富[2]。在日益成熟的物联网和云计算平台技术支持下,通过城市交通大数据的采集、传输、存储、挖掘和分析等,有望实现城市交通一体化,即在一个平台上实现交通行政监管、交通企业运营、交通市民服务的集成和优化[3]。

  城市交通大数据的集成与分析技术研究,对我国智慧城市的发展具有战略性意义。交通大数据具有种类繁多、异质性、时空尺度跨越大、动态多变、高度随机性、局部性和有限生命周期等特征,如何有效地集成交通大数据,满足高时效性和知识牵引等城市交通智慧化需求,是各个大中城市所面临的前所未有的发展机遇和挑战[4~8]。

  本文首先简单介绍了大数据的发展状况及趋势,然后重点分析总结了城市交通大数据的若干核心技术,并提出城市交通大数据的智能应用系统解决方案,最后重点列举了几种典型应用。

  2 大数据的发展状况及趋势

  近年来,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,信息社会正在进入大数据时代。大数据指的是涉及的资料量规模巨大到无法透过目前主流软件工具在合理时间内达到感知、撷取、管理、处理和服务的数据集合。从2009年左右开始,“大数据”开始成为互联网信息技术行业的流行词汇。

  根据互联网数据中心(IDC)估测,数据一直以每年50%的速度增长(大数据摩尔定律),这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35亿GB(35 ZB)的数据。大数据处理的数据规模从TB级上升到PB、EB甚至ZB级,人们面临着如何降低数据存储成本、充分利用计算资源、提高系统并发吞吐率、支持分布式非线性迭代算法优化等众多难题。

  为了应对大数据的发展趋势,更好地为行业用户和个人提供数据分析的服务,亟需构建各类不同的大数据平台,支持用户对数据的多种需求。构建大数据平台就是要将不同渠道、不同来源、不同结构的数据进行有机的整合。与传统数据平台不同的是,大数据海量的规模、多样的类型、快速的流动和动态的体系以及巨大的价值是大数据平台构建需要重点考虑的几个因素。除此之外,数据的分类存储、数据平台的开放性、数据的智能处理以及数据平台与用户的交互都为大数据平台的建设带来前所未有的挑战。

  大数据平台处理的数据类型是多种多样的。目前这些平台的搭建已经有了一些有代表性的成果,如Google公司的Freebase、微软公司的Probase、国内著名的中文信息结构库——中国知网。在商用数据平台方面,IBM公司的Infosphere大数据分析平台、天睿公司的Teradata统一数据环境以及由国内天猫、阿里云、万网联合推出的国内首个电商云工作平台聚石塔是3个典型的数据平台。

  “大数据”本身是一个现象而不仅仅是一种技术,这是信息科技历史发展的必然结果。大数据的采集、传输、处理和应用所需的相关大数据处理技术,是通过系列地使用非传统工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列大数据处理技术。大数据技术的战略意义也不仅在于掌握庞大的数据信息,而更在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现等功能的有力武器。大数据发展呈现以下趋势。

  (1)基于云计算的数据分析平台

  云计算为大数据提供了可以弹性扩展、相对便宜的存储空间和计算资源,使得中小企业也可以像亚马逊公司一样通过云计算来完成大数据分析。云计算IT资源庞大、分布较为广泛,是异构系统较多的企业及时准确处理数据的有力方式,甚至是唯一的方式。

  大数据要走向云计算,还有赖于数据通信带宽的提高和云资源池的建设,需要确保原始数据能迁移到云计算环境以及资源池可以随需弹性扩展。

  (2)数据分析集逐步扩大,企业级数据仓库将成为主流

  当人们从大数据分析中尝到甜头以后,数据分析集就会逐步扩大。目前大部分的企业分析的数据量一般以TB为单位。按照目前数据的发展速度,数据量很快将会进入PB时代。特别是目前在100~500 TB和500+ TB范围的分析数据集的数量会成倍增长。

  随着数据分析集的扩大,以前部门层级的数据集将不能满足大数据分析的需求,它们将成为企业级数据库(EDW)的一个子集。因此,企业内的数据分析将从部门级过渡到企业级,从面向部门需求转向面向企业需求,从而也必将获得比部门视角更大的益处。随着政府和行业数据的开放,更多的外部数据将进入企业级数据仓库,使得数据仓库规模更大,数据的价值也更大。

  (3)Hadoop对MapReduce的依赖程度越来越小

  Hadoop是一个能够对大量数据进行分布式处理的软件框架,能够处理PB级数据,具有高可靠性、高扩展性、高效性和高容错性等特点。其新版本不只为MapReduce服务,而是和Cloudera的Impala一样用一个SQL查询引擎或者其他的方法来替代MapReduce。HBaseNoSQL数据库就是Hadoop离开MapReduce约束后的一个很好的例子。未来Hadoop平台将在大数据处理中发挥越来越重要的作用。

  3 城市交通大数据

  3.1 城市交通大数据的主要研究内容

  城市交通大数据的研究内容主要包括以下方面。

  (1)时效约束的大数据多尺度汇聚计算和动态图谱

  交通大数据存在多源、异质、局部性、时空关联、异步性、信息稀疏性和并发性等特点,而城市交通系统存在着对大数据汇聚处理的高时效性以及对“大而信息稀疏”的交通大数据的领域知识牵引要求。现有的数据融合、计算理论与方法难以满足高时效性的大数据处理和基于数据的知识构建与转换等需求,亟需提出时效约束的大数据多尺度汇聚计算和动态图谱的交通大数据处理新理论与新方法。

  (2)高维空间的隐性知识序贯挖掘与演化模型

  交通主体、行为、态势、路网拓扑和环境形成了高维生态系统闭空间,相互之间存在着高度非线性、随机性和动态的耦合关系。交通态势及其演化是交通系统的宏观体现,具有约束条件下的动态性、序贯性、自组织、随机性等特点,交通态势机理解释对解决城市交通的难题非常重要。传统的交通理论难以发现隐含在如此高维空间的知识,对交通出行规律及其时空演化、大面积交通拥堵演变规律、环境与交通行为等进行综合知识和数据支撑的解释与评价,高维空间的隐性知识序贯挖掘与演化将为此提供坚实的理论与技术支撑。