编辑:LRST
【新智元导读】近日,香港大学发布最新研究成果:智能交通大模型OpenCity。该模型根据参数大小分为OpenCity-mini、OpenCity-base和OpenCity-Pro三个模型版本,显著提升了时空模型的零样本预测能力,增强了模型的泛化能力。
精确的交通流量预测对于提升城市规划和交通管理效率至关重要,有助于更合理地分配资源并提升出行质量。
然而,现有的预测系统在处理未知区域的交通预测,以及进行长期预测时,常常无法达到预期效果,这些挑战主要源于交通数据在空间和时间上的不一致性,以及在不同时间和地点的显著变化。
基于「开发一种具有高度通用性、鲁棒性和适应性的时空预测模型」的思路,香港大学、华南理工大学等机构的研究人员提出了一个创新的基座模型OpenCity,能够识别并整合来自多个数据源的时空模式,以增强在不同城市环境中的零样本学习能力。
论文链接:http://arxiv.org/abs/2408.10269
代码链接:https://github.com/HKUDS/OpenCity
OpenCity结合了Transformer和图神经网络技术,以捕捉交通数据中的复杂时空关联。通过在广泛的、多样化的交通数据集上进行预训练,OpenCity能够掌握丰富且具有广泛适用性的特征表示,这些特征适用于多种交通预测情境。
实验结果显示,OpenCity在零样本学习方面取得了显著成效。
此外,OpenCity的可扩展性也得到了验证,这表明有望构建一个能够满足所有交通预测需求的系统,并且能够以较低的额外成本适应新的城市环境。
概述现有问题C1. 空间泛化:现有的交通预测模型在空间泛化方面存在限制,难以适应不同地区因基础设施和人口特征不同而表现出的各异交通模式。在现实条件下,全面部署传感器来收集数据并不可行。因此,开发一种能够在有限数据支持下适应新区域的模型显得格外关键。这种模型能够降低跨城市部署的成本,并确保交通预测系统在多元化的城市环境中有效运作,无需频繁重训练或调整。C2. 时间泛化与长期预测:现有的交通预测模型虽然能够较好地处理短期预测(如未来一小时内),但在进行数小时甚至数天的长期预测时则效果不佳。模型难以适应城市环境中随时间变化而变化的复杂交通模式,这一点限制了城市规划者和交通管理者制定有效长期策略的能力。C3. 通用表征学习与时空异质泛化:开发能够广泛适用的交通模型,关键在于开发能够广泛适用的交通模型,通过学习通用的交通动态特征实现泛化。这种泛化学习使得模型能够适应不同的应用场景,即便是在缺乏特定场景训练数据的情况下也能运行。考虑到城市交通的多样性及其时空分布的显著变化,模型需要具备适应这些变化的能力,以保持其功能性和灵活性。图1 左图展示了不同交通数据集之间的数据分布差异,突显了开发能够适应这些分布差异的模型的必要性。右图则比较了OpenCity在零样本条件下的表现与使用全样本数据的基线模型的表现。结果表明,尽管OpenCity面对时空异质性分布偏移的挑战,其性能仍可与全样本基线模型匹敌
论文贡献(1)通用时空建模。OpenCity针对城市交通在不同地区及时间内的多样性和变化进行专门设计。
(2)卓越的零样本预测能力。OpenCity在未经特定区域训练的情况下,展示了超越常规模型的性能,这突显了其泛化特征学习的能力,并允许该模型在新环境中快速部署,减少了重训练的需求。
(3)快速适应性。OpenCity在多个时空预测任务中显示了其广泛的适用性,能够快速地适应各种场景,实现灵活的部署。
(4)扩展能力。OpenCity展现了良好的扩展潜力,这意味着它能够在几乎无需额外训练的情况下有效地适应未知环境。
方法图2 OpenCity整体框架
用于分布偏移泛化的时空嵌入上下文归一化传统方法通常依赖于训练数据的统计特征,例如均值和标准差,来进行数据的标准化处理。然而,当测试数据表现出与训练数据在地理空间上无重叠的异质性时,这些统计参数可能不再适用,也难以适应。为了克服这一挑战并满足零样本交通预测的需求,采用了实例归一化IN(⋅)处理数据。
该方法利用每个个区域的单个输入实例
的均值μ(Xr)和标准差σ(Xr)进行数据标准化,而不依赖于整个训练集的统计信息。相关研究表面实例标准化能有效减轻训练数据与测试数据之间分布差异的问题,形式化如下:
用于高效长期预测的Patch嵌入OpenCity旨在应对长期交通预测的复杂性,特别是处理增加的输入时间步长,这会导致计算资源和内存需求显著增加。为减轻这一负担,采纳了一种基于时间维度的Patch分割策略。在此策略中,设定了Patch长度P,用于确定每个Patch包含的时间步数;同时设置了步长S,用于定义连续Patch之间的重叠程度。采用此Patch处理方式后,输入数据的形状发生了变化。
,这里为块的数量,
。
研究人员选择将一小时的交通数据设定为一个Patch的长度,并设置步长S=P,这样的配置帮助模型有效捕捉并适应交通数据在更长时间跨度的变化趋势。
此外,采用Patch处理方法显著减少了对计算和内存的需求,从而实现了更高效和可扩展的长期交通预测。
Patch处理完成后,对数据应用线性变换和正余弦位置编码PE,以获取最终的时空嵌入表示。
被用于后续模块的输入,如下:
时空上下文编码为了捕获交通数据中的复杂时空模式,OpenCity模型整合了时间与空间的上下文信息。
通过充分考虑这两个维度的多个因素,OpenCity能更全面地洞察影响交通模式的多元因素。这种整体方法使得该框架能够在各种时间段和地理区域中提供更精确的预测。
时间上下文编码为了使OpenCity成功地捕捉交通数据中的独特时间模式,利用了诸如一天中的时间
和一周中的某一天
等时间特征来识别周期性关系,并通过线性层转换这些时间特征,生成反映时间上下文的特定嵌入。通过精确模拟交通流的周期性特征,的方法能够在长期预测中达到高精度。
时间上下文的编码过程融合了Patch操作和时空嵌入的对齐,具体实现如下:
空间上下文编码鉴于地理特征的多样性,每个区域的交通模式具有其特有的特征(例如,交通枢纽的流量通常较高)。为了有效捕捉这些区域性特征,在交通网络模型中引入了空间上下文。
首先,进行了拉普拉斯矩阵的标准化处理:
,其中I和D分别是单位矩阵和度数矩阵。
然后执行特征值分解,得到
,其中,U和Λ分别代表特征值和特征向量。
选择了最小的k个非零特征向量作为区域嵌入s,用以编码交通网络的结构特性。这些嵌入随后经过一个线性层的处理,用以产生最终的空间编码
。
时空依赖建模时间依赖建模OpenCity利用新提出的TimeShift Transformer架构,专注于捕捉时间依赖性。
该方法从两个主要方面识别交通模式:
(1)周期性交通模式。模型能够识别交通中的周期性和重复模式,如每小时、每日和每周的循环。通过对这些周期性变化的编码,的方法可以更精确地解析交通网络中的规律性。
通过时间嵌入D和空间嵌入C来捕获交通模式的周期性特征。目标在于探索历史交通模式与未来趋势之间的关系。时间嵌入被细分为历史时间信号和未来时间信号两部分:
,
。
的模型专门建模了历史时间和未来时间的映射模式,这使得它能够更有效地学习和应用交通时间序列的周期性特征。此过程通过构建一个时间转移的多头注意力机制来完成,其中将未来的时空嵌入作为查询(Query),将历史的时空嵌入作为键(Key),并将历史时空数据的表示作为值(Value)。
其中,
和
为权重矩阵,δa为dropout操作。
为更新后的空间嵌入,
为来自第h个注意力头的周期关联编码模块的输出。
引入RMSNorm以提升训练过程的稳定性。通过明确地建立历史与未来时间信息之间的联系,OpenCity具备了识别周期性的时空交通模式的能力。
(2)动态交通趋势。除周期性模式外,时间编码器还能捕捉交通数据随时间发展的复杂和非线性动态趋势。
该模块旨在探索不同时间点之间的动态依赖性。例如,交通事故等突发事件可能导致交通速度和流量急剧变化。
为了应对这种情况,采用了一种改进的注意力机制,与周期性交通模式编码类似。
其区别在于,查询(Q)、键(K)和值(V)的输入被改为上一步的归一化输出(M)。此调整帮助模型专注于学习不同时间点之间的动态依赖关系,而非仅限于周期性模式。
由此产生的时间表示
能够有效捕捉这些动态的时空联系。
空间依赖建模由于在交通预测中,交通网络展现出显著的空间相关性,捕获空间依赖性对模型设计至关重要。一个区域的交通状态通常会受到其邻近区域状态的影响。为了有效学习这种空间联系,采用了图卷积网络(GCNs):
是归一化的邻接矩阵,用于平衡原始信息的保留程度。残差连接、RMSNorm(RN)和SwiGLU激活函数被用于后续的运算。
式中,
代表第l层时空编码网络的最终输出,σ是Swish激活函数,
是可训练权重。通过叠加多层时空编码网络,OpenCity具备捕获复杂的时空依赖性的能力,从而使其能够学习交通网络内的复杂相互作用。
实验零样本 vs. 全样本全面评估了OpenCity在零样本条件下的性能,测试涉及跨区域、跨城市和跨类型三个维度,并将其与基线模型在全样本条件下的性能进行了对比,结果如表1所示。
(1)优越的零样本预测性能。
OpenCity在零样本条件下取得了突出成就,能够在无需额外微调的情况下超越多数基线模型。这突显了模型在掌握复杂的大规模交通数据时空模式、提取适用于多种任务的通用知识的可靠性与效率。
在多个数据集的测试结果下,OpenCity常常位于前两名,即便不是最佳,其与最优性能(MAE)的差距也控制在8%之内。
这种卓越的零样本预测能力展现了OpenCity在处理多样化交通数据集时的广泛适应性和普遍性,无需大规模的重新训练。
其核心优势在于能迅速适应新环境,大幅降低了传统监督学习方法所需的时间和资源,为实际应用带来了明显的优势。
(2)卓越的跨任务泛化能力。
对OpenCity进行了跨四个不同交通数据类别的评估,包括交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租车需求(CHI-TAXI)和自行车轨迹(NYC-BIKE)。基线分析显示,虽然多种模型在特定类型数据上表现出色,但没有一个能够在所有类别中一直维持最优结果。
相比之下,OpenCity在所有测试类别中均呈现出高质量的成果,展示了其卓越的稳定性和多功能性。此外,为了评估OpenCity框架的通用性,特别测试了其在跨类别零样本泛化能力上的表现(以NYC-BIKE为例)。
结果表明,OpenCity在多个评价指标上均展现了出色的成绩,进一步验证了其对多样数据类型的适应性和普适性。
(3)优越的长期预测性能。
OpenCity架构在长期交通预测任务中的表现优于基线方法,这是其显著的优势之一。许多现有模型在预测时间范围延长时常常难以维持准确性,原因在于这些模型可能过度依赖历史数据,未能有效捕捉交通状况的动态变化和演进。
相反,OpenCity能够从广泛的交通数据源中学习到关键的时空特征,使其能够提供稳定而可靠的预测,即便在交通模式随时间发生变化的情况下也是如此。
表1 零样本 vs. 全样本性能
有监督预测性能为了进一步验证OpenCity的性能,进行了监督学习评估。在这一评估中OpenCity采用一体化配置,在单个数据集上与基线模型进行了全面的端到端训练和测试比较。
表2中的结果显示,OpenCity在监督学习环境中展示了出色的性能,并在大多数评估指标上保持了领先地位。此外,观察到大多数基线模型在CAD-X数据集上的表现欠佳,这可能是由于它们倾向于过度拟合历史的时空模式,难以适应长期依赖的交通模型。
相反,OpenCity架构通过有效地从预训练阶段提取通用的周期性和动态时空特征,成功克服了由时间和地点的分布偏移引起的预测性能降低问题。
表2 有监督任务评估
模型快速适应能力探索本节中探讨了OpenCity在下游任务中的快速适应能力。对预训练阶段未出现的交通数据类型实施了“高效微调”策略。具体做法是仅更新模型的预测头部(最后一个线性层),并限制训练周期为至多三个。
如表3所示,虽然OpenCity在一些指标上的零样本性能最初不如基线模型的全样本性能,这可能归因于交通模式和数据采样的差异。然而,通过高效微调,OpenCity的性能显著提升,超越了所有比较模型。
特别值得注意的是,OpenCity的训练时间仅需基线模型的2%至32%。这种快速的适应性突显了OpenCity作为基本交通预测模型的潜力,展示了其对新的时空数据类型的迅速适应能力。
表3 OpenCity快速适应能力评估
消融实验(1)动态交通建模的重要性。
-DTP。除动态交通建模模块后,性能有所下降。这说明该模块对于有效分析最新交通模式并适应突发的交通状况以优化预测至关重要。
(2)周期性交通转移建模的作用。
-PTTM。在模型中取消了周期性编码,选择直接将时间和空间上下文融入时空嵌入。性能的下降表明,通过映射历史与未来时间对之间的交通流,OpenCity 能够有效捕获影响时空模式演变的关键规律。
(3)空间依赖性建模的作用。
在-SDM变体中,移除了空间编码模块。分析显示,通过学习空间关系,模型的时空预测能力得到了显著提升。模型通过整合依赖于空间区域的交通信息,有效地识别了动态交通流模式,为零样本交通预测提供了关键支持。
(4)时空上下文编码的作用。
在移除了时空上下文信息编码后(-STC),性能显著下降。时间上下文信息帮助模型识别并学习特定时段的常见交通模式,同时区域嵌入则提供了区域特定的关键特征。这些因素共同为理解城市间的动态时空模式提供了深刻的洞察。
图3 OpenCity消融实验
模型可扩展性研究如图4所示,本节探索了OpenCity在数据量和参数规模这两个维度的可扩展性。
对于参数规模,考察了三个不同的版本:OpenCity-mini(2M参数)、OpenCity-base(5M参数)以及OpenCity-plus(26M参数)。在数据规模的可扩展性方面,对于OpenCity-plus模型,分别使用了10%、50%和100%的预训练数据,以研究增加数据量所带来的优势。
为了便于比较,使用相对预测误差作为纵轴的度量标准。结果显示,随着参数数量和数据量的增加,OpenCity的零样本泛化能力也逐渐提升。
这表明OpenCity能够有效地从大规模数据集中提取有用信息,并通过增加参数规模来提高其学习能力。这种可扩展性的展示支持了OpenCity成为广泛应用于交通领域的基础模型的潜力。
图4 模型可扩展性研究
与大规模时空预测模型的比较在本节中,对OpenCity与其他先进的大型时空预训练模型进行了比较,包括以其出色的零样本泛化能力而著称的UniST和UrbanGPT。评估使用的是三个模型在预训练阶段均未接触过的CHI-TAXI数据集。
如表4所示,OpenCity在这些先进的大型时空模型中显示出了显著的性能优势。此外,与UrbanGPT相比,OpenCity和UniST表现出了明显的效率提升。这可能是因为UrbanGPT需要依赖于大型语言模型(LLM)以问答格式进行预测,从而限制了其处理批量数据的效率。
OpenCity在性能和效率方面的卓越表现突显了其在交通领域作为强大大规模模型的潜力。
表4 与大规模时空预测模型的比较实验。
总结与展望该论文提出了OpenCity,一个针对交通预测设计的可扩展时空基础模型,它在多种交通预测场景中展示了卓越的零样本预测能力。
该模型核心采用了Transformer编码器架构,用以建模动态的时空依赖性,并通过在大型交通数据集上预训练,使得OpenCity在多种下游任务中均表现出色,其零样本预测性能可与全样本设置下的先进模型媲美。
OpenCity框架能够有效处理不同分布的数据,并展现出高效的计算性能。鉴于其所显示的良好扩展性,OpenCity为开发一个强大且适用于多种城市环境和交通网络的通用交通预测解决方案奠定了基础。
参考资料:
http://arxiv.org/abs/2408.10269
https://sites.google.com/view/chaoh