复杂系统往往由大量个体组成,同时个体之间存在非线性作用。随着人工智能领域的快速发展,人们可以通过数据驱动的方式预测复杂系统的演化。但复杂系统存在涌现现象,比如鸟群的集群行为,生命游戏中出现的复杂模式等,而机器学习技术通常难以直接从微观数据中捕捉到这些涌现模式和动力学。这使得我们很难得到简洁有效的数据驱动预测模型。所以如何量化并识别涌现现象是复杂系统数据驱动建模中的重要科学问题。如果能够解决这个问题,机器可以在宏观尺度上“把握”复杂系统的运行规律,从而在不同初始条件和环境分布的情况下仍有良好的泛化能力和预测效果,同时还能判断是否发生了涌现。
近日,bat365中文官方网站张江课题组提出一套机器学习框架,强化版神经信息压缩器(Neural Information Squeezer Plus, NIS+),通过结合样本重加权和反向动力学训练两项技术,可以通过有效信息(Effective Information,简称EI)最大化,实现从观测时间序列中提取最优的粗粒化策略,建立宏观动力学预测模型,并判断是否发生因果涌现。
图1 NIS+框架图
因果涌现在2013年被正式提出,是一套定量刻画涌现现象的理论框架。对于一个系统不同的观察者来说,他们可能在微观或宏观两种不同的尺度来观察、刻画同一个系统,从而分别得到微观动力学和宏观动力学,其中后者是前者的一种粗粒化的近似。同时,这些动力学可能具备不同的因果效应强度,这一强度可以用定量指标:有效信息(EI)来刻画。如果宏观的EI大于微观的EI,则我们可以判定该系统发生了因果涌现。下图左展示了因果涌现的概念框架,右展示了在一个马尔可夫链上发生因果涌现的例子。然而,经典因果涌现理论需要事先指定从微观到宏观的粗粒化方式,不同的粗粒化方案就会导致完全不同的因果涌现结果,这便体现了一种“观察者效应”。
图2 因果涌现理论示意图
NIS+则通过最大化有效信息,优化一个机器观察者,从而能够找到最优的粗粒化方法和宏观动力学,还能够匹配微观观测数据。这不仅以数据驱动方式构建了复杂系统模型,还在一定程度上避免了观察者效应。研究团队分别在模拟和真实数据上进行了验证。
Boid是一个经典的鸟群模拟模型,通过个体之间局部相互作用,在宏观涌现出集群运动模式。团队发现,利用大量Boid生成的数据训练NIS+模型,就能让它找到有效信息最大的粗粒化策略和宏观动力学,从而很好地捕捉鸟群质心的运动变化规律。最大化有效信息还能提升NIS+的分布外泛化能力。研究团队通过对比发现,通过对比没有最大化EI的模型,NIS+能够在训练数据区域外更大的范围内进行更精确的预测。
图3 鸟群实验结果
研究团队还在元胞自动机类复杂系统:生命游戏的生成数据上进行了实验。为了捕获宏观尺度的集体运动模式,团队采取了时空粗粒化扩展NIS+模型。通过对比传统模型,NIS+在不同数据集上都有更高的预测准确性。
图4 生命游戏实验结果
除了模拟数据,团队还在真实的fMRI数据上进行实验。数据来自830个被试,分别在看视频时和静息状态下,大脑的fMRI时间序列。在观看视频的数据中,NIS+经过训练便可以提炼出一个一维的宏观动力学来概括描述100维的fMRI时间序列,从而实现EI最大化,并发现了明确的因果涌现。使用积分梯度法,NIS+还可以提炼出与这一维宏观动力学最相关的微观维度,结果发现大脑视觉区对宏观动力学贡献占比最高。与其对比,在静息态下,NIS+必须使用3到7个维度来概况被试的fMRI数据,并且因果涌现特性减弱。
图5 大脑fMRI实验结果
综上所述,研究团队开发出了NIS+机器学习框架,对复杂系统进行数据驱动的多尺度建模。在理论上,它可以最大化宏观动力学有效信息,识别出因果涌现;在实验上,它具有更强的分布外泛化预测能力。相关研究成果以一篇题为“Finding emergence in data by maximizing effective information”的文章于2024年8月13日发表在国际期刊《国家科学评论》(National Science Review ,NSR)。bat365中文官方网站硕士生杨明哲为论文第一作者,张江教授为论文的通讯作者。
论文信息:Mingzhe Yang, Zhipeng Wang, Kaiwei Liu, Yingqi Rong, Bing Yuan, Jiang Zhang, Finding emergence in data by maximizing effective information, National Science Review , 2024;, nwae279
文章链接:https://doi.org/10.1093/nsr/nwae279
供稿:杨明哲
编辑:李小萌
审核:李 辉