优何软件 首页 软件资讯 其他 查看内容

联想学习与主动推理

2025-2-3 23:12| 来自: 优何整理| 发布者: 软件小编

Associative Learning and Active Inference

联想学习与主动推理

https://www.researchgate.net/publication/384268822_Associative_Learning_and_Active_Inference


摘要

联想学习是一种行为现象,个体基于刺激或事件的共同出现而发展出它们之间的联系。最初由巴甫洛夫在他的条件反射实验中研究,学习的基本原则已经通过发现广泛的学习现象而得到扩展。基于最小化奖励预测误差的概念,已经开发出了计算模型。特别是Rescorla-Wagner模型,是一个极大地影响了强化学习领域的著名模型。然而,这些模型的简单性限制了它们充分解释与学习相关的行为现象的多样性。在本研究中,我们采用了自由能原理,该原理表明生物系统努力在其对世界的内部模型下最小化惊讶或不确定性。我们将学习过程视为自由能的最小化,并研究其与Rescorla-Wagner模型的关系,重点关注学习的信息方面、不同类型的惊讶以及基于信念和价值的预测误差。此外,我们探讨了如何在主动推断框架内模拟众所周知的行为现象,如阻断、掩盖和潜在抑制。我们通过使用注意力的信息和新颖性方面来实现这一点,这些方面与看似矛盾的模型(如Mackintosh和Pearce-Hall模型)提出的类似想法共享。因此,我们证明了自由能原理,作为一个从第一性原理推导出的理论框架,可以整合基于经验实验提出的联想学习的思想和模型,并作为更好地理解大脑联想学习背后的计算过程的框架。


1 引言

联想学习是动物获取其环境中事件之间预测关系知识的过程。基本分类根据所涉及的关联性质区分经典条件反射和操作性条件反射。其他分类还区分观察学习、潜在学习和社会学习。然而,在我们的文章中,我们仅限于前两种类型,重点是经典条件反射。

在经典或巴甫洛夫条件反射中,动物学会将两个线索联系起来。第一个线索,称为条件刺激(CS),从外部环境的背景中脱颖而出(例如,光、声音或独特的触觉刺激)。第二个线索,称为无条件刺激(US),是一个相关的强化事件(如食物或水)或惩罚事件(如电击)。通过反复配对,动物形成了CS和US之间的关联,导致条件反应(CR),例如狗在铃声响起时流口水,正如巴甫洛夫(1927)著名地展示的那样。在经典条件反射中,形成的关联被称为刺激-结果(S-O)关联。在巴甫洛夫学派中,它被视为神经系统对世界事件之间关系的预期表征的基本适应能力(Anokhin, 1974)。

经典条件反射中最常用的方法是延迟条件反射和痕迹条件反射。延迟条件反射涉及呈现CS,然后在它仍在进行时引入US,使两个刺激重叠。在痕迹条件反射中,CS和US的呈现之间存在时间间隔。痕迹条件反射的关键特征是CS和US不重叠;受试者必须在痕迹间隔期间保持对CS的记忆,以将CS与US联系起来。这种类型的条件反射被认为涉及更复杂的认知过程,因为需要通过记忆来弥合时间间隔。

操作性或工具性条件反射涉及行为与其后果之间的关联。在这种情况下可以形成两种类型的关联。第一种是刺激-反应(S-R)关联,其中CS与特定的强化行为联系起来。第二种是反应-结果(R-O)关联,它直接将行为与强化物联系起来。

经典和操作性条件反射已被证明是所有脊椎动物中的普遍学习现象(Macphail, 1982)。这些原则是神经科学和心理学领域学习理论中的基础概念。此外,它们为强化学习的发展铺平了道路,强化学习是一个在现代机器学习算法中广泛使用的突出领域。

寻找联想学习的基本原则是20世纪生理学家的主要关注点。最初,巴甫洛夫提出两个事件的紧密时间配对足以形成关联。然而,1960年代和1970年代积累的证据挑战了这一观点,并揭示了仅时间配对既不是关联形成的必要条件,也不是充分条件。这一时期的关键发现包括线索竞争现象,如阻断、掩盖和真正的随机对照实验。

阻断发生在动物首先学会CS1预测US的发生,随后,当与CS1一起呈现额外的线索CS2时,它未能在CS2和US之间建立关联。掩盖指的是当CS1在学习阶段始终与CS2一起呈现时,CS1与US之间的关联强度减弱。Rescorla的真正随机对照实验表明,即使在CS和US之间保持完美的时间连续性时,US在没有CS的情况下呈现也会导致关联强度的退化。这些和其他实验导致了结论,即联想记忆的形成由预测器提供的关于预测事件的偶然性或信息决定,而不是CS和US之间的时间连续性。

1.1 Rescorla-Wagner模型

对上述实验的分析促成了Rescorla和Wagner开发出20世纪最具影响力的其中一个学习模型。根据该模型(Rescorla & Wagner, 1972),每次试验中发生的学习量取决于与US相关的不可预测性或惊讶程度。在学习的早期阶段,当CS与US之间的关联尚未建立时,CS关于US的发生提供的信息很少,使其非常令人惊讶。因此,动物从每次CS与US的配对中学到了很多。然而,随着CS与US之间关联强度的增加,US的发生变得不那么令人惊讶,导致学习进展变慢。这一学习规则表述如下:


在这里,VX 表示CS X与US之间的关联强度;λ 是US可能达到的最大关联强度;α 是CS的显著性系数,β 是特定US的学习率;n 是试验次数。ΔV 表示所有可用CS的总预测值。在每次试验后,关联值 VX 将根据预测值的变化 ΔV 进行更新。在实验中,VX 可以从观察到的行为适应中得出。

根据公式1.1和1.2,Rescorla-Wagner模型中的学习过程可以被概念化为预测误差的最小化。在每次试验中,动物观察所有可用的CS,并通过汇总每个CS的关联强度(ΔV)来生成对即将发生的US的预测。当US发生时,US的强度与这一预测(λ−ΔV)进行比较,从而产生正的或负的预测误差。然后,通过根据预测误差的大小和方向调整存在CS的关联强度来发生学习。

例如,如果λ=1(US发生了)且ΔV=0(US未被预测),预测误差(λ−ΔV)会很高,因为US令人惊讶。因此,CS与US之间的关联强度会增加αXβ。然而,如果ΔV=0.9,结果的学习会少得多,具体为αXβ×0.1,反映了减少的预测误差。

Rescorla-Wagner模型成功地解释了各种现象,包括阻断、掩盖、条件性抑制、防止消退和过度预期。这些现象可以在模型捕捉联想学习的动态以及预测误差对关联强度调整的影响的框架内得到理解。

Rescorla-Wagner模型先于强化学习领域出现。最初以联想强度来表述,它可以被看作是预期和实际奖励值之间的奖励预测误差,这构成了大多数强化学习算法的基础。例如,时间差分模型(Sutton, 1988),作为最广泛使用的强化学习算法之一——深度Q学习网络(DQN;Mnih等人,2015)的基础,可以被视为Rescorla-Wagner模型的扩展。它在试验内的每一刻都提供实时预测,使得预测误差不仅可以在试验结束时US发生时进行评估,而且可以在整个试验过程中进行评估。这一能力使得时间差分模型为联想学习理论提供了新的见解,模拟了各种现象,如二阶条件反射(Sutton & Barto, 1990)。此外,由于其能够预测大脑内的多巴胺信号,它已确立为神经科学中最成功的计算模型之一(Schultz, 2016)。

1.2 学习与信息

认识到偶然性而非简单的配对对于形成联想连接至关重要,也可以从信息论的角度进行考察(Gallistel & Balsam, 2014; Gallistel et al., 2014)。在条件反射实验中,条件刺激(CS)信号向受试者传达的信息可以通过减少受试者对内部世界表征下状态的不确定性来量化。在信息论中,不确定性通常使用熵的概念来量化:

例如,想象你有两个封闭的盒子,其中一个盒子里装有糖果。让我们考虑一个概率分布,它代表我们对奖励在左边或右边盒子中的内部(先验)信念:。如果我们的信念是 p(x) = [0.99; 0.01],我们非常确定奖励在左边,导致熵值较低,约为 0.05。 但如果我们对奖励的位置一无所知,我们的信念是 p(x) = [0.5; 0.5],那么熵 H 将更高,约为 0.69。需要注意的是,我们已经从使用值(如最初在 Rescorla-Wagner 方程和强化学习中使用的那样)转变为使用概率分布。如果我们把这些概率分布读作(例如,贝叶斯)信念,这意味着对世界状态的(点)估计被对世界状态的信念所取代,这些信念必然包含不确定性。 熵是见证特定结果所能传达的信息的上限。在联想学习的背景下,熵由围绕 US 的不确定性决定。CS 只能在它向受试者传达信息的程度上减少这种不确定性。随后的信息增益可以表示为 CS 和 US 之间的互信息(也称为相对熵)。换句话说,它测量 US 的熵与在 CS 存在时 US 的熵之间的差异:

因此,CS和US之间联想连接的形成依赖于这两个刺激之间存在互信息,并导致US熵的最小化。

1.3 本研究的目的

Rescorla-Wagner模型的优势在于其简单性以及解释广泛学习现象的能力。它引入了学习中预测误差或惊讶最小化的基本概念。然而,该模型可能过于简单,无法成为通用学习规则。有许多实验发现该模型无法解释(Miller等人,1995)。其他联想学习模型——最著名的是Peace-Hall(Pearce & Hall,1980)和Mackintosh(Mackintosh,1975)模型,我们将在文章后面探讨——在某些具体预测中也取得了成功,但在其他方面则失败(Bouton,2016)。为了寻找对联想学习更完整的描述,我们转向了自由能原理——一种从第一性原理推导出的贝叶斯方法,用于大脑功能(Friston,2010)。目标是在条件反射任务中,包括简单的单一CS条件反射、潜在抑制和线索竞争(阻断和掩盖),用主动推断框架模拟代理的行为,并研究在自由能(即惊讶)最小化下与经典学习理论相比的学习潜在机制。


2 自由能原理和主动推断

自由能原理(Friston, 2010; Friston et al., 2011; Parr et al., 2022; Ramstead et al., 2023)是大脑功能最有希望且最全面的数学原理之一。在本文中,我们旨在展示自由能原理的核心思想如何与基于行为实验的经典联想学习模型相关联,并对其进行扩展。我们以动物条件反射任务的模型为例来说明这些随后的关系。

在主动推断中,我们构建信念作为概率分布,这些分布代表了世界的各个方面。这种基于信念的框架非常适合信息论,因为具有信念的系统可以通过不确定性(即熵)和惊讶(即惊讶和自信息)来描述。重要的是,主动推断强调不仅优化成本函数,而且减少不确定性对于实现最优行为和学习的重要性。通过将减少不确定性视为学习的一个关键方面,主动推断为学习过程提供了宝贵的视角(Sajid et al., 2021)。

主动推断是一个全面的框架,它继承了自由能原理,用于描述生物和人工代理中的贝叶斯最优行为(Parr & Pezzulo, 2021; Ramstead et al., 2023)。主动推断的核心原则认为,代理寻求最小化其感官观察的惊讶程度,以维持稳态(即,采样偏好结果)。需要注意的是,主动推断中的惊讶概念与Rescorla-Wagner模型中使用的惊讶概念不同。我们将在本文后面深入探讨各种类型的惊讶。

主动推断可以被概念化为包含三个关键阶段:感知、行动和学习。在感知阶段,代理参与推断其所处世界的状态的过程。在感知阶段之后,代理继续在环境中行动,根据推断出的状态选择行动。因为这种(例如,贝叶斯模型)选择依赖于推断最可能的行动,所以有时被称为规划即推断(Attias, 2003; Botvinick & Toussaint, 2012; Da Costa et al., 2020)。目标是实施那些最小化未来感官观察预期惊讶的行动。最后,在学习阶段,代理根据其行动的观察结果更新其对世界的模型。

感知受到贝叶斯大脑假设(Gregory, 1980; Knill & Pouget, 2005)的指导,该假设提出大脑寻求通过使用贝叶斯推断,在世界生成模型下最优地推断感官观察背后的原因。换句话说,感知被视为贝叶斯信念更新——即,使用贝叶斯规则将先验信念(观察之前)更新为后验信念(观察之后):

在这里,s 是世界的状态,o 是一个观测,p(s) 是世界处于状态 s 的先验概率,而 p(s∣o) 是在观测到 o 之后世界处于状态 s 的后验概率。p(o∣s) 是当世界处于状态 s 时观测到 o 的似然性。p(o) 是在所有可能产生它的状态下观测到 o 的概率:。p(o)(也称为边缘似然或模型证据)越高,模型对给定感官信息的解释就越好。我们想要最小化的惊讶就是 −lnp(o)。因此,通过最小化惊讶,我们实际上增加了模型证据。通过平均最小化惊讶,我们确保结果的熵 被最小化,从而符合稳态要求。然而,为了计算 p(o),我们需要对所有可能的世界状态求和或积分,这在实际中是不可行的。自由能原理假设,与其直接评估 −lnp(o),我们不如找到一个量,它将是惊讶的上界,并最小化它,这将导致惊讶的最小化。自由能方程的第一个版本展示了其理论基础(对于易于理解的推导,请参见 Smith 等人,2022 年):

在这里, 是Kullback-Leibler(KL)散度,用于衡量一个概率分布与另一个概率分布的不同之处。分布 q(s)表示代理对世界未观测(即隐藏)状态 p(s∣o) 的信念。当这两个分布之间的差异减小时,自由能将越来越接近惊讶的近似值,即 −lnp(o)。因此,感知的任务是找到使自由能最小化的 q(s),使其尽可能接近惊讶。然而,我们无法从这个方程中计算自由能,因为 p(o) 仍然存在。为此,使用了自由能表达式的重新排列(Smith等人,2022年):

这个方程右边的项分别被称为复杂度和准确性。复杂度意味着代理为了适应感官输入需要改变其信念的程度,而准确性指的是模型的信念预测感官输入的程度。从这个方程可以看出,当准确性最高且复杂度最低时(奥卡姆剃刀原则),自由能将最小化。

但代理不仅能够观察;它还可以行动。主动推断中的下一个重要观点是,代理实际上可以通过在环境中采取将导致偏好(或模型预期)的观察 p(o∣C) 的行动来最小化惊讶。因为自由能是惊讶的近似值,我们可以通过采取适当的行动来最小化未来的预期自由能(EFE)从而最小化惊讶。然而,我们不知道我们将来会看到哪些观察结果,所以我们需要预测它们。将来将占据的状态以及接收到的观察结果将取决于所采取的行动,即策略 π。并且我们需要有关于与稳态一致的观察结果的先验信念(例如,感到饱足,处于舒适的温度区域)p(o∣C)。鉴于这些先验偏好,EFE的形式如下(Smith等人,2022年;Millidge等人,2021年):


第一个期望,称为内在或认识价值或信息增益,关注于获取知识和减少对世界状态 s 的不确定性。第二个期望是外在价值,它在强化学习中作为奖励的类比,在最优控制理论中作为成本。这个方程表明,代理努力获取偏好观察的同时,也在收集信息——也就是说,在避免某些结果的同时使其他结果更有可能的情况下,最小化对环境状态的不确定性。认识的、探索性(即,寻求信息)行为在多大程度上超过工具性的、利用性(即,寻求偏好)行为,取决于先验偏好的精确度(与期望结果的置信度成反比,与 C 的方差成正比)以一种直接的方式。换句话说,如果偏好结果的可能性都相等,那么行动的选择将基于它们的内在价值。这在机器学习和发展神经机器人学中有时被称为内在动机(Oudeyer & Kaplan, 2007; Schmidhuber, 2010; Parr & Friston, 2018; Schwartenbeck et al., 2019)。代理对策略的分布是通过 p(π)=σ(−G) 确定的,其中 σ 是一个softmax(归一化指数)函数,G 是每个可用行动(策略)π 的 Gπ 值的向量。

从网络的顶部开始,首先通过上述变量的softmax(归一化指数)函数(σ)选择一个策略(π)。为了做出决策,代理依赖于一个世界模型。在我们的实验中,我们假设状态和观察可以表示为各个离散因素的组合。例如,一个状态可能包括代理在环境中的位置和奖励的位置。我们使用以下变量列表来编码代理的世界模型:

  1. 每次试验开始时的信念状态编码在向量D中。向量D的每个元素i对应于在状态i开始试验的概率。换句话说,p(s) = Cat(D),其中Cat表示这是一个由D参数化的分类分布。在我们的实验中,对于每个独立的状态因素,我们保留一个单独的D。

  2. 似然分布p(o|s)由张量A编码。在一般情况下,我们可以将A视为一个矩阵,每一行对应一个可能的观察,每一列对应一个可能的状态:p(o|s) = Cat(A)。为了简化可视化,我们将A视为一组多维张量A1, A2,..., AM,其中M是输出模态的数量。我们可以在这里使用一组张量,因为在我们的实验中,我们将观察模态视为在当前信念状态下是独立的。每个张量Ai的形状为|Oi|×|S1|×|S2|×...×|SK|,其中|Ok|是模态k的可能结果的数量,K是状态因素的数量。

  3. 状态转移分布p(st+1|st, π)编码为矩阵Bπ,每个状态在试验步骤t有一列,每个状态在试验步骤t+1有一行。每个矩阵Bπ对应于一个特定的动作(策略)π。将推断出的状态q(st)乘以动作依赖的转移矩阵B,为下一步提供先验p(st+1):p(st+1) = Cat(Bπ q(st))。

  4. 先验偏好或偏好观察p(o|C)由向量C编码,表示代理旨在接收的期望观察。

模型的参数,如图1中的方块所示,是可以学习的。例如,Friston等人(2016)展示了在T形迷宫任务中D的学习以及随后的习惯形成。然而,代理最初就具备了对环境偶然性的知识,表明了条件刺激(CS)与无条件刺激(US)之间明确的关联。这种关系被编码在A矩阵中,它建立了CS观察与决定奖励是位于T形迷宫右侧还是左侧的环境状态之间的关联。我们的工作探讨了代理如何在初始偶然性未知的情况下学习特定的关联。


我们现在转向数值研究,在这些研究中,我们应用主动推断来重新审视联想学习的基础,并建立主动推断与基于强化学习的经典解释之间的关系。

模型的参数,如图1中的方块所示,是可以学习的。例如,Friston等人(2016)展示了在T形迷宫任务中D的学习以及随后的习惯形成。然而,代理最初就具备了对环境偶然性的知识,表明了条件刺激(CS)与无条件刺激(US)之间明确的关联。这种关系被编码在A矩阵中,它建立了CS观察与决定奖励是位于T形迷宫右侧还是左侧的环境状态之间的关联。我们的工作探讨了代理如何在初始偶然性未知的情况下学习特定的关联。

我们现在转向数值研究,在这些研究中,我们应用主动推断来重新审视联想学习的基础,并建立主动推断与基于强化学习的经典解释之间的关系。

2.1 实验的生成模型

在这项工作中,我们使用了pymdp库(Heins等人,2022),它提供了离散状态空间生成模型的主动推断的Python实现。本研究中采用的学习任务是一个T形迷宫,这是一个由通道和两个臂组成的T形迷宫。动物/代理的初始位置在中央通道。目标是到达交叉口并朝正确方向转弯以获得强化。中央通道有一个提示,指示要向哪个方向转弯(左或右)。要正确解决任务,动物/代理需要在之前遇到的提示和奖励的位置之间建立关系。这个任务结合了工具性行为和痕迹条件反射。代理必须在条件刺激(CS)和无条件刺激(US)之间形成关联,它们在时间上是分开的,然后相应地行动以获得奖励。T形迷宫模型在主动推断文献中被广泛用于展示自由能的各种属性(Friston等人,2015;Hesp等人,2021;Sajid等人,2022;Parr & Pezzulo,2021)。我们对模型进行了某些修改,以说明阻断现象,并使训练协议更接近相应的动物实验。然而,使用更标准的经典条件反射模型,如简单的音调-电击关联,可以复制T形迷宫获得的所有结果。

T形迷宫的设置如图2所示。代理可以处于五个位置之一。数字表示起始位置,4表示带有CS的位置,2表示T形分支,1和3表示迷宫的左臂和右臂,可能有奖励或电击US。CS明确地信号了US。代理的信念状态由两个状态因素组成,第一个编码代理的位置q1(s),第二个编码奖励的位置q2(s)。因此,环境状态的结构和代理对它的信念将如下所示,[loc1, loc2, loc3, loc4, loc5][rewleft,rewright],其中每个括号包含一个总和为一的概率分布。代理接收到的观察包括代理的位置、CS和奖励。代理可以向上、向下、向左、向右移动或停留在同一位置。生成模型还包括似然矩阵A、转移矩阵B、先验向量D和偏好矩阵C。在动物实验中,通常会对迷宫进行预先暴露;几天内,动物有时间探索、熟悉迷宫并记住潜在的奖励点。因此,在条件反射之前,我们假设代理熟悉迷宫的空间,这意味着它可以基于观察ot准确地形成关于其在迷宫中的位置的信念q1(s)。D或p(s) = [0, 0, 0, 0, 1][0.5, 0.5]指定了代理在剧集开始时关于其位置和奖励位于迷宫左臂或右臂的50%机会的先验信念。偏好矩阵C的构建方式是,代理偏好食物并对电击有厌恶感。状态转移矩阵B定义了代理关于移动后下一个状态的信念。似然矩阵A定义了状态和观察之间的偶然性。由于我们的模型假设了三种观察,矩阵A由三种模态组成。由于对迷宫的预先暴露,我们假设代理已经学会了B矩阵,以及A矩阵的模态1和3(代理位置和奖励)。它不知道的是将CS和奖励位置联系起来的偶然性(A矩阵的第二种模态)。没有这些信息,代理不能可靠地预测奖励的位置,给定CS。



2.2 学习

在主动推断中,学习对应于在已知为狄利克雷分布的分布类别内更新模型参数的先验信念。不深入技术细节,我们的可学习参数是应该总和为一的概率分布。一个简单的例子是关于奖励位置的先验信念,可以表示为。在学习过程中,我们可以使用狄利克雷分布来表示分布数据:

在这里, 是浓度参数。我们可以通过简单地向它们添加计数来更新这些参数。例如,如果我们的初始先验是 ,并且在剧集结束时的后验信念表明食物在右侧,我们会在 d2 上加1,得到。为了获得D向量中的预期概率,我们只需对 d 进行归一化,使其总和为1,将 转换为 ,这表示一个正确的概率分布。相应的学习更新可以表示如下:

其中 α 是学习率,ω 是遗忘率,q(sT) 是在试验的最终时间点后对状态的后验信念。

其他模型参数也可以以类似的方式学习。我们的工作重点是学习A矩阵。如果代理遇到某个观察 o 并推断出它所处的状态 q(s),我们可以通过在 p(A) 的适当位置添加计数来加强该观察与状态之间的关联。这种类型的学习类似于经典Hebbian可塑性规则:


在这里,⊗符号表示外积。学习率设置为α = 0.2,遗忘率设置为ω = 1。

鉴于这个问题涉及痕迹条件反射而非延迟条件反射,CS和US在时间上不重叠。为了解决这个问题,我们在模型中引入了一种情节重放机制,使得代理能够将一集的结果与之前的观察联系起来。在试验结束时,当代理接收到奖励或电击,关于奖励位置的不确定性得到解决,我们重放这一集,同时将关于奖励位置的模糊信念q2(st)替换为明确的信念q2(sT)。因此,代理带着对最终结果的了解重放这一集。在这个重放过程中,A矩阵得到训练,建立了整个情节中的观察与奖励位置之间的联想联系。这可以被描述为一种离线学习格式,与在线学习形成对比,在线学习中参数在每一步都进行更新。这涉及到主动推断和学习的一个重要方面,即学习是一个较慢的信念更新过程,基于在主动推断过程中积累的证据。

从技术角度来看,离线学习对应于在特定试验中看到所有结果后,基于贝叶斯平滑(即,前向和后向传递)进行推断后更新模型参数。这可以与基于贝叶斯滤波的在线学习形成对比。从神经生物学角度来看,隐式的贝叶斯平滑可以与实证研究中看到的重放事件相关联(Louie & Wilson, 2001; Penny et al., 2013; Pezzulo et al., 2014)。


3 结果3.1 单一CS学习

在主动推断中,不仅感知和推断,而且学习也是通过最小化自由能来实现的。通过感知最小化自由能可以改善对惊讶的近似,而相对于模型参数最小化自由能实际上可以减少惊讶,因为代理可以根据经验做出更准确的预测。

在随后的章节中,我们检查了由于代理的生成模型中参数的学习而导致的自由能的变化。我们的分析集中在推断后的自由能及其组成部分,同时考虑先验信念和观察。具体来说,我们研究了CS和US的观察,以及整个剧集中的总自由能。图表展示了在每次试验后更新生成模型的参数时自由能的波动。

图3A展示了随着学习的进行,在观察到CS后关于奖励位置q2(s)的信念变化。它是通过观察CS后q2(s)分布的范围计算得出的:R = max(q2(s)) - min(q2(s))。最初,关于奖励位置的先验信念是[0.5, 0.5],导致学习开始时R值为0。这表明代理尚未将CS与US联系起来。随着学习的进行,q2(s)将向一侧偏移,R将接近1,表明代理对CS和US之间的联系有强烈的信念。在学习这种范式偶然性的过程中,所有剧集的总自由能都会降低(见图3B)。让我们检查每一步的自由能各个组成部分。变分自由能,记作F,包含两个项:复杂度和准确性(见方程2.3)。复杂度表示代理需要更新其信念以解释感官输入的程度,而准确性反映了模型的信念对感官输入的预测程度。这两个量都可以用预测误差来描述。复杂度由先验和后验信念之间的差异决定,而准确性由预测和观察结果之间的差异决定。


当我们关注实验的第二步,即CS的观察时,我们在学习CS和US之间的偶然性时看到了F的波动(见图3C)。这是由于复杂度和准确性的同时增长。随着代理模型(A矩阵)中CS和US之间的关联变得更加精确,代理在呈现CS后对其奖励位置信念的信心也随之增加。在学习过程的开始,观察CS后对奖励位置的信念将是[0.5left 0.5right],表明完全模糊(最大熵),因为CS对代理还没有意义。随着学习的进行,“右提示”CS将越来越多地将对奖励位置的信念向[0.4left 0.6right]、[0.3left 0.7right]等方向偏移,直到最终达到[0left 1right]。“左提示”CS也是如此。由于每个剧集开始时对奖励位置的先验信念总是[0.5left 0.5right],因此在CS观察后复杂度项(先验和后验信念之间的差异)增加(见图3D)。随着代理的模型更好地解释特定于一个奖励位置的CS观察,CS观察的准确性也增加(见图3E)。

只要后续步骤中没有矛盾的信息,从CS观察中推断出的关于奖励位置的信念就会进一步传播到剧集中,作为后续步骤的先验信念。在学习过程的开始,迷宫臂中奖励或电击(US)的观察是唯一可以减少代理对奖励位置信念中的不确定性的刺激。因此,US观察后的复杂度很高(见图3G)。随着学习的进行,US位置的先验信念(CS观察后传播的信念)变得越来越接近后验信念(在US观察后推断出的),从而降低了复杂度。与CS观察后的准确性相比,US观察的准确性保持不变,因为代理的模型在收到奖励或电击后对奖励位置的信念具有很高的置信度(见图3H)。

因此,通过学习CS和US之间的偶然性,我们通过减少先验和后验信念之间的差异(复杂度)来最小化US观察的F(见图3F)。复杂度项,也被称为贝叶斯“惊讶”(Baldi & Itti, 2010),可以被视为一种预测误差。一方面,它可以与联想学习理论中经常被称为惊讶的Rescorla-Wagner模型预测误差相比较,该误差以联想强度来表述,但在强化学习中被改编为奖励预测误差的形式。另一方面,贝叶斯惊讶是关于世界状态的先验和后验信念之间的差异。这些概念共享了期望与现实之间差异的相似观念。此外,我们可以在我们的模型中展示学习过程中奖励预测误差的减少。为了展示这一点,我们转向预期自由能(EFE),这是一个最小化的函数,用于指定最优策略。

如方程2.4所示,EFE包含两个组成部分:认识的或信息寻求的组成部分和内在的或奖励寻求的组成部分。本质上,每个观察结果都对代理具有其自身的奖励价值和信息价值。通过最小化EFE,我们识别出导致偏好观察(奖励)和提供最大信息量的观察结果的一系列行动。现在关注内在组成部分,我们可以展示CS预测的奖励价值的动态(见图4C)和奖励预测误差:US观察后实际收到的奖励与CS预测的奖励之间的差异(见图4D)在学习过程中的变化。与Rescorla-Wagner模型一样,预测值增加,奖励预测误差减少。


第三种惊讶类型,信息理论惊讶或惊讶,是主动推断中最小化的主要焦点。变分自由能F如前所述是惊讶的上界。虽然F包括贝叶斯惊讶(复杂度),但贝叶斯惊讶与惊讶之间的关系取决于F中的第二项,准确性。在我们简单的条件反射模型中,由于准确性保持不变,F和复杂度在US观察时随着学习而减少。然而,在CS观察时,准确性和复杂度随着学习而增加,导致F没有变化。

如果我们考虑整个训练剧集,类似于Rescorla-Wagner模型,整个剧集的总自由能的最显著变化将由US获取期间复杂度的减少所驱动,这意味着对US的更好预测。然而,在剧集内,复杂度的变化更有可能类似于TD学习规则,其中预测误差从US转移到CS。在我们的模型中,奖励预测误差也是如此。

从获取信息的角度来探讨联想学习,也可以在主动推断的框架内进行考察。在这个背景下,一个信号(例如,CS)向观察者(条件反射实验中的受试者)传达的信息是通过减少观察者对世界随机方面的不确定性来衡量的。能够传达的信息量受到可用信息(源熵,代表世界那一方面的变化)和观察到的信号与未观察到的(即,隐藏或潜在的)世界状态之间的互信息的限制(大致表明观察和世界状态之间的相关性)。

在我们的实验中,生成过程的设计方式是CS和US之间存在互信息,CS理想地预测US。为了观察这种信息如何在学习过程中出现在代理的模型中,我们再次转向EFE和方程2.4,但这次关注认识项。从数学上讲,认识成分对应于观察和状态之间的互信息,也称为预期贝叶斯惊讶。通过学习,CS和US之间的互信息(CS观察的信息增益)增加(见图4A)。同时,由于CS更好地预测US,减少了不确定性,因此,未来步骤中的信息增益减少,未来观察对额外信息的贡献减少(见图4B)。

因此,主动推断为学习的信息方面与价值或奖励之间的联系提供了数学表述。在学习过程中,代理通过观察CS接收到的关于US的信息增加,减少了对US的不确定性,从而增加了US的预期价值,最小化了收到的和预测的奖励之间的奖励预测误差。然而,与Rescorla-Wagner和强化学习模型不同,其中奖励预测误差的最小化推动了学习,在主动推断中,这是自由能最小化和对世界状态和代理模型的信念优化的结果。

3.2 阻断

Rescorla-Wagner模型的成功在很大程度上是由于其能够解释线索竞争现象,其中最著名的是阻断和掩盖。

在本节中,我们考察在自由能最小化的背景下,学习过程中条件刺激之间的相互作用如何得到解释。

当代理已经学会了和US之间的关联,并在同一个试验中被呈现一个以前未知的条件刺激时,就会出现阻断现象。在这种情况下,为了重现动物学习,代理不应该学习CS2和US之间的关联。

为了模拟阻断现象,我们在模型中引入了另一个条件刺激,它在CS1之后完美地预测了奖励的位置。此时,代理已经学会了CS1和US之间的关联。因此,我们在模型中增加了一个额外的观察和相应的模态,以适应(见图5)。现在在位置5呈现,CS2在位置4呈现。


Rescorla-Wagner模型通过考虑预测误差来解释这一现象:如果CS1完美地预测了US,那么在US呈现时,预测误差将为零,导致没有进一步的学习。从自由能的角度来看,我们可以将这种预测误差与复杂度项进行类比。事实上,将引入我们的模型中,其中和US之间的关联已经建立,不会在US呈现时导致复杂度或自由能的变化(见图6A和6B)。这意味着代理在观察后不会进一步改变其对奖励位置的信念,因为它没有提供额外的信息(见图6C)。


然而,在主动推断的背景下模拟阻断并不那么直接。在我们的模型中,如果在代理穿越迷宫的过程中被观察到,和US之间的偶然性将以与CS1类似的方式被学习。这一过程也将导致学习试验中总自由能的最小化。然而,变化不会出现在或US观察后的自由能的复杂度项中,而是出现在CS2观察的准确性项中。即使我们抽象出具体的学习机制,并将学习视为最小化自由能的手段,加强代理A矩阵中CS2和US之间的联系将导致准确性增加,从而相应地减少CS2观察的自由能(见图7)。


准确性可以通过我们的似然模型(A矩阵)如何好地预测我们的后验推断信念q(s)来描述。由于关于奖励位置的信念已经通过CS1更新,并进一步传播到剧集中,调整A矩阵参数以对应CS2和US之间的偶然性与推断信念一致,将增加准确性并相应地减少自由能。

这个模型实际上可以很好地说明贝叶斯惊讶(复杂度)和惊讶之间的区别。代理在观察后信念不会改变(q(s) = p(s)),因此贝叶斯惊讶(复杂度)将为零(见图7B)。然而,由于这个观察的准确性低,代理仍然会“惊讶”(-ln p(o) > 0),并通过学习最大化它。

因此,直接将添加到模型中而不进行任何进一步修改的方法无法重现阻断现象。我们可以探索几种将阻断纳入我们模型的选项。一种方法是假设在这个模型中,生物体的学习仅与具有非零值的观察有关(适当的C条目=0的观察)。因此,在学习过程中,代理主要专注于最小化与这种观察相关的自由能。在我们的情况下,它将是奖励或电击观察。这种方法有效地将我们的模型简化为Rescorla-Wagner预测误差类型的学习,其目标是通过复杂度最小化来最小化与无条件刺激(US)观察相关的自由能(F)的组成部分。为了纳入这一概念,我们可以通过在方程2.9中将F作为预测误差来修改我们的学习规则:

这种使用自由能来调节学习的方法之前已经在易变环境中的情感推断背景下被考虑过(Joffily & Coricelli, 2013)。然而,我们在这里追求一种更简单的方法,它与包含注意力的强化学习模型更为密切相关。

3.2.1 阻断、认识性可供性和注意力

在主动推断的背景下模拟阻断的一个合理方法是通过阻断认识性行为,如注意力。

除了假设注意力为常数系数的Rescorla-Wagner模型外,还有众所周知的联想学习模型将注意力作为学习过程中潜在的可变参数。两个突出的例子是Macintosh模型和Pearce-Hall模型。

Macintosh模型提出,在学习过程中,动物会将更多的注意力分配给之前已被证明是US的可靠预测因子的刺激(Mackintosh, 1975)。根据这种观点,动物学会选择性地关注可靠预测试验结果的相关刺激,同时忽略不贡献于US预测的无关刺激(Pearce & Mackintosh, 2010)。


Pearce-Hall模型认为注意力在学习中扮演着不同的角色。根据该模型,注意力的作用是促进更快的学习,并且指向那些不是后续事件准确预测因子的刺激(Pearce & Hall, 1980)。


‍‍‍‍

符号表示与Macintosh模型相似;然而,对CS的注意力α在条件反射开始时会很高,并且随着学习的进行会下降。因此,这两个模型提出了对比性的注意力机制,突出了其在学习中作用的不同视角。然而,我们可以探索如何在主动推断的框架内表达相似的注意力原则,并在自由能最小化的统一框架下进行整合。

注意力机制,在我们之前的模拟中,我们假设代理总是接收到具有同等显著性的CS观察。然而,在主动推断中,注意力可以被视为一种旨在获取信息的行为,如在扫视模型中所展示的那样(Parr & Friston, 2017)。为了将选择性注意力纳入我们的模型,我们可以引入一个额外的动作:“关注提示”(见图8A)。这个概念还引入了额外的状态,代理需要“访问”或“关注”以接收CS观察。在主动推断中,注意力通常被视为一种隐蔽的行为,与扫视眼动等显性行为发挥相同的作用(Rizzolatti等人,1987;Parr & Friston, 2018;Limanowski, 2022)。这意味着我们也可以将“关注提示”读作“看着提示”。只有当代理执行这个动作时,CS观察才会对代理可用。通过这一举措,我们将我们的代理从被动学习者转变为积极学习者。


动作是通过遵循最小化预期自由能(EFE)的策略来选择的。如上所述,EFE包含一个内在的信息增益项和一个外在的奖励项。信息增益对应于状态和观察之间的预期贝叶斯惊讶和互信息(Itti & Baldi, 2008)。由于电击的厌恶价值高于食物的奖励价值,当对食物位置的不确定性仍未解决时,的信息增益将高于信息增益和US的价值(见图8B)。因此,代理将选择关注的动作。在接收到观察后,由于不确定性得到解决,US的奖励价值增加,因为代理对食物位置有把握,并且鉴于CS没有奖励价值,在动作选择方面变得无关紧要(见图8C)。因此,代理将关注,但不会关注(见图8A)。这种注意力的概念与Macintosh的观点相似,即在学习过程中,动物将更多的注意力分配给可靠预测US的CS,换句话说,携带更多信息。

总结,主动推断下的阻断可以被解释为通过移除不进一步解决不确定性的动作的预期信息增益或认识性可供性来阻断探索性行为。由于某些认识性动作被阻断,因此没有学习关联,因此也没有对利用性行为的贡献。换句话说,我们的合成代理学习了一种认识性习惯(Friston等人,2016),阻止了新关联的获取。

3.3 新颖性与注意力

上述模型在只有一个CS存在的先前实验中不会有效运作。在这种情况下,如果代理缺乏关于该特定观察中存在有用信息的先验知识,它就不会选择关注CS的动作。因此,与这一动作相关的信息增益将会很低。为了解决这个问题,可以在学习过程中加入一个额外的项——即新颖性项,它在主动推断框架内考虑好奇心(Friston等人,2017)。在主动推断中,新颖性仅仅是伴随预期关于潜在状态的信息增益的关于参数的预期信息增益,通常被称为显著性(Schmidhuber, 2010; Barto等人,2013; Schwartenbeck等人,2019; Parr & Friston, 2018)。

EFE中的新颖性项使代理能够优先选择那些导致观察结果能够在其学习过程中引起代理模型最显著变化的动作。通过整合新颖性项,预期自由能(EFE)可以表示如下:


新颖性项依赖于代理对A矩阵的信念所编码的不确定性,用狄利克雷参数表示,记作q(A)。在我们的模型中,我们假设代理对环境和潜在奖励位置有所熟悉,类似于动物实验中进行的预学习程序。因此,q(A)的浓度参数通常会很高,除了与CS观察相关的矩阵部分除外。新颖性项量化了在特定策略下学习导致的A矩阵的预期变化。由于学习发生在剧集结束时,我们使用前一个剧集中积累的信念来计算新颖性。

如图9B所示,随着学习的进行,旨在关注CS的动作的新颖性会降低,这与Pearce和Hall提出的注意力概念一致。然而,与他们的模型不同,其中注意力直接受US预测误差的影响,我们模型中的新颖性并不直接依赖于US观察或奖励预测误差的复杂性。尽管如此,这两个术语都以类似的方式随着学习而减少。


因此,为了建立CS和US之间的关联,代理必须首先识别环境中的潜在CS事件,并对其进行定向或关注。选择相关观察的过程可以被概念化为最小化行动选择的预期自由能。预期自由能的两个组成部分,在定向和注意力中发挥作用,是新颖性和显著性——即分别与参数和状态相关联的预期信息增益。只要与CS相关的新颖性和显著性的总和超过了与US相关的信息增益和“奖励”,代理就会优先关注CS。在学习的初期阶段,对CS的关注将由新颖性驱动,随着学习的进行,新颖性逐渐降低。最终,注意力将转向从CS观察中获得的信息增益,这反过来随着学习的进行而增加(见图9B)。与之前的模拟一致,学习伴随着先验和后验信念之间关于US的预测误差的减少,这被表示为复杂性。

3.3.1 潜在抑制

通过利用新颖性作为注意力的机制,可以对潜在抑制现象提供解释,这对Rescorla-Wagner模型来说是一个挑战。潜在抑制指的是,如果动物预先暴露于后来作为CS的刺激,那么CS和US之间的联想学习就会被削弱。在我们的模型中,这可以归因于这种刺激的新颖性较低,导致代理对该特定CS缺乏关注。这种效应可以通过增加A矩阵中CS观察的初始狄利克雷参数来模拟。另一种方法是在实验的初始阶段使CS变得无信息,在这种情况下,CS是随机呈现的,与US没有任何联系(见图10)。在这种情况下,CS观察的新颖性会降低,而显著性保持不变。最终,代理会将其策略转变为直接接近潜在奖励位置,因为与US观察相关的预期自由能的其他项(预期信息和价值)的总和高于CS的新颖性。即使CS恢复了其信息属性,这种策略选择也会持续存在。值得注意的是,潜在抑制效应的常见解释是CS注意力的下降(Lubow等人,1976),在Rescorla-Wagner模型中,这可以被概念化为上述alpha参数的减少。


3.3.2 阻断和新颖性

在阻断实验中,CS2的新颖性将保持较高,这与Pearce-Hall模型的预测相反。然而,它将低于与CS1观察之前相关的信息增益以及CS1观察和注意力解决不确定性之后US的价值(见图11)。因此,代理的行为将与前面的模型一致,最初关注CS1,然后向奖励移动。


尽管阻断是一个有充分记录的现象,但它并不总是在实验中一致地被观察到(Maes等人,2016)。在我们的模型中,这种失败可以通过各种因素来解释。例如,与US的奖励价值相比,与相关的新颖性价值较高可能会起作用。或者,可能具有与世界其他状态相关的一些其他信息增益方面,这将吸引对它的注意力。因此,如果通过增加其显著性使代理的注意力转向,阻断效应将会更弱(Denton & Kruschke, 2006)。

3.4 遮蔽现象

遮蔽现象也是在条件反射中观察到的一种现象,当两个新的条件刺激(CS)在试验中与无条件刺激(US)配对时,会导致与单一CS试验相比条件反射更弱或学习速度更慢。与阻断现象类似,经典模型通过简单的预测误差来解释这一现象。我们的模型表明,在遮蔽现象中,新颖性、显著性和奖励价值都是需要考虑的重要因素。在这种情况下,两个CS在学习开始时都是模糊的。是两个不同的提示,例如声音和光,而我们称第一个CS为代理首先关注的提示,无论是。图12显示了在有两个CS的学习(实线)与单一CS的学习(虚线)期间第一次CS观察的EFE差异。在第一种情况下,对于相同数量的训练剧集,学习速度会更慢。


这种差异可以通过代理在观察其中一个CS后的下一个动作来解释,该动作由EFE决定(见图13)。


在最初的几次试验中,两个条件刺激(CS)的新奇性将占据主导地位,这导致代理同时关注这两个线索,每次试验都会减少新奇性并增加两个线索的显著性(信息增益)(见图13A)。经过几次试验后,每个条件刺激将提供足够的信息来增加直接前往奖励位置(US,红色线)的策略价值,而不是观察第二个条件刺激(青色线)。在这个阶段,代理将只关注两个条件刺激中的一个,然后直接前往奖励位置(见图13B)。因此,与单个条件刺激试验相比,学习两个条件刺激与奖励之间的关联性将需要更长的时间。

4 结论

在本研究中,我们构建了一个主动推理模型,其中代理学习建立条件刺激(CS)和无条件刺激(US)之间的关联。我们的工作阐明了学习过程是自由能的最小化,并将这种方法与经典联想学习模型进行了比较。

20世纪最具影响力的模型之一,Rescorla-Wagner模型,认为学习是通过最小化预测误差——预测结果与观察结果之间的差异来实现的。这一观点已应用于强化学习领域,作为奖励预测误差——代理预测和观察到的状态值之间的差异。在主动推理中,学习是通过调整代理的生成模型参数来最小化自由能实现的。自由能可以被视为两种预测误差的结合:复杂性和准确性。在我们的模型中,我们强调了这两种术语的动态以及在学习过程中对世界状态的信念的重要性。尽管我们的模型也显示出奖励预测误差的减少,但重要的是要注意,这种减少是自由能最小化的结果,而不是学习的主要驱动力。

自由能原理进一步允许我们建立代理在观察到CS后对US的不确定性减少与学习过程中US的奖励价值增加之间的联系。这种联系之前在Rescorla的作品中讨论过,但没有被整合到模型中。

在我们的模拟中,我们在展示阻断现象时遇到了挑战。这一困难源于准确性项的影响,该准确性项在学习第二个新CS与US之间的关联性时增加并最小化自由能,注意到两个CS的显著性是相同的。为了解决这个问题,我们使用注意力的概念巧妙地调整了我们的模拟,在主动推理中,这可以被解释为旨在获得最有信息量的观察的行动。将这一概念应用于联想学习,类似于Mackintosh的模型,该模型假设动物会将注意力分配给之前更好地预测US的CS。这种方法使我们能够证明代理朝向第一个CS,同时忽略第二个CS,导致对第二个CS的学习缺乏,从而展示了阻断。

然而,这种类型的注意力的引入也揭示了我们的基本模型在处理单个新CS时的缺陷。如果CS是新的,还没有携带任何信息,代理将不会关注这个线索,导致没有学习。为了解决这个问题,我们引入了新奇性的概念,这在主动推理中用于解释好奇行为。应用于联想学习,新奇性作为一个术语,负责对新CS的关注,类似于Pearce-Hall模型。我们证明了在学习过程的开始,CS的新奇性很高,是代理关注CS的主要原因。然而,随着学习的进行,关注CS的动机发生了变化:新奇性减少,而CS和US之间的互信息增加,促使代理因为CS的显著性或信息性而关注CS。

将新奇性项纳入阻断模型,也有助于解释在复制这一现象时频繁出现的失败,而Rescorla-Wagner、Mackintosh和Pearce-Hall模型单独无法做到这一点。此外,使用新奇性项使我们能够模拟潜伏抑制现象,这是Pearce-Hall模型的一个强项,但Rescorla-Wagner或Mackintosh模型并非如此。

此外,我们成功地模拟了遮蔽现象,在我们的模型中,这取决于新奇性、显著性和奖励之间的相互作用,与其他使用单一奖励预测误差的模型不同。总之,我们的工作突出了主动推理如何将联想学习的既定模型中的思想统一到一个全面的框架中。我们提出自由能原理作为一个潜在的框架,可以最充分地解释联想学习过程中发生的事情。需要注意的是,本文只呈现了有限数量的模拟实验,而联想学习的文献是广泛的。因此,进一步的研究应该集中在模拟现有的学习现象和设计新的实验来测试学习原则作为自由能最小化。

https://www.researchgate.net/publication/384268822_Associative_Learning_and_Active_Inference


路过

雷人

握手

鲜花

鸡蛋

最新评论