字幕组双语原文:深入了解SVD与纠缠
英语原文:Understanding Entanglement With SVD
量子纠缠,你也知道,这是个充满物理含义的短语。但你可能不知道的是,它背后的线性代数很简单。如果你熟悉奇异值分解(SVD),那么你就有99%的把握了。我这篇文章的目标是缩小这1%的差距。特别是,我想解释一些叫做施密特秩的东西,希望能帮助纠缠的数学感觉不那么... 纠结。而要做到这一点,请你暂时忘记前面的几句话,暂时忽略这篇文章的标题。忘掉我们正在讨论纠结的问题,忘掉我提到的那个词,然后我们重新开始,我们就聊数学吧。
让我们聊聊SVD吧。
SVD可以说是线性代数中最重要、最著名的工具之一。你可能已经对它非常熟悉了,但这里还是要快速地回顾一下。每个矩阵MM都可以分解为M=UDV† ,如下图所示,称为M的奇异值分解。对角矩阵D的元素为非负数,称为奇异值,它们的数量等于M的秩,比如说k。更重要的是,U和V正好有k列,分别称为左、右奇异值向量。
有很多种不同的方式去考虑这个问题,这具体取决于你考虑的的应用。我喜欢把奇异向量看作是为M矩阵本身固有意义的 "概念 "编码,而把奇异值看作是表示这些概念的重要性。例如,这种观点在深度神经网络的学习动力学研究中心自然出现。再举一个例子,你可以想象一个矩阵,其行是按照人为索引,其列是按照电影为索引。第 ij 项可以是 0 或 1,表示人 i 是否看过电影 j。在应用环境中--例如,推荐系统--可能希望计算这个矩阵的截断SVD。在这里只有最大的奇异值被保留。其余的值被视为包含很少的信息,并被设置为零。通过这种方式,对角矩阵D在一个低维的 "特征空间 "上运行,这为压缩和收集数据信息提供了一个很好的方法。
无论哪种方式,我都想将D看作是两个世界之间的桥梁:关于U列(例如人)的信息和关于V列(例如电影)的信息。下面是一个非常形象非数学化的漫画。您可以想象蓝色桥的宽窄与奇异值的数量有关。奇异值数量很多?那说明这座桥很宽,很多信息都可以经过。仅有几个奇异值?说明这座桥很狭窄,则没有太多信息可以通过。
在表示SVD的张量网络图中找到了实际的数学化图片。在那里,D真的是一座桥! 作为视觉提示,如果奇异值的数量很多,我们可以把蓝色节点相邻的边画得很粗,否则画得很细。这又代表了U和V所描述的系统之间信息 "流动 "的思想。
另外,如果您喜欢将矩阵视为二分图,那么您可能会想到下面的图。如果我们有很多蓝色节点,即大量的奇异值-那么粉红色和绿色节点(即人和电影)之间有很多通路。但是如果我们只有几个蓝色节点-即几个奇异值-则粉红色和绿色之间的路径就更少了。
无论利用哪种方式,我们都希望将其可视化,其中奇异值的作用(即对角矩阵D的作用)是关键。从直观上看,它们指示U和V存储的信息之间的``交互''量,并调解了这些交互是如何有助于原始矩阵M表示的信息。
而这正是纠缠数学背后的理念。
在物理学的背景下,人们简单地将SVD应用于一个特定的矩阵,然后观察该矩阵的非零奇异值的数量。这就是所谓的量子态的施密特秩(下文会解释)背后的主要思想,该整数表示存在多少纠缠。
纠缠度是通过特定矩阵的非奇异值的数量来衡量的。
那么,是什么让物理学家对SVD的应用与例如建立电影推荐系统的人有所不同呢?好吧,在物理学中,你的矩阵M大概是对一个物理系统的信息进行编码,并考虑到空间因素(例如,晶格中的粒子)。它的条目也可能包含复数,并且其平方和应满足∑ij|Mij|2=1。在这种情况下,正如我在下面解释的那样--M 代表一个量子状态。但是,除了术语之外,模板是大同小异的:奇异值传达了关于两个事务之间--无论是用户和电影,还是两个量子子系统之间--是如何关联重要信息的。
我可以就此打住,但我想再深挖一下。在下一节中,让我用稍微专业一点的语言来重述此重点。
奇异值vs.施密特秩
首先,让我们先回顾一下。在物理学的讨论中,我们应用SVD的矩阵到底是什么?在开始的示例中,我们将SVD应用于用户-电影矩阵。但是现在是怎么回事呢?
我们不是从一个矩阵开始,而是从一个单位向量开始。为此,假设ψ 是向量空间Cn⊗Cm的张量乘积中的任何单位向量。在这里,重要的是我们的讨论是在张量积中进行的。毕竟,纠缠是定义在两个事物之间的(所以,如果有人问你:"有多少纠缠?"一个正确的回答是:"什么之间的纠缠?"),而在量子力学中,张量积是用来组合两个系统的数学运算。现在,如果你对 "张量积 "这个词不熟悉,我推荐你看 "张量积,解密 "这篇文章。我想你会对这个概念的简单程度感到惊讶!
好了,现在我们有了向量 ψ,很容易从中得到线性映射Cm→Cn。只需将ψ的条目重塑成一个n×m的矩阵M。(说得更正式些,看一看在有限维向量空间A和B的同构A⊗B∗≅hom(B,A)下的ψ)。
用物理学的语言来说,ψ被称为量子状态,而M仅仅是与其相关的矩阵。更一般地,“单位向量”和“量子状态”这两个术语是同义词。这是因为任何单位向量的条目的平方都定义了概率分布,并且在物理学的背景下,这个概率分布告诉您正在研究的系统的状态。 (这是与生俱来的规则。)
但是我跑题了,让我们回到SVD。
我们假设矩阵 M 的奇异值分解由 UDV† 得到,这里我gagger表示 V 的共轭转置,因为我们允许 M 有复数项。现在我想借助这种分解方式来以一种较为复杂的方式重新表示 M。设ui和vi分别表示U和V的第i个列,使di表示M的第i个奇异值。之后我们可以将矩阵M展开为下面的和,其中k是M的秩。
我们快到最关键的部分了,但让我先介绍一个定义,然后再做最后一个外观上的改变。
对于任何两个向量u和v,矩阵uv†称为其外积。这个简单的操作也可以用张量积符号u⊗v表示,或者在物理学家的布雷克符号里用 |u⟩⟨v|表示。举例来说,如果u=[123]⊤,v=[45]⊤,那么它们的外积就是下面的小矩阵。
为什么要介绍这个呢?我们回想一下上面那个MM的扩展。在uv†↔u⊗v的对应关系下,我们可以使用U和V的列显式编写ψ,并按M的奇异值加权,如下所示:
在这一点上,你可能会认为我们并没有做很多(而且实际上也没有),然而现在我们已经为熟悉的事物赋予了新的名称。在物理学的背景下,ψ的上述分解过程称为Schmidt分解。原始矩阵MM的秩即整数kk被称为施密特秩。奇异值d1,d2,...,dk称为其施密特系数。
尽管术语是新的,但内容却不是。这就是重点。
划重点:如果量子态ψ的施密特秩(即奇异值的数量)严格大于1,则称其为纠缠态,否则不是纠缠态。
所以,您看到与我们上面讨论的联系了吗?正如我们前面所强调的,奇异值可以被认为是在两个子系统之间提供了一座 "桥梁"。它们是衡量它们之间存在多少相互作用的方法。在物理学的背景下,这种相互作用被理解为纠缠。
其结果是,大量的奇异值数量--即高施密秩或 "宽的桥梁"--对应于两个子系统之间的大量交流。少量的奇异值--即低施密特秩或 "窄的桥梁"--对应于很少的通信交流。在最低的极端情况下,一个奇异值对应于零纠缠,我们不妨忽略下图中的极窄的细桥。
事实上,请注意,如果ψ的施密特秩等于1,也就是说,如果M是一个秩为1的矩阵M=uv†,那么我们可以写成ψ=u⊗v。在数学文献中,这种形式的向量(即向量的张量乘积)有时被称为简单张量。为此,一些数学家将纠缠与 "简单张量的线性组合 "相关联。到现在为止,我希望原因大家都已经清楚了。
归根结底是SVD。
回到应用...
今天的文章部分是受Daniela Witten热情洋溢的Twitter话题的启发,这些话题涉及SVD的许多奇观和用途。我想在今天的文章中告诉你SVD的另一个用途--希望能帮助你把一个复杂的想法变得更简单一点。当然,我在讨论中省略了很多内容,但我希望这是一个有用的起点,以便进一步阅读。
作为结尾,我以对数据科学致敬作为本文的开始。的确,人们不需要做任何关于量子的假设就可以谈论SVD,但是SVD是研究量子系统的重要数学工具。而有趣的是,这两种对话并不是正交的。比如,这里有一篇X公司同事最近的论文:Entanglement and Tensor Networks for Supervised Image Classification。在那里,他们测试记录了MNIST手写数据集中图像上下半部分之间的纠缠量(Schmidt rank)。换句话说,他们探索了标准机器学习数据集的纠缠特性。希望我今天的讨论可以帮助这样的论文变得更容易理解。
只要记住:每当你看到纠缠这个词,请联想到SVD!
雷锋字幕组是一个由AI爱好者组成的翻译团队,汇聚五五多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业转变与技术创新的见解。
团队成员有大数据专家,算法工程师,图像处理工程师,产品经理,产品运营,IT咨询人,在校师生;志愿者们来自IBM,AVL,Adobe,阿里,百度等知名企业,北大,清华,港大,中科院,南卡罗莱纳大学,早稻田大学等海内外高校研究所。
如果,你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。