ICML论文精选：无监督学习的研究和应用

ICML 无监督学习深度学习

作者：黄鑫

2016/06/21 21:57

深度学习的类型按照数据是否有标记来区别可以分为三种：监督学习、半监督学习和无监督学习。事实上人类不可能把每件事都手把手的教给AI。无监督学习应该才是未来的趋势。

ICML给无监督学习单独开了一个专区，包括无监督学习的研究和应用。我们今天主要来关注一下无监督学习应用方面的论文。

深度嵌入的无监督聚类分析（Unsupervised Deep Embedding for Clustering Analysis）

聚类分析对许多数据驱动的应用领域来说非常重要，并且已经以距离函数和分组算法的表现形式被广泛彻底的研究过了。而聚焦于聚类分析的学习表现的研究相对来说则比较少。这篇论文，我们提出了一个深度嵌入式聚类方法（Deep Embedded Clustering，DEC），它可以使用深度神经网络实现同时学习特征表示和聚类任务。

这种方法在图像和文本语言识别领域的实验中的表现比现今最好的方法都有显著的提升。

用于检查数据的马尔可夫调制标记的泊松过程（Markov-modulated Marked Poisson Processes for Check-in Data）

论文建立了一个时间连续的概率模型来研究由时间和位置组成的“通过检查点（check-in）”的轨迹数据。我们将数据组织成一种标记点变化进程的实现，并且是一种由马卡洛夫跳跃进程（Markov jump process，MJP）条结果的强烈的标记分布式排列。

论文也将通过给每个用户分配一个“优先地点”的方式将用户异质性考虑到了模型之中。还通过放弃“Bag of words”（忽略掉文本的语法和语序，用一组无序的单词来表达一段文字或者一个文档的方法）假设和在连续时间中执行的方式扩展了潜在狄利克雷分布的考虑。

分层复合泊松分解（Hierarchical Compound Poisson Factorization）

分层泊松分解（HPF）已经被证明在极端稀疏的推荐系统中具有很好的扩展性。但是由于稀疏系统和响应模型的紧密耦合特性限制了后者的表达丰富性。本文介绍了一种分层复合泊松分解函数（Hierarchical Compound Poisson Factorization，HCPF），既有良好的泊松伽马架构，与高维极端稀疏矩阵相比又同时具有HPF良好的扩展性。这个新的算法经过了九个离散型和三个连续型数据集的测试，都表明HCPF在捕捉稀疏度和响应之间的关系的性能优于HPF。

在单细胞的基因表达数据校正技术变化的狄利克雷过程混合模型（Dirichlet Process Mixture Model for Correcting Technical Variation in Single-Cell Gene Expression Data）

论文介绍了一种单细胞基因数据表达的迭代标准和聚类方法。新兴的细胞RNA编码技术可以允许人们发现和描述关于细胞的很多信息。但是现在的数据很容易被实验的错误结果或者细胞特性的描述偏差影响。目前的解决方法：研究生物信号前先执行总体的误差纠正，并不能从根本上解决问题。

论文提出的模型由分层贝叶斯混合模型和细胞特异性规模的因素组成，用来帮助数据的重复迭代和聚类，梳理清楚由生物信号产生的技术误差。并且证明了这种方法要比现行的方法更有优势。

多时间序列的非参数关系回归模型的自动构建（Automatic Construction of Nonparametric Relational Regression Models for Multiple Time Series）

论文建立了两个相关的、可以通过找到导致变化的共同因素同时处理三组时间序列数据的核心学习方法。这种学习方法对现实中一些数据集做出了更加精确的模型建立。解决了之前系统精确度、特异性和描述准确度不够的问题。

人类的学习应该属于半监督学习和无监督学习的结合。因此这两种领域的研究都很有关注的价值。