快捷搜索:  as  test  1111  test aNd 8=8  test++aNd+8=8  as++aNd+8=8  as aNd 8=8

澳门赌场_牛华的煤炭网



只管受监督机械进修和深度进修取得了成功,但有一种学派觉得,无监督进修的潜力更大年夜。受监督进修系统的进修受到其所受练习的限定:即受监督进修系统只能进修它所练习的义务。比拟之下,一个无监督的系统理论上可以实现“人工通用智能”,这意味着具有进修人类能够进修任何义务的能力。然而,这种技巧还没有呈现。

假如受监督进修的最大年夜问题是标记练习数据的用度,那么无监督进修(不用标记数据)的最大年夜问题便是它平日不能很好地事情。然而,无监督进修确凿有其用途:它有助于削减数据集的维数,发明数据的模式和布局,查找相似工具的组,以及检测数据中的非常值和其他噪声。

总的来说,作为探索数据阐发的一部分,异常值得采纳无监督进修措施来发明模式和聚类,削减数据的维数,发明潜在的特点,并删除非常值。那么,应该继承进行监督进修,照样应用预先练习过的模型进行猜测,这取决于你的目标和数据。

什么是无监督进修?

想想我们的孩子是如何进修的。作为家长或者师长教师,当你教孩子们识别狗和猫的时刻,并不必要向他们展示每一种狗和猫。他们从一些例子中就能学会,不必要很多解释,自己就能归纳。他们第一次看到一只吉娃娃时可澳门赌场能会差错地叫它“Kitty”,而你会很快地矫正他们。

孩子们本能地把他们看到的一组器械分为一类。无监督进修的目标之一实际上是让谋略机成长出同样的能力。不妨看看DeepMind公司的Alex Graves和Kelly Clancy的博文内容,“无监督进修:好奇的门生”。

无监督进修是一种范式,旨在经由过程奖励代理(即谋略机法度榜样),在不斟酌详细义务的环境放进修它们察澳门赌场看澳门赌场到的数据,从而创建自立智能。换句话说,代理是出于进修的目的而去进修。

出于进修的目的而去进修代理的潜力要远弘远年夜于把繁杂图片简化为二元决策(例如,狗或者猫)的系统。劳伦斯伯克利实验室钻研职员在数百万份材料科学文摘上运行文本处置惩罚算法(Word2vec)来猜测新热电材料会有什么发明,正如其事情所证实的那样,发明模式而不是履行预先定义的义务将孕育发生令人惊疑的结果,而且结果异常有用。

聚类措施

聚类问题是一个无监督进修问题,要求模型查找有相似数据点的分组。今朝在用的聚类算法有很多种,它们的特点每每略有不合。一样平常来说,聚类算法会查看数据点特性向量之间的度量或者间隔函数,然后对彼此“靠近”的特性向量进行分组。假如这些类不重叠,那么聚类算法的效果最好。

分层聚类

分层聚类阐发(HCA)可所以凑集式的(从单个点开始自下而上的构建聚类,以单个聚类停止),也可所以分离式的(从单个聚类开始,然后将其分化,直到终极获得单个点)。假如幸运的话,你能找到一个展现出可用分类的聚类历程的中心阶段。

聚类历程通0常显示为系统树图(树形图)。HCA算法每每必要大年夜量的谋略光阴[O(n3)]和内存[O(n2)] 资澳门赌场本,这些限定使得算法不太适用于相对较小的数据集。

HCA算法可以应用各类度量和链接标准。欧几里得间隔和平方欧几里得间隔在数值数据中都很常见;而汉明间隔和列文斯坦间隔则常用于非数值数据。单链接和完全链接也是常见的,这两种措施都可以简化聚类算法(分手为SLINK和CLINK)。SLINK是少数能包管找到最优解的一种聚类算法。

K均值聚类

K均值聚类问题应用欧几里得间隔指标,把n个不雅测值划分为k个聚类,目的是只管即便减小每个聚类内的方差(平方和)。这是一种矢量量化的措施,对特性进修异常有用。

Lloyd算法(具有中间更新功能的迭代聚类算法)是办理该问题最常用的启迪式算法,相对高效,但不能包管全局收敛。为了改进这一点,人们常常应用由Forgy或者随机划分措施天生的随机初始聚类中间来多次运行该算法。

K均值假设球形聚类是可分离的,这样均值就向聚类中间收敛,并且还假设数据点的排序无关紧要。这些聚类的大年夜小应该差不多,是以到近来的聚类中间的分配是精确的分配。

求解K均值聚类的启迪式算法平日与高斯混杂模型的期望值最大年夜化(EM)算法相似。

混杂模型

混杂模型假定不雅测值的子群体相符一些概率散播,这平日是数值不雅测值的高斯散播或者非数值数据的分类散播。每个子群体可能有自己的散播参数,例如高斯散播的均值和方差。

期望值最大年夜化(EM)是一种最常用的措施,用于确定具有必然数量分量的混杂参数。除了EM措施之外,还可以应用马尔可夫链蒙特卡罗法、矩匹配法、奇异值分化(SVD)谱法和图解法来求解混杂模型。

最初的混杂模型利用于根据前额与体长的比值来识别河蟹的两个种群。1984年,Karl Pearson应用矩匹配法办理了这个问题。

混杂模型一种常见的扩展是把定义混杂分量恒等式的潜在变量连接到马尔可夫链,而不是假设它们是自力的、相同散播的随机变量。所获得的模型被称为隐马尔可夫模型,是最常见的一种顺序分层模型。

DBSCAN算法

基于密度的带噪声利用空间聚类算法(DBSCAN)是一种非参数数据聚类算法,始于1996年。它针对数据库利用进行了优化,可以应用R*树或者其他几何索引布局来加速几何区域的查询。

本色上,DBSCAN聚类核心点在Epsilon间隔内具有跨越一些最小数量的邻居,将其作为Epsilon间隔内没有邻居的非常点而丢弃,而将核心点Epsilon间隔内的点添加到该聚类中。DBSCAN是最常见的一种聚类算法,能够发明随意率性外形的聚类。

OPTICS算法

对数据点排序以识别聚类布局(OPTICS)这种算法是在空间数据中探求基于密度的聚类。OPTICS类似于DBSCAN,但处置惩罚的是点密度变更的环境。

DBSCAN和OPTICS在观点上的差异也可用于简单的非常值和噪声检测以及打消。

潜变量模型

潜变量模型是将一组可不雅测变量与一组潜(隐)变量相关联的统计模型。潜变量模型有助于揭示繁杂和高维数据中的暗藏布局。

主分量阐发

主分量阐发(PCA)这种统计历程应用正交变换,把一组可能相关的数值变量的不雅测值转换成一组称为主分量的线性不相关变量值。Karl Pearson于1901年发现了PCA。PCA可以经由过程数据协方差(或者相关)矩阵的特性值分化或者数据矩阵的奇异值分化(SVD)来实现,平日在初始数据的归一化步骤之后。

奇异值分化

奇异值分化(SVD)是实数矩阵或者复数矩阵的因式分化。这是线性代数中的一种常用措施,平日应用豪斯霍尔德变换来谋略。SVD是求解主分量的一种措施。虽然完全可以从头开始编写SVD,然则在所有线性代数库中都有很好的实现。

矩量法

矩量法使用被不雅测数据样本的矩量(均值、方差、偏态和峰度)来预计群散播参数。这一措施对照简单,平日采纳手工谋略,而且一样平常能实现全局收敛。然而,在统计量较少的环境下,矩量法无意偶尔会孕育发生越过参数空间的估算值。矩量法是求解混杂模型(上面)的一种简便措施。

期望最大年夜化算法

期望最大年夜化(EM)算法是一种迭代措施,用于在依附于未不雅测到的潜变量的模型中查找参数的最大年夜似然估算值。EM迭代在履行期望步骤(E)和最大年夜化步骤(M)之间交替进行,前者为应用当前参数估算值评估的对数似然的期望值创建函数,后者谋略使得在E步骤中找到的预期对数似然值最大年夜化的参数。

EM收敛到最大年夜值或者鞍点,但不必然收敛到全局最大年夜值。可以经由过程对参数的很多随机初始估算值重复EM历程,或者应用矩量法确定初始估算值,以尽可能找到全局最大年夜值。

利用于高斯混杂模型(上面)的EM可以用于聚类阐发。

无监督神经收集

平日在标签数据上练习神经收集,进行分类或者回归,根据定义,这是受监督机械进修。也可以应用各类无监督的措施,采纳无标签数据进行练习。

自动编码器

自动编码器是对输入进行练习的神经收集。本色上,自动编码器是一种前馈收集,充当编解码器,对输入层的输入进行编码,送着迷经元数量较少的一个或者多个暗藏层,然后将编码后的澳门赌场表达式解码,送入以拓扑布局作为输入的输出层。

在练习历程中,自动编码器应用反向传播来尽可能减小输入和输出之间的差异。自动编码器已经用于降维、特性进修、去噪、非常检测、图像处置惩罚和进修天生模型。

深度信念收集

深度信念收集(DBN)是自动编码器或者受限的玻尔兹曼机(RBN)客栈,能够进修重修其输入。然后,这些层被用作特性检测器。平日应用比较不同来练习RBN。

DBN已经用于天生和识别图像、视频排序和运动捕获数据。

天生抗衡收集

天生抗衡收集(GAN)同时练习两个收集,其天生模型捕获数据散播,而判别模型预计来自练习数据的样本的概率。练习的目的是让发生器尽可能的诈骗鉴别器。

GAN可以用来创建虚构人物的照片,改良天文图像。GAN还被用于放大年夜旧视频游戏的纹理,以用于高分辨率版本的游戏。除了无监督进修,GAN已经成功地利用于游戏的强化进修。

自组织映射

自组织映射(SOM)定义了从一组给定命据项到规则的、平日是二维网格的有序映射。每一网格节点都与一个模型相关联。数据项将被映射到其模型与数据项最相似的节点,即,在某些指标中与数据项的间隔最小。

必要采取一些预防步伐来确保映射是稳定的和有序的。并非所有的商业实现都遵照所有的预防步伐。

作者:Martin Heller是InfoWorld的特约编辑和审稿人。他曾是一名收集和Windows编程顾问,1986年至2010年间开拓过数据库、软件和网站。

编译:Charles

原文网址:https://www.infoworld.com/article/3429017/unsupervised-learning-explained.html

责任编辑:周星如

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

您可能还会对下面的文章感兴趣: