当前位置：如美文档网>专题范文 > 学习强国 >

基于人工智能系统机器学习的算法和理论

时间：2022-12-19 12:35:04 浏览量：

打开文本图片集

摘要：本文以人工智能系统阿尔法狗为例，对深度学习和强化学习进行概述和初步的探究，最后提出了对当今机器学习的一种看法。

关键词：阿尔法狗；人工智能技术；卷积神经网络

中图分类号：TP181 文献标识码：A 文章编号：1007-9416（2017）11-0221-02

1 阿尔法狗与机器学习

2017年五月，世界第一围棋棋手柯洁在我国乌镇与阿尔法狗展开较量，而最后的结果是柯洁连败三局，人工智能阿尔法狗取得了这场比赛的胜利。而此时人们也不得不疑惑，阿尔法狗到底是在一个什么样的系统下才能拥有如此强大的能力？实际上，阿爾法狗的胜利是“深度学习+强化学习”的一个重要的案例。

2 深度学习

2.1 卷积神经网络

最近几年以来，卷积神经网络越来越成为众多学者的研究热点。在阿尔法狗中就是利用的CNN+蒙特卡洛搜索树算法，而这一算法就是卷积神经网络模型的一个重要例证[1]。综合而言，卷积神经网络结构图如图1所示。

由图1我们可以得到，卷积神经网络的输入是一组二维图，然后系统将输入量送入到卷基层进行特征提取，最后进行输出，根据卷积特征提取过后得到的信息与预先得到的信息进行对比，完成分类。卷基层内主要需要完成三种运算，分别为卷积、非线性激活函数和最大值池化。根据所需要完成的任务的不同，卷积神经网络结构中可以有多个卷积层，而每个卷基层都需要完成这三种运算[2]。

2.2 基于深度学习的优化方法

深度学习基本都是基于神经网络来完成的，而随着神经网络由最开始的三层神经网络渐渐发展到后来的多层神经网络，其内部节点的个数会越来越多，也就需要更多的数据来对该智能系统进行训练，数据集逐渐变得庞大。在这种情况下，如果只依靠传统的深度学习模型往往会无法完成想要实现的工作，往往需要很长的时间才得到训练后的收敛，无法满足大规模神经网络的需求。针对于上述问题，本文提出两种优化方法[3]。

（1）数据并行优化方法。当系统需要大量训练的时候，我们可以选取数据并行的手段使得模型的训练速度加大，数据并行就是要对需要训练的数据分成好几个部分，同时采取多个深度学习模型来进行工作，如此一来，每一个部分的数据都同时完成训练过程，加大了训练效率。根据上述原理，数据并行优化训练方法的基本架构如图2所示。

数据的并行训练是将整体的数据分成好几个部分来进行，因每一组数据不一样，因此训练模型的参数也各不相同。每个训练模型都不与另外的训练结果相互作用，因此，各个部分之间的训练结果往往会无法进行交换。为了解决这一问题，我们需要设定一个更新公式，该公式所起到的作用是将所有计算每个训练模型之间的梯度，并将所得的结果统计到某一统一的服务器上面，然后由服务器利用公式对参数进行更新。然而，实际上这个公式在设定的时候并不容易，实际操作中各个训练模型的结果也并不如想象中的尽人意。因此，如何将数据集进行划分以及划分后如何整合成为了限制数据并行优化方法最大的限制。

（2）模型并行优化方法。除了上文所提到的数据并行的方法来解决大数据集，提高训练速度的方法之外，还与一种手段就是对模型进行划分，较大的模型经过划分之后成多个分片，然后同时进行训练。每一个训练单元之间能够进行合作，最后完成整个模型的训练任务。

3 强化学习

强化学习的名称原本是从心理学中的命名而来，强化学习的基本模式就是“交互-试错”，意思就是智能系统不断与外界进行交互，然后对每一次的交互结果进行处理，最后智能系统得到有效策略。强化学习的过程就类似于人脑学习的过程。随着人工智能技术的不断进步，强化学习已经包括多方面的内容，其各种算法被更加广泛的利用。

常见的强化学习算法有基于值函数的学习方法和基于策略搜索的强化学习算法，其中，前者往往在寻找确定性最优解中利用广泛，而阿尔法狗最优策略却是根据棋盘局势的不同实时改变着的，其每一次的最优结果往往是随即的，因此基于值函数的强化学习算法无法满足这一要求。因此，在阿尔法狗的学习算法中采用的是第二种强化学习算法，即基于策略搜索的强化学习算法。该算法的主要思想是将每一个策略以参数的结果表现出来，在学习的过程中，对参数不断进行的更改，从而最优值。根据基于策略搜索的强化学习算法的应用对象不同，还可以优化为基于梯度的强化学习算法。

4 结语

随着人工智能的不断发展我们似乎可以明白，阿尔法狗与人类对弈的胜利并不是偶然，而是一种必然趋势。

参考文献

[1]王炜.大数据环境下的机器学习算法[J].信息系统工程，2016，（7）：133.

[2]何清，李宁，罗文娟，史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能，2014，（4）：327-336.

[3]杨钊，陶大鹏，张树业，等.大数据下的基于深度神经网的相似汉字识别[J].通信学报，2014，（9）：184-189.

Abstract：This paper takes artificial intelligence system， Alfa dog as an example， summarizes and explores the deep learning and reinforcement learning， and finally puts forward a view of machine learning nowadays.

Key Words：Alfa dog； artificial intelligence technology； convolution neural network

推荐访问:人工智能算法机器理论学习

基于人工智能系统机器学习的算法和理论相关文章

上一篇：在“自动控制原理”教学中激发学生的学习主动性下一篇：图书馆是学习和传承知识的重要途径