学习问题可以表述为使用有限数量的观察值来估计系统的输入、输出和参数之间的关联的过程(CherkasskyMulier)。我们将样本生成器、问题系统和学习机(LM)区分开来,如图3所示。我们强调,学习机器的近似基本上是随机的,它们的学习过程可以总结为风险函数的最小化:
(1)
其中,数据x(输入)和y(输出)是来自概率分布p的样本,φ(x,y,w)定义了学习机的结构和参数w,损失函数L平衡了各种学习目标(如准确性、简单性、平滑性等)。我们强调,风险函数是由概率分布p(x,y)加权的,它也限制了学习机的预测能力。各种类型的学习算法可以分为三大类:有监督、无监督和半监督,如图1所示。这些区别表示了从专家那里获得的外部监督信息对学习机器可用的程度。
1.监督式学习
监督学习意味着学习机器可以获得正确的信息。在最简单和最常见的形式中,这意味着标记了训练数据,对应于LM的输出。最小化依赖于训练数据的代价函数,将确定LM的未知参数。在在这种背景下,监督学习可以追溯到几个世纪前高斯提出的回归和插值方法(Meijering)。一个常用的损失函数是
(2)
替代损失函数可以反映学习机器上的不同约束,如稀疏性(Hastieetal.;BruntonKutz年)。近似函数的选择反映了对数据的先验知识,在线性和非线性方法之间的选择直接影响到与学习方法相关的计算成本。
1.1。神经网络
神经网络可以说是监督学习中最著名的方法。它们是基本的非线性函数逼近器,近年来,人们致力于理解它们的有效性。万能逼近定理(Horniketal.)指出,任何函数都可以用一个足够大和深的网络逼近。最近的研究表明,稀疏连接的深度神经网络是广泛的函数和系统的信息论最佳非线性逼近器(B¨olcskei等人,)。
神经网络的力量和灵活性来自于它们的模块化结构,这种结构以神经元为核心构建元素,就像人脑中神经元的漫画。每个神经元接收一个输入,通过一个激活函数处理它,并产生一个输出。多个神经元可以组合成不同的结构,反映关于问题和数据类型的知识。前馈网络是最常见的结构之一,它们由多层神经元组成,其中一层的加权输出就是下一层的输入。NN体系结构有一个接收数据的输入层和一个产生预测的输出层。非线性优化方法,如反向传播(Rumelhartetal.),被用来识别网络权值,以最小化预测和标记训练数据之间的误差。深度神经网络涉及多层次、多种类型的非线性激活函数。当激活函数用卷积核表示时,一种功能强大的网络出现了,即卷积神经网络(CNN),在图像和模式识别方面取得了巨大的成功(Krizhevskyetal.;Goodfellow等人,)。
图4所示的循环神经网络(RNN)在流体力学中具有特殊的意义。它们对数据序列(例如,视频中的图像、时间序列等)进行操作,它们的权值通过时间反向传播(BPTT)获得。RNNs在自然语言处理和语音识别方面已经非常成功。他们的体系结构考虑了数据的固有顺序,从而增强了一些先驱性经典神经网络在信号处理中的应用(Rico-Martinezetal.)然而,神经网络的有效性因其训练过程中出现的梯度递减或爆炸而受到阻碍。对rnn的重新
转载请注明:http://www.aideyishus.com/lktp/6580.html