透过人工神经元一窥早期机器学习历史

在我们讨论感知机及其相关算法细节前，先让我们回顾一下机器学习早期的发展历程。为了理解大脑工作原理进而设计人工智能，Warren McCullock和Walter Pitts 在1943年首次提出了一个简化版大脑细胞的概念，即McCullock-Pitts(MCP)神经元(W.S.McCulloch and W.Pitts. A Logical Calculus of the Ideas Immanent in Nervous Activity.)。神经元是大脑中内部连接的神经细胞，作用是处理和传播化学和电信号，可见下图：

McCullock和Pitts描述了如下的神经细胞：可以看做带有两个输出的简单逻辑门；即有多个输入传递到树突，然后在神经元内部进行输入整合，如果累积的信号量超过某个阈值，会产生一个输出信号并且通过轴突进行传递。十几年后，基于MCP神经元模型，Frank Rosenblatt发表了第一个感知机学习规则(F.Rosenblatt, The Perceptron, a Perceiving and Recognizing Automaton. Cornell Aeronautical Laboratory, 1957)。基于此感知机规则，Rosenblatt提出了能够自动学习最优权重参数的算法，权重即输入特征的系数。在监督学习和分类任务语境中，上面提到的算法还能够用于预测一个样本是属于类别A还是类别B。

更准确的描述是，我们可以将上面提到的样本属于哪一个类别这个问题称之为二分类问题(binary classification task),我们将其中涉及到的两个类别记作1(表示正类)和-1(表示负类)。我们再定义一个称为激活函数(activation function) $\phi(z)$ 的东东，激活函数接收一个输入向量 $x$ 和相应的权重向量 $w$ 的线性组合，其中 $z$ 也被称为网络输入( $z=w_{1}x_{1}+...+w_{m}x_{m}$ ):

此时，如果某个样本 $x^{(i)}$ 的激活值，即 $\phi(z)$ 大于事先设置的阈值 $\theta$ ,我们就说样本 $x^{(i)}$ 属于类别1，否则属于类别-1。

在感知机学习算法中，激活函数 $\phi(\cdot)$ 的形式非常简单，仅仅是一个单位阶跃函数(也被称为Heaviside阶跃函数):

为了推导简单，我们可以将阈值 $\theta$ 挪到等式左边并且额外定义一个权重参数 $w_{0}=-\theta$ , 这样我们可以对 $z$ 给出更加紧凑的公式 $z=w_{0}x_{0}+w_{1}x_{1}+...+w_{m}x_{m}=w^{T}x$ ，此时

下面左图描述了感知机的激活函数怎样将网络输入 $z=w^{T}x$ 压缩到二元输出(-1,1)，右图描述了感知机如何区分两个线性可分的类别。

不论MCP神经元还是Rosenblatt的阈值感知机模型，他们背后的idea都是试图使用简单的方法来模拟大脑中单个神经元的工作方式：要么传递信号要么不传递。因此，Rosenblatt最初的感知机规则非常简单，步骤如下：

1. 将权重参数初始化为0或者很小的随机数。
1. 对于每一个训练集样本 $x^{(i)}$ ,执行下面的步骤：
- 1、计数输出值 $\hat{y}$ .
- 2、更新权重参数.

此处的输出值就是单位阶跃函数预测的类别(1,-1)，参数向量 $w$ 中的每个 $w_{j}$ 的更新过程可以用数学语言表示为：

其中 $\Delta w_{j}$ ，用于更新权重 $w_{j}$ ,在感知机算法中的计算公式为:

其中 $\eta$ 称为学习率(learning rate), 是一个介于0.0和1.0之间的常数， $y^{(i)}$ 是第i个训练样本的真实类别， $\hat{y}^{(i)}$ 是对第i个训练样本的预测类别。 权重向量中的每一个参数w_{j}是同时被更新的，这意味着在所有的 $\Delta w_{j}$ 计算出来以前不会重新计算 $\hat{y}^{(i)}$ (译者注：通俗地说，我们在计算出一个 $\hat{y}^{(i)}后,就能计算出样本i对应的所有的的$ $\Delta w_{j}$ ，然后同时更新w中的每一个权重参数；然后不断重复上面的步骤)。具体地，对于一个二维数据集，我们可以将更新过程写为：