机器学习 - 人工智能概论 |

数据收集和预处理：收集与问题相关的数据，并对数据进行预处理。这包括数据清洗、特征选择、特征变换、数据划分等操作，以使数据适合于后续的机器学习算法。
特征工程：根据问题的特点和领域知识，对数据进行特征工程，以提取更有信息量的特征。这可能涉及特征组合、特征衍生、特征缩放、降维等技术。
模型选择和训练：根据问题的类型和数据的特点，选择合适的机器学习模型。常见的机器学习模型包括决策树、支持向量机、神经网络、随机森林等。然后使用训练数据对选择的模型进行训练，学习模型的参数和权重。
模型评估：使用测试数据对训练好的模型进行评估。常见的评估指标包括准确率、精确率、召回率、F1 值、ROC 曲线等，根据具体问题选择适合的评估指标。
模型调优：根据评估结果，对模型进行调优，以提高模型的性能和泛化能力。这可以包括调整模型的超参数、尝试不同的特征组合、增加数据量等。
模型部署和应用：当模型经过调优并达到满意的性能后，可以将模型部署到实际应用中。这可能涉及将模型集成到现有系统中、构建 API 供其他应用调用等。

# 1. 机器学习方法

# 1.1 有监督学习 (supervised learning)

从给定的有标注的数据集中学习函数，常见有分类和回归

# 1.2 无监督学习 (unsupervised learning)

从无标注的数据集中学习，常见有聚类

# 1.3 半监督学习 (Semi-supervised learning)

从少量有标注的数据和大量无标注的数据集中学习

基本假设:

聚类假设
处在相同聚类中的数据应该具有类似特征
流形假设
处在局部较小区域内的样本具有相似特征

# 1.4 强化学习 (Reinforcement learning)

外界对输出仅给出评价信息而非正确答案，学习机通过奖惩机制学习优化自身性能

# 1.5 多任务学习 (Multi-task learning)

把多个相关(related)的任务放在一起同时学习。

# 2. 机器学习准备

# 2.1 数据清洗

对各种脏数据进行对应方式的处理，得到标准、干净、连续的数据
要求：

数据的完整性
数据的合法性
数据的一致性
数据的唯一性
数据的权威性

# 2.2 数据采样

存在问题：
数据不平衡：指数据集的类别分布不均匀

# 2.3 数据集的拆分

通常将数据集分为3类

训练集：用于模型的训练
验证集：辅助模型训练
测试集：评估模型

常用方法

留出法：70% 数据用作训练集，30% 数据留作测试集
k - 折交叉验证法：将数据集分为 k 类大小近似集合，训练测试 k 次

# 2.4 特征选择

过滤法：利用发散性和相关性，设定特定阈值选择特征
包裹法：利用特定算法搜索符合条件的子集
嵌入法：利用正则化，将部分特征属性调整为 0，相当于舍弃

# 2.5 特征降维

# 2.5.1 主成分分析 (PCA)

nD->kD 指找到 k 个向量 ${u^{(1)} },{u^{(2)} } \ldots {u^{(k)} }$ 使得所有数据投影到向量上误差最小

主成分分析与线性回归的区别
主成分分析是找一个投影面，使得数据到投影的投影误差最小
线性回归则是确定一条直线从而预测 y

PCA降维过程

数据归一化

$\Sigma = {1 \over m}\sum\limits_{i = 1}^n { {x^{(i)} }{ {({x^{(i)} })}^T} }$

# 2.5.2 线性判别分析 (LDA)

给定数据集投影到一条直线上，能尽量按类别区分开

# 2.6 特征编码

数据集中的非数值信息需要转换为数值形式进行编码

one-hot 编码 ：利用 0/1 序列编码表示
语义编码 ：one-hot 编码无法体现数据间语义关系，对于这类信息需要采用词嵌入方式，如基于 google 的 word2vec 方法

# 2.7 规范化

不同属性具有不同量级时会导致：
①数量级的差异将导致量级较大的属性占据主导地位；
②数量级的差异将导致迭代收敛速度减慢；
③依赖于样本距离的算法对于数据的数量级非常敏感

$标准化:x=\frac{X-\mu}{\sigma}$ 适用于正态分布
$区间缩放:x=\frac{X-\min_{}} { \max_{}-\min_{ } }$
$归一化:x^{'}=\frac{x} {\sqrt{\sum^m_j{x[j]^2} } }$

# 3. 机器学习方法分类

# 3.1 分类问题

# 3.1.1K 邻近 (KNN,K-Nearest Neighbor)

工作原理：计算待测样本和所有训练样本点距离，用前 K 个距离最小的样本点进行投票，待测样本点的类别为得票最多的类

优点：简单、无需训练
缺点：对参数敏感，计算量大

# 3.1.2 决策树

决策树（Decision Tree）是一种常用的监督学习算法，用于分类和回归问题。它通过构建树状结构来表示数据的决策规则，从而对新样本进行预测。

决策树的构建过程如下：

特征选择：选择一个合适的特征作为当前节点的划分标准。常用的特征选择方法有信息增益、信息增益比、基尼系数等。
样本划分：根据选择的特征，将样本集划分为不同的子集，每个子集对应一个分支。
递归构建：对每个子集递归地执行步骤 1 和步骤 2，直到满足终止条件，如达到预定的树深度、节点中的样本数小于阈值等。
树的修剪（可选）：为了防止过拟合，可以对生成的决策树进行剪枝操作，去除一些不必要的节点和分支。
预测：对于新的样本，根据决策树的规则，沿着树的路径进行判断，最终确定样本的类别或预测值。

决策树算法的优点包括易于理解和解释、能够处理数值型和离散型特征、对缺失值有一定的容忍性、能够处理多类别问题、能够进行特征选择等。

然而，决策树算法也存在一些限制：

决策树容易过拟合，特别是在处理复杂的问题时。过拟合可以通过剪枝等策略来缓解。
决策树对输入数据的细微变化敏感，可能会导致不稳定的结果。可以通过集成学习方法如随机森林来提高决策树的稳定性。
决策树在处理连续型特征时需要进行离散化处理，可能会损失一定的信息。
决策树的学习过程是贪心的，每次选择局部最优划分，可能导致全局上的次优划分。

在实际应用中，决策树算法可以用于分类问题和回归问题。常见的决策树算法包括 ID3、C4.5、CART 等。此外，还有一些扩展和改进的算法，如随机森林（Random Forest）、梯度提升树（Gradient Boosting Tree）等，它们基于决策树构建了更强大的集成模型。

# 3.1.3 贝叶斯

基于贝叶斯定理和属性特征条件独立性的分类方法
首先计算先验概率 $P(C)$
计算每个属性的条件概率 $P(x_i|C)$
计算后验概率 $P(C|x_i)$

优点：

算法逻辑简单
分类过程时空开销小

缺点：

事实上属性之间往往是不独立的

# 3.1.4 支持向量机

支持向量机（Support Vector Machine，SVM）是一种常用的监督学习算法，主要用于二分类问题，也可以扩展到多分类问题和回归问题。

SVM 的核心思想是寻找一个最优的超平面，能够将不同类别的样本点分开，并且使得最靠近超平面的样本点离超平面的距离最大化。这些最靠近超平面的样本点被称为支持向量，它们决定了超平面的位置和形态。

以下是 SVM 的基本原理和步骤：

数据准备：
- SVM 算法首先需要一个已标记的训练数据集，其中每个样本都有对应的类别标签。
- 每个样本由一组特征表示，可以是数值型或者离散型特征。
特征转换：
- 如果数据集中的特征维度很高，可能需要进行特征转换来降低维度。
- 常用的特征转换方法包括主成分分析（PCA）和线性判别分析（LDA）等。
构建超平面：
- SVM 的目标是找到一个最优的超平面，能够将不同类别的样本点分开，并且使得支持向量到超平面的距离最大化。
- 对于线性可分的情况，可以使用硬间隔最大化方法，求解一个凸优化问题，找到最优的超平面。
- 对于线性不可分的情况，可以使用软间隔最大化方法，允许一些样本点出现在超平面的错误一侧。
核函数：
- SVM 还可以通过使用核函数来处理非线性可分的问题。
- 核函数将样本从原始特征空间映射到一个高维特征空间，使得在高维空间中的样本线性可分。
- 常用的核函数包括线性核、多项式核和径向基函数（RBF）核等。
模型训练和预测：
- 训练阶段，通过解决最优化问题，找到最优的超平面的参数，包括权重向量和偏置项。
- 预测阶段，将测试样本点映射到超平面上，并根据其位置来预测其所属的类别。

SVM 具有以下优点：

可以处理高维特征空间的数据。
对于少量的支持向量，模型的存储开销较小。
可以通过选择不同的核函数适应不同的数据分布。
由于通过凸优化求解，可以保证找到全局最优

# 3.1.5 逻辑回归

logistic 回归是一个分类算法，它可以处理二元分类以及多元分类。首先逻辑回归构造广义的线性回归函数，然后使用 sigmoid 函数将回归值映射到离散类别。
$sigmoid函数：f(z)=\frac{1}{1+e^{-z} }$

二项逻辑回归模型
$w=(w_1,w_2\cdots w_n,b)$
$x=(x_1,x_2\cdots x_n,1)$
$P(Y=1|x)=\frac{e^{wx} }{1+e^{wx} }$

# 3.2 回归问题

# 3.2.1 线性回归

选择拟合函数 $h_\theta(x)=\theta^Tx$
确定损失函数形式 $\min_{}J(\theta)=\frac{1}{2}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$
找到回归系数
进行数据预测

# 3.2.2 岭回归

岭回归应用结构风险最小化的模型选择策略，在经验风险最小化的基础上加入正则化因子。当正则化因子选择为模型参数的二范数的时候，整个回归的方法就叫做岭回归。

岭回归相较于普通的线性回归具有以下优点和缺点：

优点：

处理多重共线性：岭回归通过引入正则化项（L2 范数）来限制模型参数的增长，有效地处理了多重共线性问题，使得参数估计更加稳定可靠。
改善模型泛化能力：正则化项对模型进行约束，减少了模型对训练数据的过拟合程度，提高了模型的泛化能力，对未见过的数据具有更好的预测性能。

缺点：

参数选择的困难：岭回归中的正则化参数 α 需要手动选择，选择合适的 α 值对模型的性能影响较大。如果选择不当，可能导致欠拟合或过拟合的问题，需要通过交叉验证等方法进行参数调优。
增加了模型的复杂度：正则化项增加了模型的复杂度，引入了偏差。在某些情况下，模型可能无法捕捉到数据中的细微变化，导致拟合性能略有下降。

总体而言，岭回归在处理多重共线性和提高模型的泛化能力方面具有明显的优势。然而，在应用中需要仔细选择正则化参数以平衡模型的复杂度和性能，并结合实际问题的需求进行权衡。

# 3.2.3Lasso 回归

Lasso 回归（Least Absolute Shrinkage and Selection Operator Regression）是一种线性回归的正则化方法，类似于岭回归。它通过引入 L1 范数正则化项来限制模型的复杂度，具有特征选择的能力

# 3.2.4 适用情况

线性回归、岭回归和 Lasso 回归是三种常见的回归方法，它们在不同情况下有着不同的应用。

线性回归：
线性回归适用于以下情况：

目标是建立一个简单的线性模型来描述自变量和因变量之间的线性关系。
数据集中没有明显的多重共线性。
模型的解释性和可解释性较为重要，不需要进行特征选择。

岭回归：
岭回归适用于以下情况：

数据集中存在多重共线性问题，即自变量之间存在高度相关性。
目标是在控制模型复杂度的同时，提高模型的泛化能力。
不需要进行特征选择，而是希望通过缩减系数的方式来约束模型参数的增长。

Lasso 回归：
Lasso 回归适用于以下情况：

数据集中存在多重共线性问题，需要进行特征选择，即选择对目标变量有重要影响的特征。
希望获得稀疏的模型，即只有少数非零的参数。
对异常值相对敏感，可能受到异常值的影响而产生较大的参数估计误差。

需要注意的是，选择使用线性回归、岭回归还是 Lasso 回归取决于具体的数据集和问题要求。有时候也可以根据问题的复杂度和特征的相关性情况，进行模型选择和比较，以找到最合适的回归方法。

# 3.3 聚类问题

# 3.3.1K-means

K-means（又称 k - 均值或 k - 平均）聚类算法。算法思想就是首先随机确定 k 个中心点作为聚类中心，然后把每个数据点分配给最邻近的中心点，分配完成后形成 k 个聚类，计算各个聚类的平均中心点，将其作为该聚类新的类中心点，然后重复迭代上述步骤直到分配过程不再产生变化

优点：

原理简单
聚类效果好
算法可解释度高
参数调整只需要 k

缺点：

k 值不好把握
不平衡数据集聚类效果不好
只是局部最优解
对噪音和异常点敏感

# 3.3.2 高斯混合聚类 (Gaussian Mixed Model)

$p(x)=\sum\phi_i\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu_i)^2}{2\sigma^2} }$

K-means 属于硬聚类，要么属于这类，要么属于那类，而 GMM 属于混合式软聚类，一个样本
70% 属于 A，30% 属于 B

在高斯混合模型 (GMM) 中，φ 是每个高斯分布的权重，表示该分布在整个混合模型中的相对重要性。每个高斯分布对应一个类别，而权重 φ 则表示每个类别的概率。

在训练过程中，权重 φ 可以通过最大似然估计来确定。最大似然估计的目标是找到使观测数据出现的概率最大的模型参数。对于 GMM，参数包括每个高斯分布的均值向量、协方差矩阵和权重。

具体来说，训练 GMM 的过程包括以下步骤：

初始化：随机初始化每个高斯分布的均值、协方差和权重。
E 步（Expectation Step）：根据当前的模型参数，计算每个数据点属于每个高斯分布的后验概率。
M 步（Maximization Step）：使用后验概率更新模型参数，包括均值、协方差和权重。
重复步骤 2 和步骤 3，直到模型收敛。

计算出来的后验概率可以用于确定数据点属于每个类别的概率。具体方法是计算每个数据点属于每个类别的条件概率，并乘以相应的权重。条件概率可以使用高斯分布的概率密度函数来计算，而权重则表示了各个类别的相对重要性。

综上所述，通过计算后验概率和条件概率，可以得到数据点属于每个类别的概率。这些概率可以用于进行分类任务或其他进一步的分析。

# 3.3.3 密度聚类

密度聚类算法（Density-Based Clustering）根据数据点的密度来进行聚类。其中，最著名的算法是密度可达聚类算法（DBSCAN）。该算法通过定义密度可达和密度相连的概念，将数据点划分为核心点、边界点和噪音点。核心点是在某个邻域内具有足够数量的数据点，而边界点是在某个邻域内密度不足但与核心点相连，噪音点则是既不是核心点也不是边界点的点。密度聚类算法不需要预先指定聚类的数量，能够发现任意形状和大小的聚类簇，对异常值具有较好的鲁棒性。

# 3.3.4 层次聚类

层次聚类算法（Hierarchical Clustering）通过逐步合并或分裂数据点来构建聚类层次结构。层次聚类可以分为凝聚层次聚类和分裂层次聚类两种类型。凝聚层次聚类从每个数据点作为一个初始簇开始，逐步合并最相似的簇，形成更大的簇，直到所有数据点都合并到一个簇中。分裂层次聚类则从所有数据点作为一个初始簇开始，逐步分裂最不相似的簇，形成更小的簇，直到每个数据点都成为一个独立的簇。层次聚类算法可以通过树状图（树状聚类图）来表示聚类的层次结构，方便可视化和结果解释。然而，层次聚类的计算复杂度较高，对大型数据集不太适用。

# 3.4 其他问题

# 3.4.1 隐马尔可夫模型

隐马尔可夫链（Hidden Markov Model，HMM）和马尔可夫链（Markov Chain）是两种不同的概率模型。

马尔可夫链是一种描述随机过程的数学模型，它具有马尔可夫性质，即当前状态只依赖于前一个状态。马尔可夫链由一组状态和状态之间的转移概率组成，可以用于建模许多具有状态演变的问题，如天气预测、金融市场模型等。在马尔可夫链中，状态转移概率表示从一个状态转移到另一个状态的概率，而观测值通常与状态无关。

而隐马尔可夫链是马尔可夫链的一种扩展形式，它同时具有观测状态和隐藏状态。在隐马尔可夫链中，观测状态是可见的，而隐藏状态是不可见的，只能通过观测状态进行推断。隐藏状态的转移概率和观测状态的概率分布都是模型的参数。

隐马尔可夫链通常用于建模具有隐含结构的序列数据，如语音识别、自然语言处理等领域。隐藏状态表示系统的内部状态，而观测状态是可见的输出。通过观测序列和隐含状态序列之间的关系，可以进行状态推断、序列生成和概率计算等任务。

因此，隐马尔可夫链相比于马尔可夫链更加复杂，它引入了观测状态和隐藏状态，并利用观测状态推断隐藏状态。马尔可夫链只考虑状态之间的转移概率，而不涉及观测状态。

隐藏状态（Hidden State）是指在隐马尔可夫模型（Hidden Markov Model，HMM）中不可直接观测到的状态。在 HMM 中，我们只能观测到与隐藏状态相关的可见状态（观测状态），而隐藏状态是未知的、需要通过推断或预测来确定的。

隐藏状态代表系统或过程内部的状态，它对于生成观测序列起着重要作用。在 HMM 中，隐藏状态之间存在转移概率，表示从一个隐藏状态转移到另一个隐藏状态的概率。这些转移概率描述了隐藏状态之间的演化关系，可以用来模拟实际问题中的状态转移过程。

隐藏状态通常用于表示系统的某种特征、状态或类别，例如在语音识别中，隐藏状态可以表示不同的音素；在自然语言处理中，隐藏状态可以表示不同的词性或语法结构；在金融市场中，隐藏状态可以表示不同的市场状态等。隐藏状态的数量和具体含义根据问题的不同而有所变化。

在 HMM 中，我们通过观测序列和已知的模型参数（如隐藏状态转移概率、观测状态概率分布）来推断或预测隐藏状态。这样，我们可以利用隐藏状态进行序列分析、模式识别、预测等任务。隐藏状态的确定往往需要基于统计推断或概率计算方法，例如通过前向 - 后向算法、维特比算法等进行求解。

应用：
词性标注、中文分词、天气预测、语音识别等

# 3.4.2LDA 主题模型

LDA（Latent Dirichlet Allocation）是一种用于文本数据的概率生成模型，常用于主题建模。主题建模是一种分析文本数据的方法，旨在识别文档中隐藏的主题结构并推断每个文档在各个主题上的分布。

LDA 模型基于以下假设：

每个文档可以由多个主题组成，每个主题在文档中的分布是隐含的。
每个主题由一组单词构成，每个主题中的单词的分布是已知的。
每个文档中的每个单词都是从某个主题生成的。

LDA 模型的目标是通过观察到的文本数据来推断每个文档的主题分布和每个主题的单词分布。具体而言，LDA 模型使用贝叶斯推断方法，通过迭代地进行主题分布和单词分布的估计，以找到最佳的主题分布和单词分布参数。

LDA 模型可以帮助我们发现文本数据中的主题结构，例如在新闻文章中发现不同的主题（例如政治、经济、体育等），在社交媒体数据中发现不同的话题（例如食物、旅行、科技等）。它被广泛应用于文本挖掘、信息检索、推荐系统等领域，用于文本数据的特征提取、文本分类、文本生成等任务。

需要注意的是，LDA 模型是一种无监督学习方法，它只依赖于文本数据本身而不需要标注的主题信息。

# 3.4.3 生成方法 VS 判别方法

生成方法和判别方法是机器学习中两种常见的建模方法。它们在解决问题的角度和方法上有所不同。

生成方法（Generative Methods）：
生成方法是一种基于数据生成模型的方法。它试图建立输入特征和输出标签之间的联合概率分布。通过学习数据的联合概率分布，生成方法可以对新的输入样本生成对应的输出标签。

生成方法的主要思想是模拟数据的生成过程。它假设训练数据是由一个潜在的随机模型生成的，并试图学习该模型的参数。生成方法包括概率图模型（如 朴素贝叶斯、隐马尔可夫模型）和生成对抗网络（GAN） 等。

生成方法的优点是可以生成新的样本数据，具有较强的表达能力，可以捕捉数据的分布特征。缺点是在训练阶段需要估计联合概率分布，计算复杂度较高，对噪音和缺失数据敏感。

判别方法（Discriminative Methods）：
判别方法是一种基于决策边界的方法。它关注的是建立输入特征与输出标签之间的映射关系，即条件概率分布。判别方法通过学习输入特征与输出标签之间的映射函数，直接对输入样本进行分类或回归预测。

判别方法的主要思想是通过学习输入与输出之间的映射关系来判别不同类别之间的边界。它不关心数据的生成过程，而是着重于找到判别不同类别的最优决策边界。判别方法包括 逻辑回归、支持向量机（SVM）、决策树和神经网络 等。

判别方法的优点是直接对输入样本进行建模，不需要估计联合概率分布，计算效率较高。它们通常具有较强的判别能力，适用于复杂的分类和回归任务。然而，判别方法无法直接生成新的样本数据。

总结：
生成方法关注数据的生成过程，试图建立输入特征与输出标签之间的联合概率分布；判别方法关注输入与输出之间的映射关系，直接对输入样本进行分类或回归预测。两种方法各有优缺点，根据具体问题的性质和需求选择适当的方法。

# 4. 机器学习模型评估

# 4.1 分类

准确率 (accuracy): 正确预测类别的占所有类别的比例
召回率 (recall): 正确预测为正类别的占实际正类别的比例
召回率与准确率是相反的

真实情况	预测正例	预测反例
真实正例	TP (真正例)	FN (反正例)
真实反例	FP (假正例)	TN (真反例)

accuracy=\frac{(TP+TN)}

recall=\frac{TP}

precision=\frac{TP}

假设你的女票在过去 10 年里，每年都会送一份生
日礼物给你，有一天，她突然问你：
“记得这十年里你生日我都送过什么吗？”
准确地回答出 10 件礼物
召回率 = 10/10 即 100%
准确地回忆起了 7 件
召回率 = 70%
所有的回答中可能有错误回答，比如，你一共给出
了 15 个答案，其中 5 个是错的
这证明，你虽然可以回答出所有礼物，但是却不那
么精确
精确率（Precision）就是 10/15，约为 67%

ROC 曲线（Receiver Operating Characteristic curve）用于评估分类模型的性能，特别是二分类问题中的分类器。

ROC 曲线以两个指标为基础：真正例率（True Positive Rate，TPR，也称为召回率或灵敏度）和假正例率（False Positive Rate，FPR）。

真正例率（TPR）是指模型将正样本正确分类为正类别的比例，计算公式为：TPR = 真正类别数量 / (真正类别数量 + 假负类别数量)。

假正例率（FPR）是指模型将负样本错误分类为正类别的比例，计算公式为：FPR = 假正类别数量 / (假正类别数量 + 真负类别数量)。

ROC 曲线绘制的过程中，根据分类器的不同阈值设置，计算并绘制不同的 TPR 和 FPR，形成曲线。曲线的横轴为 FPR，纵轴为 TPR。ROC 曲线越靠近左上角，说明模型的性能越好，具有更高的分类准确性。

通过观察 ROC 曲线，可以根据实际应用场景和需求选择合适的工作点（阈值），权衡模型的召回率和假正例率。此外，可以使用曲线下面积（Area Under the ROC Curve，AUC）作为综合指标来评估模型的性能。AUC 的取值范围为 0 到 1，AUC 越接近 1 表示模型的性能越好，AUC 为 0.5 表示模型的性能与随机猜测相当。

# 4.2 回归

L1 范数损失和 L2 范数损失

# 4.3 聚类

过拟合
欠拟合