文章总结: 本文系统介绍了机器学习的基础知识与核心术语,涵盖机器学习定义、数据预处理、模型训练与评估等关键环节。文章通过生活化类比解释了监督学习、特征工程、梯度下降等概念,并详细分析了过拟合/欠拟合问题及应对策略。同时提供了分类与回归任务的常用评估指标,为初学者构建完整的机器学习知识框架。 综合评分: 78 文章分类: 安全培训,技术标准,AI安全
机器学习–基础入门–01基础知识与专业术语
好靶场
2026年5月9日 11:46 四川
在小说阅读器读本章
去阅读
以下文章来源于青鸾sec ,作者Zero
青鸾sec .
广东某大专大一在读新生,在网络空间安全领域当黑奴中 领域:AI For Security、Web安全 团队:SecureNexusLab-AI组成员 项目:LLMAttackGuide、SNL&朱雀AI安全科普、大模型提示词注入手扎
声明
本文作者:Zero
本文字数:10059字
阅读时长:约40分钟
由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,青鸾sec以及文章作者不为此承担任何责任。
青鸾sec有对此文章的修改和解释权。如欲转载或传播此文章,必须保证此文章的完整性,包括版权声明等全部内容。未经青鸾sec允许,不得任意修改或者增减此文章内容,不得以任何方式将其用于商业目的。
机器学习基础知识与专业术语
好靶场课程链接
本期内容
http://www.loveli.com.cn/chapter_course_list?course_id=102§ion_id=65″>http://www.loveli.com.cn/chapter_course_list?course_id=102[1]
后期内容板块
好靶场介绍
我们立志于为所有的网络安全同伴制作出好的靶场,让所有初学者都可以用最低的成本入门网络安全。所以我们团队名称就叫“好靶场”。
前言:
导读:机器学习的世界充满了各种专业术语,初学者常常被”特征工程””梯度下降””过拟合”等名词搞得一头雾水。本文从零出发,用通俗的语言和生活化的类比,系统梳理机器学习中最核心、最常见的专业术语,帮你搭建起一张完整的”术语地图”。无论你之后学哪种算法、做哪个方向,这些术语都是你必须跨过的第一道门槛。(本文总结前后篇章的内容做处理后撰写有些许重复内容)
一、机器学习是什么?
1.1 基本定义
机器学习(Machine Learning, ML) 是人工智能(AI)的一个子领域,核心思想是:让计算机从数据中自动发现规律,而不是由人逐条编写规则。
1.2 一个直觉类比
想象你在教一个小孩认动物。你不会告诉他”猫有两只耳朵、四条腿、胡须、瞳孔是竖的……”,而是给他看很多猫的照片,说”这是猫”。看了几百张之后,小孩自己就能认出从没见过的猫了。
机器学习的原理完全一样——我们不直接编写复杂的规则,而是让计算机从大量数据中自动找出规律和模式。
1.3 传统编程 vs 机器学习
| 传统编程 | 机器学习 | | — | — | | 程序员编写明确的规则 | 计算机从数据中学习规则 | | 适用于问题明确、规则清晰的情况 | 适用于复杂、规则难以明确的情况 | | 例子:编写计算器程序 | 例子:编写识别垃圾邮件的程序 |
**一句话总结:**传统AI靠”人写规则”,机器学习靠”自己悟”。
二、数据相关术语
机器学习的一切都建立在数据之上。以下是你最先会遇到的数据术语:
2.1 数据集(Dataset)
数据集是用于训练和评估模型的数据集合。通常需要划分为三份:
| 名称 | 占比 | 作用 | 类比 | | — | — | — | — | | 训练集(Training Set) | 60%-80% | 模型从中学习规律 | 做练习题 | | 验证集(Validation Set) | 10%-20% | 选择超参数、监控过拟合 | 模拟考试 | | 测试集(Test Set) | 10%-20% | 最终评估模型能力,只用一次 | 期末考试 |
为什么要分三份? 用同一份数据训练和评估,就像用考试原题复习——成绩再高也不能说明你真的学会了。测试集就是那张”从未见过的期末考卷”。
2.2 样本(Sample)与标签(Label)
- • 样本(Sample):数据集中的一条记录。比如一条患者病历、一张图片、一封邮件。
- • 标签(Label):每条样本对应的”标准答案”。比如邮件是”垃圾”还是”正常”,房价是”300万”。
类比:做练习题时,题目是样本,标准答案就是标签。
2.3 特征(Feature)
特征是模型做判断的依据,也就是输入数据的各个属性。
例如预测房价时,特征可以是:面积、房龄、卧室数、楼层、地段等。
一条样本可以表示为一个向量:<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">[面积=90, 房龄=6, 卧室数=3]</font>,这就是一个三维向量。多条样本的集合就构成一个矩阵——这是机器学习处理数据的基本形式。
经验之谈:在工业界,数据和特征工程往往占一个ML项目 70%以上 的工作量。模型选择反而是最轻松的一步。
2.4 特征工程(Feature Engineering)
特征工程是对原始数据进行加工,构造出更好的特征,从而提升模型效果的过程。包括:
- • 特征构建:从原始数据中构造新特征,如从”出生日期”提取”年龄”
- • 特征选择:用统计方法筛选对预测目标影响最大的特征,去除冗余
- • 特征缩放/标准化:把不同尺度的特征(如收入以万为单位,年龄以个位数为单位)缩放到同一范围
- • 类别编码:模型只认数字,”男/女”需要转换为
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">0/1</font>或独热编码(One-Hot Encoding)
2.5 数据预处理(Data Preprocessing)
现实世界的数据是”脏”的,使用前必须清洗:
- • 缺失值处理:字段为空(如用户没填年龄),用均值/中位数填充或删除该条记录
- • 异常值处理:年龄写成 999 岁,明显是录入错误,需要修正或剔除
- • 数据增强(Data Augmentation):在数据不足时,通过旋转、翻转、裁剪等方式扩充数据量,常用于图像领域
三、模型与训练相关术语
3.1 模型(Model)
模型是机器学习的核心产出物。它本质上是一个数学函数,接收输入特征,输出预测结果。
类比:模型就像一个”函数机器”——你把数据从一端塞进去,它从另一端吐出预测结果。
训练模型的过程就是找到这组”最佳参数”的过程。
3.2 参数(Parameter)与超参数(Hyperparameter)
- • 参数:模型内部通过训练自动学习的值,如线性回归中的权重
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">w</font>和偏置<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">b</font>。 - • 超参数:训练前由人设定的值,模型自己不会改变。如学习率、树的最大深度、KNN 中的 K 值。
类比:参数是学生通过做题学到的知识;超参数是老师设定的教学方式(讲课速度、作业量等)。
3.3 训练(Training)/ 拟合(Fitting)
训练就是让模型在训练集上反复迭代、不断调整参数以减小预测误差的过程。也叫”拟合”——让模型的预测尽量”贴合”真实数据。
一个完整的训练过程通常包含:
- 1. 模型根据当前参数做出预测
- 2. 计算预测值与真实标签之间的误差(损失函数)
- 3. 通过优化算法(如梯度下降)调整参数,使误差减小
- 4. 重复步骤 1-3,直到误差收敛到可接受水平
3.4 损失函数(Loss Function)/ 代价函数(Cost Function)
损失函数用来衡量模型预测值与真实值之间的差距。损失越小,模型越准。
常见的损失函数:
| 损失函数 | 全称 | 适用场景 | 公式含义 | | — | — | — | — | | MSE | 均方误差(Mean Squared Error) | 回归任务 | 预测值与真实值之差的平方的平均 | | MAE | 平均绝对误差(Mean Absolute Error) | 回归任务 | 预测值与真实值之差的绝对值的平均 | | 交叉熵(Cross-Entropy) | — | 分类任务 | 衡量两个概率分布之间的差异 |
类比:损失函数就像考试的”扣分标准”——告诉你每道题错在哪里、扣了多少分。
3.5 梯度下降(Gradient Descent)
梯度下降是机器学习中最核心的优化算法,用来找到使损失函数最小的参数值。
类比:你蒙着眼睛站在一座山上,想走到山谷最低点。你用脚感受脚下地面的倾斜方向(这就是梯度),然后朝下坡方向走一步。反复这样做,最终你会到达谷底。
学习率(Learning Rate) 控制每一步走多远:
- • 学习率太大 → 步子太大,可能越过谷底来回震荡
- • 学习率太小 → 步子太小,训练速度极慢
- • 合适的学习率 → 稳定且快速地到达谷底
3.6 迭代(Iteration)与轮次(Epoch)
- • 迭代(Iteration):模型看一批数据、算一次梯度、更新一次参数,这叫一次迭代。
- • 轮次(Epoch):模型把整个训练集完整地过一遍,叫一个 Epoch。
- • 批次大小(Batch Size):每次迭代使用的样本数量。如训练集有 1000 条,Batch Size = 100,则一个 Epoch 有 10 次迭代。
四、模型评估相关术语
4.1 过拟合(Overfitting)与欠拟合(Underfitting)
这是机器学习中最常见的两个问题:
| 问题 | 训练集表现 | 测试集表现 | 原因 | 类比 | | — | — | — | — | — | | 过拟合 | 好 ✅ | 差 ❌ | 模型太复杂,把噪声也当规律学了 | 背答案的学生,原题全对,新题全错 | | 欠拟合 | 差 ❌ | 差 ❌ | 模型太简单,没学到真正的规律 | 没学好的学生,什么题都做不对 | | 刚好 | 好 ✅ | 好 ✅ | 模型复杂度合适 | 真正理解了知识的学生 |
应对过拟合的方法:
- • 增加训练数据
- • 正则化(Regularization)
- • Dropout(训练时随机”关掉”部分神经元)
- • 早停法(Early Stopping):验证集性能不再提升时停止训练
- • 简化模型结构
应对欠拟合的方法:
- • 增加特征
- • 使用更复杂的模型
- • 减少正则化强度
4.2 泛化能力(Generalization)
泛化能力指模型在从未见过的新数据上的表现。这是衡量模型好坏的最终标准。
类比:一个好学生不是背住了所有练习题,而是真正理解了知识,遇到新题也能做对。这个”做新题的能力”就是泛化能力。
4.3 评估指标(Evaluation Metrics)
分类任务指标
| 指标 | 英文 | 含义 | | — | — | — | | 准确率 | Accuracy | 预测正确的样本占总样本的比例 | | 精确率 | Precision | 预测为正例的样本中,真正是正例的比例(”宁缺毋滥”) | | 召回率 | Recall | 所有正例中,被正确识别出来的比例(”宁多勿少”) | | F1 分数 | F1-Score | 精确率和召回率的调和平均数,综合衡量两者 | | AUC-ROC | Area Under ROC Curve | 衡量模型区分正负样本的能力,越接近 1 越好 |
混淆矩阵(Confusion Matrix):
1
2
3
预测为负 预测为正
实际为负 [ TN(真负) FP(假正) ]
实际为正 [ FN(假负) TP(真正) ]
- • TP(True Positive):真正例,实际为正,预测也为正
- • TN(True Negative):真负例,实际为负,预测也为负
- • FP(False Positive):假正例,实际为负,但预测为正(”误报”)
- • FN(False Negative):假负例,实际为正,但预测为负(”漏报”)
不同场景下,FP 和 FN 的代价不同。 比如疾病诊断中,FN(漏诊)比 FP(误诊)严重得多。
回归任务指标
| 指标 | 英文 | 含义 | | — | — | — | | 均方误差 | MSE(Mean Squared Error) | 预测值与真实值之差的平方的平均 | | 均方根误差 | RMSE | MSE 开根号,量纲与原始数据一致 | | 平均绝对误差 | MAE(Mean Absolute Error) | 预测值与真实值之差的绝对值的平均 | | R² 分数 | R-Squared | 模型解释了多少比例的方差,越接近 1 越好 |
4.4 交叉验证(Cross-Validation)
交叉验证是一种更可靠的模型评估方式:将数据分成 K 份,轮流用其中 1 份做测试、其余 K-1 份做训练,重复 K 次,取平均值。
类比:不是只考一次试,而是考 K 次,每次用不同的试卷,取平均分——更能反映真实水平。
4.5 偏差(Bias)与方差(Variance)
- • 偏差:模型预测的平均值与真实值之间的差距。高偏差 = 欠拟合。
- • 方差:模型预测值的波动程度。高方差 = 过拟合。
类比:
- • 高偏差 = 射手总是射偏(系统性偏移)
- • 高方差 = 射手的弹着点很分散(不稳定)
- • 理想状态 = 低偏差 + 低方差(又准又稳)
五、学习方式术语
5.1 监督学习(Supervised Learning)
定义:在带有”标准答案”(标签)的数据上,学习输入与输出之间的映射关系。
两大任务类型:
- • 分类(Classification):输出是离散的类别标签(如垃圾邮件/正常邮件)
- • 回归(Regression):输出是连续的数值(如房价、温度)
快速判断:结果能用”属于哪一类”来回答?→ 分类。结果是一个具体数字?→ 回归。
5.2 无监督学习(Unsupervised Learning)
定义:在没有标签的数据中,自主发现隐藏的结构和规律。
三大任务方向:
- • 聚类(Clustering):根据相似性自动分组(如用户分群)
- • 降维(Dimensionality Reduction):在保留重要信息的前提下压缩数据维度(如 PCA)
- • 关联分析(Association Analysis):发现事物之间同时出现的规律(如购物篮分析)
5.3 半监督学习(Semi-supervised Learning)
定义:用少量有标签样本引导,同时利用大量无标签样本的分布信息,获得更好的模型。
**为什么需要? **获取大量标注数据成本极高(需要人工逐一判断),而未标注数据唾手可得。半监督学习用最少的标注代价,撬动最大的数据价值。
5.4 强化学习(Reinforcement Learning)
定义:让”智能体”在动态环境中,通过不断执行动作并观察奖励/惩罚信号,逐步学会最优策略。
核心概念:
| 概念 | 含义 | 类比 | | — | — | — | | 智能体(Agent) | 做决策的主体 | 训练中的小狗 | | 环境(Environment) | 智能体所处的外部世界 | 房间、训练场 | | 状态(State) | 环境当前的情况 | 小狗看到的东西 | | 动作(Action) | 智能体可以做的事 | 坐下、趴下、跑 | | 奖励(Reward) | 环境对动作的反馈 | 零食(正奖励)、训斥(负奖励) | | 策略(Policy) | 智能体选择动作的规则 | 小狗学到的行为模式 |
5.5 自监督学习(Self-supervised Learning)
定义:让模型从无标签数据中自己构造监督信号(如遮盖词语让模型预测、对比图像增强)。BERT、GPT 等大模型都是自监督学习的产物。
5.6 迁移学习(Transfer Learning)
定义:把在一个任务上学到的知识,迁移到另一个相关任务上。比如在 ImageNet 上预训练好的模型,稍加调整就能用于医学影像分类。
类比:会骑自行车的人学骑摩托车更快——因为很多基础技能是相通的。
5.7 联邦学习(Federated Learning)
定义:多方在不共享原始数据的前提下协同建模,契合数据隐私合规要求。数据不出本地,只传输模型参数更新。
六、常见算法术语
6.1 线性回归(Linear Regression)
假设目标值与特征之间存在线性关系,通过最小化预测误差的平方和来拟合一条”最佳直线”。
ŷ = w₁x₁ + w₂x₂ + … + wₙxₙ + b
- •
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">ŷ</font>:预测值 - •
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">x₁, x₂, ..., xₙ</font>:特征值 - •
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">w₁, w₂, ..., wₙ</font>:权重(Weight),每个特征的重要程度 - •
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">b</font>:偏置(Bias),基准值
6.2 逻辑回归(Logistic Regression)
虽然名字里有”回归”,但实际上是做分类的。它内部回归出一个概率值,然后用阈值(通常是 0.5)把概率转换为类别。
核心是 Sigmoid 函数:<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">σ(z) = 1 / (1 + e^(-z))</font>,把任意实数”压缩”到 (0, 1) 之间。
6.3 决策树(Decision Tree)
构造树形结构,每个节点对某个特征做判断,叶子节点给出预测结果。就像玩”20 个问题”游戏——通过一系列是/否问题逐步缩小范围。
关键概念:
- • 信息增益(Information Gain):选择哪个特征来分割数据?选那个能让”纯度”提升最多的特征
- • 基尼不纯度(Gini Impurity):衡量一个节点中类别混杂的程度,越小越”纯”
- • 剪枝(Pruning):限制树的深度或叶子节点的最小样本数,防止过拟合
6.4 K-最近邻(KNN, K-Nearest Neighbors)
看离待分类点最近的 K 个邻居是什么类别,就把它归为那个类别。不需要训练过程(惰性学习),预测时才计算距离。
距离度量:
- • 欧氏距离:两点之间的直线距离(最常用)
- • 曼哈顿距离:城市街区距离(只能横着走或竖着走)
- • 余弦相似度:衡量两个向量的方向相似性,文本分类常用
6.5 朴素贝叶斯(Naive Bayes)
基于贝叶斯定理计算样本属于各类别的概率,选概率最大的类别。”朴素”指假设所有特征相互独立——虽然现实中往往不成立,但实际效果出奇地好。
P(类别|特征) ∝ P(特征|类别) × P(类别)
6.6 支持向量机(SVM, Support Vector Machine)
在特征空间中寻找最大间隔超平面,使不同类别的样本被尽可能宽的”间隔”分开。
关键概念:
- • 支持向量(Support Vector):离分界线最近的那些数据点,它们”支撑”着分界线的位置
- • 间隔(Margin):分界线到支持向量的距离,SVM 的目标就是最大化这个间隔
- • 核函数(Kernel Function):当数据线性不可分时,通过核函数把数据映射到更高维的空间
6.7 集成学习(Ensemble Learning)
“三个臭皮匠,赛过诸葛亮”——组合多个弱学习器构成强学习器。
| 方法 | 代表算法 | 核心思想 | | — | — | — | | Bagging(装袋法) | 随机森林(Random Forest) | 并行训练多棵树,投票/取平均 | | Boosting(提升法) | XGBoost、LightGBM、AdaBoost | 串行训练,每轮修正前轮的错误 |
6.8 神经网络(Neural Network)
模仿人脑结构的计算模型,由大量神经元(Neuron) 组成。
核心组件:
- • 神经元:接收输入,加权求和,通过激活函数输出
- • 层(Layer):多个神经元组成一层。分为输入层、隐藏层、输出层
- • 激活函数(Activation Function):给网络加入非线性
常见激活函数:
| 激活函数 | 公式 | 特点 | 适用场景 | | — | — | — | — | | ReLU | max(0, x) | 计算快,缓解梯度消失 | 隐藏层首选 | | Sigmoid | 1/(1+e^(-x)) | 输出 (0,1),适合概率 | 二分类输出层 | | Tanh | (e^x-e^(-x))/(e^x+e^(-x)) | 输出 (-1,1),零中心 | 隐藏层 | | Softmax | e^xi/Σe^xj | 输出概率分布,各类概率之和为 1 | 多分类输出层 |
训练过程:
- • 前向传播(Forward Propagation):数据从输入层流经各隐藏层,最终到达输出层,得到预测结果
- • 反向传播(Backpropagation):从输出层的误差出发,利用链式法则逐层计算每个参数的梯度,然后用梯度下降更新参数
七、深度学习相关术语
深度学习是机器学习的一个子领域,特指使用多层神经网络的方法。
7.1 卷积神经网络(CNN, Convolutional Neural Network)
专门处理图像数据的网络。核心是卷积层——用一组小的”滤波器”(如 3×3)在图像上滑动,提取局部特征(边缘、纹理、形状等)。
关键组件:
- • 卷积层(Convolutional Layer):提取局部特征
- • 池化层(Pooling Layer):缩小特征图尺寸,减少计算量,常用最大池化
- • 全连接层(Fully Connected Layer):将特征映射到最终分类结果
7.2 循环神经网络(RNN, Recurrent Neural Network)
专门处理有”顺序”的数据(如文本、时间序列)。它有”记忆”机制,能把前面的信息传递到后面。
问题:当序列很长时,前面的信息会逐渐”消失”——梯度消失(Vanishing Gradient)。
解决方案:LSTM(Long Short-Term Memory),引入”门”机制——遗忘门、输入门、输出门,让网络学会”记住什么”和”忘记什么”。
7.3 Transformer
当下大模型的基石架构。核心是自注意力机制(Self-Attention),让模型能像读句子时联系上下文一样,并行处理整个序列,远胜于 RNN。BERT、GPT 都基于 Transformer。
7.4 Dropout
训练时随机”关掉”部分神经元(将其输出置为 0),防止过拟合。就像一个团队在训练时随机让一些成员休息,迫使其他成员也学会独立工作。
7.5 批归一化(Batch Normalization)
对每一层的输入做标准化处理,加速训练,允许使用更大的学习率。
7.6 早停法(Early Stopping)
当验证集的性能不再提升时,自动停止训练,防止过拟合。
7.7 词嵌入(Word Embedding)
将词语映射为稠密的低维向量,使语义相近的词在向量空间中距离也相近。代表方法有 Word2Vec、GloVe。
八、正则化与优化术语
8.1 正则化(Regularization)
在损失函数中加入”惩罚项”,限制模型参数不要太大,防止过拟合。
| 类型 | 名称 | 效果 | | — | — | — | | L1 正则化 | Lasso | 倾向于让部分参数变成 0,实现特征选择 | | L2 正则化 | Ridge | 倾向于让所有参数都变小,但不会变成 0 |
8.2 超参数调优(Hyperparameter Tuning)
寻找最佳超参数组合的过程。常见方法:
- • 网格搜索(Grid Search):穷举所有参数组合
- • 随机搜索(Randomized Search):随机尝试部分组合,更快
- • 贝叶斯优化(Bayesian Optimization):根据已有结果智能选择下一组参数
8.3 学习率调度(Learning Rate Scheduling)
随训练进行逐步降低学习率。开始时大步快走,接近最优解时小步微调。
九、数据处理进阶术语
9.1 独热编码(One-Hot Encoding)
将类别特征转换为向量形式。例如颜色(红、绿、蓝)编码为:
- • 红 → [1, 0, 0]
- • 绿 → [0, 1, 0]
- • 蓝 → [0, 0, 1]
9.2 标准化(Standardization)与归一化(Normalization)
- • 标准化:将数据转换为均值为 0、标准差为 1 的分布(Z-score)。公式:
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">z = (x - μ) / σ</font> - • 归一化:将数据缩放到 [0, 1] 的范围。公式:
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">x' = (x - min) / (max - min)</font>
**什么时候需要? **KNN、SVM、神经网络等对特征尺度敏感的算法,使用前一定要标准化。决策树、随机森林则不需要。
9.3 降维(Dimensionality Reduction)
在尽量保留重要信息的前提下,将高维数据压缩到低维。
- • PCA(主成分分析):寻找方差最大的方向,投影到新的正交坐标系。最经典的线性降维方法。
- • t-SNE:非线性降维,常用于高维数据的可视化。
9.4 数据不平衡(Class Imbalance)
正负样本比例严重失衡。例如欺诈检测中,99.9% 的交易是正常的,只有 0.1% 是欺诈。
应对方法:
- • SMOTE 过采样:对少数类样本进行合成扩充
- • 调整类别权重:在损失函数中给少数类更高的权重
- • 欠采样:减少多数类样本数量
十、应用领域术语
10.1 自然语言处理(NLP, Natural Language Processing)
让机器理解和生成人类语言的技术。应用包括:机器翻译、智能客服、情感分析、文本分类等。
10.2 计算机视觉(CV, Computer Vision)
让机器”看懂”图像和视频的技术。应用包括:图像分类、目标检测、人脸识别、自动驾驶等。
10.3 推荐系统(Recommender System)
分析用户行为和物品特征,实现”千人千面”的个性化推荐。
- • 协同过滤(Collaborative Filtering):基于”物以类聚,人以群分”——相似用户喜欢相似的东西
- • 内容推荐(Content-based):基于物品本身的特征进行推荐
10.4 目标检测(Object Detection)
在图像中定位并识别物体的位置和类别。代表算法:YOLO、Faster R-CNN。
10.5 图像分割(Image Segmentation)
将图像中的每个像素分配到对应的类别,精确勾勒物体轮廓。代表算法:U-Net、Mask R-CNN。
10.6 生成对抗网络(GAN, Generative Adversarial Network)
由生成器(Generator) 和判别器(Discriminator) 两个网络对抗训练。生成器尝试生成逼真的数据,判别器尝试区分真假。两者不断博弈,最终生成器能产出以假乱真的内容。
十一、工程部署术语
11.1 模型持久化(Model Serialization)
将训练好的模型保存为文件,方便后续加载使用。
- • scikit-learn:
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">pickle</font>或<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">joblib</font> - • TensorFlow/Keras:
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">.h5</font>或<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">SavedModel</font>格式 - • PyTorch:
<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">.pt</font>或<font style="color:rgb(51, 51, 51);background-color:rgb(243, 244, 244);">.pth</font>
11.2 模型服务化(Model Serving)
将模型封装为 API 服务,供外部调用。常用框架:FastAPI、Flask。
11.3 容器化(Containerization)
使用 Docker 将代码、模型、依赖库打包成一个容器,解决”我电脑上能跑,服务器上就不行”的问题。
11.4 ONNX(Open Neural Network Exchange)
开放的神经网络交换格式,让不同框架(PyTorch、TensorFlow 等)训练的模型可以互相转换和部署。
十二、术语速查表
以下按字母顺序汇总本文所有术语,方便快速查阅:
| 术语 | 英文 | 一句话解释 | | — | — | — | | 准确率 | Accuracy | 预测正确的比例 | | 激活函数 | Activation Function | 给神经网络加入非线性 | | AdaBoost | — | 串行集成算法,每轮关注上轮分错的样本 | | 反向传播 | Backpropagation | 从输出误差反向计算梯度的方法 | | 批大小 | Batch Size | 每次参数更新使用的样本数 | | 批归一化 | Batch Normalization | 对每层输入标准化,加速训练 | | 贝叶斯定理 | Bayes’ Theorem | 用先验概率和似然计算后验概率 | | 偏差 | Bias | 模型预测的系统性偏移 | | 偏置 | Bias (parameter) | 模型中的基准值参数 | | 分类 | Classification | 输出离散类别标签的任务 | | CNN | Convolutional Neural Network | 专门处理图像的神经网络 | | 协同过滤 | Collaborative Filtering | 基于相似用户/物品的推荐方法 | | 混淆矩阵 | Confusion Matrix | 展示分类预测结果的矩阵 | | 代价函数 | Cost Function | 衡量预测与真实差距的函数 | | 交叉验证 | Cross-Validation | 数据分K份轮流训练评估的方法 | | 交叉熵 | Cross-Entropy | 分类任务常用的损失函数 | | 数据增强 | Data Augmentation | 通过变换扩充数据量 | | 数据集 | Dataset | 用于训练和评估的数据集合 | | 决策树 | Decision Tree | 树形结构的分类/回归模型 | | 维度灾难 | Curse of Dimensionality | 高维空间中数据稀疏导致的问题 | | 降维 | Dimensionality Reduction | 压缩数据维度 | | 判别器 | Discriminator | GAN 中判断真假的网络 | | Dropout | — | 训练时随机关闭神经元防过拟合 | | 早停法 | Early Stopping | 验证集不提升时停止训练 | | 集成学习 | Ensemble Learning | 组合多个弱模型构建强模型 | | Epoch | — | 模型完整过一遍训练集 | | 特征 | Feature | 模型做判断的依据/属性 | | 特征工程 | Feature Engineering | 加工原始数据构造更好的特征 | | 特征选择 | Feature Selection | 筛选最有用的特征 | | 前向传播 | Forward Propagation | 数据从输入到输出的计算过程 | | GAN | Generative Adversarial Network | 生成器与判别器对抗训练 | | 泛化 | Generalization | 模型在新数据上的表现 | | 生成器 | Generator | GAN 中生成假数据的网络 | | 梯度 | Gradient | 函数变化最快的方向 | | 梯度下降 | Gradient Descent | 沿梯度方向迭代优化的算法 | | 梯度消失 | Vanishing Gradient | 深层网络梯度逐层衰减的问题 | | 网格搜索 | Grid Search | 穷举所有超参数组合 | | 超参数 | Hyperparameter | 训练前由人设定的参数 | | 信息增益 | Information Gain | 选择分裂特征的准则 | | 迭代 | Iteration | 一次参数更新 | | KNN | K-Nearest Neighbors | 看最近K个邻居投票的算法 | | K-Means | — | 预设K个中心的聚类算法 | | 标签 | Label | 样本的”标准答案” | | L1 正则化 | Lasso Regularization | 惩罚项使部分参数为0 | | L2 正则化 | Ridge Regularization | 惩罚项使参数变小 | | 层 | Layer | 神经网络的基本结构单元 | | 学习率 | Learning Rate | 控制参数更新步长 | | 损失函数 | Loss Function | 衡量预测误差的函数 | | LSTM | Long Short-Term Memory | 带门机制的循环神经网络 | | 机器学习 | Machine Learning | 让计算机从数据中学习的技术 | | 间隔 | Margin | SVM 中分界线到支持向量的距离 | | MSE | Mean Squared Error | 均方误差 | | 模型 | Model | 从数据中学习到的函数 | | 归一化 | Normalization | 将数据缩放到[0,1] | | 独热编码 | One-Hot Encoding | 类别转为向量的编码方式 | | 过拟合 | Overfitting | 训练好测试差 | | 欠拟合 | Underfitting | 训练测试都差 | | 参数 | Parameter | 模型内部自动学习的值 | | PCA | Principal Component Analysis | 主成分分析降维 | | 精确率 | Precision | 预测为正中真正为正的比例 | | 召回率 | Recall | 所有正例中被正确识别的比例 | | 回归 | Regression | 输出连续数值的任务 | | 正则化 | Regularization | 限制参数防止过拟合 | | 强化学习 | Reinforcement Learning | 通过试错和奖励学习策略 | | R² 分数 | R-Squared | 模型解释方差的比例 | | RNN | Recurrent Neural Network | 处理序列数据的神经网络 | | 随机森林 | Random Forest | 多棵决策树投票的集成方法 | | 采样 | Sampling | 从数据中抽取子集 | | 半监督学习 | Semi-supervised Learning | 少量标签+大量无标签的学习方式 | | Sigmoid | — | 将实数压缩到(0,1)的函数 | | Softmax | — | 输出概率分布的函数 | | SMOTE | — | 合成少数类样本的过采样方法 | | 标准化 | Standardization | 转换为均值0标准差1 | | 支持向量 | Support Vector | SVM 中离分界线最近的点 | | SVM | Support Vector Machine | 最大间隔分类器 | | 测试集 | Test Set | 最终评估用的数据 | | 训练集 | Training Set | 模型学习用的数据 | | 迁移学习 | Transfer Learning | 将已有知识迁移到新任务 | | Transformer | — | 基于自注意力的架构 | | 欠采样 | Under Sampling | 减少多数类样本 | | 验证集 | Validation Set | 选超参数用的数据 | | 方差 | Variance | 模型预测的波动程度 | | 权重 | Weight | 模型中特征的系数 | | Word2Vec | — | 词嵌入方法 | | XGBoost | — | 高效的梯度提升算法 | | LightGBM | — | 更快的梯度提升算法 | | t-SNE | — | 非线性降维可视化方法 | | YOLO | — | 实时目标检测算法 | | 联邦学习 | Federated Learning | 数据不出本地的协同建模 | | 聚类 | Clustering | 自动分组 | | 基尼不纯度 | Gini Impurity | 衡量节点纯度的指标 | | 核函数 | Kernel Function | SVM 映射到高维的函数 | | 自注意力 | Self-Attention | Transformer 的核心机制 | | 词嵌入 | Word Embedding | 词语的向量表示 | | 目标检测 | Object Detection | 定位并识别物体 | | 图像分割 | Image Segmentation | 像素级别的分类 | | 推荐系统 | Recommender System | 个性化推荐 | | 余弦相似度 | Cosine Similarity | 衡量向量方向相似性 | | 欧氏距离 | Euclidean Distance | 两点之间的直线距离 | | 曼哈顿距离 | Manhattan Distance | 城市街区距离 |
结语
术语是理解机器学习的”钥匙”。本文涵盖了从数据处理、模型训练、评估优化到深度学习和工程部署的核心术语,基本覆盖了一个 ML 新手在学习过程中会遇到的绝大部分专业词汇。
建议你把这篇文章当作一份”术语字典”——学习过程中遇到不认识的词,回来查一查;随着实践的深入,这些术语会从”抽象概念”变成”你的直觉”。
下一步:掌握了这些术语后,就可以正式进入算法学习了——从线性回归、逻辑回归这些经典算法开始,逐步构建起完整的机器学习知识体系。
本系列文章持续更新中,敬请关注后续课程。
引用链接
[1]http://www.loveli.com.cn/chapter_course_list?course_id=102§ion_id=65: http://www.loveli.com.cn/chapter_course_list?course_id=102
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:好靶场 《机器学习–基础入门–01基础知识与专业术语》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论