2026-05-11 07:44:35 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文系统介绍了机器学习的基础知识与核心术语，涵盖机器学习定义、数据预处理、模型训练与评估等关键环节。文章通过生活化类比解释了监督学习、特征工程、梯度下降等概念，并详细分析了过拟合/欠拟合问题及应对策略。同时提供了分类与回归任务的常用评估指标，为初学者构建完整的机器学习知识框架。 综合评分： 78 文章分类： 安全培训,技术标准,AI安全

cover_image

机器学习–基础入门–01基础知识与专业术语

好靶场

2026年5月9日 11:46 四川

在小说阅读器读本章

去阅读

以下文章来源于青鸾sec ，作者Zero

青鸾sec .

广东某大专大一在读新生，在网络空间安全领域当黑奴中领域：AI For Security、Web安全团队：SecureNexusLab-AI组成员项目：LLMAttackGuide、SNL&朱雀AI安全科普、大模型提示词注入手扎

声明

本文作者：Zero

本文字数：10059字

阅读时长：约40分钟

由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，青鸾sec以及文章作者不为此承担任何责任。

机器学习基础知识与专业术语

好靶场课程链接

本期内容

http://www.loveli.com.cn/chapter_course_list?course_id=102§ion_id=65″>http://www.loveli.com.cn/chapter_course_list?course_id=102[1]

后期内容板块

好靶场介绍

我们立志于为所有的网络安全同伴制作出好的靶场，让所有初学者都可以用最低的成本入门网络安全。所以我们团队名称就叫“好靶场”。

前言：

导读：机器学习的世界充满了各种专业术语，初学者常常被”特征工程””梯度下降””过拟合”等名词搞得一头雾水。本文从零出发，用通俗的语言和生活化的类比，系统梳理机器学习中最核心、最常见的专业术语，帮你搭建起一张完整的”术语地图”。无论你之后学哪种算法、做哪个方向，这些术语都是你必须跨过的第一道门槛。（本文总结前后篇章的内容做处理后撰写有些许重复内容）

一、机器学习是什么？

1.1 基本定义

机器学习（Machine Learning, ML） 是人工智能（AI）的一个子领域，核心思想是：让计算机从数据中自动发现规律，而不是由人逐条编写规则。

1.2 一个直觉类比

想象你在教一个小孩认动物。你不会告诉他”猫有两只耳朵、四条腿、胡须、瞳孔是竖的……”，而是给他看很多猫的照片，说”这是猫”。看了几百张之后，小孩自己就能认出从没见过的猫了。

机器学习的原理完全一样——我们不直接编写复杂的规则，而是让计算机从大量数据中自动找出规律和模式。

1.3 传统编程 vs 机器学习

**一句话总结：**传统AI靠”人写规则”，机器学习靠”自己悟”。

二、数据相关术语

机器学习的一切都建立在数据之上。以下是你最先会遇到的数据术语：

2.1 数据集（Dataset）

数据集是用于训练和评估模型的数据集合。通常需要划分为三份：

| 名称 | 占比 | 作用 | 类比 | | — | — | — | — | | 训练集（Training Set） | 60%-80% | 模型从中学习规律 | 做练习题 | | 验证集（Validation Set） | 10%-20% | 选择超参数、监控过拟合 | 模拟考试 | | 测试集（Test Set） | 10%-20% | 最终评估模型能力，只用一次 | 期末考试 |

为什么要分三份？ 用同一份数据训练和评估，就像用考试原题复习——成绩再高也不能说明你真的学会了。测试集就是那张”从未见过的期末考卷”。

2.2 样本（Sample）与标签（Label）

• 样本（Sample）：数据集中的一条记录。比如一条患者病历、一张图片、一封邮件。
• 标签（Label）：每条样本对应的”标准答案”。比如邮件是”垃圾”还是”正常”，房价是”300万”。

类比：做练习题时，题目是样本，标准答案就是标签。

2.3 特征（Feature）

特征是模型做判断的依据，也就是输入数据的各个属性。

例如预测房价时，特征可以是：面积、房龄、卧室数、楼层、地段等。

一条样本可以表示为一个向量：[面积=90, 房龄=6, 卧室数=3]，这就是一个三维向量。多条样本的集合就构成一个矩阵——这是机器学习处理数据的基本形式。

经验之谈：在工业界，数据和特征工程往往占一个ML项目 70%以上的工作量。模型选择反而是最轻松的一步。

2.4 特征工程（Feature Engineering）

特征工程是对原始数据进行加工，构造出更好的特征，从而提升模型效果的过程。包括：

• 特征构建：从原始数据中构造新特征，如从”出生日期”提取”年龄”
• 特征选择：用统计方法筛选对预测目标影响最大的特征，去除冗余
• 特征缩放/标准化：把不同尺度的特征（如收入以万为单位，年龄以个位数为单位）缩放到同一范围
• 类别编码：模型只认数字，”男/女”需要转换为 0/1 或独热编码（One-Hot Encoding）

2.5 数据预处理（Data Preprocessing）

现实世界的数据是”脏”的，使用前必须清洗：

• 缺失值处理：字段为空（如用户没填年龄），用均值/中位数填充或删除该条记录
• 异常值处理：年龄写成 999 岁，明显是录入错误，需要修正或剔除
• 数据增强（Data Augmentation）：在数据不足时，通过旋转、翻转、裁剪等方式扩充数据量，常用于图像领域

三、模型与训练相关术语

3.1 模型（Model）

模型是机器学习的核心产出物。它本质上是一个数学函数，接收输入特征，输出预测结果。

类比：模型就像一个”函数机器”——你把数据从一端塞进去，它从另一端吐出预测结果。

训练模型的过程就是找到这组”最佳参数”的过程。

3.2 参数（Parameter）与超参数（Hyperparameter）

• 参数：模型内部通过训练自动学习的值，如线性回归中的权重 w 和偏置 b。
• 超参数：训练前由人设定的值，模型自己不会改变。如学习率、树的最大深度、KNN 中的 K 值。

类比：参数是学生通过做题学到的知识；超参数是老师设定的教学方式（讲课速度、作业量等）。

3.3 训练（Training）/ 拟合（Fitting）

训练就是让模型在训练集上反复迭代、不断调整参数以减小预测误差的过程。也叫”拟合”——让模型的预测尽量”贴合”真实数据。

一个完整的训练过程通常包含：

1. 模型根据当前参数做出预测
2. 计算预测值与真实标签之间的误差（损失函数）
3. 通过优化算法（如梯度下降）调整参数，使误差减小
4. 重复步骤 1-3，直到误差收敛到可接受水平

3.4 损失函数（Loss Function）/ 代价函数（Cost Function）

损失函数用来衡量模型预测值与真实值之间的差距。损失越小，模型越准。

常见的损失函数：

类比：损失函数就像考试的”扣分标准”——告诉你每道题错在哪里、扣了多少分。

3.5 梯度下降（Gradient Descent）

梯度下降是机器学习中最核心的优化算法，用来找到使损失函数最小的参数值。

类比：你蒙着眼睛站在一座山上，想走到山谷最低点。你用脚感受脚下地面的倾斜方向（这就是梯度），然后朝下坡方向走一步。反复这样做，最终你会到达谷底。

学习率（Learning Rate） 控制每一步走多远：

• 学习率太大 → 步子太大，可能越过谷底来回震荡
• 学习率太小 → 步子太小，训练速度极慢
• 合适的学习率 → 稳定且快速地到达谷底

3.6 迭代（Iteration）与轮次（Epoch）

• 迭代（Iteration）：模型看一批数据、算一次梯度、更新一次参数，这叫一次迭代。
• 轮次（Epoch）：模型把整个训练集完整地过一遍，叫一个 Epoch。
• 批次大小（Batch Size）：每次迭代使用的样本数量。如训练集有 1000 条，Batch Size = 100，则一个 Epoch 有 10 次迭代。

四、模型评估相关术语

4.1 过拟合（Overfitting）与欠拟合（Underfitting）

这是机器学习中最常见的两个问题：

| 问题 | 训练集表现 | 测试集表现 | 原因 | 类比 | | — | — | — | — | — | | 过拟合 | 好 ✅ | 差 ❌ | 模型太复杂，把噪声也当规律学了 | 背答案的学生，原题全对，新题全错 | | 欠拟合 | 差 ❌ | 差 ❌ | 模型太简单，没学到真正的规律 | 没学好的学生，什么题都做不对 | | 刚好 | 好 ✅ | 好 ✅ | 模型复杂度合适 | 真正理解了知识的学生 |

应对过拟合的方法：

• 增加训练数据
• 正则化（Regularization）
• Dropout（训练时随机”关掉”部分神经元）
• 早停法（Early Stopping）：验证集性能不再提升时停止训练
• 简化模型结构

应对欠拟合的方法：

• 增加特征
• 使用更复杂的模型
• 减少正则化强度

4.2 泛化能力（Generalization）

泛化能力指模型在从未见过的新数据上的表现。这是衡量模型好坏的最终标准。

类比：一个好学生不是背住了所有练习题，而是真正理解了知识，遇到新题也能做对。这个”做新题的能力”就是泛化能力。

4.3 评估指标（Evaluation Metrics）

分类任务指标

| 指标 | 英文 | 含义 | | — | — | — | | 准确率 | Accuracy | 预测正确的样本占总样本的比例 | | 精确率 | Precision | 预测为正例的样本中，真正是正例的比例（”宁缺毋滥”） | | 召回率 | Recall | 所有正例中，被正确识别出来的比例（”宁多勿少”） | | F1 分数 | F1-Score | 精确率和召回率的调和平均数，综合衡量两者 | | AUC-ROC | Area Under ROC Curve | 衡量模型区分正负样本的能力，越接近 1 越好 |

混淆矩阵（Confusion Matrix）：

1

2

3

预测为负 &nbsp; &nbsp;预测为正
实际为负 &nbsp; &nbsp;[ &nbsp;TN(真负) &nbsp; &nbsp;FP(假正) &nbsp;]
实际为正 &nbsp; &nbsp;[ &nbsp;FN(假负) &nbsp; &nbsp;TP(真正) &nbsp;]

• TP（True Positive）：真正例，实际为正，预测也为正
• TN（True Negative）：真负例，实际为负，预测也为负
• FP（False Positive）：假正例，实际为负，但预测为正（”误报”）
• FN（False Negative）：假负例，实际为正，但预测为负（”漏报”）

不同场景下，FP 和 FN 的代价不同。比如疾病诊断中，FN（漏诊）比 FP（误诊）严重得多。

回归任务指标

4.4 交叉验证（Cross-Validation）

交叉验证是一种更可靠的模型评估方式：将数据分成 K 份，轮流用其中 1 份做测试、其余 K-1 份做训练，重复 K 次，取平均值。

类比：不是只考一次试，而是考 K 次，每次用不同的试卷，取平均分——更能反映真实水平。

4.5 偏差（Bias）与方差（Variance）

• 偏差：模型预测的平均值与真实值之间的差距。高偏差 = 欠拟合。
• 方差：模型预测值的波动程度。高方差 = 过拟合。

类比：

• 高偏差 = 射手总是射偏（系统性偏移）

• 高方差 = 射手的弹着点很分散（不稳定）

• 理想状态 = 低偏差 + 低方差（又准又稳）

五、学习方式术语

5.1 监督学习（Supervised Learning）

定义：在带有”标准答案”（标签）的数据上，学习输入与输出之间的映射关系。

两大任务类型：

• 分类（Classification）：输出是离散的类别标签（如垃圾邮件/正常邮件）
• 回归（Regression）：输出是连续的数值（如房价、温度）

快速判断：结果能用”属于哪一类”来回答？→ 分类。结果是一个具体数字？→ 回归。

5.2 无监督学习（Unsupervised Learning）

定义：在没有标签的数据中，自主发现隐藏的结构和规律。

三大任务方向：

• 聚类（Clustering）：根据相似性自动分组（如用户分群）
• 降维（Dimensionality Reduction）：在保留重要信息的前提下压缩数据维度（如 PCA）
• 关联分析（Association Analysis）：发现事物之间同时出现的规律（如购物篮分析）

5.3 半监督学习（Semi-supervised Learning）

定义：用少量有标签样本引导，同时利用大量无标签样本的分布信息，获得更好的模型。

**为什么需要？ **获取大量标注数据成本极高（需要人工逐一判断），而未标注数据唾手可得。半监督学习用最少的标注代价，撬动最大的数据价值。

5.4 强化学习（Reinforcement Learning）

定义：让”智能体”在动态环境中，通过不断执行动作并观察奖励/惩罚信号，逐步学会最优策略。

核心概念：

5.5 自监督学习（Self-supervised Learning）

定义：让模型从无标签数据中自己构造监督信号（如遮盖词语让模型预测、对比图像增强）。BERT、GPT 等大模型都是自监督学习的产物。

5.6 迁移学习（Transfer Learning）

定义：把在一个任务上学到的知识，迁移到另一个相关任务上。比如在 ImageNet 上预训练好的模型，稍加调整就能用于医学影像分类。

类比：会骑自行车的人学骑摩托车更快——因为很多基础技能是相通的。

5.7 联邦学习（Federated Learning）

定义：多方在不共享原始数据的前提下协同建模，契合数据隐私合规要求。数据不出本地，只传输模型参数更新。

六、常见算法术语

6.1 线性回归（Linear Regression）

假设目标值与特征之间存在线性关系，通过最小化预测误差的平方和来拟合一条”最佳直线”。

ŷ = w₁x₁ + w₂x₂ + … + wₙxₙ + b

• ŷ：预测值
• x₁, x₂, ..., xₙ：特征值
• w₁, w₂, ..., wₙ：权重（Weight），每个特征的重要程度
• b：偏置（Bias），基准值

6.2 逻辑回归（Logistic Regression）

虽然名字里有”回归”，但实际上是做分类的。它内部回归出一个概率值，然后用阈值（通常是 0.5）把概率转换为类别。

核心是 Sigmoid 函数：σ(z) = 1 / (1 + e^(-z))，把任意实数”压缩”到 (0, 1) 之间。

6.3 决策树（Decision Tree）

构造树形结构，每个节点对某个特征做判断，叶子节点给出预测结果。就像玩”20 个问题”游戏——通过一系列是/否问题逐步缩小范围。

关键概念：

• 信息增益（Information Gain）：选择哪个特征来分割数据？选那个能让”纯度”提升最多的特征
• 基尼不纯度（Gini Impurity）：衡量一个节点中类别混杂的程度，越小越”纯”
• 剪枝（Pruning）：限制树的深度或叶子节点的最小样本数，防止过拟合

6.4 K-最近邻（KNN, K-Nearest Neighbors）

看离待分类点最近的 K 个邻居是什么类别，就把它归为那个类别。不需要训练过程（惰性学习），预测时才计算距离。

距离度量：

• 欧氏距离：两点之间的直线距离（最常用）
• 曼哈顿距离：城市街区距离（只能横着走或竖着走）
• 余弦相似度：衡量两个向量的方向相似性，文本分类常用

6.5 朴素贝叶斯（Naive Bayes）

基于贝叶斯定理计算样本属于各类别的概率，选概率最大的类别。”朴素”指假设所有特征相互独立——虽然现实中往往不成立，但实际效果出奇地好。

P(类别|特征) ∝ P(特征|类别) × P(类别)

6.6 支持向量机（SVM, Support Vector Machine）

在特征空间中寻找最大间隔超平面，使不同类别的样本被尽可能宽的”间隔”分开。

关键概念：

• 支持向量（Support Vector）：离分界线最近的那些数据点，它们”支撑”着分界线的位置
• 间隔（Margin）：分界线到支持向量的距离，SVM 的目标就是最大化这个间隔
• 核函数（Kernel Function）：当数据线性不可分时，通过核函数把数据映射到更高维的空间

6.7 集成学习（Ensemble Learning）

“三个臭皮匠，赛过诸葛亮”——组合多个弱学习器构成强学习器。

6.8 神经网络（Neural Network）

模仿人脑结构的计算模型，由大量神经元（Neuron） 组成。

核心组件：

• 神经元：接收输入，加权求和，通过激活函数输出
• 层（Layer）：多个神经元组成一层。分为输入层、隐藏层、输出层
• 激活函数（Activation Function）：给网络加入非线性

常见激活函数：

训练过程：

• 前向传播（Forward Propagation）：数据从输入层流经各隐藏层，最终到达输出层，得到预测结果
• 反向传播（Backpropagation）：从输出层的误差出发，利用链式法则逐层计算每个参数的梯度，然后用梯度下降更新参数

七、深度学习相关术语

深度学习是机器学习的一个子领域，特指使用多层神经网络的方法。

7.1 卷积神经网络（CNN, Convolutional Neural Network）

专门处理图像数据的网络。核心是卷积层——用一组小的”滤波器”（如 3×3）在图像上滑动，提取局部特征（边缘、纹理、形状等）。

关键组件：

• 卷积层（Convolutional Layer）：提取局部特征
• 池化层（Pooling Layer）：缩小特征图尺寸，减少计算量，常用最大池化
• 全连接层（Fully Connected Layer）：将特征映射到最终分类结果

7.2 循环神经网络（RNN, Recurrent Neural Network）

专门处理有”顺序”的数据（如文本、时间序列）。它有”记忆”机制，能把前面的信息传递到后面。

问题：当序列很长时，前面的信息会逐渐”消失”——梯度消失（Vanishing Gradient）。

解决方案：LSTM（Long Short-Term Memory），引入”门”机制——遗忘门、输入门、输出门，让网络学会”记住什么”和”忘记什么”。

7.3 Transformer

当下大模型的基石架构。核心是自注意力机制（Self-Attention），让模型能像读句子时联系上下文一样，并行处理整个序列，远胜于 RNN。BERT、GPT 都基于 Transformer。

7.4 Dropout

训练时随机”关掉”部分神经元（将其输出置为 0），防止过拟合。就像一个团队在训练时随机让一些成员休息，迫使其他成员也学会独立工作。

7.5 批归一化（Batch Normalization）

对每一层的输入做标准化处理，加速训练，允许使用更大的学习率。

7.6 早停法（Early Stopping）

当验证集的性能不再提升时，自动停止训练，防止过拟合。

7.7 词嵌入（Word Embedding）

将词语映射为稠密的低维向量，使语义相近的词在向量空间中距离也相近。代表方法有 Word2Vec、GloVe。

八、正则化与优化术语

8.1 正则化（Regularization）

在损失函数中加入”惩罚项”，限制模型参数不要太大，防止过拟合。

| 类型 | 名称 | 效果 | | — | — | — | | L1 正则化 | Lasso | 倾向于让部分参数变成 0，实现特征选择 | | L2 正则化 | Ridge | 倾向于让所有参数都变小，但不会变成 0 |

8.2 超参数调优（Hyperparameter Tuning）

寻找最佳超参数组合的过程。常见方法：

• 网格搜索（Grid Search）：穷举所有参数组合
• 随机搜索（Randomized Search）：随机尝试部分组合，更快
• 贝叶斯优化（Bayesian Optimization）：根据已有结果智能选择下一组参数

8.3 学习率调度（Learning Rate Scheduling）

随训练进行逐步降低学习率。开始时大步快走，接近最优解时小步微调。

九、数据处理进阶术语

9.1 独热编码（One-Hot Encoding）

将类别特征转换为向量形式。例如颜色（红、绿、蓝）编码为：

• 红 → [1, 0, 0]
• 绿 → [0, 1, 0]
• 蓝 → [0, 0, 1]

9.2 标准化（Standardization）与归一化（Normalization）

• 标准化：将数据转换为均值为 0、标准差为 1 的分布（Z-score）。公式：z = (x - μ) / σ
• 归一化：将数据缩放到 [0, 1] 的范围。公式：x' = (x - min) / (max - min)

**什么时候需要？ **KNN、SVM、神经网络等对特征尺度敏感的算法，使用前一定要标准化。决策树、随机森林则不需要。

9.3 降维（Dimensionality Reduction）

在尽量保留重要信息的前提下，将高维数据压缩到低维。

• PCA（主成分分析）：寻找方差最大的方向，投影到新的正交坐标系。最经典的线性降维方法。
• t-SNE：非线性降维，常用于高维数据的可视化。

9.4 数据不平衡（Class Imbalance）

正负样本比例严重失衡。例如欺诈检测中，99.9% 的交易是正常的，只有 0.1% 是欺诈。

应对方法：

• SMOTE 过采样：对少数类样本进行合成扩充
• 调整类别权重：在损失函数中给少数类更高的权重
• 欠采样：减少多数类样本数量

十、应用领域术语

10.1 自然语言处理（NLP, Natural Language Processing）

让机器理解和生成人类语言的技术。应用包括：机器翻译、智能客服、情感分析、文本分类等。

10.2 计算机视觉（CV, Computer Vision）

让机器”看懂”图像和视频的技术。应用包括：图像分类、目标检测、人脸识别、自动驾驶等。

10.3 推荐系统（Recommender System）

分析用户行为和物品特征，实现”千人千面”的个性化推荐。

• 协同过滤（Collaborative Filtering）：基于”物以类聚，人以群分”——相似用户喜欢相似的东西
• 内容推荐（Content-based）：基于物品本身的特征进行推荐

10.4 目标检测（Object Detection）

在图像中定位并识别物体的位置和类别。代表算法：YOLO、Faster R-CNN。

10.5 图像分割（Image Segmentation）

将图像中的每个像素分配到对应的类别，精确勾勒物体轮廓。代表算法：U-Net、Mask R-CNN。

10.6 生成对抗网络（GAN, Generative Adversarial Network）

由生成器（Generator） 和判别器（Discriminator） 两个网络对抗训练。生成器尝试生成逼真的数据，判别器尝试区分真假。两者不断博弈，最终生成器能产出以假乱真的内容。

十一、工程部署术语

11.1 模型持久化（Model Serialization）

将训练好的模型保存为文件，方便后续加载使用。

• scikit-learn：pickle 或 joblib
• TensorFlow/Keras：.h5 或 SavedModel 格式
• PyTorch：.pt 或 .pth

11.2 模型服务化（Model Serving）

将模型封装为 API 服务，供外部调用。常用框架：FastAPI、Flask。

11.3 容器化（Containerization）

使用 Docker 将代码、模型、依赖库打包成一个容器，解决”我电脑上能跑，服务器上就不行”的问题。

11.4 ONNX（Open Neural Network Exchange）

开放的神经网络交换格式，让不同框架（PyTorch、TensorFlow 等）训练的模型可以互相转换和部署。

十二、术语速查表

以下按字母顺序汇总本文所有术语，方便快速查阅：

结语

术语是理解机器学习的”钥匙”。本文涵盖了从数据处理、模型训练、评估优化到深度学习和工程部署的核心术语，基本覆盖了一个 ML 新手在学习过程中会遇到的绝大部分专业词汇。

建议你把这篇文章当作一份”术语字典”——学习过程中遇到不认识的词，回来查一查；随着实践的深入，这些术语会从”抽象概念”变成”你的直觉”。

下一步：掌握了这些术语后，就可以正式进入算法学习了——从线性回归、逻辑回归这些经典算法开始，逐步构建起完整的机器学习知识体系。

本系列文章持续更新中，敬请关注后续课程。

引用链接

[1]http://www.loveli.com.cn/chapter_course_list?course_id=102§ion_id=65: http://www.loveli.com.cn/chapter_course_list?course_id=102

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：好靶场《机器学习–基础入门–01基础知识与专业术语》