2025-12-22 03:43:58 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 维数灾难指当数据维度急剧增加时，算法失效或计算成本指数级增长的问题。主要表现包括数据样本需求指数级增长、距离失效和组合爆炸。应对策略包括降维（特征选择和特征提取）、算法优化和增加样本数据。控制维度数量与奥卡姆剃刀原则一致，可避免过拟合，提高模型泛化能力。 综合评分： 86 文章分类： 其他

cover_image

从数据稀疏性到维数灾难

原创

袁立志

减熵实验室

2025年12月21日 00:24 上海

作者：袁立志

在此前文章《周末闲聊之有趣的科技公司名称》中，我提到了稀疏性的概念，即在一个高维系统中，只有少数元素是非零的，其余大部分为零。利用稀疏性的特点，计算机可以用少量的数据来存储看起来很复杂的图像。这是稀疏性有利的一面。

在机器学习中，有一个与稀疏性有关但更加基础且核心的概念：维数灾难（Curse of Dimensionality)。维数灾难是指，当数据的维度（特征数量）急剧增加时，许多在低维空间中行之有效的算法会失效，或者计算成本会呈指数级爆炸，导致问题无法解决。

简单说就是，维数越多，空间体积膨胀得越快，导致数据在高维空间中极其稀疏，进而带来算法有效性和计算复杂度方面的困难。这是稀疏性不利的一面。

这里所说的“维度”“空间”都是数学上的，不是物理学上。物理学上的时空（即我们所在的现实宇宙）是四维的，即空间三维+时间维度。尽管理论物理上有十维空间、十一维空间的说法，但还没有为实验所证实。

数学上的维度和空间则是完全抽象的，不受现实宇宙的限制，可以构建任意有限维数的空间。比如常见的用户画像，对一个用户可以构建成百上千个标签（如性别、年龄、职业、收入、消费记录、兴趣偏好、位置轨迹、互动评论等），也就是成百上千个特征维度。一个用户就映射为这个百维空间或千维空间中的一个向量（数据点）。

在机器学习中，维数增加会带来哪些灾难呢？

第一个灾难是数据样本需求指数级增长。在机器学习中，我们通常假设训练数据能够覆盖所有的可能情况。当维数增加以后，为了达到与低维空间相同的采样密度，所需的数据量会呈指数级增长。例如，在一维空间中需要1000个样本，要保持同样的采样密度，在二十维空间中理论上需要1000^20个样本，这么大的数据量在现实中是难以收集到的。

训练数据样本不足，就导致训练出来的模型遇到的都是前所未见的新情况，模型过拟合，对新数据几乎没有预测能力。

第二个灾难是距离失效。与上面所说的维度、空间相似，这里所说的距离也不是指物理空间中的距离，而是抽象空间中的距离。比如“猫”和“狗”两个词语都表示宠物，经常一起出现，二者在语义空间中的距离更近，而与“律师”一词的距离则较远。

在高维空间中，由于数据极度稀疏，所有数据点之间的相对距离差异变得很小，使得区分远近邻变得困难。数据不但稀疏，而且分布不均匀，空间中心比角落更稀疏，大多数样本数据分布在角落。这会导致聚类算法和分类算法失效。

第三个灾难是组合爆炸和计算复杂度激增。如果特征维度是离散的，当维数增加时，可能的组合数量会指数级增长，导致计算量剧增，远超现有的计算机的处理能力。

以动态规划为例，假如每个特征维度只有两种状态（最简单的情况），10个特征维度是2^10=1024种组合，这个数字不大，现在的计算机处理起来不在话下。但当维数增加到10倍，即100个特征维度，组合数就有2^100种，这个数字比宇宙中所有原子的数量还多！现在的计算机根本处理不了。

（本文写于重庆回沪的飞机上，这是雨雾中的江北机场）

维数灾难给机器学习带来这么多挑战，那有哪些对策呢？

第一个办法是降维，即减少维度数量，这是釜底抽薪的思路。注意，这里的降维与我们日常所说的降维打击不是一个意思。后者是指利用更高级的认知、组织、技术等优势打击对手，其重点反而是尽可能地升维，而且“维”的含义也不完全一样。

在机器学习中，要降维，就要从原始特征库中筛选出最有代表性和判别力的特征维度，剔除无关或冗余的特征，这是特征选择。这就好比做一道菜，只选取能烹饪出最好口味的几样食材和调料，而不是一股脑儿地放入各种食材与调料。除了特征选择，还有一个办法是特征提取，即将原始高维特征映射到低维空间。

第二个办法是算法优化。有些算法更适合用来处理高维数据，可以抵御维数增加带来的灾难。

第三个办法是增加样本数据。如果有无限多的数据，就可以用来精确描述高维空间。尽可能获取更多高质量样本数据，是应对数据稀疏性的直接方法。

总结一下，维数越多，数据就越稀疏，模型就越复杂，计算就越困难。当模型复杂到一定程度后，就会出现过拟合，模型的泛化能力反而会下降。因此要控制维度的数量，即控制模型的复杂程度，这与奥卡姆剃刀原则是内在一致的。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：减熵实验室袁立志《从数据稀疏性到维数灾难》