文章总结: 维数灾难指当数据维度急剧增加时,算法失效或计算成本指数级增长的问题。主要表现包括数据样本需求指数级增长、距离失效和组合爆炸。应对策略包括降维(特征选择和特征提取)、算法优化和增加样本数据。控制维度数量与奥卡姆剃刀原则一致,可避免过拟合,提高模型泛化能力。 综合评分: 86 文章分类: 其他
从数据稀疏性到维数灾难
原创
袁立志
减熵实验室
2025年12月21日 00:24 上海
作者:袁立志
在此前文章《周末闲聊之有趣的科技公司名称》中,我提到了稀疏性的概念,即在一个高维系统中,只有少数元素是非零的,其余大部分为零。利用稀疏性的特点,计算机可以用少量的数据来存储看起来很复杂的图像。这是稀疏性有利的一面。
在机器学习中,有一个与稀疏性有关但更加基础且核心的概念:维数灾难(Curse of Dimensionality)。维数灾难是指,当数据的维度(特征数量)急剧增加时,许多在低维空间中行之有效的算法会失效,或者计算成本会呈指数级爆炸,导致问题无法解决。
简单说就是,维数越多,空间体积膨胀得越快,导致数据在高维空间中极其稀疏,进而带来算法有效性和计算复杂度方面的困难。这是稀疏性不利的一面。
这里所说的“维度”“空间”都是数学上的,不是物理学上。物理学上的时空(即我们所在的现实宇宙)是四维的,即空间三维+时间维度。尽管理论物理上有十维空间、十一维空间的说法,但还没有为实验所证实。
数学上的维度和空间则是完全抽象的,不受现实宇宙的限制,可以构建任意有限维数的空间。比如常见的用户画像,对一个用户可以构建成百上千个标签(如性别、年龄、职业、收入、消费记录、兴趣偏好、位置轨迹、互动评论等),也就是成百上千个特征维度。一个用户就映射为这个百维空间或千维空间中的一个向量(数据点)。
在机器学习中,维数增加会带来哪些灾难呢?
第一个灾难是数据样本需求指数级增长。在机器学习中,我们通常假设训练数据能够覆盖所有的可能情况。当维数增加以后,为了达到与低维空间相同的采样密度,所需的数据量会呈指数级增长。例如,在一维空间中需要1000个样本,要保持同样的采样密度,在二十维空间中理论上需要1000^20个样本,这么大的数据量在现实中是难以收集到的。
训练数据样本不足,就导致训练出来的模型遇到的都是前所未见的新情况,模型过拟合,对新数据几乎没有预测能力。
第二个灾难是距离失效。与上面所说的维度、空间相似,这里所说的距离也不是指物理空间中的距离,而是抽象空间中的距离。比如“猫”和“狗”两个词语都表示宠物,经常一起出现,二者在语义空间中的距离更近,而与“律师”一词的距离则较远。
在高维空间中,由于数据极度稀疏,所有数据点之间的相对距离差异变得很小,使得区分远近邻变得困难。数据不但稀疏,而且分布不均匀,空间中心比角落更稀疏,大多数样本数据分布在角落。这会导致聚类算法和分类算法失效。
第三个灾难是组合爆炸和计算复杂度激增。如果特征维度是离散的,当维数增加时,可能的组合数量会指数级增长,导致计算量剧增,远超现有的计算机的处理能力。
以动态规划为例,假如每个特征维度只有两种状态(最简单的情况),10个特征维度是2^10=1024种组合,这个数字不大,现在的计算机处理起来不在话下。但当维数增加到10倍,即100个特征维度,组合数就有2^100种,这个数字比宇宙中所有原子的数量还多!现在的计算机根本处理不了。
(本文写于重庆回沪的飞机上,这是雨雾中的江北机场)
维数灾难给机器学习带来这么多挑战,那有哪些对策呢?
第一个办法是降维,即减少维度数量,这是釜底抽薪的思路。注意,这里的降维与我们日常所说的降维打击不是一个意思。后者是指利用更高级的认知、组织、技术等优势打击对手,其重点反而是尽可能地升维,而且“维”的含义也不完全一样。
在机器学习中,要降维,就要从原始特征库中筛选出最有代表性和判别力的特征维度,剔除无关或冗余的特征,这是特征选择。这就好比做一道菜,只选取能烹饪出最好口味的几样食材和调料,而不是一股脑儿地放入各种食材与调料。除了特征选择,还有一个办法是特征提取,即将原始高维特征映射到低维空间。
第二个办法是算法优化。有些算法更适合用来处理高维数据,可以抵御维数增加带来的灾难。
第三个办法是增加样本数据。如果有无限多的数据,就可以用来精确描述高维空间。尽可能获取更多高质量样本数据,是应对数据稀疏性的直接方法。
总结一下,维数越多,数据就越稀疏,模型就越复杂,计算就越困难。当模型复杂到一定程度后,就会出现过拟合,模型的泛化能力反而会下降。因此要控制维度的数量,即控制模型的复杂程度,这与奥卡姆剃刀原则是内在一致的。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:减熵实验室 袁立志《从数据稀疏性到维数灾难》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论