2026-04-02 05:11:07 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文探讨了中文互联网与AI发展之间的相互影响。核心观点是，AI的能力高度依赖数据质量，而当前中文互联网存在语料占比低、优质内容被私有化、大量低劣及AIGC内容泛滥等问题，导致AI模型训练数据不足且质量不高，形成了垃圾数据产生垃圾AI，劣质AI又污染网络内容的恶性循环。文章强调，AI产业竞争的下半场将聚焦于高质量数据，并指出垂直领域模型可能是专业应用落地的核心形态。政府工作报告已明确提出建设高质量数据集的重要性。 综合评分： 85 文章分类： AI安全,网络安全,数据安全,技术标准,解决方案

cover_image

中文互联网污染了AI，还是AI污染了中文互联网？

原创

N2O N2O

网安潮汐

2026年3月30日 18:01 上海

作者|编辑|审校：N2O

回想2023年初，ChatGPT在国内刚火起来的时候，国内各大厂商闻风而动，纷纷下场开始搞国产大模型，就有人指出：“中文互联网的土壤，长不出AI”。

为什么这么说？

如果你是AI的深度用户，你会发现在某些领域（比如编程、图像识别），AI表现堪称惊艳。但如果你让 AI 处理医疗诊断、法律推理等，你就会发现，他开始胡说八道了。

为什么会这样？在不同领域里，模型是同一个模型，同一个架构、同一套硬件。到底是什么变了？为什么在一些事情上觉得AI聪明绝顶，在另一些事情上又觉得AI愚蠢至极？

答案是：数据。

在拥有高质量数据的领域，AI会很聪明，因为高质量数据能为AI模型提供准确、完整且丰富的信息。

而在数据稀缺、质量拉垮、复杂多变的领域，AI难以泛化到新情况，就会跟你胡扯。

大模型三要素：算力、算法、数据。

算力方面，有NVIDIA、AMD、Intel、海光等，每年都投入大量的人才和资金。

算法方面，有OpenAI、Anthropic、Google DeepMind、腾讯、字节等企业，汇聚了全球顶尖人才，不断突破模型能力边界。

算力、算法都拥有世界级的研究生态、巨额研发预算。

而放眼全球，没有任何一家公司拥有大规模数据获取能力、严谨的数据研究、数据筛选清洗与实验能力。

AI产业竞争格局，无人布局数据/ 来源：《The world needs an AI lab — for Data》

在 AI 整个发展史上，每一次能力的重大飞跃，都建立在对应数据集突破的基础之上。无论是CNN、还是AlexNet、还是现在的AI大模型，模型参数和模型架构只是表象，本质上都是发现新数据集并充分利用它们的故事。

今天，所有人都在疯狂追逐模型规模、比拼算力储备，很少有人愿意在高质量数据集投入时间和精力。

他们不知道高质量数据集对模型能力的重要性么？

不，他们比谁都清楚。

那为什么不去搞高质量数据集呢？

因为在“快鱼吃慢鱼”的激烈竞争环境下，企业构建高质量数据集是一项成本极高、周期极长、风险极大的、商业回报路径不清晰的“苦活累活”，因此等待他人贡献或依赖低质量数据“苟活”，则是当下的最优解。

再回到开头的问题：为什么中文互联网土壤，长不出AI？

据咨询公司W3Techs的统计显示，截至2026年3月17日，在全球互联网的所有网站当中，英文内容占比为49.5%，而中文内容占比仅为1.3%。

使用不同内容语言的网站所占百分比统计/来源：W3Techs

中文语料库占比极低，而且内容质量还差，中文互联网充斥着大量低质、洗稿、虚假的AIGC内容，这些内容又被下一代AI模型当作训练数据抓取，就会形成“垃圾喂垃圾、垃圾产垃圾”的恶性循环。

ps：其实，我一直奇怪一个事情，那些上班族为什么能日更“高质量”长文？后来细读这些文章，看起来像模像样，实则废话连篇，这些文章看3篇觉得牛逼，看10篇你就会觉得傻逼。

二十年前 BBS 与博客百花齐放的黄金时代，中文互联网曾诞生过大量优质深度内容。如今，联网巨头筑起 “信息孤岛”，将优质创作者与内容圈定在W/X/公/众/号、知乎、小红书等封闭 APP 内，优质内容被私有化，公共领域则沦为荒漠。

从商业逻辑角度来看，我们知道，在toC场景中，互联网公司的大部分收益来源于广告，所以算法工程师做推荐、做流量分发，唯一的目标是：而最大化用户留存时长、点击、互动，最终支撑广告或者电商变现。一篇逻辑严谨、信息密度高、客观中立、有深度的高质量文章，其往往阅读门槛高、互动轻、不够“爽”，而被推荐算法抛弃。****

久而久之，中文互联网就形成了鼓励情绪化、故事化、短平快，抑制逻辑严密、客观理性的畸形生态。

当我们追问 “是中文互联网污染了AI，还是AI污染了中文互联网？”，答案其实已经清晰：这是一个相互裹挟、互相恶心的循环。中文互联网先天语料贫瘠，再加上商业短视，导致创作者流失、AIGC滥用，产生更多的“垃圾”，进一步导致中文互联网内容生态更加贫瘠。

AI的上半场，大家在拼参数规模和算法算力，下半场，拼的一定是数据。而数据恰是最值钱的、最难搞定的，因为好数据大家都会捂在手里，不会轻易分享出来的。****

根据a16z的统计分析，全球公开数据量仅占全球数据量的0.0000000023%。

公开数据量仅占全球数据量的0.0000000023% / 来源：a16z.news/subscribe

在数字经济时代，高质量数据 = 真金白银。数据质量越高，就越能产生垄断收益，就会进一步私有化、封闭化。****

想要训练出一个靠谱的医生，就少不了电子病历、诊疗路径、临床试验数据等；

想要训练出一个专业的律师，就少不了司法判例、卷宗档案、实务经验、行业规则等；

想要训练出一个金融分析师，就少不了金融市场交易数据、宏观经济指标、投资实践等。

这些决定 AI 能力上限的高质量、高价值、高专业性数据，没有一样是公开易得的。

中文互联网（其实不止中文互联网）公开域充斥大量低劣数据，高质量数据都在私有高墙内，AI通用大模型很难吃到“细糠”。****

所以笔者认为在很多强专业领域，AI价值落地和商业化的核心形态一定是垂直模型。就像你不能指望一个人既是法律专家、又是医学专家、还是金融专家一样。

2026年政府工作报告，点名“建设高质量数据集”，很多省份的数据局也表示：AI 应用推进到哪里，高质量数据集就要跟到哪里，要培育出一批叫得响的 “数据企业”。

AI领域，现在只有中美还在桌子上，我们只有充分认识数据的重要性，才能拯救AI，否则只能在数据荒漠里，永远仰望别人的星空。

欢迎交流、探讨、分享。

原创不易，喜欢请点击下方名片关注

●成都某网安公司一员工跳楼身亡，我有话想说

●曾经毛利率直逼茅台的网安公司，如今为何节节败退，个个亏损？

●等保五级信息系统就是涉密信息系统吗？

#

参考资料：

1.BOBBY SAMUELS.The world needs an AI lab — for Data

2.Alexandra Souly, Javier Rando.Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

3.Qingjie Zhang, Di Wang.Speculating LLMs’ Chinese Training Data Pollution from Their Tokens

4.很帅的狐狸.中文AI，真的不行？

5.学学1978.高质量语料的缺乏是DeepSeek的最大困境

6.浙江省可信数据要素研究院.人工智能的星辰大海，需要数据的江河奔腾

7.第一财经.政府工作报告，为什么点名“高质量数据集”

8.陕西省大数据集团有限公司.“数”理话丨AI下半场，拼的是数据

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：网安潮汐 N2O N2O《中文互联网污染了AI，还是AI污染了中文互联网？》