中文互联网污染了AI,还是AI污染了中文互联网?

admin 2026-04-02 05:11:07 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文探讨了中文互联网与AI发展之间的相互影响。核心观点是,AI的能力高度依赖数据质量,而当前中文互联网存在语料占比低、优质内容被私有化、大量低劣及AIGC内容泛滥等问题,导致AI模型训练数据不足且质量不高,形成了垃圾数据产生垃圾AI,劣质AI又污染网络内容的恶性循环。文章强调,AI产业竞争的下半场将聚焦于高质量数据,并指出垂直领域模型可能是专业应用落地的核心形态。政府工作报告已明确提出建设高质量数据集的重要性。 综合评分: 85 文章分类: AI安全,网络安全,数据安全,技术标准,解决方案


cover_image

中文互联网污染了AI,还是AI污染了中文互联网?

原创

N2O N2O

网安潮汐

2026年3月30日 18:01 上海

作者|编辑|审校:N2O

回想2023年初,ChatGPT在国内刚火起来的时候,国内各大厂商闻风而动,纷纷下场开始搞国产大模型,就有人指出:“中文互联网的土壤,长不出AI”。

为什么这么说?

如果你是AI的深度用户,你会发现在某些领域(比如编程、图像识别),AI表现堪称惊艳。但如果你让 AI 处理医疗诊断、法律推理等,你就会发现,他开始胡说八道了。

为什么会这样?在不同领域里,模型是同一个模型,同一个架构、同一套硬件。到底是什么变了?为什么在一些事情上觉得AI聪明绝顶,在另一些事情上又觉得AI愚蠢至极?

答案是:数据。

在拥有高质量数据的领域,AI会很聪明,因为高质量数据能为AI模型提供准确、完整且丰富的信息。

而在数据稀缺、质量拉垮、复杂多变的领域,AI难以泛化到新情况,就会跟你胡扯。

大模型三要素:算力、算法、数据。

算力方面,有NVIDIA、AMD、Intel、海光等,每年都投入大量的人才和资金。

算法方面,有OpenAI、Anthropic、Google DeepMind、腾讯、字节等企业,汇聚了全球顶尖人才,不断突破模型能力边界。

算力、算法都拥有世界级的研究生态、巨额研发预算。

而放眼全球,没有任何一家公司拥有大规模数据获取能力、严谨的数据研究、数据筛选清洗与实验能力。

AI产业竞争格局,无人布局数据/ 来源:《The world needs an AI lab — for Data》

在 AI 整个发展史上,每一次能力的重大飞跃,都建立在对应数据集突破的基础之上。无论是CNN、还是AlexNet、还是现在的AI大模型,模型参数和模型架构只是表象,本质上都是发现新数据集并充分利用它们的故事。

今天,所有人都在疯狂追逐模型规模、比拼算力储备,很少有人愿意在高质量数据集投入时间和精力。

他们不知道高质量数据集对模型能力的重要性么?

不,他们比谁都清楚。

那为什么不去搞高质量数据集呢?

因为在“快鱼吃慢鱼”的激烈竞争环境下,企业构建高质量数据集是一项成本极高、周期极长、风险极大的、商业回报路径不清晰的“苦活累活”,因此等待他人贡献或依赖低质量数据“苟活”,则是当下的最优解。

再回到开头的问题:为什么中文互联网土壤,长不出AI?

据咨询公司W3Techs的统计显示,截至2026年3月17日,在全球互联网的所有网站当中,英文内容占比为49.5%,而中文内容占比仅为1.3%

使用不同内容语言的网站所占百分比统计/来源:W3Techs

中文语料库占比极低,而且内容质量还差,中文互联网充斥着大量低质、洗稿、虚假的AIGC内容,这些内容又被下一代AI模型当作训练数据抓取,就会形成“垃圾喂垃圾、垃圾产垃圾”的恶性循环。

ps:其实,我一直奇怪一个事情,那些上班族为什么能日更“高质量”长文?后来细读这些文章,看起来像模像样,实则废话连篇,这些文章看3篇觉得牛逼,看10篇你就会觉得傻逼。

二十年前 BBS 与博客百花齐放的黄金时代,中文互联网曾诞生过大量优质深度内容。如今,联网巨头筑起 “信息孤岛”,将优质创作者与内容圈定在W/X/公/众/号、知乎、小红书等封闭 APP 内,优质内容被私有化,公共领域则沦为荒漠。

从商业逻辑角度来看,我们知道,在toC场景中,互联网公司的大部分收益来源于广告,所以算法工程师做推荐、做流量分发,唯一的目标是:而最大化用户留存时长、点击、互动,最终支撑广告或者电商变现。一篇逻辑严谨、信息密度高、客观中立、有深度的高质量文章,其往往阅读门槛高、互动轻、不够“”,而被推荐算法抛弃。****

久而久之,中文互联网就形成了鼓励情绪化、故事化、短平快,抑制逻辑严密、客观理性的畸形生态。

当我们追问 “是中文互联网污染了AI,还是AI污染了中文互联网?”,答案其实已经清晰:这是一个相互裹挟、互相恶心的循环。中文互联网先天语料贫瘠,再加上商业短视,导致创作者流失、AIGC滥用,产生更多的“垃圾”,进一步导致中文互联网内容生态更加贫瘠 。

AI的上半场,大家在拼参数规模和算法算力,下半场,拼的一定是数据。而数据恰是最值钱的、最难搞定的,因为好数据大家都会捂在手里,不会轻易分享出来的。****

根据a16z的统计分析,全球公开数据量仅占全球数据量的0.0000000023%。

公开数据量仅占全球数据量的0.0000000023% / 来源:a16z.news/subscribe

在数字经济时代,高质量数据 = 真金白银。数据质量越高,就越能产生垄断收益,就会进一步私有化、封闭化。****

想要训练出一个靠谱的医生,就少不了电子病历、诊疗路径、临床试验数据等;

想要训练出一个专业的律师,就少不了司法判例、卷宗档案、实务经验、行业规则等;

想要训练出一个金融分析师,就少不了金融市场交易数据、宏观经济指标、投资实践等。

这些决定 AI 能力上限的高质量、高价值、高专业性数据,没有一样是公开易得的。

中文互联网(其实不止中文互联网)公开域充斥大量低劣数据,高质量数据都在私有高墙内,AI通用大模型很难吃到“细糠”。****

所以笔者认为在很多强专业领域,AI价值落地和商业化的核心形态一定是垂直模型。就像你不能指望一个人既是法律专家、又是医学专家、还是金融专家一样。

2026年政府工作报告,点名“建设高质量数据集”,很多省份的数据局也表示:AI 应用推进到哪里,高质量数据集就要跟到哪里,要培育出一批叫得响的 “数据企业”。

AI领域,现在只有中美还在桌子上,我们只有充分认识数据的重要性,才能拯救AI,否则只能在数据荒漠里,永远仰望别人的星空。

欢迎交流、探讨、分享。

原创不易,喜欢请点击下方名片关注

●成都某网安公司一员工跳楼身亡,我有话想说

●曾经毛利率直逼茅台的网安公司,如今为何节节败退,个个亏损?

●等保五级信息系统就是涉密信息系统吗?

#

#

参考资料:

1.BOBBY SAMUELS.The world needs an AI lab — for Data

2.Alexandra Souly, Javier Rando.Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

3.Qingjie Zhang, Di Wang.Speculating LLMs’ Chinese Training Data Pollution from Their Tokens

4.很帅的狐狸.中文AI,真的不行?

5.学学1978.高质量语料的缺乏是DeepSeek的最大困境

6.浙江省可信数据要素研究院.人工智能的星辰大海,需要数据的江河奔腾

7.第一财经.政府工作报告,为什么点名“高质量数据集”

8.陕西省大数据集团有限公司.“数”理话丨AI下半场,拼的是数据


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:网安潮汐 N2O N2O《中文互联网污染了AI,还是AI污染了中文互联网?》

评论:0   参与:  0