文章总结: 本文探讨了中文互联网与AI发展之间的相互影响。核心观点是,AI的能力高度依赖数据质量,而当前中文互联网存在语料占比低、优质内容被私有化、大量低劣及AIGC内容泛滥等问题,导致AI模型训练数据不足且质量不高,形成了垃圾数据产生垃圾AI,劣质AI又污染网络内容的恶性循环。文章强调,AI产业竞争的下半场将聚焦于高质量数据,并指出垂直领域模型可能是专业应用落地的核心形态。政府工作报告已明确提出建设高质量数据集的重要性。
综合评分: 85
文章分类: AI安全,网络安全,数据安全,技术标准,解决方案
中文互联网污染了AI,还是AI污染了中文互联网?
原创
N2O N2O
网安潮汐
2026年3月30日 18:01 上海
作者|编辑|审校:N2O
回想2023年初,ChatGPT在国内刚火起来的时候,国内各大厂商闻风而动,纷纷下场开始搞国产大模型,就有人指出:“中文互联网的土壤,长不出AI”。
为什么这么说?
如果你是AI的深度用户,你会发现在某些领域(比如编程、图像识别),AI表现堪称惊艳。但如果你让 AI 处理医疗诊断、法律推理等,你就会发现,他开始胡说八道了。
为什么会这样?在不同领域里,模型是同一个模型,同一个架构、同一套硬件。到底是什么变了?为什么在一些事情上觉得AI聪明绝顶,在另一些事情上又觉得AI愚蠢至极?
答案是:数据。
在拥有高质量数据的领域,AI会很聪明,因为高质量数据能为AI模型提供准确、完整且丰富的信息。
而在数据稀缺、质量拉垮、复杂多变的领域,AI难以泛化到新情况,就会跟你胡扯。
大模型三要素:算力、算法、数据。
算力方面,有NVIDIA、AMD、Intel、海光等,每年都投入大量的人才和资金。
算法方面,有OpenAI、Anthropic、Google DeepMind、腾讯、字节等企业,汇聚了全球顶尖人才,不断突破模型能力边界。
算力、算法都拥有世界级的研究生态、巨额研发预算。
而放眼全球,没有任何一家公司拥有大规模数据获取能力、严谨的数据研究、数据筛选清洗与实验能力。
AI产业竞争格局,无人布局数据/ 来源:《The world needs an AI lab — for Data》
在 AI 整个发展史上,每一次能力的重大飞跃,都建立在对应数据集突破的基础之上。无论是CNN、还是AlexNet、还是现在的AI大模型,模型参数和模型架构只是表象,本质上都是发现新数据集并充分利用它们的故事。
今天,所有人都在疯狂追逐模型规模、比拼算力储备,很少有人愿意在高质量数据集投入时间和精力。
他们不知道高质量数据集对模型能力的重要性么?
不,他们比谁都清楚。
那为什么不去搞高质量数据集呢?
因为在“快鱼吃慢鱼”的激烈竞争环境下,企业构建高质量数据集是一项成本极高、周期极长、风险极大的、商业回报路径不清晰的“苦活累活”,因此等待他人贡献或依赖低质量数据“苟活”,则是当下的最优解。
再回到开头的问题:为什么中文互联网土壤,长不出AI?
据咨询公司W3Techs的统计显示,截至2026年3月17日,在全球互联网的所有网站当中,英文内容占比为49.5%,而中文内容占比仅为1.3%。
使用不同内容语言的网站所占百分比统计/来源:W3Techs
中文语料库占比极低,而且内容质量还差,中文互联网充斥着大量低质、洗稿、虚假的AIGC内容,这些内容又被下一代AI模型当作训练数据抓取,就会形成“垃圾喂垃圾、垃圾产垃圾”的恶性循环。
ps:其实,我一直奇怪一个事情,那些上班族为什么能日更“高质量”长文?后来细读这些文章,看起来像模像样,实则废话连篇,这些文章看3篇觉得牛逼,看10篇你就会觉得傻逼。
二十年前 BBS 与博客百花齐放的黄金时代,中文互联网曾诞生过大量优质深度内容。如今,联网巨头筑起 “信息孤岛”,将优质创作者与内容圈定在W/X/公/众/号、知乎、小红书等封闭 APP 内,优质内容被私有化,公共领域则沦为荒漠。
从商业逻辑角度来看,我们知道,在toC场景中,互联网公司的大部分收益来源于广告,所以算法工程师做推荐、做流量分发,唯一的目标是:而最大化用户留存时长、点击、互动,最终支撑广告或者电商变现。一篇逻辑严谨、信息密度高、客观中立、有深度的高质量文章,其往往阅读门槛高、互动轻、不够“爽”,而被推荐算法抛弃。****
久而久之,中文互联网就形成了鼓励情绪化、故事化、短平快,抑制逻辑严密、客观理性的畸形生态。
当我们追问 “是中文互联网污染了AI,还是AI污染了中文互联网?”,答案其实已经清晰:这是一个相互裹挟、互相恶心的循环。中文互联网先天语料贫瘠,再加上商业短视,导致创作者流失、AIGC滥用,产生更多的“垃圾”,进一步导致中文互联网内容生态更加贫瘠 。
AI的上半场,大家在拼参数规模和算法算力,下半场,拼的一定是数据。而数据恰是最值钱的、最难搞定的,因为好数据大家都会捂在手里,不会轻易分享出来的。****
根据a16z的统计分析,全球公开数据量仅占全球数据量的0.0000000023%。
公开数据量仅占全球数据量的0.0000000023% / 来源:a16z.news/subscribe
在数字经济时代,高质量数据 = 真金白银。数据质量越高,就越能产生垄断收益,就会进一步私有化、封闭化。****
想要训练出一个靠谱的医生,就少不了电子病历、诊疗路径、临床试验数据等;
想要训练出一个专业的律师,就少不了司法判例、卷宗档案、实务经验、行业规则等;
想要训练出一个金融分析师,就少不了金融市场交易数据、宏观经济指标、投资实践等。
这些决定 AI 能力上限的高质量、高价值、高专业性数据,没有一样是公开易得的。
中文互联网(其实不止中文互联网)公开域充斥大量低劣数据,高质量数据都在私有高墙内,AI通用大模型很难吃到“细糠”。****
所以笔者认为在很多强专业领域,AI价值落地和商业化的核心形态一定是垂直模型。就像你不能指望一个人既是法律专家、又是医学专家、还是金融专家一样。
2026年政府工作报告,点名“建设高质量数据集”,很多省份的数据局也表示:AI 应用推进到哪里,高质量数据集就要跟到哪里,要培育出一批叫得响的 “数据企业”。
AI领域,现在只有中美还在桌子上,我们只有充分认识数据的重要性,才能拯救AI,否则只能在数据荒漠里,永远仰望别人的星空。
欢迎交流、探讨、分享。
原创不易,喜欢请点击下方名片关注
●成都某网安公司一员工跳楼身亡,我有话想说
●曾经毛利率直逼茅台的网安公司,如今为何节节败退,个个亏损?
●等保五级信息系统就是涉密信息系统吗?
#
#
参考资料:
1.BOBBY SAMUELS.The world needs an AI lab — for Data
2.Alexandra Souly, Javier Rando.Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples
3.Qingjie Zhang, Di Wang.Speculating LLMs’ Chinese Training Data Pollution from Their Tokens
4.很帅的狐狸.中文AI,真的不行?
5.学学1978.高质量语料的缺乏是DeepSeek的最大困境
6.浙江省可信数据要素研究院.人工智能的星辰大海,需要数据的江河奔腾
7.第一财经.政府工作报告,为什么点名“高质量数据集”
8.陕西省大数据集团有限公司.“数”理话丨AI下半场,拼的是数据
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网安潮汐 N2O N2O《中文互联网污染了AI,还是AI污染了中文互联网?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论