文章总结: 文档探讨了AI在安全运营中的实践与ROI量化,对比了MSS与自建团队在监管合规上的差异。针对DNS应急容灾,提出了多云冗余部署与IP直连逃生通道等策略。此外,还围绕Cloudflare宕机事件探讨了Rust语言在基础软件研发中的稳定性及适用性。 综合评分: 86 文章分类: 安全运营,应急响应,云安全,AI安全,解决方案
安全运营实践与DNS应急容灾策略探讨|总第305周
原创
群秘
君哥的体历
2025年12月31日 08:02 甘肃
0x1本周话题
话题一:年底千问和灵光相继上线,各位大佬在安全运营上有什么实践心得?
A1:有一个智能体比较成熟:安全设备产生告警->从安全设备获取到完整请求、样本、上下文->让大模型解读样本/payload/代码是什么意思->判断是否误报,降噪。其它的话,目前的心得是你不理财财就不会离开你,如果开始理财了还是要持续专业投入。
A2:告警降噪,还有就是评价模型需要看精准-召回曲线,不能只看单一纬度的增加。
Q:感觉每类有SOP的安全产品都可以尝试一下。另外,关于AI赋能安全运营场景的价值量化、ROI,有好的展现方式么?
A3:有几个方面:
- 数据能力:通过AI赋能,解决了过往安全运营过程中存在的各种数据获取/处理的技术问题,数据维度的变化带来了问题识别准确性等方面的xx变化。
- 计算能力:通过AI赋能,实现了工具的技术架构升级,把过往技术层面的卡点问题解决了,安全工作效率提升了xx倍,问题识别和闭环率提升了xx倍。
- 认知能力:通过AI赋能,帮助我们识别出来过去忽视的一些安全风险,消除了xx风险盲区,覆盖度提升了xxx。
A4:如果是为了好看,能呈现的挺多的,包括但不限于:智能规则/专家规则比 智能告警/传统告警比(反映检出增加,深度广度扩大,不反应忽略增加的告警)、智能降噪比、智能处理率、平均响应时间(还可以拆分析+处置)。
但如果从安全运营视角,其实不应该增加指标,而应该看最终效果,比如:检出的调和平均数提高多少,误报减少多少,MTTR减少多少,人力投入减少多少,能处理得过来的告警量/监测面增加多少,来衡量AI赋能前后的效果。
A5:受益了。我在想AI替代初级安全员人的数字员工场景。降本增效,没有人AI来凑。从SOP的提示词工程到安全技能,然后量化对等的人力成本。
A6:有一个指标是投资回报,我没提,因为一般是亏的,短期效果往往不如招人,但是数字员工可以做,因为这是更加组织化的,可复制的,可飞跃的,高管愿意投入且即便最终不达预期仍然对企业、员工、市场三方都有好处的,光这点就胜过招人百倍了。
A7:主要提增效,少干降本。
A8:今天听了一个小公司,提供mss服务,15万一年,每季度做互联网资产探查、互联网暴露面监控,日常的主机hids、旁路流量监控与阻断等运营。照这么干,感觉安全公司都要黄了呀。
A9:15万几个人,几台设备,处理资产数量,告警量有多少?
A10:saas服务,把监控吐给他们。
A11:现在国外的MSS已经发展的非常完善了,像微软、亚马逊、CrowdStrike、Proofpoint、CloudFlare等安全公司都已经发展起来非常成熟的安全SaaS生态,国内还在搞价格战,感觉差距已经越来越大。
A12:mss对中小企业的确是个不错的选择。每个单位招一两个人,很难招到面面俱到的。
A13:公有云也做的。这个对安全真是颠覆性的。小公司可能信任度不高,交给阿里那真是专业的事交给专业的人做。其实就一个老旧行业的平移,代维。以前运维很多也是代维的。
A14:越来越少了,金融监管要求高,敏感数据不能离司,没啥好代维的,都是进甲方驻场,不是MSS这种,很久很久以前IBM GTS做很多远程代维,后面都几乎只剩香港部分了。
A15:只有个别走上行业头部了,才会自己建庞大团队。
A16:我觉得不是要求高,监管规定背后的原因是不信任,所以应该是不信任代维,怕有风险。
A17:不是,是监管规定,就是不允许。
A18:当时叫银保监的141号文,要求很高。也不说信任不信任,而是金融企业应有自主可控的能力,控制外包风险。这是监管机构对金融企业的基本原则。只不过外包这个场景下,风险被放大。
A19:监管没有说不能外包、不能saas吧。
A20:不光安全,还有私有云,现在除了头部企业外没几个公司能把私有云玩明白,个人认为不如有序推广公有云,扶持建立公有云生态,有一些办公、运营类系统能上云就上云。
A21:更主要的原因是,在管理责任不外包的前提下,很难满足监管的外包要求、安全要求下的监管检查。
A22:其实这是监管的自我保护行为吧,放开的话肯定有新的问题,但是也得勇敢面对。
A23:既要保障网络安全(结果好),又要保障数据安全(门槛高),还要人少(资源少)。
A24:特定业务的全外包其实也挺多的(中小行的信用卡业务),所以很多时候还是历史惯性。
A25:那种是业务外包,制卡,催收。没说不行,但你要做到,很难。而且这个只是其中一个标准,个人信息保护法,数据安全法,各种法规,你一个企业闭环处理完成好,都很不容易,何况你还要外包。
监管不太支持,很久之前,就有金融云的认证,银行同业们在监管推动下也搞了家融联易云的公司,尝试做金融云,后面也是不了了之,因为站在监管企业,看的不只是单企业怎样怎样,还要看行业集中度,避免发生行业大面积故障。
A26:类似的政务云、集团云、行业云。其实都是公有云换了个壳子。所以不要说云,连数据中心,都出过文,说不能再在北京、上海集中建设。
A27:行业大面积故障可以通过异构云、灾备云等等来实现,并不能因此否定公有云的发展。
A28:因为一个地域的灾难,看上去是所有大金融机构都有两地三中心,但其实上海张江一搞,北京稻香湖一搞,就基本全挂。你可能没太参与过公有云,私有云,监管的讨论和过程。
A29:应该结合业务场景,比如办公、运营类的系统鼓励上云。交易类的当然还是得强监管。
A30:公有云是一种将行业风险重新聚焦的场景。办公,运营,有没有敏感数据。一个企业挂了,监管受的起。全行业一起来,那么受不了。
如果异构云,其实对甲方一样是难掌控。就举一个运维领域的指标,1510,自家可以这样做,云做不了。阿里云明确说5、10、30,故障恢复指标全面不满足,而且费用不见得比自建低。
A31:系统和数据存储也外包,业务外包了很难再使用自己系统。私有云跟行业云还是要分开讨论。
A32:一个简单逻辑,就是你自己搞,搞砸了,就说自己能力不行,投入不够,如果你选了外包,那么在此基础上,就放大了管理责任。反正就这么一回事,有好处,也有坏处,各人自行选择。
话题二:依托阿里云、腾讯云的dns怎么做应急呢?
《突发!Cloudflare 崩了。ChatGPT、X/Twitte 等受影响。》
A1:有事前的免疫方案,这种级别的故障,应急挑战很大的,最好在事前做。这个gtm方案应对场景是dns解析还活着,某一源站挂了,能自动切换,但如果dns解析自己都挂了,这个比较麻烦。
A2:是的,所以dns和cdn要分开两家放,腾讯云的dns和cloudflare的dns跟cdn,还有阿里云的dns跟cdn,同时挂的情况,最近十几年没出现过。
A3:得把dns解析记录数据都同步到另外一个运营商或设备的dns解析服务器上,还要改dns域名的权威解析服务器,这个修改权威解析服务器好像也在阿里云上。
A4:自己的权威-cdn的权威,这两个地方都有dns解析过程,只要通过gtm调度两个不同的cdn(cdn权威和cdn节点),那就没问题。
A5:我的意思是dns解析挂了,所有的域名都解析不了,不光是cdn。
A6:基本立场上,我支持这个观点。剩下的技术栈、成本、责任、RPORTO,都是执行中的问题,我认为都是可以解决的。
Q:你说的是自己的权威dns吗?那是另一个话题了。我有个问题,切面如何解决cloudflare昨晚的事故。在思路,方向和具体实践上,有什么先进性?
A7:你可以把.com放阿里云,.cn放腾讯云,告诉用户一个用不了了用另一个。
A8:workers和tunnel都没停,只不过转发的cdn挂了。 我的cron任务跑的好好的。 一般情况下,运维成熟度高的大厂都会有属于自己的基础设施。
所以DNS这类关键设备还是会拿在自己手里的,一些中小厂或者盛赞dev上去自由ops的,会把这类资源送出去托管,最后吃sla福利。
A9:好问题,我目前也没有答案。直觉上,我觉得最多能做到感知,似乎做不到处置。不过这个问题可以让切面的专家来回答。
A10:ns不好折腾的,一般就是选一套不会被叼决策错误的dns就好,选个专业做dns的云服务商,买上最高的套餐,出事了也不容易背锅,这个是运维层面的容灾,如果要做代码或者产品层面的,可以在一些关键环节用一些ip来做备份,dns解析不到的时候直接请求ip。
细节和展开可以参考腾讯的海量业务运营之道,腾讯这么多年的海量业务实践经验,也包括了容灾容错部分。以前是内部文章(系列),后来好像被人转出来了一些。
A11:一般商业确实如此,既然考虑这个问题了,就说明这个等级比DNS基础设施还高,或者不接受上游不可用导致的巨额财务损失,想要有预案不能说两手一摊,何况这个巨灾预案本身的成本并不高。
A12:什么业务的等级要比阿里云腾讯云的dns可靠性级别要求还高?这两家的dns挂了任何一个,国内一半的应用都挂了。具体例子参考多年前的暴风影音打卦dnspod事件对祖国的影响。
A13:的确,最早的时候很多企业都自建ns服务器,买F5的 GTM。现在都是用的云。
A14:阿里云dns也挂过两次,选了最好的就好了,没责任了吗?他挂了我就接受等他自己修复,没有办法没有预案?不会被问责?准备巨灾预案有什么问题?
99%以上的企业不需要考虑,但考虑的时候并不是没有办法。如果是这个做事思路,那咱们也不用干网络安全啦,99%的企业不会被盯上,盯上你也跑不掉。
A15:预案显然有并且你没看,推动研发在业务逻辑上做个ip访问的逃生通道,打工就是这个思路,干不干安全都一样。这个叫风险的转移,台面上的功夫。
A16:不经夸,刚夸完就出事。
A17:这说明出事是常态,即便再完善也会出事,更别说我们这种体系、能力都不完善的。
A18:可能这种公有云服务更透明一些。
Q:《Cloudflare 11-18 断网故障复盘报告》
里面提到rust的panic。Rust确实是一种安全的、防御性的编程语言,但这并不意味着它能完全防止 panic。对于基础性软件的研发,有是否值得上手rust的建议么?
A19:建议就是rust该处bug还是出bug,该出漏洞还是出漏洞,使用者自己要以人为本来学习应用。
A20:这个话有点像在说自动驾驶,技术本身是先进的,但你宣传成不会犯错就不对了。
A21:程序出bug是概率学问题。
A22:简单错误确实是可以防止的,但越复杂,你就越分不清功能和缺陷。
A23:rust的设计只是保证攻击者不能获得代码执行,不保证程序不崩溃。
A24:关于控制Rust panic的问题,一直是rust工程稳定性需要关注的核心问题。我们在业界的实践还是比较领先的, 控制panic问题上已经取得不错的阶段性成果,发在顶会ICSE’26上,同时用abstract interpretation技术验证确保没有panic的研究也在积极推进。
我们在rust上是重磅投入,如果是底层系统开发,而技术团队又有长期规划投入的话,现在rust是比c/c++更好的选择。如果只是研发业务应用,那么没必要上rust。
A25:再有10年 送走linux。haha 这个是宏伟愿景,我们先从云端做起。
A26:linux最深的护城河是硬件驱动,windows最强护城河是excel。我主力笔记本用macbook十年,只有在碰到excel的时候才想起windows。
A27:nginx-》pingora linux -》星绽 未来不知道还有哪些重量级应用,哈哈哈 工作党三套件: office IDE 浏览器。
A28:office里word ppt在macos上基本都ok了。只有excel兼容性太差。windows的护城河是很多cad软件吧。
A29:文档类的,我觉得现在钉钉和飞书基本都可以了。比如CATIA这种CAD CAE软件。实在要处理表格,让AI写python感觉也比学excle快。财务和人事的excel依然满天飞,我自己用 macos的numbers都够用了。就是没人去推动他们改吧,其实没有硬的功能差距。
A30:曾有人问,为什么微软不收购工业软件?我说微软在软件行业,也擅长软件的工业软件。
A31:可以试试把模版丢给AI学习一下,让它复制一份同样逻辑的python代码;直接写个小应用。Export to csv,加上个透视表,面对面说两句,一般就可以了。
A32:有些财务、报税的软件,非要windows 甚至对ie版本都有要求。实在没招。主要还是学校、企业都要求会office。如果企业要求会sql,电脑上也都有sql,那学校就会去学sql,人们就会sql,这种生态是最难搞的。
0x2 群友分享
【安全管理】
《Cloudflare 11-18 断网故障复盘报告》
【已复现】React Server Components 远程代码执行漏洞(CVE-2025-55182)
《三新,网络安全下半场的破局之策》
《Cloudflare挂掉的真实原因竟然是异常处理没做好….》
【安全资讯】
《千star开源项目存在恶意代码》
《Cloudflare酿六年最惨宕机:一行Rust代码,全球一半流量瘫痪!ChatGPT、Claude集体失联》
《顶会SOSP'25最佳论文,被一个国产自研操作系统拿下》
【法规解读】
国家互联网信息办公室、公安部关于《大型网络平台个人信息保护规定(征求意见稿)》公开征求意见的通知
《公安机关网络空间安全监督检查办法(征求意见稿)》公开征求意见的公告
【金融业企业安全建设实践群】和【企业安全建设实践群】每周讨论的精华话题会同步在本公众号推送(每周)。根据话题整理的群周报完整版——每个话题甲方朋友们的展开讨论内容——每周会上传知识星球,方便大家查阅。
往期群周报:
代码安全、漏洞管理与网络安全五年规划:关键问题与实践策略|总第304周
重运营的游戏公司,如何做好安全?从防泄密到渗透测试的实战思考|总第303周
运维安全三大挑战:动态IP管控、漏洞治理与加密架构实战解析|总第302周
如何进群?
如何下载群周报完整版?
请见下图:
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:君哥的体历 群秘《安全运营实践与DNS应急容灾策略探讨|总第305周》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论