文章总结: 文档介绍了重复数据删除技术,通过消除冗余数据降低存储成本并提升利用率。文章解析了其在备份恢复及VDI场景的优势,对比了文件级与块级的工作原理。同时介绍了内联与后处理、源端与目标端等实施方式,建议组织结合数据量和存储环境灵活选择策略,优化数据管理。 综合评分: 70 文章分类: 数据安全,安全建设,安全运营
数据安全知识:什么是重复数据删除?
何威风 何威风
河南等级保护测评
2026年1月20日 00:00 河南
什么是重复数据删除?
数据重复数据删除是一种简化流程,通过删除相同信息的多余副本来减少冗余数据。数据重复数据删除(通常简称为“Dedupe”)的目标是减少组织的持续存储需求。
组织可以实施数据重复数据删除流程和技术,以确保其存储系统中只存在一个唯一的数据实例。重复或冗余数据将被删除,用户将被指向单个数据实例。
当数据重复数据删除成功时,它可以提高组织的整体存储利用率并有助于降低成本。
为什么需要重复数据删除?
那么,公司为什么要创建重复数据呢?可能有一个或多个正当理由,包括以下几点:
组织或其某个部门可能需要重新利用原始数据,因此需要创建新的数据副本。
公司可能希望保留副本作为备份系统的一部分,以防发生数据丢失事件。
组织可能会发现它保留了相同数据的多个副本,但以不同的格式存储。
数据重复的另一个主要原因是,这在大多数多部门组织中经常发生。数据要么定期创建,要么重新创建,这是在现代环境下开展业务的一项公认的有机功能。因此,数据创建或复制并不是真正的问题;过度的数据扩散才是。
如果不产生额外的财务负担,数据激增似乎不是一个大问题。组织可以选择将数据存储在其 IT 架构内的不同位置,而不必担心这些冗余。
但事实上,公司确实会因以额外存储成本的形式维护大量数据冗余而遭受经济损失。无法停止创建数据冗余的组织需要分配更多的人力和预算来实施新的存储解决方案和数据管理,无论是基于新硬件购买还是添加云存储。
重复数据删除的好处
数据重复数据删除技术最明显的好处是,删除无关数据可以减少组织必须存储和管理的数据总量。这样可以减少占用存储空间的数据量,从而有效提高组织的存储容量。
除了降低存储成本之外,数据重复数据删除还具有其他主要优势,例如进一步制定数据备份计划和支持紧急措施以保障 灾难恢复。
另一个好处是,通过删除“无用”数据并确保剩余数据得到适当清理,恢复数据完整性。事实证明,删除重复数据后,运行效果更好,能耗更低。
数据重复数据删除的另一个好处是它与虚拟桌面基础架构 (VDI)部署配合良好,这要归功于 VDI 远程桌面背后的虚拟硬盘以相同的方式运行。流行的桌面即服务 (DaaS) 产品包括 Microsoft 的 Azure Virtual Desktop 及其 Windows VDI。这些产品会生成在服务器虚拟化过程中创建的虚拟机 (VM)。反过来,这些虚拟机又为 VDI 技术提供了支持。
数据重复数据删除如何工作?
从最基本的层面上讲,数据重复数据删除通过自动化功能来识别数据块中的重复项,然后删除这些重复项。通过在这个块级别上工作,可以分析和指定值得保留的独特数据块。然后,当重复数据删除软件检测到同一数据块的重复时,会删除该重复项并在其位置包含对原始数据的引用。
数据重复数据删除的另一种方法是在文件级别进行操作。单实例数据存储会比较文件系统中的完整数据副本,而不是数据块或数据块。与其对应的方法一样,文件重复数据删除依赖于保留原始文件并删除多余的副本。
重复数据删除技术的工作方式与数据压缩算法(例如 LZ77、LZ78)并不完全相同,尽管两者都追求相同的总体目标,即减少数据冗余。与压缩算法相比,重复数据删除技术在更大、更宏观的范围内实现了这一目标,压缩算法的目标不是用共享副本替换相同的文件,而是高效地对数据冗余进行编码。
重复数据删除的类型
根据重复数据删除过程发生的时间,有两种基本类型的重复数据删除。
内联重复数据删除
这种形式的重复数据删除在数据在系统内流动时实时发生。由于系统既不传输也不存储重复数据,因此系统承载的数据流量较少。这可以减少该组织所需的总带宽量。
后处理重复数据删除
这种类型的重复数据删除发生在数据被写入并放置在某种类型的存储设备之后。
这两种类型的数据重复数据删除都受到数据重复数据删除固有的哈希计算的影响。这些加密计算对于识别数据中的重复模式至关重要。在内联重复数据删除过程中,这些计算是即时执行的,这可能会主导并暂时压倒计算机功能。在后处理重复数据删除中,哈希计算可以在添加数据后的任何时间执行。
重复数据删除类型之间的细微差别不止于此。对重复数据删除类型进行分类的第二种方法是根据此类过程发生的位置。
源重复数据删除
这种重复数据删除技术在新数据生成的地方附近进行。系统会扫描该区域并检测文件的新副本,然后将其删除。
目标重复数据删除
目标重复数据删除基本上是源重复数据删除的反转。在目标重复数据删除中,系统会对在原始数据创建位置以外的区域找到的任何副本进行重复数据删除。
由于存在不同类型的重复数据删除方法,因此有远见的组织必须对所选择的重复数据删除类型做出谨慎和深思熟虑的决定,并在该方法和该公司的特定需求之间取得平衡。
在许多用例中,组织选择的重复数据删除方法很可能归结为各种内部变量,例如:
正在创建多少数据集以及什么类型的数据集
该组织的主要存储系统
正在使用哪些虚拟环境
公司依赖哪些应用程序
—欢迎关注 往期回顾—
精彩回顾:祺印说信安2024之前
230个网络和数据安全相关法律法规规范文件打包下载
单位高层领导参与网络安全不应该只是口头说说
党委(党组)网络安全工作责任制实施办法
“两高一弱”专项下,谈合规下的弱口令
网络被黑?还看“两高一弱” ,原来是不履行网络安全义务惹的祸
网络安全等级保护<<<
网络安全等级保护:等级保护工作、分级保护工作、密码管理工作三者之间的关系
1994-2024等级保护30年法律法规及政策发展历程概览
网络安全等级保护:等级保护的概念
网络安全等级保护:等级保护工作的内涵
网络安全等级保护:开展网络等级保护工作的流程
网络安全等级保护:贯彻落实网络安全等级保护制度的原则
网络安全等级保护:开展网络安全等级保护工作的法律依据
网络安全等级保护:开展网络安全等级保护工作的政策依据
网络安全等级保护:开展网络安全等级保护工作的标准依据
网络安全等级保护:等级保护工作从定级到备案
网络安全等级保护:网络总体安全规划很重要
网络安全等级保护:一定要做好网络安全运行与维护
网络安全等级保护:应急响应与保障是法定要求
网络安全等级保护:如何正确处理终止的等级保护对象
网络安全等级保护:政策与技术“七一”大合集100+篇
网络安全等级保护:安全管理机构
网络安全等级保护:网络安全事件分类分级思维导图
网络安全等级保护:明确测评双方的责任从了解测评过程指南开始(思维导图下载)
关键信息基础设施安全保护<<<
关键信息基础设施安全保护要求思维导图
关键信息基础设施保护要求之分析识别与风险评估乱谈
关键信息基础设施保护要求之安全防护
网络安全框架CSF 2.0 核心与示例映射
数据安全系列<<<
数据安全管理从哪里开始
数据泄露的成本:医疗保健行业
数据安全知识:数据安全策略规划
数据安全知识:组织和人员管理
数据安全知识:数据库安全重要性
数据安全知识:数据整理与数据清理
数据安全知识:什么是数据存储?
数据安全知识:什么是数据风险评估?
数据安全知识:如何逐步执行数据风险评估
数据安全知识:数据风险管理降低企业风险
数据安全知识:数据整理与数据清理
数据安全知识:什么是数据安全态势管理?
数据安全知识:数据库安全重要性
数据安全知识:数据库安全威胁
数据安全知识:不同类型的数据库
数据安全知识:数据库简史
数据安全知识:什么是数据出口?
数据安全知识:什么是数据治理模型?
错与罚<<<
警惕风险突出的100个高危漏洞(上)
警惕风险突出的100个高危漏洞(下)
警惕“两高一弱”风险及安全防护提示(全集)
不履行网络安全保护义务是违法行为!多家单位被通报!
因侵犯公民个人信息罪 深圳一人被判一年三个月 售卖他人求职简历
公安部网安局:河南开展整治网络谣言专项行动 查处造谣传谣3000余人
四川遂宁公安公布10起涉网违法犯罪典型案例
276人落网!河南新乡警方摧毁特大“网络水军”犯罪团伙
重拳出击严打涉网犯罪 海淀警方守护网络清朗
网警@同学们 暑期这些兼职不能做!
非法出售公民个人信息 网站经营者被判三年有期徒刑
超范围采集公民信息,违法!鹤壁网警出手
一公司高管为泄愤攻击智慧停车收费系统,致上千家停车场无法自动抬杆
重庆某国企因网安责任人履职不到位被约谈
因违规收集使用个人信息等,人保寿险宁波分公司被罚32万,4名责任人同时被罚
回顾长沙市三个区网信开出首张罚单的不同时间和处罚单位类型
上海4人被判刑:5元掌握明星偶像行程?贩卖明星信息4人被判刑!
假期内,网络主播直播约架?郑州警方迅速控制,刑拘十人!网络空间不是法外之地!
网安局:拒不履行网络安全保护义务,处罚!事关备案!
网络水军团灭记:“转评赞”狂刷单 上百人“网络水军”团伙落网
北京多家公司因不履行网络安全保护义务被处罚!“两高一弱”仍然是安全隐患重点
关于“近20台服务器“沦陷”,3.54亿条个人信息被盗”一点点浅析
其他<<<
2023年10佳免费网络威胁情报来源和工具
重大网络安全事件事后工作很重要
默认安全:对现代企业意味着什么
网络安全知识:什么是事件响应?
网络安全知识:什么是攻击面?
网络安全知识:什么是访问控制列表 (ACL)?
网络安全知识:什么是访问管理?
网络安全知识:什么是访问矩阵?
网络安全知识:什么是账户收集?
网络安全知识:什么是工业控制系统 (ICS) 网络安全?
网络安全知识:什么是暴力攻击?
网络安全知识:什么是安全审计?
网络安全知识:什么是分组密码?
网络安全知识:什么是僵尸网络?
网络安全知识:什么是非对称加密?
网络安全知识:什么是边界网关协议 (BGP)?
网络安全知识:什么是缓冲区溢出?
网络安全知识:网络安全中的EDR是什么?
网络安全知识:什么是身份验证?
网络安全知识:什么是勒索软件?
网络安全知识:什么是授权?
网络安全知识:什么是自治系统?
网络安全知识:什么是蓝队?
网络安全知识:什么是Bind Shell?
网络安全知识:什么是安全网关?
网络安全知识:什么是蓝队?
网络安全知识:什么是防病毒产品?
网络安全知识:什么是横幅抓取?
网络安全知识:什么是堡垒主机?
网络安全知识:什么是引导扇区病毒?
网络安全知识:计算机网络中的桥接器
网络安全知识:什么是广播?
网络安全知识:什么是业务连续性计划?
网络安全知识:什么是基于证书的身份验证?
网络安全知识:什么是CIA三要素 (机密性、完整性、可用性)?
网络安全知识:什么是补丁管理?
网络安全知识:什么是跨站请求伪造?
网络安全知识:什么是基于域的消息认证、报告和一致性 (DMARC)?
网络安全知识:什么是拒绝服务(DoS)攻击?
网络安全知识:什么是端到端加密 (E2EE)?
将人类从网络安全中解放出来
人,是造成网络安全问题的根本原因
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:河南等级保护测评 何威风 何威风《数据安全知识:什么是重复数据删除?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论