设为首页 - 加入收藏 怀化站长网 (http://www.0745zz.com)- 国内知名站长资讯网站,提供最新最全的站长资讯,创业经验,网站建设等!
热搜: 平台 模式 中国
当前位置: 首页 > 综合聚焦 > 酷站推荐 > 酷站 > 正文

针对静默数据错误,如何采用DIX和DIF保证数据一致性?

发布时间:2019-02-22 06:39 所属栏目:[酷站] 来源:微信公众号(架构师技术联盟) 原文链接:https://mp
导读:作者:晗狄 来源:微信公众号(架构师技术联盟) 原文链接:https://mp.weixin.qq.com/s/qZ6LcAdYu8k59srycCbWug 静默数据破坏问题是一直存在 存储系统中最难解决的数据一致性问题之一,无论是传统多控、分布式存储,还是公有云存储。对存储系统设计和开发

作者:晗狄 来源:微信公众号(架构师技术联盟)

原文链接:?https://mp.weixin.qq.com/s/qZ6LcAdYu8k59srycCbWug


静默数据破坏问题是一直存在?存储系统中最难解决?的数据一致性问题之一,无论是传统多控、分布式存储,还是公有云存储。对存储系统设计和开发人员来讲,数据一致性问题解决能否解决决定着存储系统是否可以商用。到这个问题一直没有成为讨论的技术焦点,直到最近腾讯云事件持续热化以后,“?数据一致性?”问题成成为焦点出现在大众视野。


  • 腾讯云给一家创业公司带来的灾难!

  • 腾讯云丢数据复盘: 运维迁移未开校验惹的祸?。


什么是静默数据破坏?


经常跟数据打交道的人都应该知道,数据在存储系统传输中,经过了多个部件、多种传输通道和复杂的软件处理过程,其中任意一个环节发生错误都可能会导致数据错误。但是?这种错误一般无法被立即检测出来,而是后续通过应用在访问数据过程中,才发现数据已经出错?,这种数据很难在数据发生错误那一刻被检查出来的错误,我们称为?静默数据破坏?,即?Silent Data Corruption?。


静默数据破坏为什么难检测?


我们知道硬盘最核心的使命是正确的存入数据、正确的读出数据,在出错时及时抛出异常告警。包括硬件错误、固件 BUG 或者软件 BUG、供电问题、介质损坏等?常规的这些问题?都能够正常被捕获抛出告警或异常,但?静默数据破坏?表现是数据处理都是正常的,直到你使用的时候才发现数据是错误的、损坏的。?


静默数据破坏产生原因


?数据产生静默数据破坏的原因有很多种,但大致可以归结为以下几类。

  • 硬件错误:?内存、CPU、硬盘、数据传输链路等

  • Firmware错误:?HBA、硬盘等

  • 软件bug:?系统软件、操作系统、应用程序等

  • 其他因素:?如噪声、电磁等原因。


数据一致性标准和组织?


根据数据处理的路径,数据一致性修复可以在?应用,中间件,存储层?等来进行修复,目前有大量的介绍应用层修复的文章,请大家搜索参考。今天笔者讲从传统?存储、网络和中间件?层出发,基于很早分享过一篇文章,谈谈?端到端?的数据一致性解决方案。


在2007年,由?Emulex、Oracle、LSI、希捷成立了?DII???(Data Integrity Initiative),?由?SNIA建立了DITWG?(SNIA Data Integrity Working Group)。他们主要关注两个技术:


  • T10 Protection Information—?DIF

  • Data Integrity Extensions—?DIX


T10标准是通过对每个数据块加入保护信息(PI,Protection Information)作为一致性标识,T10曾被称作数据完整性域(DIF,Data Integrity Field)的方法来保护数据完整性。在?每个逻辑扇区扩充了8字节的保护信息?用来保证数据一致性?,?8字节?包括?2字节?的Logical Block Guard,?2字节?的Logical Block Application Tag和?4字节?的Logical Block Reference Tag?。


T10 PI只包含了从主机HBA卡通过存储阵列到硬盘的数据保护,这就需要另一种机制来延伸数据保护范围。


DIX为了延伸DIF的保护范围。?将数据完整性保护扩充到了应用层到HBA。DIX使用和T10 PI一样的8字节数据完整性信息作为数据校验字段?。不同的是,DIX中使用了IP Checksum作为Logical Block Guard,降低主机CPU的计算开销。

针对静默数据错误,如何采用DIX和DIF保证数据一致性?


DIX+DIF可以实现从应用到硬盘的端到端数据保护。?DIX保证应用、HBA卡的数据完整性,T10 PI(DIF)保证HBA 、阵列和硬盘的数据完整性?。



DIX和DIF数据读写流程


数据完整性额外添加的8字节校验数据分若干段,,?在存储侧叫DIF,后改名为T10 PI;在主机侧叫DIX?。写数据时,主机?HBA?总线适配器、阵列目标器芯片或者其它组件根据用户数据生成 8字节PI,数据传输过程中会经过检查点,校验数据和PI是否匹配,如果发现错误,向上返回错误,如果没有错误,则继续向下传输,最终写入硬盘。


写数据流程:?当数据写到主机内存的时候,Oracle ASM library会对每512字节数据增加8字节DIX校验,8字节校验会随IO请求一起,穿过OS,到达HBA卡驱动;HBA卡进行DIX校验检查后删除DIX校验,并生成8字节PI校验和数据一起发送给阵列,阵列校验数据完整性,并将数据发送到硬盘。


读数据流程:?从硬盘读出数据和T10 PI并校验完整性。若发现错误,则通过RAID重建修复数据,?如果没有错误则继续向上传输。?HBA进行T10 PI校验后删除T10 PI,并生成DIX保护信息返回主机。DIX保护信息会随IO请求一起,穿过OS,返回应用层。ASM Library对数据和DIX保护信息进行校验。


支持端到端一致性必要条件


要使用数据一致性特性,需要操作系统、中间件、HBA卡和存储支持相应的标准规范。?首先阵列需要支持标准的T10 PI,目前很多存储设备都支持该标准。当然,即使上层不支持DIX,存储也可支持并采用T10 PI标准,实现存储侧数据一致性保护。


目前支持DIX标准的上层组件(?数据库、操作系统和HBA?),其配置要求和兼容性如下(兼容性会不断更新)。?


  • 数据库:?Oracle 11g级以上。

  • OS:?Oracle Linux 5 or 6 running the UEK2-200 kernel。

  • HBA:?Emulex、Qlogic特定型号的FC HBA卡?


支持DIX的存储厂商


由于DIX和P10在企业Oracle数据库应用比较广泛,基于Oracle在数据库领域的广泛应用和影响力,目前?主流的存储厂商都支持该特性规范?,目前(不完全统计)具备该规范的产品包括但不限于如下:


  • EMC?VNX系列支持自定义T10 PI、VMAX支持标准的T10 PI和DIX

  • HDS?HUS系列和HDS VSP支持T10 PI

  • IBM?DS8000和DS5000某些特定型号支持T10 PI

  • HP P10000支持标准的T10 PI

  • 华为 OceanStor 18000和V3/V5全系列支持T10 PI。


文件系统是否要DIF


需要提及一点的是,?T10 PI需要磁盘提供520扇区来支持(512用来存放数据,8字节用来存储T10 PI校验数据),希捷支持这种磁盘?。一般情况下,文件系统不需要DIF,原因是文件系统通过元数据管理数据,元数据不断变化,容易造成IO的页面数据布局不断变化,针对文件,数据库和网卡厂商相应支持力度不足,并未形成类似规范和标准。

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

网友评论
推荐文章