为什么谷歌不希望硬盘可靠性侧重可靠性

实用:来自Google的磁盘系统使用报告
&&&&众所周知,Google为了应付搜索引擎业务增长带来庞大的访问量压力,拥有一个高效的结构独特的信息基础架构,在整个Google信息基础架构中,磁盘当然是重要且不可缺少的一部分。这些磁盘的工作状态如何直接影响了整个系统在庞大的访问量压力下的服务性能。为此,Google收集了10万块磁盘在实际系统环境下的工作信息,并且对磁盘工作状态做了如下总结,其中很多观点似乎与我们的想象以及厂商的宣传有一些出入。
&&&&Google的使用报告认为,PATA和SATA磁盘驱动器是相同的驱动器,没有什么区别。更讽刺的是,Google认为采用廉价的磁盘存储数据,要比企业级用户使用的那些高成本的、具有相对较高的MTBF(平均无故障时间)的FC和SCSI磁盘更安全。
&&&&Google得出的让人惊讶的调查结果主要来自于以下5个方面:
&&&&制造商给出的MTBF规格的有效性
&&&&通过SMART统计出的有效率
&&&&工作量对磁盘寿命的影响
&&&&使用年限对磁盘故障的影响
&&&&温度对磁盘故障的影响
&&&&供应商的MTBF和磁盘AFR(平均故障率)
&&&&MTBF(平均无故障时间)是一个统计学的测量方法。当供应商承诺其产品的MTBF为300,000小时,对于一般使用PATA和SATA磁盘驱动器的用户,当他们使用大量的磁盘驱动器时,将有一半在第一个300,000小时的运转中出现故障。因此,MTBF并不能验证单个特别的磁盘驱动器来的可靠性。
&&&&非常理想的情况下,如果你有600,000块磁盘,MTBF规格是300,000小时,你的预期将是每小时坏一块磁盘驱动器。一年下来就将有8,760块磁盘损坏或者维持一个1.46%的AFR。Google的情况是这样吗?肯定不是。
&&&&在这张图上,我们看到在某一段时间,显示的AFR结果还有一些可以讨论的地方,磁盘也没有详细的划分故障细节,所以下面我们将从其他方面加以说明。
&&&&认识供应商的MTBF规格
&&&&供应商把它们产品的MTBF告诉我们之后,我们还需要知道什么吗?当然还有很多。因为供应商定义的故障和我们看到的故障是不一样的。如果供应商的MTBF能够达到的话,那么我们使用的磁盘产品还将可靠很多。
&&&&导致这个结果主要有两个原因:第一,供应商在进行磁盘寿命测试的时候非常关注哪些环境因素会对磁盘寿命造成影响,磁盘寿命测试基本在一个理想化的环境中进行,但是这些结果并不能反映出在实际应用环境中的使用情况。第二,供应商比较关注返修情况,而如果磁盘驱动器的返修在20-30%之间的话,供应商都会说没有发现问题,但对于磁盘使用者来说就完全不是这种情况了。
&&&&磁盘是由各个零件的组合而成,所以注定会导致故障时有发生,(例如独特的磁盘驱动器带有独特的控制器和线缆等等)...这许多的磁盘驱动器...将它们放在不同的测试环境中进行操作运转,我们观察到,如果被测试的磁盘驱动器的绿灯始终亮着,那么不久它就将出现故障。
&&&&因此,厂商给出的MTBF和其他存储性能统计量值一样,要想在实际应用中达到简直需要奇迹出现。
&&&&SMART能预警所有故障?
&&&&很多的行业都已经知道,SMART(自我监控、分析和报告技术)能够捕获磁盘驱动器上的数据,预知磁盘未来出现错误的可能,这样你就可以预先对其进行备份。
&&&&然而,SMART一直把焦点放在机械故障上,而大量的磁盘驱动器又是电子的,所以SMART不能够监控到一些突然发生故障的磁盘组件,例如电源故障。Google的研究小组发现有36%的磁盘故障不能在SMART的故障监控界面上显示出来。他们断定SMART对于预测单个磁盘驱动器故障时几乎起不到任何作用。所以在某些时候你的磁盘会在没有任何警告信息的前提下垮掉。
&&&&Google发现有四项关于磁盘故障的SMART参数可以帮助我们找到错误的一些关联信息:
&&&&扫描错误
&&&&重新分配数
&&&&离线重新分配
&&&&检验数
&&&&例如,通过第一次错误扫描,你会发现有些磁盘在接下来的60天里,要比普通磁盘发生故障的可能高39倍。其他三个相互关联的信息并不怎么显著,但是我们仍然觉得这些信息对以后的检测有很重大的意义。
&&&&注:SMART可以帮你找到一些存在的问题,但是也会遗漏点一些其他的问题,所以我们并不能完全的依靠它。所以你还是要有规律的去做备份,如果你发现磁盘出现以上一些小错误,你最好更换一个新的磁盘驱动器。
&&&&工作负荷越高,磁盘寿命越短?
&&&&如果是一个为企业工作的年轻的雇员人,你肯定相信超负荷的工作会让这个雇员提前死掉。对于磁盘工作状态与寿命之间的关系,我们习惯上也认为,磁盘在较大工作负荷下将提前到达寿命极限。实际情况是否如此呢?
&&&&Google的报告认为磁盘的工作量和故障率之间几乎没有任何关联。因为我们中的绝大多数人,包括企业IT的工作人员都没有一个合适的观点来评测我们的驱动器到底工作了多少,利用率也只是一个不太可靠的概念罢了。笔者对这个的定义一般是一块磁盘每周读写带宽的平均值,然后根据实际情况进行调整。因为新加入的磁盘往往要比陈旧的磁盘有更大的读写带宽。
&&&&在第一年的使用时间里,我们发现高利用率的磁盘的AFR确实是高于低利用率的磁盘。但是使用3年后,事实表现出来的结果却和我们期望的大相径庭,低利用率的磁盘的故障率却稍微高于高利用率的磁盘。
&&&&尽管在刚开始的使用中,高利用率的磁盘故障率远远的高于其他磁盘。但由于这些磁盘还处在保修期,我们可以很方便的更新新的磁盘。并且也不用担心每天备份到磁盘的数据和其他一些I/O密集的工作。使用三年后,低利用率的磁盘反而有更高的故障率,而这些磁盘大多数都已经过了保修期。
&&&&时间越长,故障率越高?
&&&&Google购买了大量相同型号的磁盘驱动器,但是仅仅过了几个月,就又添加了新型的磁盘类型。因此,他们的数据并没有直接用于计算磁盘使用年限导致的故障率。图表仍然是一个非常好的提供故障描述基线的方式,来衡量我们的磁盘。
&&&&当然,最终的AFR并不是平滑没有波动的,也不像供应商提供的MTBF值那样故障率那么少。
&&&&温度越高,磁盘故障率越高?
&&&&最让我们感兴趣的发现就是磁盘温度和磁盘死亡率之间的关系。Google小组以9个月为周期,每隔几分钟就就从SMART的记录上读取一次温度情况。从其图表的形状上看,磁盘故障率的大小并不随着平均温度的增加而增长。在许多较高温度的时候,只是有很少的影响,并且就算影响也是微小的。下面是他们之间的关系图表:
&&&&但是在很高的温度环境下。磁盘的使用年限就对结果有了很大的影响,下面是图表显示:
&&&&在较低和中等温度的范围内结果比较正常,但在较高的温度下的结果并不能作为高故障率的衡量标准。这是一个公平地,但令人惊讶的结果,这些表明数据中心和服务器的设计者们在设置操作系统对磁盘等设备温度控制的时候,要比以前认为的温度范围有太多的自由度。他们并不需要那么担心磁盘的温度变化,这对于互联网数据中心的管理员们无疑是个好消息。
&&&&结论:现实与理想的差距
&&&&磁盘的MTBF值往往都是大打折扣的阐述着磁盘的故障率。如果你计划的AFR要超过MTBF建议的50%以上,那你需要做大量的准备工作。
&&&&一般的SOHO的用户,由于数据量一般而言不会太大,因此要考虑换掉还在使用的已经超过3年时间的磁盘,或者至少要非常严肃的面对数据备份问题。因为磁盘的替换需要做大量的数据迁移工作。
&&&&企业级用户的磁盘采购者应该要求知道磁盘真正的MTBF值,然后记录下他们声称的值。比较典型的就是1,000,000小时以上。
&&&&SMART能够在发生一些问题的时候给你发出警报,但并不是全部的问题,一些工业用户已经认识到这个问题,并逐步为这些预警信息做一些事情。
&&&&工作量与磁盘寿命的数值关系往往给一个体系架构的利用带来影响。例如MAID(大规模非活动磁盘阵列存储),它依靠给磁盘断电来提高磁盘使用寿命。Google调查人员没有研究其应用情况,但是如果是我来行销MAID,我一定会为一些硬件问题做大量准备。
&&&&计划或者销售磁盘冷却系统的人们要准备面临棘手的难题了。因为测试中冷却好像不能让磁盘使用更好,但它却实实在在的带来成本的增加。
&&&&磁盘在某些故障发生之前不会给我们任何的预警信息:一半以上的磁盘驱动器都可能在第一天出现故障坏掉,而其他另一半可能使用10年时间,但厂商提供的MTBF值却是相同的。
&&&&通过 “理想”情况界定,我们尝试着提出,如果随着时间的推移,磁盘故障的发生是均匀分布的,那么就将是每小时有一块磁盘出现故障。但是这是在一个非常大的假设面前。从Google的数据可以看出,在现实的世界中我们并不知道磁盘是如何发生故障的。我们也不能通过某种外在的因素来评测磁盘发生故障的概率。
责任编辑:充姬娅8
本文相关推荐
互动评论加载中…
本日点击排行榜
本日评论排行榜
24小时点击排行榜
 频道邮箱:news#(#改为@)转个 毒文 Google揭秘SSD可靠性:SLC闪存神话破灭!【固态硬盘吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:310,147贴子:
转个 毒文 Google揭秘SSD可靠性:SLC闪存神话破灭!收藏
SSD固态硬盘已经逐渐普及,但是很多人对它的可靠性问题依然忧心忡忡,也存在很多误解。事实上,SSD仍然算得上新鲜事物,对于它的很多表现人们依旧缺乏足够深入的认识。最近,Google工程师Raghav Lagisetty、Arif Merchant和加拿大多伦多大学教授Bianca Schroeder联合发表了一篇论文《闪存的实际可靠性:意料之中与意料之外》(Flash Reliability in Production: The Expected and the Unexpected),得出了一些惊人的结论。  这项研究历时长达6年,覆盖了十多种SSD的品牌,企业级和消费级产品都有,SLC、MLC、TLC三种闪存类型都有,加起来一共跑了几百万天。   主要结论:  1、不可纠正比特错误率(UBER)这个参数毫无意义,不要理会它。  2、好消息:原始比特错误率(RBER)在使用损耗中的增长速度比预期得要慢,而且与UBER后者其他错误无关。  3、高端的SLC硬盘并不比MLC硬盘更可靠。  4、坏消息:SSD的故障失败率比机械硬盘低,但是UBER更高。  5、影响SSD可靠性的是其年龄,而不是使用程度。简单地说,一块闲置了两年的SSD还不如一块使用了一年的更靠谱。  6、全新的SSD里也会普遍有坏块。如果一块SSD里有大量坏块,可能会影响其他更多区块,导致芯片损坏。  7、30-80% SSD起初就有至少一个坏块,2-7%使用四年后会有至少一个芯片损坏。  其中两个结论最为让人吃惊,首先就是第三条。  我们知道,NAND闪存分为三种:SLI是单层单元,性能最好,寿命最长,但成本也最高;MLC是双层单元,性能、寿命都适中,是主流首选;TLC是三层单元,成本最低,但是性能和寿命也相对偏低,是如今的热门。  一般都认为SLC闪存是最好的,企业级SSD普遍都是用它,厂商也会极力宣传多么多么可靠,不过根据Google的研究,SLC、MLC在可靠性上其实差不多。  当然这不代表企业级SLC SSD都是忽悠人,它们都精选了质量更高的芯片,辅以更大的冗余容量比例,以及各种可靠性增强技术,贵是应该的。  而根据第五条,不用担心频繁使用SSD会缩短其寿命,闲着不用才会更让其短命。这和很多电子设备其实是一样的。  另外,研究中的SSD其实都很耐用,没有一个接近使用极限,即便是3000次写入放大的MLC SSD也毫无问题。  总的来说,SSD不可能坚若磐石,但也没有想象中那么脆弱,大家可以放心使用,当然任何时候及时注意备份重要数据都是很关键的。
WD My Passport SSD加密安全,防摔耐用.是一款抗震的紧凑型存储设备,而且易于使用.西部数据My Passport SSD移动固态硬盘,小巧便携,传输速度极快,安全加密,耐摔可靠.
那一个月掉速什么情况?
谷歌搞出来的
SLI是单层单元,这是一个笔误,应为SLC。
公关开始了
最恶心这种标题,google的职员发个神论就当是google官方发的似的,权威性差了不知道多少个级别
登录百度帐号推荐应用||||||||||||||||||
查看: 2950|回复: 13
在线时间343 小时经验值482 最后登录注册时间帖子阅读权限60UID631268
大学本科, 积分 482, 距离下一级还需 218 积分
该用户从未签到
G币351 最后登录注册时间
已经科学上网了,用RE浏览器修改了hosts文件
打开云端硬盘还是一直显示加载状态,加载的圈圈一直转,
在线时间7 小时经验值9 最后登录注册时间帖子阅读权限10UID
幼儿园, 积分 9, 距离下一级还需 6 积分
该用户从未签到
G币11 最后登录注册时间
路过.........
绍兴e网www.0575e.net 白金岛
在线时间541 小时经验值553 最后登录注册时间帖子阅读权限60UID3007770
大学本科, 积分 552, 距离下一级还需 148 积分
该用户从未签到
G币190 最后登录注册时间
天朝。。。。。。。。。。。。
在线时间343 小时经验值482 最后登录注册时间帖子阅读权限60UID631268
大学本科, 积分 482, 距离下一级还需 218 积分
该用户从未签到
G币351 最后登录注册时间
看不到回复啊,草
在线时间27 小时经验值62 最后登录注册时间帖子阅读权限30UID
初中生, 积分 61, 距离下一级还需 39 积分
TA的每日心情开心 01:15签到天数: 1 天[LV.1]初来乍到
G币4 最后登录注册时间
支持下!我的也一样的情况,需要高手解决
在线时间662 小时经验值2122 最后登录注册时间帖子阅读权限90UID6200079
硕士, 积分 2122, 距离下一级还需 378 积分
该用户从未签到
G币959 最后登录注册时间
& & 这个只能科学上网了 再高手也搞不过天朝的围墙啊
在线时间439 小时经验值1685 最后登录注册时间帖子阅读权限80UID
研究生, 积分 1685, 距离下一级还需 15 积分
TA的每日心情擦汗 23:55签到天数: 1 天[LV.1]初来乍到
G币19 最后登录注册时间
此问题建议问GF
在线时间343 小时经验值482 最后登录注册时间帖子阅读权限60UID631268
大学本科, 积分 482, 距离下一级还需 218 积分
该用户从未签到
G币351 最后登录注册时间
都已经翻。墙了还是不行
在线时间343 小时经验值482 最后登录注册时间帖子阅读权限60UID631268
大学本科, 积分 482, 距离下一级还需 218 积分
该用户从未签到
G币351 最后登录注册时间
在线时间7 小时经验值36 最后登录注册时间帖子阅读权限20UID3731262
小学生, 积分 36, 距离下一级还需 14 积分
该用户从未签到
G币4 最后登录注册时间
搞定没有?我也是相同情况,墙都翻了N遍了
浏览过的版块
Powered byGoogle网络硬盘(GDrive):千呼万唤不出来
来源:搜狐IT
作者:读写网
  几年来人们一直猜测Google会利用其强大的实力提供专业在线数据存储服务,比如说“Google网络硬盘(GDrive)”。最近相关传言再次兴起,并且更加有意思。
  Google网络硬盘有什么好处呢?廉价(免费?),轻轻松松备份重要数据,而且可以和其它Google服务进行整合。
够吸引人吧。
  GMail是GDrive之母
  Gmail产品经理Todd Jackson曾说过:
  "我们知道用户的文件越来越大。他们想分享自己的文件,让文件可以用于云计算,并且不管从哪台电脑都可以访问。Google打算解决这些问题。"
  真是个好消息。我们知道Gmail以及提供了很多存储空间,很可能成为Google网络硬盘的来源。但是有没有更安全的办法呢?
  Picassa线索
  最近Google粉丝网站Google Blogoscoped传出了一张Picassa截屏图片,上面显示有“上传到Google网络硬盘”的选项。
  在文章后面的评论中提到了用Google文档存储相册,并且给出了一张GDrive模拟图。如下图所示:
  安全问题
  自从有传言Google打算推出网络硬盘服务起,一直有人担心用户数据的安全性。GMail总是出现无法访问的情况,并且Google自己的官方博客也有被黑的时候,因此Google硬盘的可靠性让人有些不放心。Google涉猎的领域太多了,很难保证每个产品都非常安全。
(责任编辑:华东)
09-01-11 15:20·
08-12-29 19:13·
08-10-14 08:44·
08-05-13 07:44·
07-12-12 08:30·
07-11-29 14:31·
07-11-29 08:56·
07-09-07 09:02·
07-05-06 09:05·
07-01-07 11:11·
隐藏地址 
设为辩论话题
火炬新动态 胡锦涛访日 山东火车事故 奥运安全 辱华事件
大米涨价 楼盘降价 手足口病 罕见日食
缅甸风暴 失业率
肥田喜事 火影忍者 我的团长我的团
林心如专辑
我的青春谁做主
潜伏 黑执事 新进职员 咖啡王子1号店 纸醉金迷
我的帅管家
周润发电影全集 郭德纲经典相声
热点标签:
说 吧 排 行
上证指数(77445)
李宇春吧(104510)
茶 余 饭 后

我要回帖

更多关于 ssd固态硬盘可靠性 的文章

 

随机推荐