Usar herramientas SMART para predecir fallos HDD

martes, 26 de mayo de 2015 por Sam Wiltshire

Actualmente, los métodos más conocidos para predecir fallos de disco duro (HDD) no son lo que uno llamaría científicos. Los ruidos de golpes y molienda son un buen indicador de que un HDD está a punto de estropearse, por ejemplo, pero eso es un pobre consuelo cuando tus discos están en un centro de datos remoto, y por lo tanto fuera del alcance de tu oído.

Entretanto, los fabricantes de discos duro a menudo parecen ser confusos a propósito al estimar la longevidad de sus dispositivos de almacenamiento. Usan un parámetro llamado Tiempo Medio Entre Fallos (Mean Time Between Failures, o MTBF), extrapolado del uso de grandes números de discos durante semanas y meses a la vez, lo que puede dar lecturas tan altas como 1.5 millones de horas – casi 200 años – para HDDs de empresa. La metodología es sensata, pero el resultado tiene poco que ver con el tiempo medio de vida de un disco duro.

Sin embargo, la mayoría de esos fabricantes sí ofrecen un método más sofisticado para predecir fallos de HDD. En concreto, sus dispositivos vienen con un set de herramientas de firmware llamado Self Monitoring, Analysis and Reporting Technology – SMART – (que equivale a Auto-monitoreo, Análisis y Tecnología de Reporte en castellano) preinstalado, que envía parámetros de rendimiento del disco duro al sistema operativo. Estos datos luego pueden verse y ser analizados usando un software, lo que da a los administradores de TI un panorama más amplio del estado de sus equipos de almacenamiento de lo que sería posible de otro modo.

Los parámetros que usan las herramientas SMART - llamados atributos – varían entre fabricantes, pero los ejemplos típicos incluyen el número de horas que el disco ha estado encendido, el tiempo que tarda el rotor en alcanzar velocidad operativa y la cuenta de sectores reubicados.

Comprobando tus datos SMART

Comprobar los datos SMART de tus dispositivos de almacenamiento normalmente es muy simple. Es posible comprar software expresamente diseñado para tal fin, lo que puede ser acertado si buscas ganar una perspectiva significativa de esos datos, pero no es un requisito obligatorio: si usas Windows, puedes echar un vistazo rápido a los atributos SMART de tu HDD y  sus lecturas usando la línea de comandos.

Por supuesto, si buscas un modo más proactivo de registrar y analizar los datos SMART, hay varias herramientas disponibles en múltiples plataformas y a distintos precios. Un ejemplo es Ontrack EasyRecovery, y si realmente quieres usar herramientas SMART para monitorear el estado de tus discos duros y planear reemplazos, este es el camino.

Confiabilidad de las herramientas SMART

Tal vez te hayas dado cuenta de que aún no hemos hablado de si las herramientas SMART son, en efecto, un indicador fiable del estado de un disco duro. Así que, ¿lo son? La respuesta es sí y no. Mientras algunos atributos SMART son muy útiles a la hora de predecir fallos de HDD, también es sabido que el sistema tiene sus limitaciones.

Lo más importante, SMART no puede predecir el 100% de fallos del disco duro, en primer lugar porque no todos son predecibles. Si bien pueden, los errores que surgen como resultado del desgaste por el uso aparecen como lecturas SMART anormales, los fallos electrónicos repentinos no lo hacen. Para poner esto en perspectiva, un estudio de Google de 2007 de 100,000 HDDs halló que menos de tres cuartas partes (64%) de los fallos en un periodo de nueve meses no fueron señalados de antemano por las herramientas SMART.

Otro factor que hace que los atributos SMART sean menos útiles es cómo cambian entre fabricantes, incluso en cuanto a la forma en que se miden los atributos comunes. De modo que un dispositivo Seagate y uno Western Digital de estado similar pueden dar lecturas totalmente distintas en sus tasas de búsqueda de errores, por ejemplo.

El pasado noviembre el proveedor de copias de seguridad en la nube Backblaze publicó un fascinante estudio sobre la variada usabilidad de distintos atributos SMART. Basado en lecturas de casi 40,000 discos duros que almacenaban 100 petabytes de datos de clientes, llegó a la conclusión de que de 70 atributos disponibles, sólo cinco eran realmente indicadores fiables de fallos de HDD. “Nos encantaría usar más – lo ideal sería que los vendedores de discos nos dijeran exactamente qué significan los atributos SMART”, escribió el ingeniero Brian Beach.

En conclusión

Así pues, en realidad las herramientas SMART no dan una forma 100% segura de saber cómo y cuándo se morirá alguno de tus HDDs. Sí, pueden predecir algunos tipos de fallos de disco duro, si uno sabe dónde buscar, pero otros pueden suceder sin que haya una sola lectura anormal.

Por ello, ningún usuario que entienda de almacenamiento confiaría sólo en SMART – ni en ningún otro sistema predictivo – para evitar la pérdida de sus datos y planificar la continuidad de la empresa. La naturaleza de los dispositivos electromecánicos indican que lo mejor es siempre apostar en una mezcla de defensas: redundancia, copias de seguridad y recuperación de datos, no sólo SMART.

El blog de la recuperación de datos

Si ha sufrido una pérdida de datos, contáctenos inmediatamente.