Анализ винчестера. SMART жесткого диска

28.08.2019

технология оценки состояния жёсткого диска встроенной аппаратурой самодиагностики, а также механизм предсказания времени выхода его из строя.

Ставим утилиту для просмотра SMART:

sudo su

apt-get install smartmontools

Смотрим названия жестких дисков в системе:

fdisk -l

Информация о диске, в том числе, поддерживает ли SMART:

smartctl -i /dev/sda

где /dev/sda "имя" диска

Включаем SMART:

smartctl --smart=on /dev/sda

Смотрим SMART:

smartctl --all /dev/sda

А теперь немного о параметрах, выводимых программой.

Каждый атрибут имеет величину - Value . Value Изменяется в диапазоне от 0 до 255 (задается производителем). Низкое значение говорит о быстрой деградации диска или о возможном скором сбое. т.е. чем выше значение Value атрибута, тем лучше.

Raw Value - это значение атрибута во внутреннем формате производителя значение малоинформативно для всех кроме сервисманов.

Threshold - минимальное возможное значение атрибута, при котором гарантируется безотказная работа накопителя.

Если VALUE стало меньше THRESH - Атрибут считается failed и отображается в столбце WHEN_FAILED. При значении атрибута меньше Threshold очень вероятен сбой в работе или полный отказ.

WORST - минимальное нормализованное значение. Это минимальное значение которое достигалось с момента включения SMART на диске.

Атрибуты бывают критически важными (Pre-fail ) и некритически важными (Old_age ). Выход критически важного параметра за пределы Threshold фактический означает выход диска из строя, выход за переделы допустимых значений некритически важного параметра свидетельствует о наличии проблемы, но диск может сохранять свою работоспособность.

Критичные атрибуты:

Raw Read Error Rate - частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.
Spin Up Time - время раскрутки пакета дисков из состояния покоя до рабочей скорости. При расчете нормализованного значения (Value) практическое время сравнивается с некоторой эталонной величиной, установленной на заводе. Не ухудшающееся немаксимальное значение при Spin Up Retry Count Value = max (Raw равном 0) не говорит ни о чем плохом. Отличие времени от эталонного может быть вызвано рядом причин, например просадка по вольтажу блока питания.
Spin Up Retry Count - число повторных попыток раскрутки дисков до рабочей скорости, в случае если первая попытка была неудачной. Ненулевое значение Raw (соответственно немаксимальное Value) свидетельствует о проблемах в механической части накопителя.
Seek Error Rate - частота ошибок при позиционировании блока головок. Высокое значение Raw свидетельствует о наличии проблем, которыми могут являться повреждение сервометок, чрезмерное термическое расширение дисков, механические проблемы в блоке позиционирования и др. Постоянное высокое значение Value говорит о том, что все хорошо.
Reallocated Sector Count - число операций переназначения секторов. SMART в современных дисках способен произвести анализ сектора на стабильность работы "на лету" и в случае признания его сбойным, произвести его переназначение.

Некритичные атрибуты:

Start/Stop Count - полное число запусков/остановов шпинделя. Гарантировано мотор диска способен перенести лишь определенное число включений/выключений. Это значение выбирается в качестве Treshold. Первые модели дисков со скоростью вращения 7200 оборотов/мин имели ненадежный двигатель, могли перенести лишь небольшое их число и быстро выходили из строя.
Power On Hours - число часов проведенных во включенном состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ (MTBF). Обычно величина MTBF огромна, и маловероятно, что этот параметр достигнет критического порога. Но даже в этом случае выход из строя диска совершенно не обязателен.
Drive Power Cycle Count - количество полных циклов включения-выключения диска. По этому и предыдущему атрибуту можно оценить, например, сколько использовался диск до покупки.
Temperatue - Здесь хранятся показания встроенного термодатчика. Температура имеет огромное влияние на срок службы диска (даже если она находится в допустимых пределах). Вернее имеет влияние не на срок службы диска а на частоту возникновения некоторых типов ошибок, которые влияют на срок службы.
Current Pending Sector Count - Число секторов, являющихся кандидатами на замену. Они не были еще определенны как плохие, но считывание их отличается от чтения стабильного сектора, так называемые подозрительные или нестабильные сектора.
Uncorrectable Sector Count - число ошибок при обращении к сектору, которые не были скорректированы. Возможными причинами возникновения могут быть сбои механики или порча поверхности.
UDMA CRC Error Rate - число ошибок, возникающих при передаче данных по внешнему интерфейсу. Могут быть вызваны некачественными кабелями, нештатными режимами работы.
Write Error Rate - показывает частоту ошибок происходящих при записи на диск. Может служить показателем качества поверхности и механики накопителя.

Современный накопитель на жестких дисках - это сочетание электроники (платы контроллера) и механики (двигателя, привода блока магнитных головок). Электроника накопителя управляет работой механической его части, а также обеспечивает обмен данными между накопителем и материнской платой компьютера.

Выход из строя какого-либо компонента компьютерной системы - проблема относительно несложная и решается простой заменой железяки. Чего, конечно, не скажешь о накопителе данных! Выход из строя накопителя нередко ведет к потере важной информации, что нередко представляет катастрофу для пользователя. Вообще, стоимость данных может намного превышать стоимость компьютера как такового и в этом случае последствия смерти накопителя могут быть весьма печальными. Регулярно создавая резервные копии данных, можно, конечно, быть готовым к подобному неприятному моменту, однако все-таки хотелось бы знать хотя бы примерно, когда его можно ожидать. Тогда смерть винта не застанет нас врасплох, и винт будет заменен на новый уже при первых признаках ухудшения его здоровья.

И такая возможность есть! Оценить здоровье накопителя как раз и помогает специальная технология самодиагностики S.M.A.R.T. Эту технологию поддерживают все современные накопители на жестких дисках (HDD) и даже твердотельные накопители (SSD). Расшифровывается S.M.A.R.T. как Self-Monitoring, Analysis and Reporting Technology, что в переводе означает "технология самомониторинга, анализа и отчёта", которая была специально разработана для своевременного выявления грядущего выхода накопителя из строя.

Основой этой технологии является непрерывный мониторинг показаний специальных сенсоров и термодатчиков (датчиков температуры, которыми оснащены все современные жесткие диски). Сенсоры и датчики отображают значения определенных производителем накопителя S.M.A.R.T. - параметров (они еще называются атрибутами), каждый из которых показывает состояние определенной жизненно важной составляющей жесткого диска (количество переназначенных секторов, ошибок чтения или записи, температуру, время работы диска, скорость поиска информации и т. п.).

Сразу отмечу, что в этом цикле статей рассматривается SMART накопителей только с интерфейсами IDE и SATA. У дисков SAS, SCSI и других серверных накопителей представление SMART отличается от IDE и SATA. А вообще, следить за здоровьем серверных накопителей в дисковых RAID-массивах - дело не пользователя, а RAID-контроллера.

Итак, с точки зрения пользователя SMART. выглядит как список неких характеристик диска, который можно посмотреть с помощью специальной утилиты. Большая часть значений носят исключительно информативный характер (например, число включений HDD), но некоторые атрибуты SMART считаются ключевыми (в частности, количество дефектных или переназначенных секторов) и для них задан предел ухудшения, сигнализирующий об опасности. Утилитой, позволяющей посмотреть атрибуты, является например Victoria 4.46b .

В таблице видно, что каждый атрибут SMART имеет несколько полей. Каждое поле имеет свой определенный тип - ID, Name, VAL, Wrst, Thresh и Raw. Отметим, что на новом диске поля типа VAL и Wrst имеют максимальное значение из возможных, например 252 или 100. Тип Health - дополнительное необязательное информационное поле самой программы , оно графически оценивает состояние атрибута. Теперь рассмотрим типы обязательных полей.

ID (может также именоваться Num) - идентификатор или номер атрибута в технологии S.M.A.R.T. Идентификатор всегда однозначно определяет атрибут, хотя название одного и того же атрибута программами может выдаваться по-разному.

Name - расшифровка атрибута, его описание. Опять же отметим, что разные программные утилиты могут описывать его по-разному.

VAL (Value) - текущее значение атрибута в неизвестных условных единицах. В процессе работы накопителя оно может уменьшаться, увеличиваться и оставаться неизменным. Как правило, чем меньше значение Value, тем хуже состояние атрибута. Отдельно по этому значению судить о здоровье винта нельзя, его нужно сравнить со значением Threshold (см. ниже).

Wrst (Worst) - наихудшее значение, которого достигало значение Value за всю жизнь винчестера. Измеряется тоже в условных единицах. С течением времени оно может уменьшаться или оставаться неизменным. По нему тоже нельзя однозначно судить о здоровье винта, его нужно сравнить с Threshold.

Thresh (Threshold) - значение в условных единицах, которого должен достигнуть Value этого же атрибута, чтобы состояние атрибута было признано критическим. Можно сказать, что Threshold - это порог: если Value больше Threshold - атрибут в порядке, накопитель здоров, если меньше или равен - с атрибутом (а значит и с винтом) проблемы. Т. е. при значении Value, большем Threshold, сам диск считает, что атрибут (и он сам) здоров, а при меньшем либо равном - что болен. Threshold - постоянный параметр, зашитый производителем накопителя в диске.

Сравнивая значения Value Threshold утилиты, анализирующие S.M.A.R.T., выдают отчёт о состоянии диска типа "Good" или "Bad" (могут также сообщать о состоянии отдельного атрибута).

Хотя иногда бывает, что даже при значении Value, большем Threshold (и соответственно SMART status = GOOD), диск на самом деле с точки зрения пользователя уже может быть умирающим лебедем. Поэтому при оценке здоровья диска необходимо смотреть на значения другого типа атрибута, а именно - Raw.

Raw (Raw Data, "сырые" данные) - в этом поле в большинстве случаев содержатся значения не в условных единицах, а реальные значения, выражаемые в различных реальных единицах измерения, напрямую говорящие о текущем состоянии диска. Например, можно точно узнать, сколько винчестер отпахал часов (9 атрибут), сколько было переназначено секторов (5 атрибут) какова его температура (194 атрибут) и т. п. Raw - это наиболее интересный, важный и нужный для оценки состояния накопителя показатель. Значение Value формируется, основываясь именно на показателе Raw. Но вот по какому такому алгоритму оно формируется - это тайна производителя накопителя. Успех оценки состояния винчестера во многом зависит от умения читать и анализировать это поле.

Вернемся к полям Value и Threshold. Необходимо отметить, что именно значение Value, опустившееся ниже Threshold, может стать законным поводом для замены диска по гарантии - кто же яснее скажет о здоровье диска, как не он сам, демонстрируя текущее значение атрибута хуже критического порога?

А теперь - пример критического случая с накопителем (живой труп):

В атрибуте № 5 - значение Value равно 1 при пороговом в 36 (при этом в поле Raw видно действительное количество переназначеных секторов - аж 2153 - больше чем достаточно).

В атрибуте № 187 - также значение Value равно 1 при пороговом в 0. Вроде как 1 больше нуля, но вообще-то само по себе значение Value равное 1 уже очень не хорошо. А значение Raw, в этом случае - 7361, тем более. То есть за все время работы винчестера (весьма кстати небольшое - всего лишь 884 часа, суммарно месяц с небольшим - атрибут № 9) количество секторов, которые были признаны кандидатами на переназначение - целых 7361, что весьма много. Скорее всего у винчестера какие-то проблемы с поверхностью дисков (поверхность "посыпалась").

В атрибуте № 197 значения Value и Worst равны и высоки - 100. Однако в поле Raw сидит подлянка - 3 сектора уже являются кандидатами на переназначение в резервную область. Учитывая проблемы винта с переназначенными секторами (что видно из атрибутов 5 и 187), появление этой подлянки вполне закономерно.

И поэтому программа, анализирующая SMART винта, вынесла свой вердикт:

К слову сказать, сообщение о плохом статусе SMARTа винчестера выдает также и BIOS при первом включении компьютера (правда, без конкретики типа Value, Wrst, Threshold и Raw).

Отправить свой отзыв о статье администратору:

При загрузке компьютера или ноутбука возникает появляется S.M.A.R.T. ошибка жесткого диска или SSD? После данной ошибки компьютер не работает как прежде, и вы опасаетесь о сохранности ваших данных? Не знаете как исправить ошибку?

Актуально для ОС : Windows 10, Windows 8.1, Windows Server 2012, Windows 8, Windows Home Server 2011, Windows 7 (Seven), Windows Small Business Server, Windows Server 2008, Windows Home Server, Windows Vista, Windows XP, Windows 2000, Windows NT.

Что делать со SMART ошибкой?

Шаг 1: Прекратите использование сбойного HDD

Получение от системы сообщения о диагностике ошибки не означает, что диск уже вышел из строя. Но в случае наличия S.M.A.R.T. ошибки, нужно понимать, что диск уже в процессе выхода из строя. Полный отказ может наступить как в течении нескольких минут, так и через месяц или год. Но в любом случае, это означает, что вы больше не можете доверить свои данные такому диску.

Необходимо побеспокоится о сохранности ваших данных, создать резервную копию или перенести файлы на другой носитель информации. Одновременно с сохранностью ваших данных, необходимо предпринять действия по замене жесткого диска. Жесткий диск, на котором были определены S.M.A.R.T. ошибки нельзя использовать – даже если он полностью не выйдет из строя он может частично повредить ваши данные.

Конечно же, жесткий диск может выйти из строя и без предупреждений S.M.A.R.T. Но данная технология даёт вам преимущество предупреждая о скором выходе диска из строя.

Шаг 2: Восстановите удаленные данные диска

В случае возникновения SMART ошибки не всегда требуется восстановление данных с диска. В случае ошибки рекомендуется незамедлительно создать копию важных данных, так как диск может выйти из строя в любой момент. Но бывают ошибки при которых скопировать данные уже не представляется возможным. В таком случае можно использовать программу для восстановления данных жесткого диска – Hetman Partition Recovery .

Для этого:

Загрузите программу , установите и запустите её.
По умолчанию, пользователю будет предложено воспользоваться Мастером восстановления файлов . Нажав кнопку «Далее» , программа предложит выбрать диск, с которого необходимо восстановить файлы.
Дважды кликните на сбойном диске и выберите необходимый тип анализа. Выбираем «Полный анализ» и ждем завершения процесса сканирования диска.
После окончания процесса сканирования вам будут предоставлены файлы для восстановления. Выделите нужные файлы и нажмите кнопку «Восстановить» .
Выберите один из предложенных способов сохранения файлов. Не сохраняйте восстановленные файлы на диск с ошибкой.

Шаг 3: Просканируйте диск на наличие «битых» секторов

Запустите проверку всех разделов жесткого диска и попробуйте исправить найденные ошибки.

Для этого, откройте папку «Этот компьютер» и кликните правой кнопкой мышки на диске с SMART ошибкой. Выберите Свойства / Сервис / Проверить в разделе Проверка диска на наличия ошибок .

В результате сканирования обнаруженные на диске ошибки могут быть исправлены.

Шаг 4: Снизьте температуру диска

Иногда, причиной возникновения “S M A R T” ошибки может быть превышение максимально допустимой температуры работы диска. Такая ошибка может быть устранена путём улучшения вентиляции компьютера. Во-первых, проверьте оборудован ли ваш компьютер достаточной вентиляцией и все ли вентиляторы исправны.

Если вами обнаружена и устранена проблема с вентиляцией, после чего температура работы диска снизилась до нормального уровня, то SMART ошибка может больше не возникнуть.

Шаг 5:

Откройте папку «Этот компьютер» и кликните правой кнопкой мышки на диске с ошибкой. Выберите Свойства / Сервис / Оптимизировать в разделе Оптимизация и дефрагментация диска .

Выберите диск, который необходимо оптимизировать и кликните Оптимизировать .

Примечание . В Windows 10 дефрагментацию и оптимизацию диска можно настроить таким образом, что она будет осуществляться автоматически.

Шаг 6: Приобретите новый жесткий диск

Если вы столкнулись со SMART ошибкой жесткого диска то, приобретение нового диска – это только вопрос времени. То, какой жесткий диск нужен вам зависит от вашего стиля работы за компьютером, а также цели с которой его используют.

На что обратить внимание приобретая новый диск:

Тип диска: HDD, SSD или SSHD . Каждому типу присущи свои плюсы и минусы, которые не имеют решающего значения для одних пользователей и очень важны для других. Основные из них – это скорость чтения и записи информации, объём и устойчивость к многократной перезаписи.
Размер . Два основных форм-фактора дисков: 3,5 дюймов и 2,5 дюймов. Размер диска определяется в соответствии с установочным местом конкретного компьютера или ноутбука.
Интерфейс . Основные интерфейсы жестких дисков:
- SATA;
- IDE, ATAPI, ATA;
- SCSI;
- Внешний диск (USB, FireWire и.т.д.).
Технические характеристики и производительность :
- Вместимость;
- Скорость чтения и записи;
- Размер буфера памяти или cache;
- Время отклика;
- Отказоустойчивость.
S.M.A.R.T . Наличие в диске данной технологи поможет определить возможные ошибки его работы и вовремя предупредить утерю данных.
Комплектация . К данному пункту можно отнести возможное наличие кабелей интерфейса или питания, а также гарантии и сервиса.

Как сбросить SMART ошибку?

SMART ошибки можно легко сбросить в BIOS (или UEFI). Но разработчики всех операционных систем категорически не рекомендуют этого делать. Если же для вас не имеют ценности данные на жестком диске, то вывод SMART ошибок можно отключить.

Для этого необходимо сделать следующее:

Перезагрузите компьютер , и с помощью нажатия указанной на загрузочном экране комбинации клавиш (у разных производителей они разные, обычно “F2” или “Del” ) перейдите в BIOS (или UEFI).
Перейдите в: Аdvanced > SMART settings > SMART self test . Установите значение Disabled .

Примечание: место отключения функции указано ориентировочно, так как в зависимости от версии BIOS или UEFI, место расположения такой настройки может незначительно отличаться.

Целесообразен ли ремонт HDD?

Важно понимать, что любой из способов устранения SMART ошибки – это самообман. Невозможно полностью устранить причину возникновения ошибки, так как основной причиной её возникновения часто является физический износ механизма жесткого диска.

Для устранения или замены неправильно работающих составляющих жесткого диска, можно обратится в сервисный центр специальной лабораторией для работы с жесткими дисками.

Но стоимость работы в таком случае будет выше стоимости нового устройства. Поэтому, ремонт имеет смысл делать только в случае необходимости восстановления данных с уже неработоспособного диска.

SMART ошибка для SSD диска

Даже если у вас не претензий к работе SSD диска, его работоспособность постепенно снижается. Причиной этому служит факт того, что ячейки памяти SSD диска имеют ограниченное количество циклов перезаписи. Функция износостойкости минимизирует данный эффект, но не устраняет его полностью.

SSD диски имеют свои специфические SMART атрибуты, которые сигнализируют о состоянии ячеек памяти диска. Например, “209 Remaining Drive Life”, “231 SSD life left” и т.д. Данные ошибки могут возникнуть в случае снижения работоспособности ячеек, и это означает, что сохранённая в них информация может быть повреждена или утеряна.

Для дренажа в Электроугли песок привозят навалом большими самосвалами.