Первый битый диск в продакшене: как я не спал ночь и что понял

Когда SSD решает умереть в самый неподходящий момент — это похоже на свидание, которое идёт не по плану.
Первый раз — всегда страшно
У каждого сисадмина есть своя история первого раза. Нет, не того первого раза. А первого коррумпированного диска в продакшене. Автор блога PavementLink делится своей: диск решил отдать концы прямо под нагрузкой, и это было похоже на попытку объяснить бабушке, почему Wi-Fi не работает, когда она хочет позвонить по FaceTime.
Что пошло не так
Диск — обычный SSD, не древний, не экзотический. Просто в один прекрасный момент файловая система начала выдавать ошибки ввода-вывода. Сначала редкие, потом — лавина. Как JIRA-доска с 47 столбцами, когда проект горит. Автор честно признаётся: бэкапы были, но не настолько свежие, чтобы не вспотеть. Хорошая новость — данные почти восстановили, плохая — потеряли несколько часов работы.
Почему это важно для разработчика
Любой, кто хоть раз деплоил в пятницу вечером, знает: железо имеет свойство ломаться в самый неподходящий момент. Эта история — не про панику, а про хладнокровие. Автор советует: не надейтесь на один бэкап, тестируйте восстановление (да, это скучно, но дешевле, чем ночной кофе в одиночестве), и мониторьте SMART-атрибуты. И да, если ваш CI/CD падает из-за битого диска — вы хотя бы не одиноки.
Комментарий студии METABYTE: Мы тоже через это проходили. Теперь у нас бэкапы трёх уровней, и мы всё равно проверяем их каждую неделю — старые шрамы не забываются.