Кто, как не программисты, умеют качественно и продуктивно ломать (и чинить).
Николай Рябков, ведущий программист Блока сопровождения программного обеспечения УБРиР, рассказал, как 21 февраля 2023 г. был введен новый релиз и доработан кластер баз данных системы документооборота «Тезис». Все прошло в штатном режиме, и ничего не предвещало беды. В следующие дни ввиду малой нагрузки (а были праздники) никаких проблем со стороны сервиса не наблюдалось. Однако 27 февраля начались «первые звоночки».
Коля вспоминает: «Штатно не отработали autovacuum на базе данных, и не был создан бэкап. Затем в течение дня мы наблюдали странное поведение базы данных, множество длинных, не закрывающихся транзакций. Изучая логи, мы выявили, что приложению не хватает ресурсов оперативной памяти, чтобы закрывать открытые транзакции. Мы с коллегами приняли решение увеличить вдвое ресурс, и нам показалось, что проблема решена, но на следующий день ситуация повторилась».
«Почему сразу не произвели откат? Потому что ведь неделю все работало нормально. Ага, щас, просто не было штатной нагрузки, ибо праздники. Также по заверению команды все было протестировано без ошибок, но тестили-то без соответствующей нагрузки. Также были изменения в схеме подключения к базе, и нужно было исключить их влияние»