[Иван Круглов, Павел Селиванов] SRE онлайн-интенсив (2020)

MicoMiko

Спасибо от Разулы
Регистрация
31 Мар 2020
Сообщения
191
Реакции
1.618
Ra
930
На курсе вы будете:
Строить

Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.


Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
нагрузкой.


Чинить
Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.


Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.


Требования к участникам:


— Свободное владение Linux;
— Любой язык программирования: уровень Junior;
— GitLab: навыки автоматизации;
— Prometheus: навыки мониторинга;
— Kubernetes: навыки работы в кластере.


 

Похожие темы

Теги по которым нашли тему

  1. sre
  2. SRE онлайн-интенсив
Сверху