Este curso cubre las técnicas para monitorizar, solucionar problemas y mejorar la infraestructura y el rendimiento de las aplicaciones en Google Cloud Platform (GCP) guiado por los principios de Ingeniería de confiabilidad del sitio (SRE).
Mediante una combinación de presentaciones, demostraciones, laboratorios prácticos y estudios de casos del mundo real, los asistentes obtendrán experiencia con la supervisión completa, la gestión y el análisis de registros en tiempo real, la depuración de código en producción y el seguimiento de cuellos de botella en el rendimiento de las aplicaciones. y perfilar el uso de la CPU y la memoria.
Nuestro curso de Logging, Monitoring and Observability in Google Cloud es parte de la certificación Professional DevOps Engineer y está disponible como una sesión de capacitación privada, que se desarrollará durante tres días consecutivos. Puede entregarse en nuestro centro de formación en el World Trade Center de Barcelona, en la ubicación que vuestra empresa elija o mediante el aula virtual.
Resumen del curso
Este curso está dirigido a los siguientes participantes: arquitectos de la nube, administradores y personal de SysOps o desarrolladores de la nube y personal de DevOps.
- Planificar e implementar una infraestructura de registro y monitoreo bien diseñada.
- Definir indicadores de nivel de servicio (SLI) y objetivos de nivel de servicio (SLO)
- Crear paneles de control y alertas de monitoreo efectivos
- Supervisar, solucionar problemas y mejorar la infraestructura de GCP
- Analizar y exportar registros de auditoría de GCP
- Encuentrar defectos en el código de producción, identifique cuellos de botella y mejore el rendimiento
- Optimizar los costos de monitoreo
Los asistentes deben tener capacidad básica de codificación o secuencias de comandos y competencia con herramientas de línea de comandos y entornos de sistema operativo Linux. También deben comprender los principios de BPC como se cubren en el curso de un día. Google Cloud Platform Fundamentals: Core Infrastructure o tener la experiencia equivalente a ese curso previo.
Programa
- Comprender las cuatro señales de oro: latencia, tráfico, errores y saturación
- Definir SLI (medidas del dolor del cliente)
- Definir medidas de desempeño críticas
- Definir SLO y SLA
- Definir presupuestos de error
- El propósito y las capacidades de los componentes centrados en las operaciones de GCP [Registro, supervisión, informe de errores y supervisión del servicio]
- El propósito y las capacidades de los componentes centrados en la administración del rendimiento de las aplicaciones de GCP (depurador, seguimiento, generador de perfiles)
- Utilizar los paneles predeterminados de manera adecuada
- Crear paneles personalizados para mostrar el consumo de recursos y la carga de aplicaciones
- Definir verificaciones de tiempo de actividad para realizar un seguimiento de la vida y la latencia
- Definicir de políticas de alerta
- Definicir de alertas basadas en infracciones de políticas
- Optimizar las alertas para facilitar la acción
- Conozcer los tipos de alertas y los usos comunes de cada uno.
- Implementar las mejores prácticas para las políticas de alerta
- Definir y alertar sobre grupos de recursos
- Administrar las políticas de alertas de manera programática con la API de monitoreo de GCP
- Definir la arquitectura del proyecto de monitoreo de acuerdo con las mejores prácticas
- Definir las funciones de Cloud IAM para la supervisión
- Definir etiquetas y rótulos para recursos
- Integrar agentes en imágenes de VM para que la aplicación esté visible en Compute Engine
- Instalar Kubernetes Monitoring
- Exponer datos de aplicaciones para aplicaciones de Kubernetes Engine con Prometheus y OpenCensus
- Conozcer y elija entre los enfoques de etiquetado de recursos
- Conectar los errores de la aplicación a Logging usando Error Reporting
- Definir sumideros de registros (filtros de inclusión) y filtros de exclusión; comprender la naturaleza de la disponibilidad de datos en lotes frente a en tiempo real en los sumideros de registros
- Creear métricas basadas en registros
- Definir métricas personalizadas
- Exportar registros a BigQuery
- Analizar los registros con BigQuery
- Utilizar los registros de auditoría de la actividad del administrador para realizar un seguimiento de los cambios en la configuración o los metadatos de los recursos.
- Utilizar los registros de auditoría de acceso a datos para realizar un seguimiento de los accesos o cambios en los datos de recursos proporcionados por el usuario.
- Utilizar los registros de auditoría de eventos del sistema para realizar un seguimiento de las acciones administrativas de GCP.
- Definir roles de gestión de incidentes y canales de comunicación
- Mitigar el impacto del incidente
- Solucionar problemas de causas raíz
- Resolver incidentes
- Documentar los incidentes en un proceso post-mortem
- Utilizar Debugger para identificar defectos de código en producción
- Utilizar Trace para encontrar cuellos de botella de rendimiento en la producción.
- Utilizar Profiler para encontrar funciones que consuman muchos recursos en una aplicación
- Comprender la facturación de los componentes de supervisión dentro de GCP
- Analizar la utilización de recursos de los componentes de supervisión dentro de GCP
- Implementar las mejores prácticas para controlar el costo de la supervisión dentro de GCP