Guía completa sobre gestión de incidentes (parte 2)

Guía completa sobre gestión de incidentes (parte 2)

En el post anterior hablamos sobre qué son los incidentes, además de la definición de la gestión de incidentes. En este post pondremos esta teoría en práctica. A través de tres escenarios, mostramos cómo los incidentes pueden proporcionar una buena imagen de cómo manejar mejor las interrupciones comunes del servicio, utilizando buenas prácticas y estándares.

Ejemplos de la gestión de incidentes

1. Incidente relacionado con un solo usuario

Ben, quien recientemente fue ascendido de atención al cliente a agente de marketing, está intentando iniciar sesión en el CRM de la empresa para comprobar algunos clientes potenciales nuevos. Desafortunadamente, sus credenciales no se aprobaron. Intenta restablecer su contraseña y todavía nada funciona. Decide comunicarse con el servicio de asistencia técnica de TI por teléfono.

Tiffany, una agente del servicio de asistencia técnica, toma los datos de Ben y los registra en el sistema del servicio de asistencia técnica, verificando que trabaja para la empresa. Luego procede a iniciar sesión en el módulo de administrador de CRM y verifica su perfil. Parece que algunos cambios en su perfil no se ejecutaron correctamente, lo que provocó el error.

Ella verifica los cambios solicitados y procede a corregirlos. Luego le pide a Ben que intente iniciar sesión, ¡y lo logra!

Ben continúa con su trabajo mientras Tiffany procede a cerrar el registro en el sistema de asistencia técnica que envía una encuesta de satisfacción a Ben. Él felizmente le da una calificación de 5 estrellas.

Tiffany procede a comprobar una muestra de cambios relacionados para perfiles de CRM asignados al mismo agente que manejó el perfil de Ben. Afortunadamente, parece que el resto estuvo bien ejecutado. “¡No se requiere boleto problemático!” ella suspira felizmente.

2. Incidente de servicio multiusuario

Hilda, la gerente del servicio de atención al cliente, nota un aumento en las llamadas: ahora todo su equipo está completamente ocupado hablando de lo mismo. “Es el sistema de facturación. Los empleados no pueden enviar sus hojas de horas”, comenta un miembro de su personal.

Al ser el segundo viernes del mes, Hilda sabía que la mayoría del personal presentará sus hojas de horas hoy, por lo que se volverá una locura. Inmediatamente llama al gerente de TI, quien confirma que el sistema experimentó un error en la base de datos en el que están trabajando. Su ingeniero de sistemas principal ya ha registrado un ticket de incidente en el sistema ITSM.

Hilda notifica a su equipo y luego inicia sesión en el sistema ITSM para publicar un boletín sobre el problema del sistema de facturación. Su equipo trabaja inmediatamente para relacionar todos los registros recibidos con el ticket único de incidente para que el cierre pueda gestionarse de forma centralizada. 20 minutos más tarde, Hilda recibe una actualización del gerente de TI de que el sistema ya está funcionando, por lo que realiza una verificación aleatoria con dos empleados que confirman que ahora pueden enviar sus hojas de horas.

Actualiza el boletín y vuelve a soñar despierta con el fin de semana. Pero sabe que el lunes, la reunión de revisión de gestión de incidentes y problemas tendrá un nuevo tema de conversación.

3. Incidente importante en el servicio de TI

“¡Oh, no!” Blake, el ingeniero del NOC, exclama.

Todos se vuelven hacia él mientras señala la pantalla principal. La mitad de los nodos ahora parpadean en rojo, ¡ay! Sheryl, gerente de NOC de este proveedor de nube, calcula que se trata de un problema de conmutador central o de hipervisor que está afectando a la mitad de las máquinas virtuales (VM) de sus clientes.

Blake registra el incidente en su sistema ITSM y lo categoriza como un incidente importante. Sheryl habla por teléfono y organiza una conferencia con los administradores de la nube y los administradores de la red.

Esto requerirá toda la participación práctica. El gerente de relaciones públicas participa en la conferencia telefónica, ya que deberá informar a los clientes y gestionar la tormenta de las redes sociales que se avecina.

Los administradores de la nube pronto se dan cuenta de que se trataba de un error en el hipervisor. Inmediatamente se comunican con el proveedor por teléfono. Para respaldar esto, el líder de administración de la nube genera un ticket P1 en su portal de servicios.

A estas alturas, las cosas se están calentando.

Las llamadas inundan el call center. El CEO ahora está involucrado, haciendo llamadas personales a los líderes de los clientes afectados. El proveedor no respondió lo más rápido posible, pero el CTO ya está dos pasos por delante y activó el plan de recuperación ante desastres. Las copias de seguridad de las máquinas virtuales se realizaron en diferentes servidores y el incidente se resolvió en unas horas.

La semana siguiente, Sheryl estaría sentada en la reunión de revisión de gestión de problemas para analizar los comentarios del proveedor como parte de las actividades de causa raíz. Su informe del incidente destacó mucho y prevé muchos cambios en el futuro para garantizar que tal interrupción no vuelva a ocurrir.

Flujo de trabajo y actividades de gestión de incidentes

Antes de continuar, puedes ver en los ejemplos anteriores, cómo cualquier cantidad de actividades podrían ayudar (o perjudicar) los intentos de abordar un incidente.

Para manejar los incidentes de una manera que satisfaga las necesidades de los clientes y las partes interesadas relevantes, tu equipo de TI realizará una variedad de actividades, generalmente en este orden:

1. Detectar el incidente

La detección de incidentes suele ocurrir de dos maneras:

  • Un usuario informa un problema de servicio y el proveedor de servicios lo valida como un incidente.
  • El proveedor de servicios identifica un incidente a partir de alertas o tendencias de los componentes utilizados para brindar el servicio.

2. Registrar el incidente

El proveedor de servicios registra el incidente. Este deberá registrarlo en un sistema para efectos de su adecuada gestión, incluyendo:

  • Asignar al responsable adecuado del incidente
  • Seguimiento del progreso del manejo, particularmente los cronogramas.

3. Clasificar el incidente

En la fase de clasificación del incidente, el proveedor del servicio categoriza el incidente en términos de:

  • Tipo
  • Impacto, como quién y qué se ve afectado
  • Urgencia, o la velocidad requerida para la resolución.
  • Prioridad, con respecto a las perspectivas comerciales y de clientes.

La clasificación es útil para acelerar el proceso de identificación:

  • ¿Quién debe manejar el incidente?
  • ¿Qué modelo, si corresponde, es el más adecuado?
  • Si se pueden utilizar soluciones alternativas existentes

4. Diagnosticar el incidente

Durante el diagnóstico de incidentes, el proveedor de servicios investiga para:

  • Identificar lo que ha salido mal
  • Determinar la forma más rápida de recuperar el servicio normal.

El diagnóstico lo puede realizar una sola persona (manipulador) cuando los síntomas se relacionan con un incidente previamente conocido y documentado. Pero, para incidentes más complejos y/o relativamente nuevos, un equipo de representantes multifuncionales, conocido como enjambre, puede llevar a cabo una investigación conjunta.

El diagnóstico puede resultar en una actualización de la clasificación del incidente.

5. Resolver el incidente

La resolución de incidentes se refiere al momento en que se aplica la solución, ya sea una solución temporal o permanente. La resolución puede adoptar una o varias formas:

  • Implementado automáticamente
  • Documentado para que el usuario final lo aplique por sí mismo.
  • Manejado por el equipo de soporte
  • Reenviado a una unidad más capacitada o incluso al proveedor.

En función de la duración de la incidencia y clasificación, se deberá realizar de forma paralela una comunicación con los usuarios y grupos de interés afectados, informándoles del estado y los plazos.

Si sus esfuerzos de resolución no están dando frutos a la velocidad requerida, es posible que deba retroceder hasta el diagnóstico o activar los planes de recuperación ante desastres.

6. Cerrar el incidente

Una vez resuelto el incidente, se produce el cierre formal del expediente. El cierre podría requerir:

  • Comunicar y confirmar por parte de los usuarios que la experiencia del servicio está normalizada.
  • Facturación de actividades de manipulación
  • Actualización de la información de configuración cuando sea necesario

7. Revisar el incidente

Durante la revisión del incidente, a veces conocida como incidente post mortem, los propietarios del proceso o la gerencia pueden revisar cómo se manejó el incidente para determinar qué se hizo bien y qué salió mal. Ambos son útiles en incidentes futuros al ilustrar qué actividades podrían necesitar cambiarse o reforzarse.

La revisión puede marcar el comienzo de actividades de proceso de otras prácticas de ISTM, tales como:

  • Gestión de seguridad de la información.
  • Gestión del cambio
  • Otros según sea necesario

Mejores prácticas para una gestión de incidentes exitosa

La velocidad es el nombre del juego cuando se trata de gestión de incidentes. Todos los clientes, usuarios y partes interesadas quieren que los servicios normales se reanuden lo más rápido posible, minimizando al máximo el impacto del incidente y su probabilidad de repetición.

Para lograr una gestión de incidentes más exitosa, considere cómo está configurada tu organización para estos factores:

  • Detección temprana de incidentes y antes de que afecten al cliente
  • Responder y resolver incidencias lo más rápido posible
  • Gestión centralizada de la información de incidentes para comunicar, colaborar y medir la respuesta a incidentes.
  • Propiedad y coordinación de las actividades de manejo de incidentes.
  • Mejora continua de todos los elementos de la gestión de incidentes.

Hay muchas partes móviles involucradas en la gestión de incidentes. Por lo tanto, es imperativo que aplique un enfoque riguroso en todas las actividades del proceso, asegurando que el valor del servicio y la percepción del cliente no se vean erosionados por un mal manejo o una mala coordinación. Ponte en contacto con nuestro equipo de especialistas en gestión de incidentes, que te ayudarán a evaluar las necesidades de tu negocio, a la par de la revisión y el análisis continuos de las actividades de gestión de incidentes que garantizarán que se mantenga progresivamente un enfoque rentable, que maximice las capacidades de tu negocio.

Consulta el texto original en inglés.

Acelera la orquestación de procesos con una plataforma low-code

La orquestación de procesos unifica las tareas individuales para lograr una automatización de extremo a extremo. Descubre más en este post

¿Cuáles son los beneficios de una herramienta de gestión documental?

Una herramienta clave para el futuro empresarial es la gestión documental. En este artículo exploramos los beneficios de una plataforma.

Enfrentándose a la deuda técnica y el papel de una plataforma de low-code

La deuda técnica es el resultado de utilizar a tajos en el desarrollo de software que generan problemas a largo plazo, ¿Cómo se puede superar?

IT Operations Management ¿es la clave para una funcionalidad perfecta?

La gestión de operaciones de TI o IT Operations Management es la clave de la eficiencia para las organizaciones, pero ¿cómo funciona?

IA Generativa en el trabajo y los problemas de privacidad

Las herramientas de IA generativa se están convirtiendo en parte de la vida de las empresas pero conllevan problemas de privacidad y seguridad

4 etapas para lograr una transformación digital exitosa

Exploramos ¿Cómo empezar tu transformación digital si fallar en el intento?, es cuestión de paciencia y respetar las etapas del proceso.

Libérate del caos de las hojas de cálculo y los correos electrónicos con automatización

Abordamos los peligros de gestionar el trabajo con hojas de cálculo y correos electrónicos y algunos desafíos al iniciar la automatización.

ServiceOps: simplifica la complejidad y acelera la innovación con BMC Helix

Conoce ServiceOps, la fusión de la gestión de servicios y operaciones, es un enfoque que está ganando terreno entre los negocios disruptivos.

Impulsar la innovación en la era de la IA con Connected Digital Ops

Connected Digital Ops es un nueva metodología que combina diferentes enfoques para aprovechar la IA en la gestión de operaciones

Elimina el Shadow IT e impulsa el cumplimiento y la seguridad

Shadow IT implica el uso de aplicaciones no autorizadas, que puede implicar enormes riesgos de seguridad y cumplimiento, aprende a mitigarlos