Problem Managemente Vs Incident Management ¿Cuál es la diferencia?

Problem Managemente Vs Incident Management ¿Cuál es la diferencia?

En el mundo de la gestión de servicios de TI o ITSM, existen dos términos que se confunden con frecuencia y en ocasiones pensamos que se tratan de los mismo. Pero también existen el caso opuesto, en que sabemos las diferencias entre ambos pero no sabemos como lidiar con ellos, cual es más importante, y si un solo proveedor de servicio puede ayudarnos. En este post te contamos lo que necesitas saber sobre Problem Management e Incidente Management. Comenzaremos con un evento reciente que demuestra como un solo proveedor de servicios puede manejar con éxito ambos.

La sobre carga de energía de Network Rail en Reino Unido

El 19 de diciembre de 2019, Network Rail en Reino Unido envío un serie de tweets donde describía un problema en la señal de control que detuvo el servicio de transporte el día anterior por casi una hora. El Southern Rail, que a diario transporte alrededor de 7 mil pasajeros y servicios de carga, experimentó una sobrecarga de energía de 20 segundos que impactó cuatro señales de estaciones de control en una de las secciones más ocupadas.

Técnicos, fueron enviados para reiniciar el sistema de forma manual que automáticamente se apago para evitar más daños por la sobrecarga. La energía de respaldo no se activo porque el sistema principal aun tenía energía y el proveedor del sistema UPS no contaba con protección para estos casos.

Network Rail continuó las investigaciones para prevenir otro caso de sobrecarga que pudiera impactar el sistema en el futuro. Los tweets y publicaciones posteriores en su sitio web recibieron aclamaciones de mucha gente. Las personas afectadas agradecieron las disculpas que ofreció Network Rail, su clara explicación de que lo que sucedió, y la investigación posterior para prevenir otro evento similar.

En IT Service Management lidiar con problemas como interrupciones, bajo rendimiento o violaciones de datos es inevitable. Las decisiones que elija para afrontar estos problemas determinarán, en gran medida, como los clientes y otros interesados perciben un negocio. Esto involucra dos prácticas vitales de ITSM; incident management y problem management entran al juego. Los usuarios y negocios no están interesados en la terminología, pero, si les importa mejorar la calidad del servicio, entender el valor de estas dos prácticas en el manejo de problemas que afecten el servicio es responsabilidad del proveedor del mismo.

¿Qué es ‘Incident Management’?

Para entender el termino Incident Management, debemos empezar paso a paso, comenzando por la palabra “Incident”. El ISO/IEC 20000:2018 service management standard define un incidente como cualquier de los siguientes casos:

  • Una interrupción en el servicio que no fue planeada
  • Reducción de la calidad del servicio
  • Eventos que aun no han impactado en el servicio al cliente o al usuario

El propósito de Incident Management es “Minimizar el impacto negativo de los incidentes, restableciendo las operaciones del servicio lo más rápido posible”.

Como en el ejemplo de Network Rail, la mayoría de los incidentes tienen un impacto directo en los clientes o usuarios . Por está razón, la velocidad es lo más importante en el manejo de incidentes, la prioridad, es restablecer la entrega del servicio. En el caso anterior, enviar técnicos para realizar el reinicio manual del sistema después de que el sistema remoto fallara, es un claro ejemplo de velocidad de respuesta (Es el clásico enfoque de “Reinicio”)

El enfoque del Ciclo de Vida en el manejo de incidentes

En ITSM, la mayoría de los incidentes son manejados con un enfoque de Ciclo de Vida. Comienza con registrar, catalogar, priorizar, escalonar, solución y conclusión.

» Registrar, catalogar y priorizar determina el curso correcto de las acciónes, incluyendo quien debe manejar la solución, el nivel de comunicación y la velocidad de respuesta. En un problema crítico es necesario conocer el significado de impacto y urgencia, lo que requiere de un enfoque “all-handson-deck”.

» Escalar funciones entres los equipos de especialistas, proveedores con mejores capacidades para abordar el incidente, además de administradores de más alto nivel que puedan tomar las decisiones necesarias, comunicarle a los accionistas y reguladores, también, realizar la asignación de recursos que se requieran o aprobar cambios de emergencia.

» Solución, puede darse al usuario a través del servicio al cliente, se puede manejar a través de la mesa de servicios o, el equipo de soporte puede usar medidas de recuperación ante desastres.
Conclusión, es hablar con los usuarios para asegurarse que esten satisfechos y su servicios funciona con normalidad.

Para solucionar con éxito un incidente es necesaria la comunicación y la colaboración. Las técnicas como ‘el enjambre’ son clave para reunir a las partes interesadas para diagnosticar y determinar las formas y personas más apropiadas para resolver el incidente. La comunicación durante e inmediatamente después del incidente también brinda alivio a los usuarios y partes interesadas, asegurando a los usuarios que el incidente está siendo tratado con el nivel de seriedad que merece, ya sea grande o pequeño.

Después, debemos aprender de la documentación del incidente, identificar patrones para que no ocurran incidentes similares en el futuro.

¿Qué es ‘Problem Management’?

ISO / IEC 20000: 2018 define un problema como “una causa de uno o más incidentes reales o potenciales”. De acuerdo con ITIL 4, el propósito de la gestión de problemas es “reducir la probabilidad y el impacto de los incidentes mediante la identificación de las causas reales y potenciales de los incidentes, y la gestión de soluciones y errores conocidos”.

En la gestión de problemas, la atención se centra en el futuro, la identificación y el control de los problemas, por lo que el énfasis es la minuciosidad, no la velocidad. La Investigación de Network Rail sobre los efectos de sobretensión en la señalización y el equipo de suministro de energía después de que se restablecieron los interruptores y se reanudó el servicio es un ejemplo perfecto de gestión de problemas. Network Rail podría haber reanudado el servicio (gestión de incidentes) y haberse detenido allí, eligiendo no trabajar en mejoras a largo plazo (gestión de problemas).

Enfoque de ciclo de vida en Problem Management

Al igual que la gestión de incidentes, se puede tomar la gestión de problemas con un enfoque de ciclo de vida. Las principales actividades en este período de problem management son:

  • Identificación del problemas, incluye registrarlos, catalogarlos y priorizarlos.
  • Control del problema, como el análisis, documentar las posibles soluciones y los errores.
  • Control del Error, arreglarlo a través de cambios en el control y asignando la solución más efectiva.

Las técnicas para identificar las raíces del problemas son muy variadas, van desde algunas muy simples como, tormentas de ideas o responder las 5 preguntas, hasta algunos más complejas como el método de Kepner-Tregoe, o los diagramas de Ishikawa. La revisión de las actividades de la gestión de problemas puede realizarse a partir de rápidas retrospectivas, cambiando la planeación o realizar juntas con los proveedores.

El valor de Problem Management

Todos los proveedores de servicios tienen relaciones existentes con su gestión de incidentes, así como con su gestión de problemas, ya sea proactivo o reactivo. La gestión de problemas es probablemente el de mayor valor, ya que está enfocado en prevenir que ocurran incidentes y reducir su impacto.

Desafortunadamente, es por esta naturaleza de actuar en el fondo, que nosotros no vemos todo lo que nos logra evitar y es eclipsada por el heroico Manejo de Incidentes, cuando el cliente se ve realmente impactado. Los bomberos y los equipos de emergencia son los que reciben la gloria por salvar el día, mientras que los detectives e investigadores forenses, quienes realizan investigaciones minuciosas raramente los bañan de elogios, porque los clientes no ven el impacto de futuros incidentes.

Pienso que los proveedores de servicios deben poner más atención en los esfuerzos de problem management, en especial, en las estructuras de recompensas y comunicación. La documentación y automatización de soluciones alternas es una forma en que el equipo técnico puede usar más tiempo en investigar la raíz de los problemas, y recompensarlos si se enfocan en esto. De forma similar, reportar incidentes similares con un impacto limitado después de controlar el problema, medir donde fueron encontrados, para dar tranquilidad a los accionistas, para que valoren el trabajo que se realiza después del incidente.

¿Estás preparado para iniciar tu viaje con la gestión de tickets de servicio? Prueba Track-It! hoy mismo, la solución de mesa de ayuda que ayuda a hacer tu vida más fácil. Solicita una demostración personalizada sin costo.

Texto original en inglés aquí

Tipos de plataformas low-code

En el siguiente blog analizamos diferentes desafíos que atraviesan las empresas y los tipos de herramientas low-code que pueden ayudarte.

Transformación digital con ayuda de Low-Code

La transformación digital implica muchos desafíos, pero con ayuda de Low-code podemos superar estos problemas y abrir el camino para el cambio

5 consejos para elegir la suite de Gestión de Procesos de Negocio (BPM)

El enfoque de suite de gestión de procesos empresariales ayuda en el ciclo de vida de mejora de procesos como analizamos en este blog.

Plataforma de código abierto low-code, qué es y cuáles son sus ventajas

En el siguiente blog exploramos la definición de las plataformas de código abierto low-code, sus ventajas y desventajas

Plataformas no-code frente a los problemas de TI

Ingresa en nuestro blog para aprender cómo las plataformas no-code ayudan a resolver los problemas en los departamentos de TI

Características de los sistemas de low-code qué los hace mejores

En el siguiente blog hablamos sobre el impacto de los sistemas low-code en el desarrollo de aplicaciones y sus ventajas en los negocios

6 puntos clave para elegir la plataforma RAD adecuada

El siguiente blog analizamos el desarrollo de aplicaciones RAD y las características que debe tener para tu negocio.

No-code: qué es y cómo aplicarlo en el desarrollo sin código

Con la llegada de la programación no-code, diseñar las soluciones que tu empresa necesita es más fácil, descubre cómo lograrlo en este post

Los 6 principales desafíos en adquisiciones que enfrentan las empresas

En este blog analizamos los principales problemas en el área de adquisiciones que enfrentan las empresas de todos los tamaños

7 beneficios de implementar el desarrollo ciudadano

Con el desarrollo ciudadano tu empresa puede eliminar los cuellos de botella y reducir la carga de trabajo de TI. Descubre más en este blog