Problem Management Vs Incident Management ¿Cuál es la diferencia?

Problem Management Vs Incident Management ¿Cuál es la diferencia?

En el mundo de la gestión de servicios de TI o ITSM, existen dos términos que se confunden con frecuencia y en ocasiones pensamos que se tratan de los mismo. Pero también existen el caso opuesto, en que sabemos las diferencias entre ambos pero no sabemos como lidiar con ellos, cual es más importante, y si un solo proveedor de servicio puede ayudarnos. En este post te contamos lo que necesitas saber sobre Problem Management e Incidente Management. Comenzaremos con un evento reciente que demuestra como un solo proveedor de servicios puede manejar con éxito ambos.

La sobre carga de energía de Network Rail en Reino Unido

El 19 de diciembre de 2019, Network Rail en Reino Unido envío un serie de tweets donde describía un problema en la señal de control que detuvo el servicio de transporte el día anterior por casi una hora. El Southern Rail, que a diario transporte alrededor de 7 mil pasajeros y servicios de carga, experimentó una sobrecarga de energía de 20 segundos que impactó cuatro señales de estaciones de control en una de las secciones más ocupadas.

Técnicos, fueron enviados para reiniciar el sistema de forma manual que automáticamente se apago para evitar más daños por la sobrecarga. La energía de respaldo no se activo porque el sistema principal aun tenía energía y el proveedor del sistema UPS no contaba con protección para estos casos.

Network Rail continuó las investigaciones para prevenir otro caso de sobrecarga que pudiera impactar el sistema en el futuro. Los tweets y publicaciones posteriores en su sitio web recibieron aclamaciones de mucha gente. Las personas afectadas agradecieron las disculpas que ofreció Network Rail, su clara explicación de que lo que sucedió, y la investigación posterior para prevenir otro evento similar.

En IT Service Management lidiar con problemas como interrupciones, bajo rendimiento o violaciones de datos es inevitable. Las decisiones que elija para afrontar estos problemas determinarán, en gran medida, como los clientes y otros interesados perciben un negocio. Esto involucra dos prácticas vitales de ITSM; incident management y problem management entran al juego. Los usuarios y negocios no están interesados en la terminología, pero, si les importa mejorar la calidad del servicio, entender el valor de estas dos prácticas en el manejo de problemas que afecten el servicio es responsabilidad del proveedor del mismo.

¿Qué es ‘Incident Management’?

Para entender el termino Incident Management, debemos empezar paso a paso, comenzando por la palabra “Incident”. El ISO/IEC 20000:2018 service management standard define un incidente como cualquier de los siguientes casos:

  • Una interrupción en el servicio que no fue planeada
  • Reducción de la calidad del servicio
  • Eventos que aun no han impactado en el servicio al cliente o al usuario

El propósito de Incident Management es “Minimizar el impacto negativo de los incidentes, restableciendo las operaciones del servicio lo más rápido posible”.

Como en el ejemplo de Network Rail, la mayoría de los incidentes tienen un impacto directo en los clientes o usuarios . Por está razón, la velocidad es lo más importante en el manejo de incidentes, la prioridad, es restablecer la entrega del servicio. En el caso anterior, enviar técnicos para realizar el reinicio manual del sistema después de que el sistema remoto fallara, es un claro ejemplo de velocidad de respuesta (Es el clásico enfoque de “Reinicio”)

El enfoque del Ciclo de Vida en el manejo de incidentes

En ITSM, la mayoría de los incidentes son manejados con un enfoque de Ciclo de Vida. Comienza con registrar, catalogar, priorizar, escalonar, solución y conclusión.

  • Registrar, catalogar y priorizar determina el curso correcto de las acciónes, incluyendo quien debe manejar la solución, el nivel de comunicación y la velocidad de respuesta. En un problema crítico es necesario conocer el significado de impacto y urgencia, lo que requiere de un enfoque “all-handson-deck”.
  • Escalar funciones entres los equipos de especialistas, proveedores con mejores capacidades para abordar el incidente, además de administradores de más alto nivel que puedan tomar las decisiones necesarias, comunicarle a los accionistas y reguladores, también, realizar la asignación de recursos que se requieran o aprobar cambios de emergencia.
  • Solución, puede darse al usuario a través del servicio al cliente, se puede manejar a través de la mesa de servicios o, el equipo de soporte puede usar medidas de recuperación ante desastres.
  • Conclusión, es hablar con los usuarios para asegurarse que esten satisfechos y su servicios funciona con normalidad.

Para solucionar con éxito un incidente es necesaria la comunicación y la colaboración. Las técnicas como ‘el enjambre’ son clave para reunir a las partes interesadas para diagnosticar y determinar las formas y personas más apropiadas para resolver el incidente. La comunicación durante e inmediatamente después del incidente también brinda alivio a los usuarios y partes interesadas, asegurando a los usuarios que el incidente está siendo tratado con el nivel de seriedad que merece, ya sea grande o pequeño.

Después, debemos aprender de la documentación del incidente, identificar patrones para que no ocurran incidentes similares en el futuro.

¿Qué es ‘Problem Management’?

ISO / IEC 20000: 2018 define un problema como “una causa de uno o más incidentes reales o potenciales”. De acuerdo con ITIL 4, el propósito de la gestión de problemas es “reducir la probabilidad y el impacto de los incidentes mediante la identificación de las causas reales y potenciales de los incidentes, y la gestión de soluciones y errores conocidos”.

En la gestión de problemas, la atención se centra en el futuro, la identificación y el control de los problemas, por lo que el énfasis es la minuciosidad, no la velocidad. La Investigación de Network Rail sobre los efectos de sobretensión en la señalización y el equipo de suministro de energía después de que se restablecieron los interruptores y se reanudó el servicio es un ejemplo perfecto de gestión de problemas. Network Rail podría haber reanudado el servicio (gestión de incidentes) y haberse detenido allí, eligiendo no trabajar en mejoras a largo plazo (gestión de problemas).

Enfoque de ciclo de vida en Problem Management

Al igual que la gestión de incidentes, se puede tomar la gestión de problemas con un enfoque de ciclo de vida. Las principales actividades en este período de problem management son:

  • Identificación del problemas, incluye registrarlos, catalogarlos y priorizarlos.
  • Control del problema, como el análisis, documentar las posibles soluciones y los errores.
  • Control del Error, arreglarlo a través de cambios en el control y asignando la solución más efectiva.

Las técnicas para identificar las raíces del problemas son muy variadas, van desde algunas muy simples como, tormentas de ideas o responder las 5 preguntas, hasta algunos más complejas como el método de Kepner-Tregoe, o los diagramas de Ishikawa. La revisión de las actividades de la gestión de problemas puede realizarse a partir de rápidas retrospectivas, cambiando la planeación o realizar juntas con los proveedores.

El valor de Problem Management

Todos los proveedores de servicios tienen relaciones existentes con su gestión de incidentes, así como con su gestión de problemas, ya sea proactivo o reactivo. La gestión de problemas es probablemente el de mayor valor, ya que está enfocado en prevenir que ocurran incidentes y reducir su impacto.

Desafortunadamente, es por esta naturaleza de actuar en el fondo, que nosotros no vemos todo lo que nos logra evitar y es eclipsada por el heroico Manejo de Incidentes, cuando el cliente se ve realmente impactado. Los bomberos y los equipos de emergencia son los que reciben la gloria por salvar el día, mientras que los detectives e investigadores forenses, quienes realizan investigaciones minuciosas raramente los bañan de elogios, porque los clientes no ven el impacto de futuros incidentes.

Pienso que los proveedores de servicios deben poner más atención en los esfuerzos de problem management, en especial, en las estructuras de recompensas y comunicación. La documentación y automatización de soluciones alternas es una forma en que el equipo técnico puede usar más tiempo en investigar la raíz de los problemas, y recompensarlos si se enfocan en esto. De forma similar, reportar incidentes similares con un impacto limitado después de controlar el problema, medir donde fueron encontrados, para dar tranquilidad a los accionistas, para que valoren el trabajo que se realiza después del incidente.

¿Estás preparado para iniciar tu viaje con la gestión de tickets de servicio? Prueba Track-It! hoy mismo, la solución de mesa de ayuda que ayuda a hacer tu vida más fácil. Solicita una demostración personalizada y reduce las interrupciones relacionadas con los cambios con una automatización eficaz de la revisión, el cumplimiento y las aprobaciones.

Solicita demostración BMC-Track-It-2018

Texto original en inglés aquí.

¿Cómo alcanzar la transformación digital con Low-Code?

Low-Code puede ser una herramienta que te ayude a no fallar en tu intento por alcanzar la transformación digital en tu empresa

Fases y mejores prácticas para la gestión de proyectos de software

En este artículo analizamos la gestión de proyectos de software incluidas cuatro fases para ayudar a tu empresa a escalar sus proyectos.

Implementa tu solución de IA Generativa con éxito

La IA generativa es una de las tecnologías emergentes más interesantes en la actualidad y podría revolucionar muchas industrias.

Primeros pasos para la automatización de servicios empresariales sin dolor

Exploramos cuál es la necesidad de automatización de servicios, cuáles son los desafíos, y cómo podemos hacerlo de manera efectiva sin dolor.

Innovaciones en la IA Generativa de BMC HelixGPT

Conoce las nuevas innovaciones de BMC HelixGPT la nueva herramienta de Inteligencia Artificial Generativa de BMC

Conoce los beneficios del nuevo BMC Helix IT Operation Management

Conoce la nueva versión de BMC Helix IT Operation Management ha mejorada sus capacidades de descubrimiento y visibilidad en el entrono de TI.

Paso a paso para lograr una digitalización exitosa

Para 87% de los CIO’s la digitalización es prioridad. Pero, el éxito de las iniciativas de transformación radica en la etapa de madurez.

Orquestación de flujos de trabajo y aplicaciones en el mercado minorista

Los grandes minoristas aprovechan el poder de la orquestación del flujos de trabajo de datos y aplicaciones para optimizar sus suministros.

Capacidades de DevOps habilitadas por Jobs-as-Code

Analizamos Jobs-as-Code como un enfoque de DevOps que ayuda a definir, programar, administrar y monitorear flujos de trabajo en producción.

Obtén visibilidad profunda del entorno de TI con el nuevo BMC Helix ITOM

BMC Helix Operations Management está repleto de nuevas innovaciones que brindan visibilidad incomparable en tiempo real del entorno de TI.