Problem Management Vs Incident Management ¿Cuál es la diferencia?

Problem Management Vs Incident Management ¿Cuál es la diferencia?

En el mundo de la gestión de servicios de TI o ITSM, existen dos términos que se confunden con frecuencia y en ocasiones pensamos que se tratan de los mismo. Pero también existen el caso opuesto, en que sabemos las diferencias entre ambos pero no sabemos como lidiar con ellos, cual es más importante, y si un solo proveedor de servicio puede ayudarnos. En este post te contamos lo que necesitas saber sobre Problem Management e Incidente Management. Comenzaremos con un evento reciente que demuestra como un solo proveedor de servicios puede manejar con éxito ambos.

La sobre carga de energía de Network Rail en Reino Unido

El 19 de diciembre de 2019, Network Rail en Reino Unido envío un serie de tweets donde describía un problema en la señal de control que detuvo el servicio de transporte el día anterior por casi una hora. El Southern Rail, que a diario transporte alrededor de 7 mil pasajeros y servicios de carga, experimentó una sobrecarga de energía de 20 segundos que impactó cuatro señales de estaciones de control en una de las secciones más ocupadas.

Técnicos, fueron enviados para reiniciar el sistema de forma manual que automáticamente se apago para evitar más daños por la sobrecarga. La energía de respaldo no se activo porque el sistema principal aun tenía energía y el proveedor del sistema UPS no contaba con protección para estos casos.

Network Rail continuó las investigaciones para prevenir otro caso de sobrecarga que pudiera impactar el sistema en el futuro. Los tweets y publicaciones posteriores en su sitio web recibieron aclamaciones de mucha gente. Las personas afectadas agradecieron las disculpas que ofreció Network Rail, su clara explicación de que lo que sucedió, y la investigación posterior para prevenir otro evento similar.

En IT Service Management lidiar con problemas como interrupciones, bajo rendimiento o violaciones de datos es inevitable. Las decisiones que elija para afrontar estos problemas determinarán, en gran medida, como los clientes y otros interesados perciben un negocio. Esto involucra dos prácticas vitales de ITSM; incident management y problem management entran al juego. Los usuarios y negocios no están interesados en la terminología, pero, si les importa mejorar la calidad del servicio, entender el valor de estas dos prácticas en el manejo de problemas que afecten el servicio es responsabilidad del proveedor del mismo.

¿Qué es ‘Incident Management’?

Para entender el termino Incident Management, debemos empezar paso a paso, comenzando por la palabra “Incident”. El ISO/IEC 20000:2018 service management standard define un incidente como cualquier de los siguientes casos:

  • Una interrupción en el servicio que no fue planeada
  • Reducción de la calidad del servicio
  • Eventos que aun no han impactado en el servicio al cliente o al usuario

El propósito de Incident Management es “Minimizar el impacto negativo de los incidentes, restableciendo las operaciones del servicio lo más rápido posible”.

Como en el ejemplo de Network Rail, la mayoría de los incidentes tienen un impacto directo en los clientes o usuarios . Por está razón, la velocidad es lo más importante en el manejo de incidentes, la prioridad, es restablecer la entrega del servicio. En el caso anterior, enviar técnicos para realizar el reinicio manual del sistema después de que el sistema remoto fallara, es un claro ejemplo de velocidad de respuesta (Es el clásico enfoque de “Reinicio”)

El enfoque del Ciclo de Vida en el manejo de incidentes

En ITSM, la mayoría de los incidentes son manejados con un enfoque de Ciclo de Vida. Comienza con registrar, catalogar, priorizar, escalonar, solución y conclusión.

  • Registrar, catalogar y priorizar determina el curso correcto de las acciónes, incluyendo quien debe manejar la solución, el nivel de comunicación y la velocidad de respuesta. En un problema crítico es necesario conocer el significado de impacto y urgencia, lo que requiere de un enfoque “all-handson-deck”.
  • Escalar funciones entres los equipos de especialistas, proveedores con mejores capacidades para abordar el incidente, además de administradores de más alto nivel que puedan tomar las decisiones necesarias, comunicarle a los accionistas y reguladores, también, realizar la asignación de recursos que se requieran o aprobar cambios de emergencia.
  • Solución, puede darse al usuario a través del servicio al cliente, se puede manejar a través de la mesa de servicios o, el equipo de soporte puede usar medidas de recuperación ante desastres.
  • Conclusión, es hablar con los usuarios para asegurarse que esten satisfechos y su servicios funciona con normalidad.

Para solucionar con éxito un incidente es necesaria la comunicación y la colaboración. Las técnicas como ‘el enjambre’ son clave para reunir a las partes interesadas para diagnosticar y determinar las formas y personas más apropiadas para resolver el incidente. La comunicación durante e inmediatamente después del incidente también brinda alivio a los usuarios y partes interesadas, asegurando a los usuarios que el incidente está siendo tratado con el nivel de seriedad que merece, ya sea grande o pequeño.

Después, debemos aprender de la documentación del incidente, identificar patrones para que no ocurran incidentes similares en el futuro.

¿Qué es ‘Problem Management’?

ISO / IEC 20000: 2018 define un problema como “una causa de uno o más incidentes reales o potenciales”. De acuerdo con ITIL 4, el propósito de la gestión de problemas es “reducir la probabilidad y el impacto de los incidentes mediante la identificación de las causas reales y potenciales de los incidentes, y la gestión de soluciones y errores conocidos”.

En la gestión de problemas, la atención se centra en el futuro, la identificación y el control de los problemas, por lo que el énfasis es la minuciosidad, no la velocidad. La Investigación de Network Rail sobre los efectos de sobretensión en la señalización y el equipo de suministro de energía después de que se restablecieron los interruptores y se reanudó el servicio es un ejemplo perfecto de gestión de problemas. Network Rail podría haber reanudado el servicio (gestión de incidentes) y haberse detenido allí, eligiendo no trabajar en mejoras a largo plazo (gestión de problemas).

Enfoque de ciclo de vida en Problem Management

Al igual que la gestión de incidentes, se puede tomar la gestión de problemas con un enfoque de ciclo de vida. Las principales actividades en este período de problem management son:

  • Identificación del problemas, incluye registrarlos, catalogarlos y priorizarlos.
  • Control del problema, como el análisis, documentar las posibles soluciones y los errores.
  • Control del Error, arreglarlo a través de cambios en el control y asignando la solución más efectiva.

Las técnicas para identificar las raíces del problemas son muy variadas, van desde algunas muy simples como, tormentas de ideas o responder las 5 preguntas, hasta algunos más complejas como el método de Kepner-Tregoe, o los diagramas de Ishikawa. La revisión de las actividades de la gestión de problemas puede realizarse a partir de rápidas retrospectivas, cambiando la planeación o realizar juntas con los proveedores.

El valor de Problem Management

Todos los proveedores de servicios tienen relaciones existentes con su gestión de incidentes, así como con su gestión de problemas, ya sea proactivo o reactivo. La gestión de problemas es probablemente el de mayor valor, ya que está enfocado en prevenir que ocurran incidentes y reducir su impacto.

Desafortunadamente, es por esta naturaleza de actuar en el fondo, que nosotros no vemos todo lo que nos logra evitar y es eclipsada por el heroico Manejo de Incidentes, cuando el cliente se ve realmente impactado. Los bomberos y los equipos de emergencia son los que reciben la gloria por salvar el día, mientras que los detectives e investigadores forenses, quienes realizan investigaciones minuciosas raramente los bañan de elogios, porque los clientes no ven el impacto de futuros incidentes.

Pienso que los proveedores de servicios deben poner más atención en los esfuerzos de problem management, en especial, en las estructuras de recompensas y comunicación. La documentación y automatización de soluciones alternas es una forma en que el equipo técnico puede usar más tiempo en investigar la raíz de los problemas, y recompensarlos si se enfocan en esto. De forma similar, reportar incidentes similares con un impacto limitado después de controlar el problema, medir donde fueron encontrados, para dar tranquilidad a los accionistas, para que valoren el trabajo que se realiza después del incidente.

¿Estás preparado para iniciar tu viaje con la gestión de tickets de servicio? Prueba Track-It! hoy mismo, la solución de mesa de ayuda que ayuda a hacer tu vida más fácil. Solicita una demostración personalizada y reduce las interrupciones relacionadas con los cambios con una automatización eficaz de la revisión, el cumplimiento y las aprobaciones.

Solicita demostración BMC-Track-It-2018

Texto original en inglés aquí.

4 etapas para lograr una transformación digital exitosa

Exploramos ¿Cómo empezar tu transformación digital si fallar en el intento?, es cuestión de paciencia y respetar las etapas del proceso.

Libérate del caos de las hojas de cálculo y los correos electrónicos con automatización

Abordamos los peligros de gestionar el trabajo con hojas de cálculo y correos electrónicos y algunos desafíos al iniciar la automatización.

ServiceOps: simplifica la complejidad y acelera la innovación con BMC Helix

Conoce ServiceOps, la fusión de la gestión de servicios y operaciones, es un enfoque que está ganando terreno entre los negocios disruptivos.

Impulsar la innovación en la era de la IA con Connected Digital Ops

Connected Digital Ops es un nueva metodología que combina diferentes enfoques para aprovechar la IA en la gestión de operaciones

Elimina el Shadow IT e impulsa el cumplimiento y la seguridad

Shadow IT implica el uso de aplicaciones no autorizadas, que puede implicar enormes riesgos de seguridad y cumplimiento, aprende a mitigarlos

Desafíos de la gestión de activos tecnológicos y cómo superarlos

Un mal seguimiento y gestión de activos de TI, desde hardware y software o recursos virtuales pueden afectar la eficiencia operativa y riesgos

Enfoque AIOps para proveedores de servicios de comunicación

La inteligencia artificial para operaciones de TI – AIOps ayuda a los proveedores de servicios de comunicación a eliminar tareas manuales.

¿Comprar soluciones o desarrollarlas?, el dilema de Low-Code

Las soluciones low-code y no-code surgen cómo respuesta al dilema de las empresas que inician su viaje a la transformación digital ¿Comprar?

Principios básicos de ServiceOps y su impacto en el negocio

Analizamos ¿Qué es exactamente ServiceOps y por qué se está convirtiendo en una palabra de moda entre las organizaciones con visión de futuro?

Qué es IT Backlog y cómo está afectando las operaciones de TI

En el mercado altamente digitalizado de hoy, retrasar el desarrollo de aplicaciones es cotoso y el IT Backlog es el principal problema.