Why do Internet service outages happen?  The importance of network monitoring (and benchmarking) to understand service outages and network reliability

¿Cómo detectar caídas de servicios de Internet?

autor: MedUX

This post is also available in: EN (EN)

¿Por qué se producen las caídas de servicios de Internet y cómo detectarlas?

La importancia de la monitorización de las redes (y su evaluación comparativa) para entender por qué se caen los servicios de Internet y cuál es la fiabilidad de la red

Internet se ha convertido en un activo esencial para la productividad empresarial y la continuidad de los negocios, en cualquier lugar, especialmente si tenemos en cuenta que la mayoría de personas han pasado a trabajar de forma remota debido a las circunstancias y medidas impuestas por el COVID-19.

La reciente interrupción de servicio que sufrió Fastly ha sido un recordatorio de la complejidad de Internet y la importancia de la redundancia.

Además, durante la primera mitad de 2020, a nivel global se ha experimentado un aumento sin precedentes de las caídas de Internet, según informes recientes de ThousandEyes, con un 44% más de interrupciones en junio de 2020 que en enero de 2020. MedUX ha estado monitorizando la experiencia de usuario para algunos de estos incidentes, sobre todo desde marzo 2020, cuando todo cambió.

Las caídas de Internet pueden ocurrir en circunstancias normales de la red y no deben tomarse como una indicación de que las infraestructuras de Internet no son estables. Existe una gran variedad de factores que pueden ocasionar fallos de servicio, desde interrupciones temporales hasta incidentes o degradaciones a más largo plazo.

Este tipo de problemas pueden suceder (y suceden) con más frecuencia de lo que desearíamos, y cada vez que los sufrimos, tendemos a culpar a los proveedores u operadores de telecomunicaciones. Lo cuál muchas veces es injusto.

En MedUX, nuestro objetivo, a través de nuestras capacidades de monitorización de la red y nuestra evaluación de las degradaciones de Internet, es sencillo:

  • proporcionar un indicador de cómo los usuarios reales de Internet están experimentando la calidad del servicio de Internet en tiempo real.
  • explorar el estado de los servicios de Internet y permitir la identificación de problemas, degradaciones e interrupciones de la red.
  • ayudar a mejorar el rendimiento y la experiencia de la red para garantizar que las redes puedan cumplir con los requisitos de conectividad de los usuarios finales.

Dicho esto, ¿te imaginas no poder conectarte a una videollamada importante mientras trabajas desde casa? ¿O que te resulte imposible acceder a algunos de tus sitios web o servicios en línea más utilizados?

El hecho de que la red esté «ACTIVADA» no significa que el servicio esté funcionando bien. Las caídas de Internet afectan en gran medida a la experiencia de los usuarios finales, pero a menudo no nos damos cuenta de lo complejo que es realmente nuestro Internet, hasta que las cosas fallan.

El enfoque de MedUX va más allá de la latencia típica y la pérdida de paquetes, y se enfoca en medir, monitorizar y comparar una amplia variedad de indicadores de desempeño, servicios y aplicaciones directamente desde los hogares de los usuarios finales, es decir, la experiencia del cliente REAL o la Calidad de la Experiencia (QoE, por sus siglas en inglés). La evaluación comparativa (Benchmark) es igual de importante que la supervisión del servicio propio porque proporciona una comprensión más amplia cuando se produce una interrupción en función del rendimiento y las dependencias de sus competidores.

En MedUX, analizamos los problemas tanto de la red como del servicio en diferentes niveles, incluida la experiencia del usuario con los servicios OTT, para conocer las causas, pero también el impacto de estos fallos en la Experiencia del Cliente.

Recordamos algunas interrupciones de servicio recientes y la evaluación de su impacto

El ecosistema de pruebas de red de MedUX ayuda a entender la gran cantidad de incidentes que afectan la experiencia del cliente, desde problemas de calidad de servicio (QoS) y cortes de red hasta problemas de calidad de experiencia (QoE) y degradación de servicios.

La forma en que una interrupción o degradación del servicio afecta a la experiencia del cliente depende de la duración del incidente, el alcance de los servicios afectados y, no menos importante, el momento en el que ocurre el incidente. En realidad, muchas interrupciones ocurren durante la noche o durante las horas de menor actividad y pueden pasar desapercibidas.

Durante los últimos años, en MedUX hemos estado realizando algunos análisis y evaluaciones de impacto de algunas interrupciones importantes que han afectado significativamente la calidad de la experiencia de los usuarios finales en todo el mundo:

  • El proveedor de servicios CDN, Fastly, se cae a nivel mundial (06/08/2021) – Tal y como se ha mencionado anteriormente, la caída de Fastly supuso la caída de servicios como Amazon, Twitter, Twitch y muchos más. Nuestro análisis muestra que la experiencia de navegación web se vio más afectada entre las 12PM y la 1PM CET, ya que los usuarios finales no podían acceder a los sitios web alojados por Fastly o, simplemente, el tiempo de carga era significativamente superior a lo habitual.
  • YouTube se cae en todo el mundo (11/12/2020) – MedUX también detectó una degradación del servicio de YouTube entre las 12AM y las 2AM (UTC). Este incidente afectó a la disponibilidad de YouTube y, en general, ala experiencia de transmisión, ya que durante al menos una hora, los videos no podían cargarse ni reproducirse.
  • Impacto de las medidas impuestas por el COVID-19 en las redes de los hogares europeos (2020) – Los usuarios de países como el Reino Unido, Italia, Alemania y España vieron su experiencia en Internet, en general, afectada de alguna manera, parcial y/o temporalmente. Esto ocurrió, principalmente, durante los primeros meses de confinamientos y en áreas con fuertes medidas preventivas.
  • Interrupción del servicio de CenturyLink/Level3 a nivel mundial (30/08/2020) – CenturyLink/Level 3 sufrió una caída que duró varias horas, afectando a las grandes empresas que utilizan los servicios de peering como Cloudflare o Google. Esto hizo caer gran parte del tráfico de Internet, en ese momento, en todo el mundo.La interrupción de CenturyLink fue identificada como la causa de la interrupción del servicio que ocurrió en Cloudflare, una infraestructura web y un proveedor de seguridad de sitios web que ayuda a optimizar y mantener los sitios web en funcionamiento. MedUX analizó el impacto de la interrupción del servicio en España, que afectó parcialmente la Experiencia del Cliente en general a nivel nacional. Los servicios más utilizados (navegación web, almacenamiento en la nube y transmisión) se vieron afectados debido a un panel en Century Link. Las tasas de éxito de la experiencia de navegación web estaban por debajo del 60% a las 12PM para algunos de los operadores en España.4) CenturyLink/Level3 outage
  • La interrupción del servicio de DNS de TalkTalk que afectó al acceso a Internet en Reino Unido (29/05/2020) – MedUX detectó una caída del servicio de 10 AM a 12 PM (BST) en los servicios de red VDSL de TalkTalk, que impidió que sus usuarios finales pudiesen conectarse a Internet.
  • Interrupción del servicio de Internet de Telekom, Vodafone, O2 y 1&1 en Alemania, afectando a la Calidad de la Experiencia de usuarios de la red xDSL (12/02/2020) – MedUX observó una caída del servicio, principalmente entre las 2 y las 9 AM (CET), el pasado 12 de Febrero de 2020. La disponibilidad del servicio era muy pobre durante las 3 y las 4 AM, aunque se fue recuperando después gradualmente. Según nuestras mediciones, la disponibilidad del servicio estaba incluso por debajo del 60% en ciertas regiones durante la hora pico de la interrupción.
  • Caída del servicio DNS de Vodafone, afectando parcialmente a la red y a la Experiencia de Usuario en Alemania (17/01/2020) – El informe ejecutivo de MedUX cubrió el análisis y la evaluación de impacto de la interrupción y degradación del servicio entre las 3AM y las 9AM (CET) el 17 de enero de 2020. Esta degradación del servicio afectó a la conectividad a Internet y a la experiencia del cliente a la hora de utilizar algunos los servicios digitales más demandados.La disponibilidad del servicio estaba en el nivel más bajo entre las 5AM y las 6 AM, The service availability was at the lowest level between 5AM and 6AM, cuando el 75% (aprox.) de lo usuarios de Vodafone e incluso algunas ubicaciones de clientes de 1&1 presentaron al menos un error relacionado con la resolución de DNS y la conectividad a Internet. Sin embargo, la experiencia general del cliente no se vio tan afectada ya que el problema ocurrió durante la madrugada y las primeras horas de la mañana y pareció solucionarse alrededor de las 8AM (período de mantenimiento retrasado).7) Vodafone’s DNS service worldwide disruption partially affecting network and customer experience in Germany
  • Caida de servicios gaming: Interrupción del servicio de Riot Games durante el lanzamiento del juego (01/07/2019) – MedUX analizó cómo la interrupción de los servidores de Riot Games (League of Legends y Teamfight Tactics) había afectado a la experiencia del cliente en algunos países europeos. El servicio de gaming sufrió una sobrecarga, impidiendo que los usuarios pudieran acceder y jugar al videojuego en cuestión.
  • Caída del servicio de Vodafone en Europa (13/06/2019) – MedUX analiza la caida de la red fija de  Vodafone, que tuvo un pequeño impacto (limitado) en algunos países como Reino Unido, Italia, Portugal e Irlanda, donde los usuarios afectados recuperaron su servicio de Internet en menos de un hora.

¿Por qué se cae Internet? – Analizamos el origen de la causa

Las plataformas compartidas, los servicios de hosting, los servidores DNS e incluso la infraestructura física de la red contribuyen a la fragilidad colectiva e interconectada de Internet.

A medida que el ecosistema de aplicaciones, servicios e infraestructura se interconecta cada vez más, las interrupciones pueden afectar en mayor medida a la vida diaria de los usuarios finales. Varios factores pueden ser la causa de una degradación del servicio, desde interrupciones temporales hasta incidentes o degradaciones a más largo plazo. Los puntos comunes de fallo podrían ser los operadores, proveedores de DNS, proveedores de CDN, proveedores de hosting o infraestructura, o incluso APIs para el intercambio de información.

Cuando ocurren estas interrupciones del servicio, desde el punto de vista del usuario final, Internet falla, no esta disponible o algunos servicios dejan de funcionar, pero realmente, ¿qué hay detrás de dicha interrupción?

Los operadores de todo el mundo trabajan continuamente para mantener la calidad del servicio y una buena experiencia de uso de Internet y, en términos generales, el servicio de Internet es estable. Sin embargo, existen muchos problemas que pueden afectar el rendimiento de la red y algunos de ellos son muy complejos de identificar y comprender a nivel usuario. A continuación, algunos de los más recurrentes:

  • Aplicación de Internet (proveedores de contenido): la concentración a nivel de aplicaciones de Internet es fácil de detectar y problemática cuando ocurren fallos en el servicio de Internet. Hoy en día, empresas como Google poseen los servicios más populares de Internet, incluyendo búsqueda web, hosting de correo electrónico (Gmail) y plataforma de video (YouTube). Las actualizaciones de aplicaciones y los problemas de configuración del servidor de aplicaciones son algunas causas frecuentes entre los proveedores de infraestructura de servicios.
  • Infraestructura de servicios (proveedores de servicios en la nube): los CDN, DNS y los proveedores de servicios en la nube son ahora una parte fundamental de la infraestructura. Por ejemplo, más del 80% de los principales sitios web a nivel mundial utilizan CDN, como Akamai o Fastly. Las actualizaciones de software durante el mantenimiento regular, las configuraciones incorrectas y las fallos de hardware o software algunas causas frecuentes entre los proveedores de infraestructura de servicios.
  • Conectividad internacional (ISP): las comunicaciones globales dependen en gran medida de cables submarinos y proveedores de interconexión/peering que conectan regiones, así como redes de telecomunicaciones y proveedores de contenido.
  • Otros: El servicio puede fallar a causa de condiciones climáticas adversas, como terremotos o huracanes, así como cortes de energía eléctrica.
  • Operadores de Telecomunicaciones:
    – Suministro de acceso:
    la conectividad a Internet depende del acceso y de los proveedores que tienen que permitir el acceso al contenido al usuario final y, en ese caso, cualquier fallo en la parte de la red de acceso es crítica. Un desmontaje de los enlaces de acceso o cualquier falla relacionada con el acceso desconecta al cliente de su proveedor y afecta la conectividad del usuario final.
    – Congestión de la red: Se reduce la calidad del servicio debido a que demasiados usuarios intentan acceder a una red al mismo tiempo, en una zona geográfica determinada. Los efectos típicos incluyen retrasos, pérdida de paquetes o bloqueo de nuevas conexiones. La calidad del circuito puede bloquearse o deteriorarse causando el colapso de la red e impidiendo a los usuarios hacer un uso eficiente de la misma. Los operadores y servicios deben poder hacer frente a este tipo de problemas en sus redes y detectarlos en una fase temprana para resolverlos lo antes posible.
    – Fallos en los enlaces del proveedor de servicios: Se produce cuando el enlace entre los dispositivos, desde los que los usuarios intentan acceder a la red, y el servidor sufre una interrupción. Es probable que los fallos en los enlaces se produzcan debido al bajo tiempo de convergencia, al retardo y al ancho de banda previamente asignados, y a los continuos bucles que degradan el rendimiento de la red.
    – Fallo del equipo: Si no se protege el equipo de las sobrecargas, este puede quedar vulnerable a los daños del circuito. Además, los bloqueos también pueden causar fallos en el equipo. Este problema técnico puede resolverse rápidamente con una configuración de hardware actualizada y adecuada.
    – Problemas de enrutamiento: A veces, en redes complejas, los protocolos de enrutamiento no reparan los problemas de conectividad de la forma en que deberían, o peor aún, pueden crear apagones propios que no habrían ocurrido en una red más simple.

Monitorización de la red y detección de degradaciones del servicio con MedUX

MedUX ayuda a entender una gran variedad de incidentes que afectan la experiencia del usuario final. El objetivo de la tecnología MedUX es ayudar a los operadores a analizar y mejorar la calidad de la experiencia de banda ancha con información sobre el rendimiento desde la perspectiva de los usuarios finales (y los de la competencia).

MedUX monitoriza los servicios más utilizados por la sociedad digital, incluida la navegación web, YouTube, Dropbox y muchas otras aplicaciones OTT, como WhatsApp o Facebook. Además, las capacidades analíticas del Ecosistema MedUX permiten localizar y resolver incidentes que afectan a la calidad del servicio y a la experiencia del cliente.

En MedUX, siempre trabajamos para mejorar el rendimiento de la red, midiendo la experiencia del cliente y ofreciendo soluciones innovadoras para respaldar a la industria de las telecomunicaciones.

¡No te pierdas nuestros próximos informes y artículos! Puedes ponerte en contacto con nosotros en hello@medux.com si necesitas más información.

¡Suscríbete a nuestra newsletter y recibe nuestros artículos del blog y mucho más!

SUSCRÍBETE

 

Share it

Tagged with:

POSTS RELACIONADOS:

Service Outages

Análisis del impacto del COVID-19 en España


Autor: MedUX

This post is also available in: EN (EN) Análisis del impacto del COVID-19: Degradación del servicio de Internet en España

¿Necesitas información relacionada con la Calidad y la Experiencia del cliente? ¡Estamos aquí para ayudarte!