Elegir una herramienta de monitorización no es tarea sencilla. Seguramente vaya a implicar a muchas áreas que quizá tengan que cambiar su forma de trabajar, de ver la información y hasta de comunicarse. Por eso es especialmente importante tener claro cómo funciona internamente la herramienta que se vaya a elegir.
Desde WOCU nos hemos propuesto ser lo más transparente posible para que cualquier persona interesada en conocer nuestra solución sepa cómo trabajamos.
Pero primero vamos a empezar por algunos conceptos básicos.
En nuestro caso, la monitorización más habitual que llevamos a cabo con WOCU es la de las interfaces de equipos de red vía SNMP.
El comportamiento de la red viene de la mano de unos cuantos factores clave: ancho de banda (bandwidth), rendimiento (throughput), latencia (latency), errores (errors) y jitter.
Esto es a lo que nos referimos cuando usamos los siguientes términos:
1.- Ancho de Banda
Ancho de Banda es la cantidad máxima teórica de información que puede enviarse a través de una conexión. Normalmente se expresa en bits por segundo, usualmente en Megabits por segundo (Mbps) o Gigabits por segundo (Gbps) - no confundir con Megabytes por segundo (Mbps) o Gigabytes por segundo (Gbps).
Es fácil convertir bps a Bps dividiendo el número por ocho, o por Bps a bps multiplicando por ocho.
2.- Rendimiento
El Rendimiento es el número de mensajes que fueron recibidos de manera exitosa, por unidad de tiempo, también expresado en bits por segundo. A causa del overhead de los protocolos de transporte usados, el rendimiento será siempre menos que el ancho de banda del enlace.
Por ejemplo, tomemos un enlace Ethernet estándar con una MTU de 1500 bytes. El uso máximo de un flujo TCP está limitado al 95% del ancho de bando debido al overhead de las encapsulaciones Ethernet, IP y TCP. Cuanta más encapsulación añadas (x ej. MPLS) menos eficiencia tendrás. Si sólo llegas al 60%, seguramente es que hay algún problema …
Monitorizar el rendimiento de un enlace es importante para asegurarte de que estás sacándole todo el partido posible. Lo que hacemos en WOCU es recolectar los octetos via IF-MIB y compararlos con la velocidad de ese enlace. Esto nos proporciona el rendimiento en ese momento en particular.
Si sospechas que deberías tener un rendimiento mayor del que tienes, puedes comprobar la existencia de errores: los descartes y la saturación pueden indicar un enlace de red sobrecargado, mientras que las colisiones indican configuración errónea en la velocidad de los enlaces. Claro que los problemas físicos también pueden impactar en el performance, así que asegúrate que también estás monitorizando eso.
Así pues, para monitorizar el rendimiento, usamos los contadores SNMP, ya que al utilizar este método, el propio contador ya tiene en cuenta cualquier overhead.
3.- Latencia
La latencia es el tiempo que le lleva a un paquete hacer el camino a través de un enlace de red. Cuanto más bajo, mejor, claro, pero tenemos que tener en cuenta las limitaciones físicas de la velocidad a la que puede viajar la electricidad (o de la luz en el caso de los cables de fibra óptima).
La latencia puede tener un gran impacto en la experiencia de usuario en algunas aplicaciones que no sean tolerantes a altas tasas de latencia.
4.- Errores
Los errores incluyen métricas como errores Rx/Tx, descartes, errores CRC, saturación, errores de carriers, reseteos y colisiones. Lo mejor es consultar la documentación de cada dispositivo de red para ver cómo se exponen estás métricas (algunos fabricantes no las proporcionan).
Normalmente los errores Rx/Tx se exponen en la tabla IF-MIB, pero dependiendo de la implementación del agente, puede incluir otras métricas de error o puede que no. Lo más habitual es que los errores Rx/Tx sean una agregación de métricas de error y por ello no sean del todo fiables para determinar qué está fallando. Los contadores de error más específicos sí que son bastante más útiles para diagnosticar y alertar sobre problemas en la red.
Lo que se monitoriza de forma más habitual son los problemas físicos: interferencias eléctricas y cables o transceivers en mal estado que pueden degradar el performance de la red rápidamente. Esto lo puedes ver monitorizando los errores CRC y de carrier, si se trata de una conexión de fibra, tendrás que tener en cuenta los niveles de luz.
5.- Jitter
El Jitter es la desviación de una métrica de su medida normal. En redes, el jitter se aplica normalmente a medidas de latencia. Por ejemplo, si la latencia va de 1ms a 150ms y a 30ms, esto podría ser un ejemplo de jitter alto, mientras que una latencia contínua de 3ms no tendría jitter. El jitter es importante sobre todo en infraestructuras para voz y audio, ya que hace que los streams que pasan a través se vean y suenen con interferencias. Puedes prestar atención a la latencia de jitter si monitorizas la latencia y observas inconsistencias.
En resumen, una buena forma de explicar la relación entre estas métricas sería la siguiente:
Si aumentamos el número de carriles aumenta el ancho de banda, pero no tiene porque aumentar el rendimiento (puede haber un accidente en la autopista).
Si la carretera está siempre llena, si tardamos mucho tiempo en llegar del punto A al punto B o si hay errores (retrasos, accidentes), puedes intentar solucionar esto añadiendo otro carril, pero hay una limitación clara: sólo puedes hacer la carretera tan grande como espacio tengas, sin mencionar el coste.
A veces no hay errores y todo el tráfico se mueve de forma natural. En ese caso tienes una utilización perfecta :)
Esperamos que os haya quedado más claro todos estos términos que manejamos cuando hablamos de monitorizar la salud de una red.
También te puede interesar:
Artículo 1: Monitorización de redes con WOCU.
Artículo 2: SNMP Counters Questions.
Artículo 2: WOCU, una herramienta para monitorizarlos a todos.
¿Quieres usar una única herramienta de Monitorización de Infraestructuras IP?
WOCU te permitirá dar servicio a cientos de clientes y monitorizar miles de dispositivos de forma centralizada. Solicita una Demo Personalizada.