En el contexto de la ciberseguridad, cada vez se procesan mayores volúmenes de datos de información que provienen de diferentes fuentes, llegando a ser un caos al intentar organizarlos bajo un solo prisma o una visualización de las herramientas de gestión de logs.

Para abordar este reto, existen herramientas llamadas pipelines o flujo de datos de información que, por medio de uso de filtros, permiten separar, clasificar y ordenar mejor los datos ya sea por tipo de fuente, dispositivo, cliente y un largo etcétera de posibilidades.

En este proceso, los datos pueden ser transformados y tratados de una manera personalizada y libre de cualquier tipo de software, las propias herramientas SIEM o de cualquier aplicación que tenga un modelo de datos definido.

pipeline de datos

 

Data Science pipeline vs. pipeline ETL

Aunque los términos «Data Science pipelines» y «pipelines ETL» se refieren ambos al proceso de transferencia de datos de un sistema a otro, existen diferencias clave:

  • El pipeline ETL finaliza su proceso cuando los datos se cargan en un almacén de datos (Data Warehouse) o en una base de datos. El Data Science pipeline no se detiene en esta fase e incluye pasos adicionales como la Feature Engineering o el Machine Learning.

  • Los pipelines ETL siempre implican un paso de transformación de datos (ETL significa Extract Transform Load), a diferencia de los Data Science pipelines, en los que la mayoría de los pasos se llevan a cabo con los datos en bruto.

  • Los Data Science pipelines suelen ejecutarse en tiempo real, mientras que los pipelines ETL transfieren los datos en bloques o a intervalos de tiempo regulares. 

Beneficios clave de implementar Pipelines de datos

Los beneficios principales de un pipeline de datos son:

La analítica de los datos:

Los pipelines de datos permiten que las organizaciones analicen su información al recoger los datos procedentes de múltiples fuentes y reunirlos en una sola ubicación. Lo ideal es que estos análisis se realicen en tiempo real para extraer el máximo valor de los datos.

La eliminación de los cuellos de botella:

Los pipelines de datos garantizan una circulación fluida de los datos de un lugar a otro, evitando los problemas causados por los silos de datos. Esto permite eliminar los cuellos de botella, los cuales reducen el valor de los datos o incluso los pueden deteriorar.

Mejora en la toma de decisiones empresariales:

Al permitir los análisis de datos y eliminar los cuellos de botella, los pipelines de datos permiten a las empresas utilizar sus datos rápidamente, obteniendo información clave sobre el negocio, mejorando significativamente la toma de decisiones estratégicas.

Flexibilidad:

Un concepto que debemos tener en cuenta es el modelo de datos que van a tener las herramientas, dónde desembocan los datos a través de los pipelines. Con las transformaciones ilimitadas que estas nos ofrecen, se pueden adaptar a cualquier modelo de datos de cualquier SIEM o endpoint de procesamiento que se encuentran actualmente en el mercado.

El poder ajustar los datos ingestados sin tener que variar la estructura de los mismos en el SIEM, nos permite flexibilizar al máximo a dónde los enviamos sin impactar a lo que vamos a visualizar en la herramienta.

Ahorro de costes en las licencias:

Esto es posible ya que solo vamos a procesar la información relevante para cada departamento en el momento preciso, sin tener en cuenta el resto de información que no tiene valor y va a consumir recursos preciados en cualquier organización.

Optimización de la eficiencia del SOC:

Gracias a que en los pipelines se reduce el contenido de la información y se filtra a sólamente la necesaria, logramos llevar a cabo investigaciones más ágiles, optimizando tiempo y recursos. Esto se debe a que procesan la información que queremos de entre todos los dispositivos que se monitorizan. 

Uno de los grandes problemas es realizar búsquedas enormes dentro de toda la información que se analiza por parte de los SOC, siendo poco eficiente y consumiendo tiempo valioso en detectar incidentes de seguridad o brechas en las organizaciones. 

¿Qué es un Data Engine?

Un data engine, o motor de procesamiento de datos, es el cerebro de las transformaciones que se alimenta de los pipelines de datos. Es una herramienta indispensable a la hora de orquestar, transformar y enviar toda la información que ha pasado por el proceso de modelado y adecuación hasta ajustarse a lo que se busca.

¿Cómo funcionan los data engines?

  • Administración y orquestación de los pipelines: Es capaz de llevar la administración de dónde se ingesta el dato, identificar el tipo de dato, aplicar las rutinas necesarias de transformación y entregarla a múltiples destinos.

  • Gestionan modelos de datos complejos y esquemas de modelos de datos para cada tipo de información que se procesa.

  • Enriquecen la información de diferentes fuentes para optimizar la entrega o la cantidad que llega al destino, minimizando el desperdicio de recursos.

Ventajas del uso de data engines: 

El principal beneficio de tener un data engine es poder tomar el control de todos los datos, desde un único interfaz que los ingenieros de datos podrán moldear según las necesidades o los modelos de datos existentes en los destinos.

Otro de los beneficios es simplificar la arquitectura de todo el proceso, desde la entrada del dato a su salida hacia el punto final de almacenado: SIEM, data lakes, etc. 

Mejores prácticas

A la hora de analizar, transformar o transmitir los datos que manejamos, es importante definir las siguientes características:

  • Estas herramientas, aunque son agnósticas en lo que se refiere al fabricante, es importante saber qué tipo de datos vamos a recibir.

    1. Datos estructurados
    2. Datos no estructurados

Cuando se procesa la información, los modelos de datos variarán y la toma de decisiones en la aplicación de transformaciones deberá seguir un criterio y modelo que se ajuste a las necesidades de la organización o las herramientas que posea.

  • Qué es lo que voy a necesitar: Plantear qué información posee un valor relevante a la hora de analizar y tomar decisiones basadas en la información final que se ha procesado. En el caso de una brecha de seguridad, debemos ver la importancia del punto de entrada, usuarios afectados y dónde se ha accedido.

Con esta premisa, deberemos hacer un tratamiento sólido de los dispositivos perimetrales, del gobierno de los usuarios y del estado de nuestros activos.

  • Enriquecimiento: Si la estrategia de la organización es lo suficientemente madura, se puede pensar en realizar un enriquecimiento de la información para simplificar aún más la trazabilidad de los eventos. Para este caso, como ejemplo podemos realizar un rastreo completo de la actividad de un usuario:
      1. ¿Quién es?
      2. ¿Por dónde ha pasado?
      3. ¿Dónde ha accedido?
      4. ¿Qué ha hecho?
  • Destinos: Es importante también saber cómo vamos a enviarlos a la herramienta de análisis o al data lake, ya que la visualización de la información y las capacidades de la herramienta para interpretarlos variará para datos estructurados y no estructurados.

Como ejemplo, tenemos datos en formato JSON y en formato syslog. Si nuestra herramienta es capaz de interactuar con los dos formatos, estaremos en una situación ideal. En el caso de algunas herramientas finales que solo saben interpretar datos estructurados, no podremos asignarle un flujo de datos por syslog.

Transformacion de datos

Consideraciones estratégicas para organizaciones en madurez creciente

Es recomendable actuar con cautela si se empieza a centrar la estrategia de una organización en la optimización, porque deberá tener en cuenta los siguientes factores:

  • ¿Ya estoy recibiendo toda la información que tengo en los activos de la organización? Si ya se tiene control de todo lo que hay, se puede avanzar a la siguiente fase.

  • ¿Estoy reduciendo la cantidad de información irrelevante que requiero para fortalecer mi postura de seguridad? Si es así, el siguiente paso sería asignar la información, que no es relevante en un primer momento, a un almacenamiento de larga retención.

  • ¿Estoy almacenando la información que no es relevante, pero que puede ser útil para darme contexto en caso de incidente? Es importante ajustar o asumir el riesgo de pérdida de contexto si no se ha llegado a analizar o a considerar esta parte. No es un paso obligatorio, pero sí relevante y a tener en cuenta.

  • ¿Cuál es el modelo de datos que van a ser interpretados en mis destinos? A la hora de adecuar la información es importante haber realizado y planificado el modelo de datos global que acomodará el log totalmente enriquecido, ya que todo lo que descuadre en el destino, no se visualizará correctamente e impactará muy negativamente en los controles establecidos o en las investigaciones.

Herramientas destacadas para la transformación de datos

CRIBL:

Una de las herramientas de transformación digital de datos con mejor posicionamiento es CRIBL. Es un data engine con un entorno gráfico amigable y altamente configurable. No se requiere grandes conocimientos en el campo de la ingeniería de datos, pero sí familiarizarse con los conceptos de rutas, pipelines, transformaciones y destinos.

Apache NiFi:

Es otra herramienta de enfoque gráfico, basada en la orquestación de colas kafka. En este caso y para esta herramienta si será necesario tener conocimientos y conceptos sólidos para poder realizar las transformaciones de los datos.

Para NiFi, el modelo de datos y las transformaciones se realizan en las estructuras que se configuran dentro de los ficheros de transformación y se trasladen al pool de datos de la cola kafka asignada y autorizada a los procesos que tienen permiso para comunicarse con ella.

Ciberseguridad accionable, impulsada por datos y automatización

En A3Sec entendemos que los pipelines de datos y los data engines no son solo componentes técnicos, sino habilitadores clave de una operación de ciberseguridad moderna, ágil y centrada en el negocio. Gracias a estos componentes, logramos transformar grandes volúmenes de información en decisiones rápidas, trazables y relevantes para cada entorno.

Ofrecemos servicios administrados de alto valor, respaldados por el Big Data, Inteligencia Artificial e Hiper Automatización. Nuestro modelo operativo se apoya en un equipo experto que impulsa continuamente el desarrollo de capacidades, metodologías y eficiencia, lo que nos permite acompañar a nuestros clientes en una evolución constante hacia soluciones de ciberseguridad cada vez más autónomas, inteligentes y alineadas a objetivos reales de negocio.



Blog A3Sec

 

>_

Otros Blogs

Isotipo A3Sec