Treo Blog

En este espacio puedes explorar las últimas tendencias y noticias en tecnología, seguridad informática e infraestructura TI.

  • Jonathan Rodriguez Paipa

Automatización del procesamiento de datos de ingesta con canalizaciones de datos

Por: Uday Boppana



Crédito: Pexels

Con la cantidad de datos que hoy en día crece cada vez más rápido, desde fuentes que van desde el borde del dispositivo hasta las instalaciones externas y las nubes públicas y privadas, las organizaciones de alguna manera deben seguir el ritmo de ese crecimiento a medida que completan sus viajes de transformación digital.


Uno de los desafíos es tener la cantidad y calidad de datos adecuadas, y en el momento adecuado. Con datos actualizados y relevantes, las empresas pueden aprender rápidamente y adaptarse al comportamiento cambiante de los clientes. Sin embargo, administrar grandes cantidades de ingesta de datos y preparar esos datos para que estén listos lo más rápido posible, preferiblemente en tiempo real, para análisis e IA / ML, es un desafío extremadamente difícil para los ingenieros de datos de hoy.


Trazando el curso


Una canalización de datos que automatiza el flujo de trabajo de la ingestión, preparación y gestión de datos y comparte datos de forma segura con otras entidades hace que la avalancha de datos sea manejable. Con la cartera de productos de Red Hat, las empresas pueden crear canalizaciones de datos para implementaciones de nube híbrida que automatizan el procesamiento de datos en la ingesta.


La combinación de Red Hat OpenShift Data Foundation (anteriormente Red Hat OpenShift Container Storage), Red Hat Ceph Storage , Red Hat OpenShift (que incorpora OpenShift Serverless ) y Red Hat AMQ ofrece una base poderosa sobre la cual construir canalizaciones de datos que pueden escalar para cumplir necesidades de ingesta de datos y procesa automáticamente los datos entrantes según las necesidades de la organización.


Siguiendo un plan que aprovecha las funciones definidas por el usuario para realizar operaciones como la anonimización de datos, el etiquetado y el enriquecimiento de metadatos, esta canalización de ingesta de datos puede servir a múltiples industrias y verticales.


Un centro de salud , por ejemplo, puede querer procesar imágenes automáticamente, anonimizar datos y proporcionar material oportuno para que los investigadores puedan mejorar los procesos o incluso acelerar las curas. Es posible que las instituciones bancarias deseen acelerar los pagos o utilizar la detección de fraudes para brindar un mejor servicio a sus clientes. Los proveedores de seguros, por su parte, pueden automatizar sus flujos de trabajo para acelerar los ajustes de reclamaciones. Los eventos se pueden automatizar a partir de datos de sensores para alertar a los equipos para que realicen un mantenimiento preventivo. ¡La lista continua!


Solidificando el plan


Para lograr objetivos como estos, Red Hat utiliza una combinación de notificaciones de depósito de objetos S3 automatizadas, una función de la puerta de enlace Ceph RADOS (RGW) en OpenShift Data Foundation y Red Hat Ceph Storage, servicios de transmisión de datos disponibles en Red Hat AMQ y sin servidor. capacidades en Red Hat OpenShift.


Tan pronto como se ingieren los datos, RGW envía una notificación de depósito a Red Hat AMQ, que crea un tema de Apache Kafka que, a su vez, envía la notificación a OpenShift Serverless. A continuación, OpenShift Serverless invoca la función asignada para procesar y aplicar cualquier transformación en los datos entrantes.


Este proceso se puede escalar para operar en múltiples flujos de datos entrantes, y cada flujo invoca una función sin servidor diferente. Una vez que se procesan los datos, se almacenan en un lago de datos donde los ingenieros de datos y los científicos de datos pueden acceder a ellos.



Cosechando los beneficios


Base para rastrear el ciclo de vida de los datos


La capacidad de procesar datos en la ingesta, en tiempo real, es similar a colocar un rastreador GPS virtual en los datos en su punto de entrada al sistema de almacenamiento y gestión de datos. Puede incrustar etiquetas sobre la fuente de los datos y cualquier información específica de la fuente y del tiempo en tiempo real. Esto genera información valiosa que puede utilizar más adelante para mejorar la gestión de datos y procesos de aprendizaje automático como clasificación de datos, ingeniería de características y catalogación. También puede mejorar la visibilidad del linaje y la procedencia de los datos a medida que los datos se mueven por su ciclo de vida.


Nube nativo e integrado