Treo Blog

En este espacio puedes explorar las últimas tendencias y noticias en tecnología, seguridad informática e infraestructura TI.

  • Jonathan Rodriguez Paipa

Automatización del procesamiento de datos de ingesta con canalizaciones de datos

Por: Uday Boppana



Crédito: Pexels

Con la cantidad de datos que hoy en día crece cada vez más rápido, desde fuentes que van desde el borde del dispositivo hasta las instalaciones externas y las nubes públicas y privadas, las organizaciones de alguna manera deben seguir el ritmo de ese crecimiento a medida que completan sus viajes de transformación digital.


Uno de los desafíos es tener la cantidad y calidad de datos adecuadas, y en el momento adecuado. Con datos actualizados y relevantes, las empresas pueden aprender rápidamente y adaptarse al comportamiento cambiante de los clientes. Sin embargo, administrar grandes cantidades de ingesta de datos y preparar esos datos para que estén listos lo más rápido posible, preferiblemente en tiempo real, para análisis e IA / ML, es un desafío extremadamente difícil para los ingenieros de datos de hoy.


Trazando el curso


Una canalización de datos que automatiza el flujo de trabajo de la ingestión, preparación y gestión de datos y comparte datos de forma segura con otras entidades hace que la avalancha de datos sea manejable. Con la cartera de productos de Red Hat, las empresas pueden crear canalizaciones de datos para implementaciones de nube híbrida que automatizan el procesamiento de datos en la ingesta.


La combinación de Red Hat OpenShift Data Foundation (anteriormente Red Hat OpenShift Container Storage), Red Hat Ceph Storage , Red Hat OpenShift (que incorpora OpenShift Serverless ) y Red Hat AMQ ofrece una base poderosa sobre la cual construir canalizaciones de datos que pueden escalar para cumplir necesidades de ingesta de datos y procesa automáticamente los datos entrantes según las necesidades de la organización.


Siguiendo un plan que aprovecha las funciones definidas por el usuario para realizar operaciones como la anonimización de datos, el etiquetado y el enriquecimiento de metadatos, esta canalización de ingesta de datos puede servir a múltiples industrias y verticales.


Un centro de salud , por ejemplo, puede querer procesar imágenes automáticamente, anonimizar datos y proporcionar material oportuno para que los investigadores puedan mejorar los procesos o incluso acelerar las curas. Es posible que las instituciones bancarias deseen acelerar los pagos o utilizar la detección de fraudes para brindar un mejor servicio a sus clientes. Los proveedores de seguros, por su parte, pueden automatizar sus flujos de trabajo para acelerar los ajustes de reclamaciones. Los eventos se pueden automatizar a partir de datos de sensores para alertar a los equipos para que realicen un mantenimiento preventivo. ¡La lista continua!


Solidificando el plan


Para lograr objetivos como estos, Red Hat utiliza una combinación de notificaciones de depósito de objetos S3 automatizadas, una función de la puerta de enlace Ceph RADOS (RGW) en OpenShift Data Foundation y Red Hat Ceph Storage, servicios de transmisión de datos disponibles en Red Hat AMQ y sin servidor. capacidades en Red Hat OpenShift.


Tan pronto como se ingieren los datos, RGW envía una notificación de depósito a Red Hat AMQ, que crea un tema de Apache Kafka que, a su vez, envía la notificación a OpenShift Serverless. A continuación, OpenShift Serverless invoca la función asignada para procesar y aplicar cualquier transformación en los datos entrantes.


Este proceso se puede escalar para operar en múltiples flujos de datos entrantes, y cada flujo invoca una función sin servidor diferente. Una vez que se procesan los datos, se almacenan en un lago de datos donde los ingenieros de datos y los científicos de datos pueden acceder a ellos.



Cosechando los beneficios


Base para rastrear el ciclo de vida de los datos


La capacidad de procesar datos en la ingesta, en tiempo real, es similar a colocar un rastreador GPS virtual en los datos en su punto de entrada al sistema de almacenamiento y gestión de datos. Puede incrustar etiquetas sobre la fuente de los datos y cualquier información específica de la fuente y del tiempo en tiempo real. Esto genera información valiosa que puede utilizar más adelante para mejorar la gestión de datos y procesos de aprendizaje automático como clasificación de datos, ingeniería de características y catalogación. También puede mejorar la visibilidad del linaje y la procedencia de los datos a medida que los datos se mueven por su ciclo de vida.


Nube nativo e integrado


La forma nativa de la nube de crear canalizaciones de datos implica la integración de componentes, como OpenShift Data Foundation, Red Hat OpenShift Serverless y Red Hat AMQ, para que cada uno realice operaciones específicas.


La arquitectura resultante automatiza la ingesta de procesamiento de datos, proporcionando herramientas estandarizadas para los flujos de trabajo operativos, como la gestión del ciclo de vida de los contenedores, la gestión de registros y la resolución de problemas. Al hacerlo, el enfoque nativo de la nube evita que los adoptantes tengan que crear soluciones y procesos de flujo de trabajo desarticulados que son complejos y requieren mucho tiempo de administrar.


Escalable y flexible


Cada componente de la arquitectura de las canalizaciones de datos se puede personalizar y escalar de forma independiente según las necesidades administrativas y del usuario. Los servicios de Knative, por ejemplo, se pueden personalizar para adaptarse al conjunto de datos y a los procesos, requisitos y objetivos de la organización. La configuración de almacenamiento para los datos de origen y destino se puede definir de manera similar. El marco resultante es una solución altamente escalable y personalizable que se puede adaptar a las necesidades y políticas individuales y organizacionales.


Rápido y en tiempo real


Como se mencionó, una vez que se configura una canalización de datos de ingesta, los datos se pueden procesar en tiempo real a medida que se ingieren. Esto acelera significativamente el proceso de poner los conjuntos de datos a disposición de los científicos de datos, proporcionando datos actualizados a partir de los cuales entrenar modelos. Los productos finales son modelos inteligentes que están actualizados con las tendencias que se observan en los nuevos conjuntos de datos.


Extensible


Automatizar las canalizaciones de datos de esta manera puede extenderse a otras áreas de la gestión del ciclo de vida de los datos, como catalogación de datos, registro de auditoría, etc., utilizando los mismos componentes básicos de notificaciones de depósito de objetos, OpenShift Serverless y Red Hat AMQ. La extensibilidad de esta arquitectura de solución ayuda a las organizaciones a agregar funcionalidad y automatización a sus procesos de ciclo de vida de datos sin tener que rediseñar o reescribir sus soluciones existentes.


Procesamiento de datos en tiempo real para la movilidad de datos de borde a núcleo


La ingesta masiva de datos en paralelo desde dispositivos periféricos desafía aún más la capacidad de administrar y utilizar todos los datos sin procesar de manera oportuna. A medida que los datos se mueven desde el borde de la red hasta el centro de datos empresarial, abundan las oportunidades para actuar sobre esos datos.


Esta canalización de datos puede ayudar a las empresas a crear soluciones escalables y automatizadas que apliquen transformaciones y manipulación de datos lo más cerca posible de la creación de datos, así como en diferentes puntos al mover datos al centro de datos central. Con este enfoque, las empresas pueden optimizar las notificaciones, aplicar transformaciones personalizadas como el anonimato de datos y eliminar o enmascarar información confidencial antes de mover sus datos a un almacén de datos central y ponerlos a disposición de los científicos de datos y los ingenieros de datos para su análisis.


Una vez configurada, la solución es más fácil de mantener, porque está completamente automatizada y se escala a medida que crece la cantidad de datos ingeridos, fuentes de datos y necesidades comerciales.


Eficiencia incrementada


La automatización de la canalización de datos de ingesta que se describe aquí permite a los ingenieros de datos codificar y realizar automáticamente muchas de las operaciones diarias necesarias para preparar los datos para su uso en ML. Una vez que la canalización está configurada, se puede escalar para adaptarse a grandes y variadas cantidades de datos entrantes, lo que libera a los ingenieros de datos y científicos de datos, que de otro modo tendrían que administrar, analizar y procesar manualmente los datos entrantes, para centrarse en otros -valuar actividades en la organización.


Conclusión


A medida que las organizaciones acumulan más y más datos desde los dispositivos periféricos y las instalaciones del usuario final hasta el perímetro empresarial y los entornos híbridos y multinube, un desafío creciente es cómo ingerir y preparar todos esos datos en un flujo continuo para que sean útiles y oportunos.


Una canalización de datos que puede ingerir, preparar y administrar datos desde su inicio en un viaje de flujo de trabajo automatizado, preparando e incluso transformando automáticamente los datos y compartiéndolos de manera más segura con otras entidades, no solo hace que la avalancha constante de datos sea manejable, sino que los hace utilizables. casi en tiempo real.


Con servicios de datos y aplicaciones proporcionados por herramientas como Red Hat Ceph Storage, Red Hat AMQ y Red Hat OpenShift, las organizaciones pueden aprovechar el valor de sus datos con un procesamiento de datos casi en tiempo real y actuar sobre los datos desde su inicio.


Las canalizaciones de datos automatizadas desacoplan los desencadenantes de eventos de los procesos para que esos procesos puedan evolucionar con los requisitos. Además, debido a que los eventos generan procesos de aplicación según sea necesario, no es necesario predecir las cargas de trabajo. El procesamiento se realiza a pedido y los recursos se escalan automáticamente.


Lea más sobre la automatización de canalizaciones de datos en este artículo de Toolbox , consulte esta entrevista informativa en RTInsights y obtenga más información sobre las soluciones de Red Hat en esta descripción general técnica.


Fuente: Blog de Red Hat

3 vistas0 comentarios