Treo Blog

En este espacio puedes explorar las últimas tendencias y noticias en tecnología, seguridad informática e infraestructura TI.

  • Jonathan Rodriguez Paipa

Cómo los científicos de datos de Red Hat utilizan y contribuyen a Open Data Hub

Por: Thanh Wong



Crédito: Pexels

La inteligencia artificial (IA) y el aprendizaje automático (ML) impulsan gran parte del mundo que nos rodea, desde las aplicaciones de nuestros teléfonos hasta los coches eléctricos en las carreteras. Permitir que estas cosas se ejecuten con la mayor precisión posible requiere que se recopilen y comprendan grandes cantidades de datos. A la cabeza de esa información crítica están los científicos de datos. Entonces, ¿cómo es un día de trabajo para los científicos de datos de Red Hat?


Don Chesworth, científico principal de datos, le ofrece un vistazo de su día a día en un breve video (acertadamente llamado " Un día en la vida de un científico de datos de Red Hat ") que ahora está disponible en nuestro sitio web. Isabel Zimmerman, pasante de ciencia de datos, ofrece un vistazo a algunas de las herramientas que utiliza en el trabajo en " Uso de Open Data Hub como científica de datos de Red Hat ". Cubriremos algunos de los aspectos más destacados en esta publicación.


Los científicos de datos convierten los datos en información empresarial


Ha pasado casi una década desde que Harvard Business Analytics identificó la ciencia de datos como uno de los trabajos más candentes del siglo XXI , y la tecnología que apoya a las personas en esta función ha recorrido un largo camino. Los científicos de datos no solo tenían que sentarse a la mesa con una curiosidad innata, sino que también tenían que "diseñar sus propias herramientas" para analizar los datos y visualizarlos para las partes interesadas.


En la actualidad, las herramientas disponibles en Open Data Hub y Red Hat OpenShift ayudan a los expertos en datos a concentrarse en comprender y analizar los datos en lugar de administrar la infraestructura.


Zimmerman explica que un científico de datos no es solo alguien que entrena modelos, también convierte los datos en información empresarial. "Las empresas no tienen un método único para todos los sistemas de aprendizaje automático", dice.


"Un modelo bien diseñado puede ser útil para obtener información sobre los datos, pero a menudo, para obtener valor comercial, los modelos deben implementarse como parte de una aplicación inteligente más grande que está aprendiendo constantemente de los datos y haciendo inferencias sobre flujos de datos dinámicos".


Los científicos de datos pueden encontrar una plataforma integral de un extremo a otro con Open Data Hub


Open Data Hub es una plataforma AI / ML que reúne diferentes herramientas de AI de código abierto en una instalación única. El clic de un botón inicia Red Hat OpenShift con Open Data Hub Operator ya instalado.


Dentro de la plataforma, los científicos de datos pueden crear modelos utilizando Jupyter Notebooks y seleccionar herramientas populares como Apache Spark para desarrollar modelos. Si bien el flujo de trabajo de la ciencia de datos normalmente finaliza cuando se crea y valida el modelo, sigue siendo importante supervisar el modelo para asegurarse de que se mantenga en buen estado. Prometheus, otra herramienta disponible en Open Data Hub, reenvía los datos a Grafana para que los científicos de datos puedan crear paneles para vigilar la salud y el rendimiento del modelo.


En su video, Zimmerman demuestra cómo construir, implementar y monitorear modelos ML usando Open Data Hub. Open Data Hub también puede alojar el modelo fuera de Jupyter Notebook para facilitar el acceso tanto al científico de datos como al resto del equipo, que incluirá ingenieros de software o desarrolladores frontales.


Las herramientas disponibles en Open Data Hub ayudan a los científicos de datos como Zimmerman a implementar modelos sin tener que ser un desarrollador front-end o tener que iniciar un flujo de trabajo de ciencia de datos con un modelo implementado a través del operador sólido. Desde la ingesta de datos hasta la creación, prueba y visualización de modelos, Open Data Hub facilita que los científicos de datos hagan su trabajo.


Open Data Hub también brinda a los científicos de datos la oportunidad de contribuir


Dado que la plataforma es de código abierto, cualquiera puede contribuir con código. Chesworth señala que lo emocionante de ser un científico de datos en Red Hat son "cosas como contribuir con el código en sentido ascendente y centrarse en lo híbrido y contenerizado en su código es muy recomendable".


Tiene un sistema de recomendación y contiene ese código. Es portátil y se puede ejecutar en su máquina local, en un servidor completo, en la nube y en Red Hat OpenShift. También lo ejecuta con Open Data Hub.


Su código está configurado de manera que pueda usar una CPU, una GPU o varias GPU. Chesworth notó que al contener ML y distribuir, los contenedores están diseñados para ser ágiles. Pero debido a eso, hay muy poco espacio de memoria compartida en un contenedor. "Tienes que pasar por bastantes obstáculos para aumentar el tamaño de la memoria compartida", dice.


Trabajando con el equipo de Open Data Hub, presentó mejoras para cambiar el tamaño de la memoria compartida de Red Hat OpenShift en varias GPU. Chesworth explica: "Trabajé con el equipo de Open Data Hub, y ellos contribuyeron a CRI-O e hicieron un cambio para que fuera mucho más fácil cambiar el tamaño de la memoria compartida. Ese cambio se introdujo en CRI-O 1.20, que luego en Kubernetes 1.20 ".


Como empresa de código abierto, muchos Red Hatters trabajan para respaldar y contribuir a proyectos comunitarios como Open Data Hub, que sienta las bases para nuestra plataforma interna de ciencia de datos e inteligencia artificial.


Un día en la vida y más


El tiempo es valioso para los científicos de datos. Las herramientas disponibles a través de Open Data Hub les ayudan a hacer ciencia de datos sin equilibrar también el rol de arquitecto de nube o desarrollador de front-end. Esto puede generar más tiempo para resolver las necesidades comerciales críticas.


"Open Data Hub simplifica el flujo de trabajo de aprendizaje automático de un extremo a otro y me brinda las herramientas que necesito para poner mi modelo en producción", dice Zimmerman.


Para obtener más información sobre lo que hace un científico de datos de Red Hat, lo invitamos a ver estos dos videos publicados recientemente. Desde IA / ML hasta contenedores, hay aún más por descubrir de nuestros expertos en la materia. Simplemente pase por la biblioteca de videos de Red Hat y eche un vistazo, ¡y asegúrese de suscribirse al canal de Red Hat en YouTube para obtener más información!


Fuente: Blog de Red Hat

2 vistas0 comentarios