Treo Blog

En este espacio puedes explorar las últimas tendencias y noticias en tecnología, seguridad informática e infraestructura TI.

  • Jonathan Rodriguez Paipa

Cómo acelerar la formación de modelos de aprendizaje profundo en el sector de la automoción

Por: Verron Martina



Crédito: Pexels

Habilitación de la detección de carriles a escala con NetApp, Run: AI y Microsoft Azure


Los líderes automotrices de hoy están invirtiendo fuertemente en aplicaciones de software basadas en datos para promover las innovaciones más importantes en vehículos autónomos y conectados, movilidad y fabricación. Estas nuevas aplicaciones requieren una solución de orquestación y un sistema de archivos compartidos para que sus conjuntos de datos masivos ejecuten entrenamiento distribuido de modelos de aprendizaje profundo en GPU. El fascinante proceso para entrenar modelos de IA en la industria automotriz involucra muchas, muchas imágenes utilizadas en una matriz 3D formada a partir de imágenes en color 2D. Estas imágenes se analizan a nivel de píxeles y colores (RGB) para detectar varios objetos, como peatones, otros automóviles y semáforos.


Las GPU deben mantenerse en un alto nivel de utilización para reducir los tiempos de capacitación, permitir una experimentación rápida y minimizar el costo de uso. Además, un sistema de archivos de alto rendimiento y fácil de usar que evite que las GPU esperen datos (“falta de GPU”) es imprescindible para acelerar el entrenamiento de modelos en la nube y optimizar los costos.


Ejecutar: AI, Microsoft y NetApp se han unido para abordar un caso de uso de detección de carriles mediante la creación de una solución de aprendizaje profundo de capacitación distribuida a escala que se ejecuta en la nube de Azure. Esta solución permite a los científicos de datos adoptar por completo las capacidades de escalamiento de la nube de Azure y los beneficios de costos para casos de uso automotrices.


Cómo configuramos nuestro entrenamiento de modelos de aprendizaje profundo


Estas son las herramientas que usamos y cómo las usamos:

  • Azure NetApp archivos proporcionado de alto rendimiento, baja latencia, almacenamiento escalable a través de NetApp ® Snapshot ™ copias, la clonación, y la replicación.

  • Azure Kubernetes Service (AKS) simplificó la implementación y la orquestación de un clúster de Kubernetes administrado en Azure.

  • SKU de procesamiento de Azure con GPU. Estas son máquinas virtuales especializadas disponibles con una o varias GPU.

  • Ejecutar: AI habilitó la agrupación de GPU en dos entornos lógicos: uno para compilación y otro para entrenamiento de cargas de trabajo. Un programador administra las solicitudes de procesamiento que provienen de los científicos de datos, lo que permite el escalado elástico desde fracciones de GPU a múltiples GPU y múltiples nodos de GPU. La plataforma Run: AI está construida sobre Kubernetes, lo que permite una integración simple con los flujos de trabajo de ciencia de datos y TI existentes.

  • NetApp Trident se integra de forma nativa con AKS y su marco de volumen persistente y se utilizó para aprovisionar y administrar volúmenes de sistemas que se ejecutan en Azure NetApp Files sin problemas.

  • Finalmente, hicimos el control de versiones de aprendizaje automático (ML) mediante el uso de la tecnología Azure NetApp Files Snapshot combinada con Run: AI . Esta combinación conservó el linaje de los datos y permitió a los científicos e ingenieros de datos colaborar y compartir datos con sus colegas.

Lo que encontramos


Al trabajar con la tecnología Run: AI, Azure y NetApp, habilitamos cálculos distribuidos en la nube, creando un sistema de entrenamiento distribuido de alto rendimiento. El sistema funcionaba con decenas de GPU que se comunicaban simultáneamente en una arquitectura de malla. Y, para optimizar el costo, pudimos mantenerlos completamente ocupados con una utilización del 95% al ​​100%.


Pudimos saturar la utilización de la GPU y mantener los ciclos de la GPU lo más cortos posible

(Este es uno de los componentes de mayor costo de la arquitectura). Azure NetApp Files proporciona varios niveles de rendimiento que garantizan un rendimiento sostenido con una latencia de menos de milisegundos. Comenzamos nuestro trabajo de capacitación distribuida en un pequeño clúster de GPU. Posteriormente, agregamos GPU al clúster a pedido sin interrumpir el entrenamiento, mediante el uso de las capacidades de cambio de nivel de servicio dinámico del software Run: AI para proporcionar una utilización óptima de la GPU.


Diferentes equipos de ciencia de datos e ingeniería de datos pudieron usar el mismo conjunto de datos para diferentes proyectos . Un equipo pudo trabajar en la detección de carriles, mientras que otro equipo trabajó en una tarea de detección de objetos diferente utilizando el mismo conjunto de datos. Los investigadores e ingenieros pudieron asignar volúmenes a pedido.


Tuvimos una visibilidad completa de la infraestructura de IA. Con Run: la plataforma de AI, tuvimos una visibilidad completa de la infraestructura de AI, incluidas todas las GPU agrupadas, a nivel de trabajo, proyecto, clúster y nodo.


¿Quiere empezar?


En este caso de uso, detección de carriles para vehículos autónomos, pudimos usar NetApp, Run: AI y Azure para crear una experiencia única y unificada para acelerar el entrenamiento de modelos en la nube, reduciendo así los costos y mejorando los tiempos de entrenamiento y simplificando los procesos de datos. científicos e ingenieros. Los detalles están disponibles en este informe técnico y se aplican a la capacitación de modelos en todas las industrias y verticales.


Fuente: Blog de NetApp.

2 vistas0 comentarios