AMD le pisa los talones a NVIDIA con sus chips de IA. Resolver un problema de software (no de hardware), clave para el 'sorpasso'
Publicado el 26/12/2024 por Diario Tecnología Artículo original
Nvidia, que es la primera víctima de la guerra comercial entre EE.UU y China, está en realidad en un gran momento. Y es que reina en el sector más en auge, el de la inteligencia artificial. NVIDIA ya reinaba en IA y hace unas semanas lograba algo más sorprendente: lanzar una que supera a GPT-4.
Nvidia es la compañía líder en hardware para IA, y sus unidades de procesamiento gráfico (GPU) son la columna vertebral de la mayoría de los sistemas avanzados de IA utilizados en la actualidad, tanto en investigaciones como en aplicaciones comerciales. A pesar de su gran éxito en el mercado de moda, no debería relajarse. Han descubierto que AMD es superior en algunos aspectos, aunque falla en algo esencial, que es el software.
Como recuerda Xataka, además de las creaciones de Nvidia, hay varias alternativas cada vez más prometedoras, y una de ellas es la que AMD plantea con sus chips MI300X. SemiAnalisys ha realizado un extenso análisis de las MI300X de AMD, frente a las H100 y H200 de NVIDIA.
Como explican, en teoría las MI300X debería tener una gran ventaja gracias a que se muestran superiores en ámbitos tan importantes como la cantidad de memoria que integran, su ancho de banda o su rendimiento en TFLOPS.
El gran problema de AMD: el software
Los expertos se pasaron cinco meses realizando análisis independientes y evaluaciones comparativas centradas en la capacitación de los MI300X, el H100 y el H200, en colaboración con NVIDIA y AMD. Y de ahí salió una descripción detallada de las numerosas evaluaciones comparativas de bajo nivel que ejecutaron.
Su principal conclusión es que: El problema de AMD no está en sus chips de IA, sino en la plataforma software que trata de sacar provecho de dichos chips.
Además, comparan el costo total de propiedad de las GPU de Nvidia y AMD y tienen en cuenta el rendimiento. En última instancia, gran parte de lo que están "haciendo es brindar abiertamente una recomendación pública integral a AMD sobre lo que deben hacer para ser competitivos y solucionar sus problemas de software después de cinco meses de enviar y eliminar errores". Según los investigadores: "No se trata solo de que se trate de un software inmaduro, sino que deben cambiar la forma en que realizan el desarrollo".
Según SemiAnalysis, "la experiencia software está plagada de errores que hacen que entrenar [modelos de IA] con AMD sea imposible". En resumen, al comparar las GPU de Nvidia con la MI300X de AMD, descubrieron que la ventaja potencial de la MI300X en el papel no se materializó debido a una falta de disponibilidad de software de lanzamiento público de AMD. "La experiencia de software de AMD está plagada de errores, lo que hace que el entrenamiento inmediato con AMD sea imposible".
AMD podría alcanzar a Nvidia
Los investigadores creen que si Lisa Su y la dirección de AMD redoblaran su inversión con un enfoque en su software, tienen la oportunidad de ser competitivos con Nvidia en materia de capacitación.
Entre los principales descubrimientos afirman en las conclusiones que, comparando en papel los FLOP/s y el ancho de banda/capacidad de HBM, "es similar a comparar cámaras examinando simplemente el recuento de megapíxeles" y que "la única forma de saber el rendimiento real es ejecutar una evaluación comparativa".
Mientras el rendimiento y la experiencia listos para usar de Nvidia son increíbles y no encontraron ningún error específico de Nvidia durante las evaluaciones comparativas, la experiencia con AMD es que es muy difícil de trabajar y puede requerir mucha paciencia y esfuerzo para avanzar hacia un estado utilizable. "En la mayoría de nuestras evaluaciones comparativas, las versiones estables públicas de AMD de AMD PyTorch aún no funcionan y necesitábamos soluciones alternativas".
Por otro lado, como recoge Xataka, el coste total de propiedad es peor. Las pruebas y benchmarks realizados mostraron cómo el lastre del software hace que el coste total de propiedad (TCO) de las MI300X sea mayor que el de NVIDIA: a una empresa le sale más barato usar chips y software de NVIDIA según la situación actual.
Por otro lado, el MI300X tiene un costo total de propiedad (TCO) menor en comparación con el H100/H200, pero el rendimiento de entrenamiento por TCO es peor en el MI300X en versiones estables públicas del software de AMD. Esto cambia si se utilizan compilaciones de desarrollo personalizadas del software de AMD.
El rendimiento del entrenamiento de AMD también se ve frenado ya que el MI300X no ofrece un rendimiento de escalamiento sólido. Esto se debe a su biblioteca de comunicación de cómputo ROCm (RCCL) más débil y al menor grado de integración vertical de AMD con el hardware de redes y conmutación en comparación con la sólida integración de Nvidia de su biblioteca de comunicaciones colectivas Nvidia (NCCL), la red InfiniBand/Spectrum-X y los conmutadores.
También es de destacar que CUDA, la plataforma software de NVIDIA, es el motor real del dominio de la firma en este ámbito.
Vía | Xataka
Imagen | Reddit
26_Dec_2024"> Bárbara Bécares .