Google afirma que su supercomputadora IA, TPU v4, es más poderosa y eficiente que nunca gracias a la tecnología y arquitectura de conmutación de circuitos ópticos.
Google hace público, a través de un white paper, el uso que hace de interruptores de circuitos ópticos en su supercomputadora IA. Además, añade que el modelo TP4 v4ofrece un rendimiento superior y más eficiente energéticamente que los procesadores de uso general.
Las unidades de procesamiento Tensor son los componentes basales de los sistemas de supercomputación IA de la empresa. Estos chips son ASIC, lo que implica que su funcionalidad está integrada a nivel de hardware.
En el mencionado white paper, Gogle explica como al interconectar más de 4000 TPU a través de la conmutación de circuitos ópticos, ha logrado multiplicar por diez la velocidad de modelos anteriores sin siquiera consumir la mitad de la energía.
Mejor performance a menor precio
La flexibilidad de la conmutación de circuitos ópticos para permitir cambios dinámicos como interconectar la topología del sistema, los 4000 TPU, ha sido el factor diferencial.
El vicepresidente de investigación de IDC, Peter Rutten, las eficiencias descritas en el documento de Google se deben en gran parte a las características inherentes del hardware que se utiliza. Así, los ASIC bien diseñados son, casi por definición, más adecuados para su tarea específica que los procesadores de uso general tratando de hacer lo mismo.
Las características arquitectónicas principales de TPU v4 tienen un costo bajo pero ventajas descomunales.
Hasta ahora el sistema descrito solamente está destinado a uso interno de Google, pero Rutten asegura que los conocimientos de la tecnología descrita podrían tener una amplia aplicabilidad para la capacitación en aprendizaje automático.
La comparación Google-Nvidia no está clara
Si bien Google también comparó el rendimiento de TPU v4 con los sistemas que utilizan las GPU A100 de Nvidia, que son componentes comunes de HPC, Rutten señaló que Nvidia ha lanzado posteriormente procesadores H100 mucho más rápidos, lo que reduce cualquier diferencia de rendimiento entre los sistemas.
Lo están comparando con una GPU de generación anterior. Pero al final en realidad no importa, porque es el proceso interno de Google para desarrollar modelos de IA y les funciona.