La startup de IA Stability AI presenta su último modelo de IA generativa de imágenes, Stable Diffusion XL 1.0.
A mediados de julio, Stability AI anunció el lanzamiento de Stable Diffusion XL 1.0. Esta IA es un modelo de texto a imagen que la compañía describe como su versión “más avanzada” hasta la fecha. Está disponible en código abierto en GitHub además de la API de Stability y las aplicaciones de consumo, ClipDrop y DreamStudio. Stable Diffusion XL 1.0 ofrece colores “más vibrantes” y “precisos” y mejor contraste, sombras e iluminación en comparación con su predecesor.
En una entrevista, Joe Penna, jefe de aprendizaje automático aplicado de Stability AI, señaló que Stable Diffusion XL 1.0, puede producir imágenes de resolución completa de 1 megapíxel “en segundos” en múltiples relaciones de aspecto. El modelo contiene 3.500 millones de parámetros. Los “parámetros” son las partes de un modelo aprendidas a partir de datos de entrenamiento. Estos definen la habilidad del modelo en un problema, en este caso generando imágenes.
Mejoras técnicas
Stable Diffusion XL 1.0 se ha mejorado en el área de generación de texto. Si bien muchos de los mejores modelos de texto a imagen luchan por generar imágenes con logotipos legibles, Stable Diffusion XL 1.0 es capaz de generar texto y legibilidad “avanzadas”, dice Penna.
Y, según lo informado por SiliconAngle y VentureBeat, Stable Diffusion XL 1.0 admite la pintura interior (reconstrucción de partes faltantes de una imagen), la pintura exterior (ampliación de imágenes existentes) y las indicaciones de “imagen a imagen”, lo que significa que los usuarios pueden ingresar una imagen y crear variaciones más detalladas de esa imagen.
Además, el modelo comprende instrucciones complicadas de varias partes dadas en indicaciones breves, mientras que los modelos anteriores de difusión estable necesitaban indicaciones de texto más largas.
Cuestiones morales
La versión de código abierto de Stable Diffusion XL 1.0 puede, en teoría, ser utilizada por malos actores para generar contenido tóxico o dañino, como falsificaciones profundas (deepfakes) no consentidas. Eso es parcialmente un reflejo de los datos que se usaron para entrenar el sistema: millones de imágenes de toda la web.
Innumerables tutoriales demuestran cómo usar las propias herramientas de Stability AI, incluido DreamStudio, un front-end de código abierto para Stable Diffusion, para crear deepfakes. Muchos otros muestran cómo ajustar los modelos básicos de difusión estable para generar pornografía.
Penna no niega que el abuso sea posible, y reconoce que el modelo también contiene ciertos sesgos. Pero agregó que Stability AI tomó “medidas adicionales” para mitigar la generación de contenido dañino al filtrar los datos de entrenamiento del modelo en busca de imágenes “inseguras”, publicar nuevas advertencias relacionadas con avisos problemáticos y bloquear tantos términos problemáticos individuales en la herramienta como sea posible.
Exclusión voluntaria
El conjunto de entrenamiento de Stable Diffusion XL 1.0 también incluye obras de arte de artistas que han protestado contra compañías como Stability AI que usan su trabajo como datos de entrenamiento para modelos generativos de IA. Stability AI afirma que está protegido de la responsabilidad legal por la doctrina del uso justo, al menos en los EE. UU.
Stability AI, que tiene una asociación con la startup Spawning para respetar las solicitudes de “exclusión voluntaria” de estos artistas, dice que no ha eliminado todas las obras de arte marcadas de sus conjuntos de datos de entrenamiento, pero que “sigue incorporando las solicitudes de los artistas”.
“Estamos mejorando constantemente la funcionalidad de seguridad de Stable Diffusion y nos tomamos en serio la iteración de estas medidas”, dijo Penna. “Además, nos comprometemos a respetar las solicitudes de los artistas de ser eliminados de los conjuntos de datos de entrenamiento”.