📌 El chino Z-Image destrona a Flux del trono de señor del arte-II, y tu humilde ordenador puede con él.
El último modelo de Z-Image funciona con 6 GB de memoria de vídeo, un hardware inalcanzable para Flux2.
Z-Image ya cuenta con 200 recursos de la comunidad y más de mil apoyos, frente a los 157 de Flux2.
Está reconocido como el mejor modelo de código abierto disponible en la actualidad. La semana pasada salió al mercado Z-Image Turbo, de Alibaba Tongyi Lab, un modelo de generación de imágenes con 6.000 millones de parámetros, con una promesa sencilla: calidad avanzada en un hardware que realmente posees.
Esa promesa se hizo realidad. Pocos días después del lanzamiento, los desarrolladores empezaron a lanzar LoRA -adaptaciones personalizadas y preajustadas- a un ritmo que ya superaba al de Flux2, el esperado sucesor del popularísimo modelo Flux de Black Forest Labs.
El punto clave de Z-Image es el rendimiento. Mientras que competidores como Flux2 requieren un mínimo de 24 GB de memoria de vídeo (y hasta 90 GB para la versión completa), Z-Image se ejecuta con ajustes de cuantificación en sólo 6 GB.
Esto es nivel RTX 2060 – esencialmente tecnología 2019. Dependiendo de la resolución, los usuarios pueden crear imágenes en tan solo 30 segundos.
Para los entusiastas y creadores independientes, es un gran avance.
la comunidad de IA se apresuró a elogiar el modelo.
Esto es lo que debería haber sido SD3, comentó Saruhey en CivitAI, el mayor repositorio mundial de herramientas de IA de código abierto. “El rápido perfeccionamiento es bastante hábil…. Un modelo que puede manipular texto inmediatamente es una novedad. Esta cosa tiene la potencia de Flux, si no más: es auténtica magia. Los chinos van muy por delante en el juego de la IA”.
Z-Image Turbo está disponible en Civitai desde el pasado jueves y ya ha cosechado más de 1.200 críticas positivas. En comparación, Flux2, lanzado unos días antes que Z-Image, ha recibido 157 aprobaciones.
El modelo está completamente desarrollado sin restricciones de contenido desde cero. Celebridades, personajes de ficción y, por supuesto, contenido explícito están disponibles.
A día de hoy, sólo Civitai tiene casi 200 materiales (pre-entrenamiento, LoRA, flujos de trabajo) para este modelo, muchos de los cuales están etiquetados NSFW.
En Reddit, el usuario Regular-Forever5876 puso a prueba los límites del modelo con peticiones de automutilación y quedó asombrado:
Esta cosa entiende lo que es la violencia natural. La genera a la perfección, escribió.
El secreto técnico de Z-Image Turbo reside en su arquitectura S3-DiT, un transformador de una sola pasada que procesa los datos textuales y visuales juntos desde el principio, en lugar de fusionarlos después. Esta estrecha fusión, combinada con eficaces técnicas de destilación, permite al modelo alcanzar la alta calidad que suelen exigir modelos cinco veces mayores que él.
Un programa de generación de imágenes menos conocido, Reve Image 1.0, aspira a hacerse un hueco en el sector de la conversión de texto en imágenes, con el potencial de superar a herramientas tan conocidas como Midjourney, Flux e Ideogram. Reve Image 1.0, cuyo nombre en clave es Halfmoon, funciona con un sistema basado en créditos. Tras registrarse, los usuarios obtienen 100 créditos gratuitos para probar el servicio, y se pueden adquirir créditos adicionales por 5 dólares cada 500 generaciones, lo que resulta bastante asequible comparado con opciones como MidJourney o Ideogram, que cuestan a partir de 8 dólares al mes y…