


Tencent acaba de lanzar un nuevo modelo del capaz de generar imágenes a partir de un mensaje de texto. Tradicionalmente, los modelos propietarios han dominado este tipo de tarea creativa, pero el modelo Tencent ha dado la sorpresa y, según varios puntos de referencia, puede generar imágenes mejor que el resto de los competidores, incluidos los de Google y OpenAI.
Imagen de Hunyuan 3.0. Este es el nombre del nuevo modelo Tencent, que en el Clasificación de Lmarena De los modelos más poderosos para la generación de imágenes del texto, ha logrado superar la vista previa de la imagen Flash Gemini 2.5 (popularmente conocida como nano plátano), además de otros modelos patentados como GPT-Image-1, Flux-1-Kontext-Max o QWen-iMage.
Voto ciego. Esta clasificación de LM Arena funciona a través de un sistema de votación ciego en el que los usuarios eligen sus imágenes favoritas sin saber qué modelo las generó. Y según este voto, este modelo de Tencent superó a todos sus oponentes, incluido el popular «nano plátano» de Google. Por supuesto: el voto también tiene en cuenta los resultados a largo plazo, y el corto período que ha estado disponible Hunyuan Image 3.0 hace que los resultados califiquen como «preliminares» y no definitivos.
Cómo funciona. Los responsables de Tencent explicar en la descripción del modelo Cómo han usado una nueva arquitectura de difusión que utiliza codificadores duales (una LLM multimodal y otra que comprende mejor los caracteres en diferentes idiomas) y la optimización de RLHF (refuerzo de aprendizaje de la retroalimentación humana, que refina el resultado anterior) para la creación de imágenes de mayor calidad. El sistema utiliza además de un sistema de compresión para que todo el proceso consuma menos recursos sin pérdida de calidad.
Pesos abiertos y licencia comercial. Hunyuan Image 3.0 es un modelo que comparte Tu código en GitHub Y que ofrecen Una licencia Sorprendentemente permisivo. De hecho, es posible usarlo con fines comerciales y profesionales.
El precio no es del todo económico. Aunque el modelo se puede probar de forma gratuita en el Sitio web del proyectoEn nuestras pruebas solo pudimos crear una imagen (10 créditos). La plataforma le permite comprar créditos mensuales: $ 8 por mes Permitir Comprar 500 créditosque a priori nos permitiría crear 50 imágenes de 10 créditos cada una. Cada uno iría a $ 0.16, cuando Nano Banana Tiene un costo de $ 0.039, cuatro veces más bajo. Hay otras opciones para probarlo, como Abrazando la cara «espacios». También es posible obtener una clave API En Tencent Cloud Para usar el localmente.
Gemini continúa ganando como «editor». Aunque el modelo Tencent es interesante y notable, Nano Banana continúa ganando el juego si consideramos que se ha convertido en un sustituto único para el Photoshop tradicional. Muchos usuarios ya no editan fotos, sino que llevan una en Géminis y luego le dicen a la IA qué cambios quieren hacer en esa imagen.
Alibaba, más conversacional. Aunque Hunyuan Image 3.0 puede permitir algo así, de hecho Hay demostraciones En este sentido, la interfaz ahora está más dirigida a un solo mensaje para generar imágenes, no a una «conversación» como lo permite Gemini. Otro de los protagonistas de esta tierra es Alibaba, quien con el editor Qwen-Image adopta el mismo enfoque que Google con Gemini y Nano-Banana. En ese modelo de Alibaba «hablas» con tu imagen para pedir cambios, algo que en este momento no parece que el modelo Tencent lo haga directamente (aunque no le parece difícil obtenerlo).
Pero ten cuidado. El diferencial aquí es que la generación de imágenes, que parecía estar dominada por modelos patentados, puede ser aparentemente igualmente buena (o incluso superior) a través de modelos abiertos. Una vez más, el compromiso chino con esa filosofía es notable y contrasta con el enfoque cerrado y el propietario de la mayoría de las empresas estadounidenses que desarrollan modelos de IA tanto para generar imágenes como texto (o, por supuesto, video).
Imagen | Hunyuan
En | En China no se ajustan a crear robots avanzados: una empresa ha desarrollado una cabeza que hace un gesto como un humano