Tecnología

Solo tienes que decirle a esta China lo que quieres obtener – En un click

Solo tienes que decirle a esta China lo que quieres obtener

 – En un click

Hasta que no hace mucho tiempo, convertir una imagen como la de la izquierda en algo como la derecha no era del todo simple. Puede hacerlo, sí, pero para esto necesitaba un conocimiento avanzado de programas de edición de imágenes como Photoshop y, por supuesto, el tiempo. Eso es cada vez más cierto, y usar la IA generativa para transformar imágenes ya es un claro ejemplo de que esta tecnología puede hacer lo que era muy difícil antes.

Hola, Qwen-Image-editor. Este es el nombre del modelo de IA generativo Publicado por Alibaba Y eso es parte de su familia cada vez más reputada de modelos Qwen. Nos enfrentamos a un modelo específicamente capacitado para editar fotos e imágenes extremadamente simples: es suficiente para pedir un aviso.

Usar esta IA es mucho más fácil que usar Photoshop de manera tradicional, y en muchos casos los resultados son excepcionales.

Envías, la IA obedece creando. El nuevo Qwen-Image-edit está disponible para probar directamente En el sitio web de este modelo. Cuando vayamos a esa página, veremos cómo el modo «Edición de imagen» ya está precargado, y será suficiente que también podemos trabajar en esa imagen sucesivamente.

Un modelo cada vez más capaz. Este modelo es una especie de ‘bifurcación’ de Qwen-Image, el modelo fundador de 20,000 millones de parámetros (20b) que Alibaba publicó a principios de mes. Este modelo se centró en las cosas sobre cómo representar el texto en las imágenes, pero aquí la edición va más allá. El modelo está disponible en Chat de qwenpero también en Cara abrazada, Modelscope, Github y a través de la API de Nube de alibaba (El costo es de $ 0.045 por imagen, pero los primeros 100 son gratuitos).

Fuente: Alibaba Cloud.

En la nube y en local, en su PC. Aunque es muy cómodo usarlo desde la interfaz de chat Qwen, que le permite generar hasta 8 imágenes gratuitas (entrada/salida gratuita cada 12 horas, también es posible descargarla y usarla en una casa en una PC o una computadora portátil con memoria gráfica suficiente (el modelo pesa 54 GB).

El experto Simon Willinson lo ha hecho en su MacBook Pro M2 de 64 GB de memoria unificada y verificó cómo con 10 pasos de inferencia (por defecto, usa 50, pero eso lleva mucho más tiempo) Tomó 25 minutos en generar una modificación de una imagen. En Qwen Chat, que aprovecha muchos más recursos informáticos, solo tiene que esperar unos segundos para cada imagen.

Comprender la imagen antes de editarla. Una de las ventajas de QWen-Image-editor es que hace uso del llamado mecanismo de codificación doble. Este sistema consiste en analizar las imágenes de entrada con el modelo de reconocimiento visual QWEN2.5-VL para «comprender» la imagen y saber qué hay en ella y luego usar un autocodificador variable (VAE) para agregar los detalles del bloqueo (la edición). Este enfoque logra mantener la fidelidad a la modificación original solo lo que pide el usuario.

Plato con cabello, plato sin pelos. La diferencia es sutil, pero muy relevante, especialmente porque ves el resto de la imagen absolutamente intacta.

Junyang Lin, uno de los investigadores involucrados en el desarrollo de este modelo, explicado Eso permite cómo «puede eliminar un cabello de una placa» dejando el desafío de la imagen modificada de la ONU, algo que según sus palabras «es una modificación de la imagen muy delicada».

El mensaje indicó al modelo que cambió el azul solo el color de la letra «n». Entonces, el modelo analiza la imagen original, reconoce esa letra y cambia el color sin modificar el resto.

Edición semántica. Otra de las grandes características de este modelo es su capacidad para hacer una edición semántica de la imagen. Esto es: qué cambios es la estructura o el significado de una imagen. Por ejemplo, podemos aplicar el famoso efecto de imagen con Studio Ghibli u otro que transforma una foto En una escena creada con laicospero preservando la identidad de los objetos o personas de la imagen original.

Transformar cualquier imagen en otra que parece una escena de una película de LEGO también es muy simple con este modelo. Y nuevamente, el contenido original mantiene su esencia.

Transformando la realidad. Al igual que otros modelos generativos similares, la evolución sigue siendo notable. Ya vimos cómo se ha planteado el editor de magia de Google, pero Qwen-Image-Editor va un paso más para poder mantener esa fidelidad de la apariencia en la imagen original.

Por ejemplo, agregar graffiti en inglés o chino, diomas que este modelo maneja perfectamente, mientras que el resto de la imagen sigue siendo idéntico al original. La calidad y consistencia de los textos es extraordinaria. Incluso se adaptan a la ropa, incluso si tienes arrugas, de modo que el efecto de realismo es mayor, como es el caso (aunque no se da cuenta tanto) con la imagen de la imagen de Mark Zuckerberg.

Un ejemplo de una tendencia prodigiosa (e inquietante). Aquí estamos hablando solo de un modelo que edita imágenes y las transforma, algo que ya habíamos visto en el pasado, pero que con Qwen-Image-editor va más allá. La lección es en realidad más profunda: todos estos modelos logran que nos hagan vislumbrar un futuro para manejar aplicaciones complejas (como Photoshop y similares en este caso) ya no serán (así) necesarios.

¿Aprender Linux? ¿I? Excepto en casos específicos, muchas de las cosas que hicimos con estas aplicaciones se pueden hacer sin tener ninguna idea del postprocesamiento gráfico: será suficiente «hablar» con una IA para pedir lo que queremos. Y lo que es cierto para Photoshop será igualmente para herramientas y sistemas interminables: de repente aprieta al máximo de Excel o la consola Linux, por ejemplo, ya no nos hará necesario estudiarlos y usarlos durante horas (incluso si eso siempre ayuda). Ai ya lo habrá hecho.

En | China está apostando a todo frente a los Estados Unidos. Lo que no esperaba es que Huawei y Alibaba peleen entre ellos

Redacción
About Author

Redacción