Merci pour la découverte !
J’utilisais Invoke AI, très touffu et mes derniers essais se sont révélés trèèès longs.
J’ai testé Fooocus et c’est vraiment performant. En tous cas avec une Geforce 3060 avec 12Gb de VRAM dans un boitier eGPU. Les Lora et autres checkpoints sont très simples à installer à chaud, pas besoin de relancer le bouzin.
Tiens c’est intéressant l’idée de propulser un gptv2 pour ingénierer une réplique dans stable diffusion. A essayer.
J’imagine que l’intégralité des générateurs d’images vont passer par cette étape.
Sur Stable Diffusion, l’analyse de texte est à zéro. Si on lui donne un prompt compliqué du type : “un homme en vert qui tient un chien, et un homme en bleu qui saute”, il ne tient compte d’aucune relation, subordonnée, virgule. Ça traite ceci : “homme vert tenir chien homme bleu sauter” et on peut très bien se retrouver avec un seul homme à tête bleue avec un chien vert qui saute à côté".Dall-e 3 qui vient de sortir est exceptionnellement bon. Je ne sais pas comment ça marche sous le capot, mais il arrive à analyser la sémantique de manière très fine. Avec le prompt précédent, on a exactement un homme en vert qui tient le chien. Pour moi, il y a un LLM en premier…