Je sais ce que tu as fait l'été dernier.
MaisonMaison > Blog > Je sais ce que tu as fait l'été dernier.

Je sais ce que tu as fait l'été dernier.

Oct 05, 2023

Matt Barrie

Suivre

--

6

Écouter

Partager

[C'est une longue lecture, j'ai également été interviewé récemment sur cet essai sur le podcast exceptionnel Macrovoices si vous souhaitez écouter :

https://www.macrvoices.com/1230-macrvoices-390-matt-barrie-the-awesome-power-and-risk-of-artificial-intelligence

https://podcasts.apple.com/us/podcast/macro-voices/id1079172742?i=1000625553151

Retour sur mon interview : « L’un des podcasts les plus importants que j’ai entendu. » @SteveBigpond

« (Macrovoices) C'était l'un de vos meilleurs podcasts. En fait, c’est un sérieux prétendant au numéro 1. Merci." @kdogni]

Le 22 août 2022, Skynet s'est mis en ligne et a commencé à apprendre à un rythme géométrique.

Du moins, c'est ce que ressentaient, j'en suis sûr, les illustrateurs graphiques.

Ce jour-là, Stable Diffusion, un modèle d'apprentissage texte-image en profondeur, a été lancé. Comme beaucoup d’autres, je l’ai téléchargé et j’ai commencé à jouer avec.

Vous taperiez une phrase comme « un homme conduisant une moto, poursuivi par un ours ». Ce qui en est sorti, du moins pour moi, ressemblait davantage à des images cauchemardesques, artistiques mais souvent horribles, de personnes avec des parties du corps supplémentaires et des visages déformés dans des scènes oniriques. Rappelant un Picasso dessiné par Salvador Dali, la fusion des personnages et des objets était frappante, mais troublante.

Il y avait cependant quelque chose de vraiment époustouflant dans l'étrange capacité du logiciel à traduire n'importe quel concept saisi dans une illustration.

Je passais des heures à jouer avec les paramètres : les mots-clés positifs et négatifs, le nombre d'étapes à suivre dans la génération et la force de l'invite. Parfois, lors d'une relance, vous obteniez quelque chose qui vous surprendrait.

Il se passait clairement quelque chose de magique sous le capot.

En naviguant sur Internet, certaines personnes étaient devenues expertes dans la communication des incantations correctes pour produire des images cohérentes. Je coupais et collais des modificateurs comme le rendu octane, 4k, hyperréaliste et je jouais avec le nombre d'étapes de génération pour tenter de tirer quelque chose du logiciel, sans grand succès.

Il était clair que le travail des illustrateurs était sûr.

Ce qui était particulièrement nouveau avec Stable Diffusion, c'était que le code était open source. Pendant des années, j’ai entendu parler de percées secrètes dans les entrailles des grandes entreprises technologiques de la Silicon Valley, et parfois elles montraient quelque chose.

Maintenant qu’un code était disponible, l’innovation publique a explosé.

Deux mois et demi plus tard, Lensa, une application de retouche photo IA optimisée par Stable Diffusion, a lancé des « avatars magiques » qui ont pris d'assaut le monde. N'importe qui peut télécharger quelques images de lui-même et générer des avatars fous. L'application est devenue virale à mesure que les téléchargements augmentaient.

Puis Midjourney a sorti la version 4, et l’enfer s’est déchaîné.

L'étrange vallée est un terme utilisé pour décrire la relation entre l'apparence humaine d'un objet robotique où des ressemblances imparfaites provoquent des sentiments étranges ou étrangement familiers de malaise et de répulsion.

Comme Lensa, Midjourney a été formé sur l'ensemble de données LAION-5B de 5,85 milliards d'images avec des descriptions textuelles extraites d'Internet. LAION-5B était 14 fois plus grand que LAION-400M, le précédent plus grand ensemble de données librement accessible.

Quelque chose dans cette augmentation d'échelle avait permis à Midjourney de traverser bel et bien l'étrange vallée.

Ce n'est plus des images d'un cauchemar, mais tout à coup, le logiciel produit des images époustouflantes et photoréalistes de n'importe quoi.

Putain de merde.

Une course aux armements a commencé dans le domaine des outils d’illustration. Midjourney était en avance, mais l'écart se réduisait rapidement. Ce qui a fait de Midjourney l’outil de choix, c’est que les images qu’il produisait contenaient un élément magnifique et fantastique.

Le style était très similaire à celui d’un illustrateur polonais du nom de Greg Rutkowski. En effet, de nombreuses applications de conception d'IA utilisaient Greg Rutkowski comme mot-clé par défaut. Greg était très populaire auprès des geeks pour la conception artistique de Dungeons & Dragons et de Magic : The Gathering.