Google wprowadził sieć neuronową Imagen
Miscellanea / / May 24, 2022
I robi to przynajmniej tak dobrze, jak DALL-E 2.
Google ogłoszony Imagen to sieć neuronowa, która przekształca zapytanie tekstowe w obrazy. Jest bezpośrednim konkurentem DALL-E2 z OpenAI - co w niektórych scenariuszach działa jeszcze lepiej.
Do rozpoznawania zapytania tekstowego sieć neuronowa wykorzystuje duże modele językowe – na nich bazują również algorytmy przetwarzania mowy naturalnej, takie jak GPT-3.
System działa w trzech etapach. Pierwszy z nich rysuje mały obraz 64 x 64 piksele, który jest dopracowywany, dopóki sieć neuronowa nie będzie w stanie go zmienić, aby lepiej pasował do pierwotnego żądania. Obraz jest następnie skalowany do 256 x 256 pikseli, a Imagen dopracowuje szczegóły. W trzecim etapie to samo powtarza się już z płótnem o ostatecznym rozmiarze - 1024 x 1024 piksele.
W tekście badania zauważono, że Imagen radzi sobie z rozumieniem złożonych zapytań lepiej niż DALL-E 2. Na przykład dla zapytania „Panda robi sztukę latte” DALL-E 2 zwrócił wyłącznie sztukę latte z pandami, podczas gdy sieć neuronowa Google zdołała wygenerować w większości poprawne wyniki:
Ale Google przyznaje również, że żadna z tych sieci neuronowych nie poradzi sobie z zapytaniem „astronauta na koniu”: obie uparcie umieszczają astronautę na koniu, a nie odwrotnie. Oba oczywiście mają miejsce na rozwój.
Wyniki niezależnej oceny widzów pokazują, że Imagen przewyższa DALL-E 2 pod względem dokładności i trafności. I choć to porównanie można uznać za subiektywne, to i tak takie wyniki są imponujące, biorąc pod uwagę, że DALL-E 2 był do tej pory nieosiągalnym ideałem, któremu nie mogły dorównać inne sieci neuronowe o podobnym charakterze. miejsce docelowe.
W każdym razie Imagen pozostaje na razie projektem eksperymentalnym, do którego zwykli użytkownicy nie mają dostępu. Nie jest jasne, ile czasu minie, zanim Google stworzy na jego podstawie usługę otwartego dostępu.
Przeczytaj także🧐
- Nowa sieć neuronowa Paint Transformer zamienia zdjęcie w obiekt do malowania
- Polaroid przyszłości: nowa sieć neuronowa NVIDIA zamienia obrazy 2D w modele 3D
- Sber uruchomił sieć neuronową ruDALL-E, która generuje obrazy zgodnie z opisem
Najlepsza oferta tygodnia: zniżki w AliExpress, Lamoda, Mixit i innych sklepach