Vijesti - OpenAI Point E: Kreirajte 3D oblak tačaka od složenih talasnih oblika za nekoliko minuta na jednom GPU-u

U novom članku Point-E: Sistem za generiranje 3D oblaka tačaka iz složenih signala, istraživački tim OpenAI predstavlja Točku E, 3D sistem za uslovnu sintezu teksta u oblaku tačaka koji koristi modele difuzije za kreiranje različitih i složenih 3D oblika vođenih složenim tekstom. znakovi.za nekoliko minuta na jednom GPU-u.
Neverovatne performanse današnjih najsavremenijih modela generisanja slika podstakle su istraživanja u generisanju 3D tekstualnih objekata.Međutim, za razliku od 2D modela, koji mogu generirati izlaz za minute ili čak sekunde, objektni generativni modeli obično zahtijevaju nekoliko sati rada GPU-a da bi se generirao jedan uzorak.
U novom članku Point-E: Sistem za generisanje 3D oblaka tačaka iz složenih signala, OpenAI istraživački tim predstavlja Point·E, sistem tekstualne uslovne sinteze za 3D oblake tačaka.Ovaj novi pristup koristi model propagacije za kreiranje različitih i složenih 3D oblika od složenih tekstualnih signala u samo minutu ili dvije na jednom GPU-u.
Tim je fokusiran na izazov pretvaranja teksta u 3D, što je ključno za demokratizaciju kreiranja 3D sadržaja za primjene u stvarnom svijetu, od virtuelne stvarnosti i igara do industrijskog dizajna.Postojeće metode za pretvaranje teksta u 3D spadaju u dve kategorije, od kojih svaka ima svoje nedostatke: 1) generativni modeli se mogu koristiti za efikasno generisanje uzoraka, ali se ne mogu efikasno skalirati za različite i složene tekstualne signale;2) unaprijed obučeni model tekstualne slike za rukovanje složenim i raznolikim tekstualnim znakovima, ali ovaj pristup je računski intenzivan i model se lako može zaglaviti u lokalnim minimumima koji ne odgovaraju smislenim ili koherentnim 3D objektima.
Stoga je tim istražio alternativni pristup koji ima za cilj kombinirati prednosti gornja dva pristupa, koristeći model difuzije teksta u sliku obučen na velikom skupu parova tekst-slika (omogućujući mu da obrađuje različite i složene signale) i 3D model difuzije slike obučen na manjem skupu parova tekst-slika.skup podataka para slika-3D.Model tekst-sliku prvo uzorkuje ulaznu sliku kako bi kreirao jednu sintetičku reprezentaciju, a model slika-3D kreira 3D oblak tačaka na osnovu odabrane slike.
Generativni stog komande zasnovan je na nedavno predloženim generativnim okvirima za uslovno generisanje slika iz teksta (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Oni koriste GLIDE model sa 3 milijarde GLIDE parametara (Nichol et al., 2021), fino podešen na renderiranim 3D modelima, kao svoj model transformacije teksta u sliku, i skup modela difuzije koji generiraju RGB oblake tačaka kao svoje transformacijski model.slike na sliku.3D modeli.
Dok je prethodni rad koristio 3D arhitekturu za obradu oblaka tačaka, istraživači su koristili jednostavan model baziran na transduktoru (Vaswani et al., 2017.) za poboljšanje efikasnosti.U njihovoj arhitekturi difuzionog modela, slike oblaka tačaka se prvo unose u prethodno obučeni ViT-L/14 CLIP model, a zatim se izlazne mreže unose u pretvarač kao markeri.
U svojoj empirijskoj studiji, tim je uporedio predloženu metodu Point·E sa drugim generativnim 3D modelima o bodovanju signala iz COCO skupova podataka detekcije, segmentacije i potpisa.Rezultati potvrđuju da Point·E može generirati različite i složene 3D oblike iz složenih tekstualnih signala i ubrzati vrijeme zaključivanja za jedan do dva reda veličine.Tim se nada da će njihov rad inspirisati dalja istraživanja sinteze 3D teksta.
Unaprijed obučeni model širenja oblaka tačaka i evaluacijski kod dostupni su na GitHubu projekta.Document Point-E: Sistem za kreiranje 3D oblaka tačaka od složenih tragova nalazi se na arXiv-u.
Znamo da ne želite propustiti nijednu vijest ili naučna otkrića.Pretplatite se na naš popularni sinkroniziran Global AI Weekly newsletter kako biste primali sedmične novosti o AI.

Vrijeme objave: 28.12.2022