NVIDIA stworzyła technologię zamieniającą zdjęcia w obraz 3D. W kilka sekund

NVIDIA wykorzystuje w tym procesie tzw. renderowanie odwrotne, czyli rekonstrukcję scen 3D poprzez zdjęcia z obrazu 2D robione pod różnym kątem.

Mikołaj Frączak
/
28 marca 2022

O swojej technologii NVIDIA poinformowała na blogu. Jak możemy przeczytać w informacji, kiedy 75 lat temu zrobiono pierwsze natychmiastowe zdjęcie aparatem Polaroid, przełomowe było szybkie uchwycenie świata 3D w realistycznym obrazie 2D. Dziś naukowcy zajmujący się sztuczną inteligencją pracują nad czymś przeciwnym: przekształceniem kolekcji nieruchomych obrazów w cyfrową scenę 3D w ciągu kilku sekund.

Renderowanie odwrotne

Proces, znany jako renderowanie odwrotne, wykorzystuje sztuczną inteligencję do przybliżenia zachowania światła w świecie rzeczywistym, umożliwiając naukowcom zrekonstruowanie sceny 3D z kilku obrazów 2D wykonanych pod różnymi kątami. Zespół badawczy NVIDIA opracował podejście, które umożliwia wykonanie tego zadania niemal natychmiast — czyniąc go jednym z pierwszych tego rodzaju modeli, które łączą ultraszybkie trenowanie sieci neuronowych i szybkie renderowanie.

NVIDIA zastosowała to podejście do popularnej nowej technologii zwanej polami promieniowania neuronowego lub NeRF. Rezultat, nazwany Instant NeRF, jest najszybszą jak dotąd techniką NeRF, osiągającą w niektórych przypadkach ponad 1000-krotne przyspieszenie. Model potrzebuje zaledwie kilku sekund na przeszkolenie na kilkudziesięciu nieruchomych zdjęciach — plus dane dotyczące kątów kamery, z których zostały zrobione — a następnie może wyrenderować powstałą scenę 3D w ciągu dziesiątek milisekund.

Zaprezentowany w tym tygodniu podczas sesji na NVIDIA GTC, Instant NeRF może być używany do tworzenia awatarów lub scen dla wirtualnych światów, do przechwytywania uczestników wideokonferencji i ich środowisk w 3D lub do rekonstrukcji scen dla cyfrowych map 3D.

Atak na konto Netflix? Należy uważać, gdzie przekazujemy daneMikołaj Frączak

Co to jest NeRF?

NeRF wykorzystują sieci neuronowe do reprezentowania i renderowania realistycznych scen 3D na podstawie wejściowej kolekcji obrazów 2D.

Zbieranie danych w celu nakarmienia NeRF jest trochę jak bycie fotografem na czerwonym dywanie, który próbuje uchwycić strój celebryty pod każdym kątem — sieć neuronowa wymaga kilkudziesięciu zdjęć zrobionych z różnych pozycji wokół sceny, a także pozycji kamery każdego z nich. te strzały.

W scenie, która zawiera ludzi lub inne ruchome elementy, im szybciej te ujęcia zostaną zrobione, tym lepiej. Jeśli podczas procesu przechwytywania obrazu 2D jest zbyt dużo ruchu, scena 3D generowana przez sztuczną inteligencję będzie rozmyta.

Wyciekły w Twojej firmie dane osobowe

możemy Ci pomóc w analizie i zgłoszeniu do UODO

Sprawdź szczegóły

Stamtąd NeRF zasadniczo wypełnia puste miejsca, szkoląc małą sieć neuronową do rekonstrukcji sceny poprzez przewidywanie koloru światła promieniującego w dowolnym kierunku, z dowolnego punktu w przestrzeni 3D. Technika ta może nawet obejść okluzje — gdy obiekty widoczne na niektórych obrazach są blokowane przez przeszkody, takie jak filary na innych obrazach.

Przyspieszenie 1000x dzięki Instant NeRF

O ile szacowanie głębokości i wyglądu obiektu na podstawie częściowego widoku jest naturalną umiejętnością człowieka, dla AI jest to wymagające zadanie.

Tworzenie sceny 3D tradycyjnymi metodami zajmuje godziny lub dłużej, w zależności od złożoności i rozdzielczości wizualizacji. Włączenie sztucznej inteligencji do obrazu przyspiesza wszystko. Wczesne modele NeRF renderowały ostre sceny bez artefaktów w ciągu kilku minut, ale trenowanie wciąż trwało godziny.

Jednak Instant NeRF skraca czas renderowania o kilka rzędów wielkości. Opiera się na technice opracowanej przez firmę NVIDIA, zwanej kodowaniem siatki mieszającej w wielu rozdzielczościach, która jest zoptymalizowana pod kątem wydajnej pracy na procesorach graficznych NVIDIA. Korzystając z nowej metody kodowania danych wejściowych, naukowcy mogą uzyskiwać wyniki wysokiej jakości przy użyciu maleńkiej sieci neuronowej, która działa szybko.

Technologia ta może zostać wykorzystana do szkolenia robotów i samojezdnych samochodów w celu zrozumienia rozmiaru i kształtu rzeczywistych obiektów poprzez przechwytywanie ich obrazów 2D lub nagrań wideo. Może być również wykorzystywany w architekturze i rozrywce do szybkiego generowania cyfrowych reprezentacji rzeczywistych środowisk, które twórcy mogą modyfikować i na nich budować.

Źródło: NVIDIA

Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Jeśli chcesz być na bieżąco z informacjami za zakresu bezpieczeństwa, zapraszamy do naszego serwisu ponownie!
Jeżeli podobał Ci się artykuł podziel się z innymi udostępniając go w mediach społecznościowych.

Potrzebujesz wsparcia lub szukasz rozwiązań w zakresie zagadnienia, o którym mowa w artykule?

Zapraszamy do kontaktu