Meta ogłosiła swój nowy model sztucznej inteligencji, MovieZen, do generowania wideo i audio na podstawie komunikatów tekstowych. Konkurując z Sorą z OpenAI, model Movie Gen AI firmy Meta może generować wideo na podstawie opisów użytkowników i tworzyć towarzyszący mu dźwięk. Firma twierdzi, że może tworzyć spersonalizowane filmy, wykorzystując prawdziwe zdjęcia ludzi i przedstawiając je w różnych sytuacjach. Filmy utworzone za pomocą wprowadzania tekstu można dalej ulepszać i edytować. Jednak w przeciwieństwie do serii modeli sztucznej inteligencji Llama, Meta raczej nie wypuści Movie Gen do otwartego użytku przez programistów, podaje Reuters.

Meta Movie Gen: co to jest i jak działa

Kliknij tutaj, aby połączyć się z nami na WhatsApp

W artykule badawczym szczegółowo opisującym nowy model sztucznej inteligencji Meta wyjaśniła, że ​​model MovieGen został wytrenowany zarówno pod kątem zadań zamiany tekstu na obraz, jak i tekstu na wideo. Na żądanie tworzy kilka kolorowych obrazów, z których każdy służy jako ramka dla filmu.

Meta twierdzi, że MovieGen może wyprodukować do 16 sekund wideo w wysokiej rozdzielczości (1080p) przy 16 klatkach na sekundę (FPS). Wśród swoich parametrów model może produkować filmy o różnej rozdzielczości i czasie trwania o różnych proporcjach. Firma zauważa, że ​​modelka uczy się wizualizacji świata rzeczywistego poprzez „oglądanie” wideo i potrafi wyciągać wnioski na temat ruchu obiektu, ruchu kamery, interakcji podmiot-obiekt i nie tylko.

W przypadku generowania dźwięku Meta zauważa, że ​​model MovieGen może generować odpowiedni dźwięk przy użyciu technik wideo na audio i tekstu na audio. Firma twierdzi, że może wytwarzać dźwięk o częstotliwości 48 kHz zsynchronizowany z kinowymi efektami dźwiękowymi i wejściami wideo. Chociaż możliwości modelu w zakresie produkcji wideo są ograniczone do kilku sekund, może on wygenerować „długi, spójny dźwięk w przypadku filmów trwających do kilku minut”.

Meta Movie Gen: Godne uwagi funkcje

Meta powiedziała, że ​​model MovieGen jest szkolony zarówno na tekście, jak i obrazach, co umożliwia tworzenie filmów przedstawiających osobę wybraną z prawdziwego obrazu. Firma zapewniła, że ​​film zachowa tożsamość osoby, a działania będą podejmowane na podstawie podpowiedzi użytkownika.

Dodatkowo model posiada możliwości edycji wideo zarówno dla treści generowanych, jak i prawdziwego wideo. Firma twierdzi, że MovieZen może dokonać „precyzyjnych i pomysłowych edycji” danego filmu na podstawie opisów użytkowników. W podglądzie pokazanym przez firmę modelka z powodzeniem edytowała tło filmu i dodała dodatkowe elementy do głównego tematu.

Pierwsza publikacja: 07 października 2024 | 12:52 JEST

Source link