OpenAI, twórca ChatGPT, zaprezentował nową formę sztucznej inteligencji, która tworzy realistyczne wideo w oparciu o podpowiedzi tekstowe. Model zamiany tekstu na wideo o nazwie Sora „posiada głębokie zrozumienie języka” i może generować „fascynujące postacie wyrażające żywe emocje” – stwierdziła OpenAI w czwartkowym poście na blogu.
„Sora jest w stanie generować złożone sceny z wieloma postaciami, określonymi rodzajami ruchu oraz dokładnymi szczegółami tematu i tła” – powiedział startup wspierany przez Microsoft. „Model rozumie nie tylko to, o co użytkownik prosił w podpowiedzi, ale także to, jak te rzeczy istnieją w świecie fizycznym”.
Dyrektor generalny OpenAI, Sam Altman, na X zaprosił użytkowników do sugerowania podpowiedzi dla Sory przed opublikowaniem wyników, które obejmowały realistyczne filmy przedstawiające dwa golden retrievery nagrywające podcasty na szczycie góry, babcię robiącą gnocchi i zwierzęta morskie biorące udział w wyścigu rowerowym na szczycie oceanu .
Hiperrealistyczna jakość filmów wywołała zdumiewające reakcje w mediach społecznościowych, a użytkownicy nazwali wyniki „nie z tego świata” i „zmieniaczem zasad gry”.
„Minęły dwie godziny, a mój mózg nadal nie jest w stanie przetworzyć wygenerowanych filmów OpenAI Sora” – powiedział użytkownik X, Allen T.
Demonstracja wzbudziła także obawy dotyczące potencjalnych zagrożeń, zwłaszcza w roku uważnie obserwowanych wyborów na całym świecie, w tym listopadowych wyborów prezydenckich w USA.
OpenAI poinformowało w swoim poście na blogu, że przed udostępnieniem Sory ogółowi społeczeństwa podejmie kilka ważnych kroków związanych z bezpieczeństwem.
„Współpracujemy z czerwonymi zespołami – ekspertami w takich obszarach jak dezinformacja, treści nienawistne i uprzedzenia – którzy będą testować model” – podała firma.
„Tworzymy także narzędzia pomagające wykrywać wprowadzające w błąd treści, takie jak klasyfikator wykrywania, który potrafi określić, kiedy film został wygenerowany przez Sorę”.
OpenAI przyznało również, że Sora ma słabości, w tym trudności z ciągłością i odróżnianiem lewej strony od prawej.
„Na przykład osoba może ugryźć ciasteczko, ale później ciasteczko może nie mieć śladu ugryzienia” – stwierdził startup z San Francisco.
Rywale OpenAI, Meta i Google, również zademonstrowali technologię sztucznej inteligencji zamiany tekstu na wideo, ale ich modele nie dały wyników tak realistycznych jak Sora.
za aljazeera
It's been 24 hours since the OpenAI changed the AI video world with Sora.
Here are the 14 most mindblowing video generations so far (100% AI-generated):
1. A tabby cat going through the woods pic.twitter.com/6cu54iZYFD
— Rowan Cheung (@rowancheung) February 16, 2024