Spis treści
Gemini nie przestaje zaskakiwać. Google właśnie dodało nową funkcję, która rozszerza możliwości ich asystenta AI o kolejną, bardziej kreatywną formę ekspresji. Tym razem chodzi o coś, co jeszcze niedawno wymagało godzin pracy grafików i animatorów. Teraz wystarczy jedno zdjęcie, krótki opis… i gotowe.
Gemini ożywia zdjęcia i to dosłownie!
Nowa funkcja, którą Google wprowadza w Gemini, pozwala na przekształcenie statycznego zdjęcia w 8-sekundowy film z efektami dźwiękowymi. Całość oparta jest na modelu generowania wideo Veo 3, który zadebiutował podczas konferencji Google I/O w maju tego roku. W przeciwieństwie do wcześniejszych możliwości, które opierały się wyłącznie na tekstowych opisach scen, teraz użytkownik może wrzucić własne zdjęcie, a AI na jego podstawie stworzy ruchomy klip.
Proces wygląda zaskakująco prosto: użytkownik przesyła obraz, wpisuje instrukcje dotyczące tego, co ma się na nim wydarzyć, opcjonalnie dodaje sugestie dotyczące dźwięków i… chwilę później ma gotowe wideo. Jak deklaruje Google, kluczowe są detale opisu i im więcej szczegółów, tym bardziej precyzyjne oraz kreatywne rezultaty.
Każdy wygenerowany film jest oznaczany widocznym znakiem wodnym informującym o tym, że został stworzony przez AI. Dodatkowo stosowany jest też niewidoczny watermark SynthID, który ma pomóc w identyfikowaniu i wykrywaniu materiałów wygenerowanych sztucznie, nawet jeśli zostaną one zmodyfikowane.
Google deklaruje, że podejście do bezpieczeństwa i transparentności to dla nich priorytet. Firma prowadzi wewnętrzne testy typu „red team”, które mają wychwytywać potencjalne nadużycia zanim funkcje trafią do szerszej grupy odbiorców. Tylko czy to wystarczy w czasach, gdy AI potrafi generować coraz bardziej realistyczne deepfake’i?
Dostępność tylko dla wybranych
Brzmi świetnie, ale nie dla wszystkich. Funkcja „photo-to-video” w Gemini jest dostępna wyłącznie dla użytkowników subskrybujących płatne plany Google AI Pro (19,99 USD/mies.) lub Google AI Ultra (249,99 USD/mies.). Co więcej, jak podkreśla firma, rozwiązanie obecnie nie działa w krajach należących do Europejskiego Obszaru Gospodarczego, w tym w Polsce, a także w Wielkiej Brytanii i Szwajcarii.
Mimo, że dostępność funkcji ma być globalna i obejmować przeglądarkę, Androida i iOS, realnie wygląda to na bardzo powolne wdrażanie. Wielu użytkowników, a nawet tych, którzy opłacają Google AI Pro wciąż nie ma dostępu do narzędzia.
Od animacji po ASMR z lawą. Możliwości są ogromne
Google podkreśla, że użytkownicy Gemini eksperymentują z bardzo różnymi formami: od dodawania ruchu do rysunków i zdjęć zwierzaków, po artystyczne interpretacje baśni i sceny z dźwiękiem typu ASMR. Jedno jest pewne: funkcja nie ogranicza się do prostego animowania. Filmy wyglądają jakby od początku były kręcone kamerą, a nie tworzone z grafiki.
Od czasu wprowadzenia modelu Veo 3 w maju, użytkownicy mieli już stworzyć ponad 40 milionów filmów. To pokazuje, jak duży potencjał drzemie w narzędziu, zarówno dla amatorów, jak i twórców contentu.
Czy Gemini trafi do mas?
To, co dziś wydaje się zaawansowaną nowinką technologiczną, może jutro być narzędziem codziennego użytku. Ale pojawia się pytanie czy użytkownicy rzeczywiście będą skłonni zapłacić 20 dolarów miesięcznie tylko po to, żeby zmieniać zdjęcia w kilku sekundowe klipy?
Gemini bez wątpienia ma przewagę w prostocie obsługi i głębokiej integracji z innymi usługami Google. Ale czy to wystarczy, by konkurować z popularnością takich narzędzi jak ChatGPT, które już teraz generują viralowe obrazy, filmy i teksty? Czas pokaże.
Źródło: Google
Chcesz być na bieżąco? Śledź ROOTBLOG w Google News!