SERAMBINEWS.COM - Google resmi meluncurkan teknologi terbaru dalam dunia kecerdasan buatan melalui mesin pembuat video AI bernama Veo 3.
Peluncuran ini diumumkan pada ajang konferensi pengembang tahunan Google I/O, Selasa (20/5/2025).
Veo 3 hadir sebagai inovasi mutakhir di bidang generative AI, dengan kemampuan menciptakan video yang dilengkapi suara latar, efek audio, bahkan suara manusia hasil sintesis AI yang tampak sangat nyata.
Tak hanya itu, semua elemen visual dan audio dalam video diklaim tersinkronisasi secara presisi.
Menurut keterangan resmi Google, Veo 3 mampu menghasilkan video dengan resolusi hingga 4K, menjadikannya salah satu teknologi tercanggih dalam kategori video AI saat ini.
"Veo 3 memungkinkan Anda menambahkan efek suara, suara sekitar, dan bahkan dialog ke dalam kreasi Anda – menghasilkan semua audio secara asli."
"Ia juga memberikan kualitas terbaik di kelasnya, unggul dalam fisika, realisme, dan kepatuhan yang cepat," klaim Google.
Model tersebut juga dilaporkan mengkhususkan diri dalam simulasi fisika dunia nyata dan sinkronisasi bibir, menjadikannya alat yang berpotensi berharga bagi para pembuat film dan memajukan misi Google yang lebih luas untuk menghadirkan AI yang dapat digunakan ke industri kreatif.
Model tersebut kini tersedia bagi pelanggan Gemini Ultra di Amerika Serikat (AS).
Model tersebut juga dapat diakses melalui Flow, alat pembuatan film baru Google yang didukung AI.
Veo 3 merupakan salah satu model pertama dari pengembang teknologi besar yang dapat menyinkronkan video dan audio yang dihasilkan AI.
Dikutip dari ZDNET, membangun model AI yang mampu menghasilkan video dan audio yang tersinkronisasi telah menjadi tantangan teknis yang pelik dan area penelitian yang aktif di seluruh industri AI.
Baik video yang dihasilkan AI maupun audio yang dihasilkan AI, merupakan tantangan teknis yang berbeda, dan menggabungkan keduanya menghadirkan dimensi kompleksitas yang sama sekali baru.
Pertama-tama, video adalah serangkaian bingkai diam, sedangkan audio adalah gelombang yang berkesinambungan.
Oleh karena itu, sinkronisasi keduanya memerlukan model yang dapat beroperasi di kedua modalitas ini, dengan memperhitungkan rentang waktu yang sangat berbeda di mana keduanya beroperasi.
Model AI yang menggabungkan video dengan suara juga harus mampu memperhitungkan variabel seperti material, jarak, dan kecepatan secara dinamis.
Mobil yang melaju dengan kecepatan 100 mil per jam terdengar sangat berbeda dengan mobil yang melaju dengan kecepatan 10 mil per jam.
Sementara kuda yang berjalan di atas jalan berbatu terdengar berbeda dengan kuda yang berjalan di atas rumput.
Maka dari itu, Google telah meningkatkan upayanya untuk bersaing dengan OpenAI dengan meluncurkan Flow, model AI penghasil video baru yang dirancang untuk para pembuat film.
Flow dirancang untuk bekerja secara sinkron dengan model generatif lain milik Google, seperti Veo, Imagen, dan Gemini.
Dengan cara ini, pengguna dapat meminta sistem dalam bahasa alami untuk menghasilkan berbagai elemen dari sebuah adegan, yang kemudian dapat disatukan dengan cara yang terlihat lancar dan kohesif.
Flow juga dibangun dengan beberapa fitur gaya dan editorial, seperti Kontrol Kamera yang memungkinkan pengguna bermain dengan gerakan dan sudut kamera.
Lalu ada Scenebuilder yang nantinya memungkinkan untuk memperluas klip yang ada.
Kemudian Manajemen Aset adalah antarmuka untuk mengawasi semua berbagai bahan dalam proyek tertentu.
Terakhir Flow TV adalah sumber daya untuk berbagi pekerjaan Anda sendiri dan melihat pekerjaan orang lain.
Namanya mengacu pada flow atau kondisi mengalir, sebuah fenomena psikologis di mana keterlibatan mendalam terhadap tugas tertentu menghasilkan rasa fokus dan pendalaman yang tenang.
Flow sekarang tersedia untuk pelanggan Google AI Pro dan Google AI Ultra di AS, dan ketersediaan di negara lain diharapkan segera tersedia.
Bisa Membahayakan
Meski terdengar sangat menjanjikan, namun Google Veo 3 memiliki masalah yang pelik ke depannya.
Hanya dengan kecepatan dan harga murah, seseorang bisa menyiapkan kampanye dengan video produk yang tidak akan pernah ada, dan mereka tidak berniat membuatnya.
Tentu saja, seseorang sudah dapat melakukannya tanpa AI, hanya dengan membuat tiruan dan mengedit video.
Namun, ini membutuhkan keterampilan dan upaya yang besar, yang meningkatkan standar untuk berhasil melakukan penipuan semacam itu.
Dikutip dari How-ToGeek, hal ini juga berarti orang-orang yang sebenarnya di balik penipuan tersebut dapat menyembunyikan identitas mereka.
Karena orang tersebut dapat dengan mudah mengarang dan menampilkan orang lain dalam video.
Selama presentasi Google IO yang sama di mana Veo 3 dipamerkan, Google juga menyebutkan SynthID.
Pada dasarnya, semua konten yang dibuat menggunakan alat AI Google sengaja menyematkan watermark yang tidak terlihat oleh orang, tetapi dapat dideteksi oleh alat SynthID.
Hal ini berbeda dengan perangkat lunak AI "detection" yang mencoba menggunakan algoritma untuk menebak apakah konten telah dibuat oleh AI.
Watermark atau tanda air sengaja disisipkan di sana, jadi jika terdeteksi, kemungkinannya kecil atau bahkan tidak ada sama sekali bahwa tanda air tersebut salah.
Akan tetapi, pendekatan ini juga memiliki beberapa masalah.
Pertama, mengaburkan tanda air dengan memproses video mungkin bisa dilakukan, tetapi meskipun begitu, tidak akan mudah bagi platform untuk menjalankan SynthID pada setiap video yang diunggah.
Selain itu, meskipun Veo 3 adalah contoh pembuatan video yang paling mengesankan saat ini, bukan berarti platform lain tidak akan segera mencapai level yang sama.
Hal itu juga berlaku untuk model lokal yang dapat dijalankan oleh penipu pada perangkat keras lokal di beberapa titik.
Meskipun hal itu tidak mungkin dilakukan saat ini, mengabaikan hal yang tak terelakkan sama saja dengan menunda masalah.
Artikel ini telah tayang di Tribunnews.com dengan judul Mengenal Google Veo 3, Mesin Pembuat Video AI Lewat Tulisan, Disebut Bisa Membahayakan