Hikaye Anlatımında Yeni Bir Çağ: Gen-4'ten Sonra Runway, Gen-4 Turbo'yu Tanıtıyor

Runway, yapay zeka destekli multimedya yaratım araçlarının öncüsü, bu hafta Gen-4 Turbo adlı modelinin gelişmiş bir versiyonunu tanıttı. Mart ayı sonunda tanıtılan Gen-4 modeli, bir giriş görüntüsü ve metin açıklamasından 5 ila 10 saniyelik video dizileri oluşturulmasını sağlıyor. Gen-4 ailesi, bağımsız yaratıcılar, görsel-işitsel profesyoneller ve reklamcılar gibi geniş bir kullanıcı yelpazesine hitap ediyor.

Gen-4 serisi, bir referans görüntü ve metin açıklamasından tutarlı ve ifade edici görsel diziler üretmek için tasarlanmıştır. Runway'e göre, bu sistem, "Genel Dünya Modeli" olarak adlandırdığı bir yapay zeka sistemine doğru yeni bir ilerlemeyi temsil ediyor. Bu sistem, bir ortamın iç temsilini oluşturup bu ortamda gelecekteki olayları simüle etmek için kullanıyor. Böyle bir model, gerçek dünyada karşılaşılan durumlar ve etkileşimler gibi geniş bir yelpazeyi temsil edip simüle edebilecek kapasitededir.

Gen-4, canlı aksiyon, animasyon ya da görsel efektlerle üretilmiş içeriklerin yanında doğal bir şekilde görsel-işitsel üretim zincirine entegre olur. Sistem, farklı dijital platformlara uyarlanmış görüntü formatlarında (16:9, 9:16, 1:1, 21:9, ...) saniyede 24 kare olarak 5 veya 10 saniyelik videolar üretme imkanı sağlar. İşlem, zorunlu bir giriş görüntüsü üzerinde temellendirilir, bu görüntü görsel başlangıç noktası olarak hizmet eder ve istenen hareketin açıklamasına odaklanan metinli bir komutla tamamlanır. Kişisel bir eğitim aşaması gerektirmez: Modeller hemen çalışır durumdadır.

Farklı Kullanımlar İçin İki Model

Gen-4 Turbo, hızlı iterasyon için optimize edilmiştir ve saniye başına 5 kredi gibi düşük bir maliyetle çalışır. 10 saniyelik bir video üretmesi sadece 30 saniye sürer, böylece kısa sürede birçok varyasyonu keşfetmeye olanak tanır. Standart Gen-4 ise daha maliyetlidir (saniye başına 12 kredi) ve aynı süreli bir video üretmek için birkaç dakika sürebilir. Ancak, nihai sürümler için değerli olan artırılmış kalite sunar.

Runway, fikirleri önce Turbo ile test etmeyi ve gerekirse Gen-4 ile rafine etmeyi öneriyor. Explorer modunda sınırsız üretim yapma imkanı, kredi kullanımını gerektirmez, bu da denemeleri kolaylaştırır.

Üretim Süreci

Kullanıcı, giriş görüntüsünü indirmiş, seçmiş veya oluşturmuş olmalıdır ve ardından şu 3 adımı izlemelidir:

Komut Yazımı
İçe aktarılan görüntü, başlangıç görsel çerçevesini (stil, kompozisyon, renkler, aydınlatma) tanımlar, metinli komut ise beklenen dinamikleri (hareket, dönüşüm, etkileşim) belirtmelidir. Metin sınırı 1.000 karakterle sınırlıdır.

Parametrelerin Ayarlanması
Süre, çözünürlük belirlenebilir ve benzer stil ve hareketi garantilemek için sabit bir tohum seçeneği kullanılabilir.

Üretim ve İterasyon
Kullanıcı daha sonra üretimi başlatabilir. Videolar mevcut oturumda incelenebilir veya kişisel proje kütüphanesinde bulunabilir, giriş görüntüsü veya metinli komut değiştirilerek geliştirilebilir.

Üretim Sonrası Özellikler

Üretilen içeriği zenginleştirmek veya ayarlamak için çeşitli seçenekler sunulmaktadır. Bunlar şunları içerir:

Yeni bir görsel stil uygulamak;
Bir sahneyi genişletmek;
Kompozisyon veya ritmi düzeltmek için videoyu ayarlamak;
Dudak senkronizasyonu ile bir diyalogla hizalamak;
Yüksek çözünürlüklü bir sürüm için 4K'ya geçmek;
Mevcut kareyi yeni bir üretim için başlangıç noktası olarak kullanmak.

Üretimlerin tamamı, yeniden adlandırma, paylaşma veya indirme seçenekleriyle oturum bazında arşivlenir. Bu araçlar, teknik karmaşıklık olmadan görsel doğruluğa yönelik bir iteraif yaklaşımı teşvik eder.

İlk yorumlar oldukça olumlu. Runway, General Atlantic liderliğindeki bir finansman turunda 308 milyon dolar toplayarak 3 milyar doların üzerinde bir değerleme elde etti ve bir zamanlar büyük prodüksiyonlara özel olan teknolojileri demokratikleştirerek içerik oluşturucular için yeni fırsatlar açıyor.

Çeviri kaynağı Vers une nouvelle ère du storytelling : après Gen-4, Runway lance Gen-4 Turbo

Daha iyi anlamak

Yapay zekâda 'Genel Dünya Modeli' nedir ve neden önemlidir?

Bir 'Genel Dünya Modeli', bir çevrenin içsel bir temsilini oluşturarak gelecekteki olayları simüle edebilen bir yapay zekâ sistemidir. Bu, yapay zekâ sistemlerinin gerçek dünyayı daha iyi anlamasını ve etkileşimde bulunmasını sağlar ve daha gelişmiş ve çok yönlü uygulamalara olanak tanır.

Yapay zekâ medya üretim teknolojilerinin tarihsel evrimi nedir ve önemli dönüm noktaları nelerdir?

Yapay zekâ medya üretim teknolojilerinin evrimi, basit görüntü işleme teknikleriyle başlayıp, bugün gerçekçi video sekansları oluşturan gelişmiş modellere ulaştı. Önemli dönüm noktaları arasında, derin öğrenmenin geliştirilmesi, evrişimli sinir ağlarının entegrasyonu ve GAN algoritmalarının oluşturulması yer alır; bunların her biri, yapay zekâ tarafından medyanın nasıl üretildiğini dönüştürdü.