Meta'nın metin yerine videodan öğrenen yeni modeli: V-JEPA
V-JEPA, kelimelerden öğrenmek yerine videodan öğreniyor. Meta, insanlar gibi öğrenebilen gelişmiş makine zekası oluşturmayı hedefliyor.
Meta’dan Devrim Yaratan Yapay Zeka Modeli: V-JEPA
Meta’nın yapay zeka araştırmacıları, kelimeler yerine videolardan öğrenen ve görsel dünyayı anlamada çığır açan bir model geliştirdiler: V-JEPA (Video Joint Embedding Predictive Architecture). Bu model, günümüzün büyük dil modellerine benzer şekilde eğitilse de videolardan öğrenmesi onu benzerlerinden ayırıyor.
V-JEPA’nın Farkı Nedir?
V-JEPA, maskeleme adı verilen bir teknik kullanarak videolardan öğreniyor. Bu teknikte, videodaki belirli bir nesne veya bölge bir süreliğine karartılıyor ve modelin bu nesnenin veya bölgenin ne olduğunu tahmin etmesi isteniyor. Bu sayede model, nesnelerin görsel özelliklerini ve birbirleriyle olan ilişkilerini öğreniyor.
V-JEPA’nın Avantajları:
- Daha Doğru Anlama: V-JEPA, metinden çok daha fazla bilgi içeren videolardan öğrenerek görsel dünyayı daha doğru ve detaylı bir şekilde anlayabiliyor.
- Daha Hızlı Öğrenme: V-JEPA, etiketlenmemiş videoları kullanarak metin tabanlı modellerden çok daha hızlı bir şekilde öğrenebiliyor.
- Daha Geniş Uygulama Alanı: V-JEPA, nesne tanıma, görüntü sınıflandırma, video anlama gibi birçok farklı alanda kullanılabiliyor.
V-JEPA’nın Potansiyel Uygulamaları:
- Otonom Sürüş: V-JEPA, otonom araçların trafikteki diğer araçları, yayaları ve nesneleri tanımasına yardımcı olabilir.
- Tıbbi Görüntüleme: V-JEPA, doktorların röntgen ve MR gibi tıbbi görüntülerdeki anormallikleri daha kolay ve hızlı bir şekilde teşhis etmesine yardımcı olabilir.
- Görsel Arama: V-JEPA, kullanıcıların internette görsel aramalar yapmasını ve aradıkları görselleri daha kolay bulmasını sağlayabilir.
Bu arada V-JEPA’nın üretimsel bir model olmadığını belirtmekte fayda var. V-JEPA, dahili bir kavramsal dünya modeli geliştiriyor. Meta araştırmacılarının aktardıklarına göre; video maskeleme kullanılarak yapılan ön eğitimden sonra V-JEPA nesneler arasındaki son derece ayrıntılı etkileşimleri tespit etme ve anlama konusunda başarılı oldu.
Meta AI lideri Jérôme Pesenti ve Meta AI Research’ün yönetici direktörü Joelle Pineau bundan yaklaşık iki yıl önce yapay zekanın metaverse’ü nasıl etkileyeceğini aktarırken yapay zekada “dünya modeli” kavramını da gündeme getirmişti. O dönemde ikilinin anlattığı ve artırılmış gerçeklik gözlüklerinde kullanılması planlanan dünya modeli, gözlüğün dışındaki dünyayı görsel-işitsel olarak anlayabilecek, ancak daha sonra cihazın kameraları ve mikrofonları aracılığıyla kullanıcının dünyasının benzersiz özelliklerini çok hızlı bir şekilde öğrenebilecekti.
LeCun, mevcut LLM’lerin görüntüler ve sesler aracılığıyla öğrenememesinin yapay genel zekaya (AGI) doğru ilerlemeyi yavaşlattığını savunuyor.
Meta’nın V-JEPA için sonraki adımı ise videoya ses eklenmesi. Böylece modele öğrenmesi için yepyeni bir veri boyutu sağlanacak. Meta, V-JEPA modelini ticari olmayan lisansı Creative Commons altında yayınladı. Böylece araştırmacılar, bu modeli deneyebilecek.