Meta'nın metin yerine videodan öğrenen yeni modeli: V-JEPA

V-JEPA, kelimelerden öğrenmek yerine videodan öğreniyor. Meta, insanlar gibi öğrenebilen gelişmiş makine zekası oluşturmayı hedefliyor.

Metaverse nedir Metaversede Neler Yapilir 1

Meta’dan Devrim Yaratan Yapay Zeka Modeli: V-JEPA

Meta’nın yapay zeka araştırmacıları, kelimeler yerine videolardan öğrenen ve görsel dünyayı anlamada çığır açan bir model geliştirdiler: V-JEPA (Video Joint Embedding Predictive Architecture). Bu model, günümüzün büyük dil modellerine benzer şekilde eğitilse de videolardan öğrenmesi onu benzerlerinden ayırıyor.

V-JEPA’nın Farkı Nedir?

V-JEPA, maskeleme adı verilen bir teknik kullanarak videolardan öğreniyor. Bu teknikte, videodaki belirli bir nesne veya bölge bir süreliğine karartılıyor ve modelin bu nesnenin veya bölgenin ne olduğunu tahmin etmesi isteniyor. Bu sayede model, nesnelerin görsel özelliklerini ve birbirleriyle olan ilişkilerini öğreniyor.

V-JEPA’nın Avantajları:

TTC ADS BANNER
  • Daha Doğru Anlama: V-JEPA, metinden çok daha fazla bilgi içeren videolardan öğrenerek görsel dünyayı daha doğru ve detaylı bir şekilde anlayabiliyor.
  • Daha Hızlı Öğrenme: V-JEPA, etiketlenmemiş videoları kullanarak metin tabanlı modellerden çok daha hızlı bir şekilde öğrenebiliyor.
  • Daha Geniş Uygulama Alanı: V-JEPA, nesne tanıma, görüntü sınıflandırma, video anlama gibi birçok farklı alanda kullanılabiliyor.

V-JEPA’nın Potansiyel Uygulamaları:

  • Otonom Sürüş: V-JEPA, otonom araçların trafikteki diğer araçları, yayaları ve nesneleri tanımasına yardımcı olabilir.
  • Tıbbi Görüntüleme: V-JEPA, doktorların röntgen ve MR gibi tıbbi görüntülerdeki anormallikleri daha kolay ve hızlı bir şekilde teşhis etmesine yardımcı olabilir.
  • Görsel Arama: V-JEPA, kullanıcıların internette görsel aramalar yapmasını ve aradıkları görselleri daha kolay bulmasını sağlayabilir.

Bu arada V-JEPA’nın üretimsel bir model olmadığını belirtmekte fayda var. V-JEPA, dahili bir kavramsal dünya modeli geliştiriyor. Meta araştırmacılarının aktardıklarına göre; video maskeleme kullanılarak yapılan ön eğitimden sonra V-JEPA nesneler arasındaki son derece ayrıntılı etkileşimleri tespit etme ve anlama konusunda başarılı oldu. 

Meta AI lideri Jérôme Pesenti ve Meta AI Research’ün yönetici direktörü Joelle Pineau bundan yaklaşık iki yıl önce yapay zekanın metaverse’ü nasıl etkileyeceğini aktarırken yapay zekada “dünya modeli” kavramını da gündeme getirmişti. O dönemde ikilinin anlattığı ve artırılmış gerçeklik gözlüklerinde kullanılması planlanan dünya modeli, gözlüğün dışındaki dünyayı görsel-işitsel olarak anlayabilecek, ancak daha sonra cihazın kameraları ve mikrofonları aracılığıyla kullanıcının dünyasının benzersiz özelliklerini çok hızlı bir şekilde öğrenebilecekti.

LeCun, mevcut LLM’lerin görüntüler ve sesler aracılığıyla öğrenememesinin yapay genel zekaya (AGI) doğru ilerlemeyi yavaşlattığını savunuyor.

Meta’nın V-JEPA için sonraki adımı ise videoya ses eklenmesi. Böylece modele öğrenmesi için yepyeni bir veri boyutu sağlanacak. Meta, V-JEPA modelini ticari olmayan lisansı Creative Commons altında yayınladı. Böylece araştırmacılar, bu modeli deneyebilecek. 

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu
Kapalı

Reklam Engelleyici Algılandı

Daha iyi bir TalentCoders deneyimi için lütfen Adblocker eklentilerini devre dışı bırakın.