Elon Musk, Yapay Zekayı Eğitmek İçin Verilerin Tükenmiş Olduğunu Kabul Ediyor.
Elon Musk, diğer yapay zeka uzmanlarıyla aynı görüşü paylaşıyor ve gerçek dünya verilerinin, yapay zeka modellerini eğitmek için neredeyse tükenmiş durumda olduğunu belirtiyor.
Musk, Çarşamba gecesi X’te Mark Penn ile yaptığı bir canlı yayında, “Artık temel olarak insan bilgisinin toplamını tükenmiş durumdayız… Bu, geçen yıl olan bir şeydi.” dedi. Musk, sahip olduğu xAI adlı yapay zeka şirketi aracılığıyla, eski OpenAI bilim insanı Sutskever’in Aralık ayında NeurIPS konferansında yaptığı açıklamaları yineledi. Sutskever, yapay zeka endüstrisinin “veri zirvesine” ulaştığını söylemiş ve veri eksikliğinin, bugünkü model geliştirme yöntemlerinde bir değişikliğe yol açacağını öngörmüştü.
Gerçekten de Musk, yapay zeka modellerinin kendileri tarafından üretilen verilerle kendi kendini eğitilmesi gerektiğini öne sürdü: “Gerçek dünya verilerini tamamlamanın tek yolu sentetik verilerle, yani yapay zekanın (eğitim verisini) kendisinin yaratmasıyla olur.” dedi.
Sentetik verilerl (yapay zeka) kendisini derecelendirir ve bu süreçte kendi başına öğrenme sürecine girer.”Microsoft, Meta, OpenAI ve Anthropic gibi büyük teknoloji şirketleri, yapay zeka modellerini eğitmek için sentetik verileri kullanıyor. Gartner, 2024’te yapay zeka ve analiz projelerinde kullanılan verilerin %60’ının sentetik olacağını tahmin ediyor. Microsoft’un Phi-4, Google’ın Gemma, Anthropic’in Claude 3.5 Sonnet ve Meta’nın Llama modelleri, hem gerçek hem de sentetik verilerle eğitildi. Sentetik verilerle eğitim, maliyet tasarrufu gibi diğer avantajlara da sahiptir. Yapay zeka girişimi Writer, neredeyse tamamen sentetik kaynaklarla geliştirilen Palmyra X 004 modelinin geliştirilmesinin yalnızca 700.000 dolara mal olduğunu iddia ediyor , bu, benzer büyüklükteki bir OpenAI modelinin tahmini maliyeti olan 4,6 milyon dolara kıyasla çok daha düşük.
Ancak sentetik verilerin bazı dezavantajları da vardır. Bazı araştırmalar, sentetik verilerin model çöküşüne yol açabileceğini, yani modelin çıktılarında daha az yaratıcı ve daha fazla önyargılı hale gelmesini, sonuç olarak işlevselliğini ciddi şekilde zayıflatmasını öne sürüyor. Çünkü modeller, sentetik veriler oluşturduklarından, bu modellere eğitimi veren verilerdeki önyargılar ve sınırlamalar, çıktılarında da benzer şekilde bulunacaktır.