Webrazzi Google DeepMind'ın LLM'lerin ürettiği bilgileri doğrulayan yapay zeka sistemi: SAFE

Tuğçe İçözü · 29 Mar 2024

Google'ın DeepMind araştırma birimi tarafından yapılan yeni bir çalışmaya göre; bir yapay zeka sistemi, büyük dil modelleri tarafından üretilen bilgilerin doğruluğunu değerlendirirken insan doğruluk kontrolörlerinden daha iyi performans gösteriyor.

Long-form factuality in large language models başlıklı makalede, Search-Augmented Factuality Evaluator (SAFE) adlı bir yöntem tanıtılıyor. SAFE büyük dil modeli kullanarak, metni tek tek gerçeklere ayırıyor ve ardından her bir iddianın doğruluğunu belirlemek için Google Arama sonuçlarını kullanıyor.Makalenin yazarlarının aktardıklarına göre; SAFE, çok adımlı bir akıl yürütme sürecini kullanarak her bir gerçeğin doğruluğunu değerlendirmek için bir büyük dil modeli (LLM) kullanıyor.

İnsanüstü performans tartışması

Çalışma kapsamında araştırmacılar, yaklaşık 16 bin olgudan oluşan bir veri kümesinde SAFE ile insan değerlendiricileri karşı karşıya getirdi. Bu karşılaştırmada SAFE'in değerlendirmelerinin insan değerlendirmeleriyle yüzde 72 oranında eşleşti. Daha da önemlisi, SAFE ile insan değerlendiriciler arasındaki 100 anlaşmazlıktan oluşan bir örneklemde, SAFE'nin kararının vakaların yüzde 76'sında doğru olduğu tespit edildi. Makalede büyük dil modeli aracılarının insanüstü derecelendirme performansına ulaşabileceği iddia edildi.

Yapay zeka araştırmacılarının bazıları bu insanüstü tanımına karşı çıktı. Zira gerçekten insanüstü bir performanstan bahsedebilmek için SAFE'in yalnızca kitle kaynaklı çalışanlarla değil, uzman insan doğrulama değerlendiricileriyle de kıyaslanması gerekiyor. İnsan değerlendiricilerin nitelikleri, ücretleri ve doğruluk kontrol süreçleri gibi spesifik ayrıntılar, sonuçların doğru bir şekilde bağlamsallaştırılması için mühim.

Büyük modeller daha az hata üretiyor

Araştırmacıların belirttiğine göre; yapay zeka sistemi, insan doğruluk kontrolörlerinden yaklaşık 20 kat daha ucuz. DeepMind ekibi, LongFact adı verilen yeni bir kıyaslama ölçütünde Gemini, GPT, Claude ve PaLM-2 olmak üzere 4 aileden en iyi 13 dil modelinin olgusal doğruluğunu değerlendirmek için SAFE'i kullandı. Ortaya çıkan sonuçlar, daha büyük modellerin genellikle daha az olgusal hata ürettiğini gösteriyor. Bununla birlikte, en iyi performans gösteren modeller bile önemli sayıda yanlış iddia üretti.

Önümüzdeki dönemde SAFE gibi otomatik doğrulama araçlarının bu riskleri azaltmada önemli bir rol oynayacağını söyleyebiliriz. Son olarak SAFE'in kodu ve LongFact veri seti GitHub'da açık kaynaklı olarak yayınlandığını belirtelim.

Kaynak : Webrazzi

	Benzer konular	Forum		Tarih
T	Webrazzi Microsoft, Google'dan geri kalmaktan korktuğu için OpenAI'a yatırım yaptı	Teknoloji Haberleri	9	Perşembe saat 15:55'de
G	Webrazzi Google, Apple cihazlarda varsayılan arama motoru olmak için 20 milyar dolar ödedi	Teknoloji Haberleri	3	Perşembe saat 11:21'de
C	Webrazzi Google, İngilizce öğrenenler için yapay zeka destekli konuşma pratiği aracını test ediyor	Teknoloji Haberleri	9	Salı saat 17:16'de
G	Webrazzi Apple, Google'ın 36'dan fazla yapay zeka uzmanını işe aldı	Teknoloji Haberleri	8	Salı saat 14:23'de
C	Webrazzi Google DeepMind'ın yeni aracı: Yapay zeka destekli kişisel yaşam koçu	Teknoloji Haberleri	71	18 Ağu 2023

Hoş Geldin, Ziyaretçi!

Webrazzi Google DeepMind'ın LLM'lerin ürettiği bilgileri doğrulayan yapay zeka sistemi: SAFE

Tuğçe İçözü

Misafir

İnsanüstü performans tartışması

Büyük modeller daha az hata üretiyor

Benzer konular

Bu sayfayı paylaş

Reklam

Hoş Geldin, Ziyaretçi!

Webrazzi Google DeepMind'ın LLM'lerin ürettiği bilgileri doğrulayan yapay zeka sistemi: SAFE

Tuğçe İçözü

Misafir

İnsanüstü performans tartışması​

Büyük modeller daha az hata üretiyor​

Benzer konular

Bu sayfayı paylaş

Reklam

İnsanüstü performans tartışması

Büyük modeller daha az hata üretiyor