Hoş Geldin, Ziyaretçi!

Üye girişi yapmayı ihmal etmeyin ! Konulara cevap yazmak, kaynak dosyalarını iletmek ve yeni konu açabilmek için üye girişi yapmanız gerekir. Üye kayıtları aktif !

Webrazzi Google DeepMind'ın LLM'lerin ürettiği bilgileri doğrulayan yapay zeka sistemi: SAFE

  • Konbuyu başlatan Tuğçe İçözü
  • Başlangıç tarihi
İçerik! Webrazzi'den alıntılanmıştır. Webrazzi internet girişimleri, sosyal medya, dijital pazarlama ve mobil konularına odaklı popüler teknoloji blogudur.
T

Tuğçe İçözü

Misafir
Google'ın DeepMind araştırma birimi tarafından yapılan yeni bir çalışmaya göre; bir yapay zeka sistemi, büyük dil modelleri tarafından üretilen bilgilerin doğruluğunu değerlendirirken insan doğruluk kontrolörlerinden daha iyi performans gösteriyor.

Long-form factuality in large language models başlıklı makalede, Search-Augmented Factuality Evaluator (SAFE) adlı bir yöntem tanıtılıyor. SAFE büyük dil modeli kullanarak, metni tek tek gerçeklere ayırıyor ve ardından her bir iddianın doğruluğunu belirlemek için Google Arama sonuçlarını kullanıyor.Makalenin yazarlarının aktardıklarına göre; SAFE, çok adımlı bir akıl yürütme sürecini kullanarak her bir gerçeğin doğruluğunu değerlendirmek için bir büyük dil modeli (LLM) kullanıyor.


İnsanüstü performans tartışması​


Çalışma kapsamında araştırmacılar, yaklaşık 16 bin olgudan oluşan bir veri kümesinde SAFE ile insan değerlendiricileri karşı karşıya getirdi. Bu karşılaştırmada SAFE'in değerlendirmelerinin insan değerlendirmeleriyle yüzde 72 oranında eşleşti. Daha da önemlisi, SAFE ile insan değerlendiriciler arasındaki 100 anlaşmazlıktan oluşan bir örneklemde, SAFE'nin kararının vakaların yüzde 76'sında doğru olduğu tespit edildi. Makalede büyük dil modeli aracılarının insanüstü derecelendirme performansına ulaşabileceği iddia edildi.

Yapay zeka araştırmacılarının bazıları bu insanüstü tanımına karşı çıktı. Zira gerçekten insanüstü bir performanstan bahsedebilmek için SAFE'in yalnızca kitle kaynaklı çalışanlarla değil, uzman insan doğrulama değerlendiricileriyle de kıyaslanması gerekiyor. İnsan değerlendiricilerin nitelikleri, ücretleri ve doğruluk kontrol süreçleri gibi spesifik ayrıntılar, sonuçların doğru bir şekilde bağlamsallaştırılması için mühim.

Büyük modeller daha az hata üretiyor​


Araştırmacıların belirttiğine göre; yapay zeka sistemi, insan doğruluk kontrolörlerinden yaklaşık 20 kat daha ucuz. DeepMind ekibi, LongFact adı verilen yeni bir kıyaslama ölçütünde Gemini, GPT, Claude ve PaLM-2 olmak üzere 4 aileden en iyi 13 dil modelinin olgusal doğruluğunu değerlendirmek için SAFE'i kullandı. Ortaya çıkan sonuçlar, daha büyük modellerin genellikle daha az olgusal hata ürettiğini gösteriyor. Bununla birlikte, en iyi performans gösteren modeller bile önemli sayıda yanlış iddia üretti.

Önümüzdeki dönemde SAFE gibi otomatik doğrulama araçlarının bu riskleri azaltmada önemli bir rol oynayacağını söyleyebiliriz. Son olarak SAFE'in kodu ve LongFact veri seti GitHub'da açık kaynaklı olarak yayınlandığını belirtelim.

Kaynak : Webrazzi
 

Reklam

  AdBlock Detected
Sure, ad-blocking software does a great job at blocking ads, but it also blocks some useful and important features of our website. For the best possible site experience please take a moment to disable your AdBlocker.