Hoş Geldin, Ziyaretçi!

Üye girişi yapmayı ihmal etmeyin ! Konulara cevap yazmak, kaynak dosyalarını iletmek ve yeni konu açabilmek için üye girişi yapmanız gerekir. Üye kayıtları aktif !

Webrazzi Microsoft'un kod yazımı ve matematik görevlerine odaklanan yeni modeli: GRIN-MoE

  • Konbuyu başlatan Tuğçe İçözü
  • Başlangıç tarihi
İçerik! Webrazzi'den alıntılanmıştır. Webrazzi internet girişimleri, sosyal medya, dijital pazarlama ve mobil konularına odaklı popüler teknoloji blogudur.
T

Tuğçe İçözü

Misafir
Microsoft, GRIN-MoE (Gradient-Informed Mixture-of-Experts) adlı yapay zeka modelini tanıttı. Model, kod yazımı ve matematik gibi karmaşık görevlerde ölçeklenebilirliği ve performansı artırmak için tasarlandı. Modelin, tek seferde parametrelerinin yalnızca küçük bir alt kümesini seçici olarak etkinleştirebildiğini belirtelim. GRIN-MoE'nun hem verimli hem de güçlü bir model olarak konumlandığını söyleyebiliriz. Model, kurumsal uygulamaları yeniden şekillendirme potansiyeline sahip.

Modelin detayları GRIN: GRadient-INformed MoE adlı araştırma makalesinde açıklanıyor. GRIN-MoE, Uzmanlar Karışımı (MoE) mimarisine yeni bir yaklaşım getiriyor. GRIN, görevleri model içindeki uzmanlaşmış “uzmanlara” yönlendiriyor. Böylece hesaplama sürecinde daha az kaynak kullanırken, üst düzey performans sunabiliyor. Modelin en önemli yeniliği, SparseMixer-v2'yi kullanması. SparseMixer-v2, uzman yönlendirme için gradyanı tahmin etmeye odaklanıyor. GRIN MoE'nun 16×3,8 milyar parametreli mimarisi, çıkarım sırasında yalnızca 6,6 milyar parametreyi etkinleştiriyor. Böylece hesaplama verimliliği ile görev performansı arasında bir denge kuruluyor. Uzman yönlendirmenin ayrık doğası nedeniyle geleneksel gradyan tabanlı optimizasyonun zorluğu da ortadan kaldırılıyor.


Model, Çoklu Görevlerde Dil Anlama (MMLU) ölçütünde 79,4 aldı. Bu anlamda GRIN MoE, MMLU'da 70,5 alan Mixtral (8x7B) ve 78,9 puan alan Phi-3,5-MoE (16×3,8B) modellerinden yüksek performans gösteriyor. Model, matematik problemi çözme yetenekleri için bir test olan GSM-8K'da ise 90,4 puan aldı. Ayrıca Modelin kodlama görevleri için bir ölçüt olan HumanEval'da 74,4 puan alarak GPT-3,5-turbo gibi popüler modelleri geride bıraktığını belirtelim.


Modelin MoE eğitiminde uzman paralelliği veya token düşürmeye ihtiyaç duymadan ölçeklendirme yapabilmesi, kısıtlı veri merkezi kapasitesine sahip ortamlarda daha verimli kaynak kullanımı gerçekleştirmesini sağlıyor. Özellikle OpenAI’ın GPT-4o ya da Meta’nın LLaMA 3.1. modeline erişemeyen kurumlar, GRIN-MoE'yu tercih edebilir.


Öte yandan GRIN MoE'nun da bir takım sınırlamaları mevcut. Modelin öncelikle İngilizce dilindeki görevler için optimize edilmiş olması, çok dilli ortamlarda faaliyet gösteren kuruluşlar için zorluklar yaratabilir. Örneğin modelin, eğitim verilerinde yeterince temsil edilmeyen diğer dillere veya lehçelere uygulandığında etkinliği azalabilir.

Bununla beraber, muhakeme ağırlıklı görevlerde başarılı olan GRIN MoE, aynı performansı konuşma bağlamlarında veya doğal dil işleme görevlerinde gösteremeyebilir. Araştırmacıların belirttiğine göre model, doğal dil görevlerinde optimumun altında bir performans sergiliyor. Bu durum, modelin muhakeme ve kodlama yeteneklerine odaklanan eğitiminden kaynaklanıyor olabilir.

Görsel kaynak: Grok 2 (Beta)

Kaynak : Webrazzi
 

Reklam

  AdBlock Detected
Sure, ad-blocking software does a great job at blocking ads, but it also blocks some useful and important features of our website. For the best possible site experience please take a moment to disable your AdBlocker.