Webrazzi Microsoft'un kod yazımı ve matematik görevlerine odaklanan yeni modeli: GRIN-MoE

Tuğçe İçözü · Bugün 17:22

Microsoft, GRIN-MoE (Gradient-Informed Mixture-of-Experts) adlı yapay zeka modelini tanıttı. Model, kod yazımı ve matematik gibi karmaşık görevlerde ölçeklenebilirliği ve performansı artırmak için tasarlandı. Modelin, tek seferde parametrelerinin yalnızca küçük bir alt kümesini seçici olarak etkinleştirebildiğini belirtelim. GRIN-MoE'nun hem verimli hem de güçlü bir model olarak konumlandığını söyleyebiliriz. Model, kurumsal uygulamaları yeniden şekillendirme potansiyeline sahip.

Modelin detayları GRIN: GRadient-INformed MoE adlı araştırma makalesinde açıklanıyor. GRIN-MoE, Uzmanlar Karışımı (MoE) mimarisine yeni bir yaklaşım getiriyor. GRIN, görevleri model içindeki uzmanlaşmış “uzmanlara” yönlendiriyor. Böylece hesaplama sürecinde daha az kaynak kullanırken, üst düzey performans sunabiliyor. Modelin en önemli yeniliği, SparseMixer-v2'yi kullanması. SparseMixer-v2, uzman yönlendirme için gradyanı tahmin etmeye odaklanıyor. GRIN MoE'nun 16×3,8 milyar parametreli mimarisi, çıkarım sırasında yalnızca 6,6 milyar parametreyi etkinleştiriyor. Böylece hesaplama verimliliği ile görev performansı arasında bir denge kuruluyor. Uzman yönlendirmenin ayrık doğası nedeniyle geleneksel gradyan tabanlı optimizasyonun zorluğu da ortadan kaldırılıyor.

Model, Çoklu Görevlerde Dil Anlama (MMLU) ölçütünde 79,4 aldı. Bu anlamda GRIN MoE, MMLU'da 70,5 alan Mixtral (8x7B) ve 78,9 puan alan Phi-3,5-MoE (16×3,8B) modellerinden yüksek performans gösteriyor. Model, matematik problemi çözme yetenekleri için bir test olan GSM-8K'da ise 90,4 puan aldı. Ayrıca Modelin kodlama görevleri için bir ölçüt olan HumanEval'da 74,4 puan alarak GPT-3,5-turbo gibi popüler modelleri geride bıraktığını belirtelim.

Modelin MoE eğitiminde uzman paralelliği veya token düşürmeye ihtiyaç duymadan ölçeklendirme yapabilmesi, kısıtlı veri merkezi kapasitesine sahip ortamlarda daha verimli kaynak kullanımı gerçekleştirmesini sağlıyor. Özellikle OpenAI’ın GPT-4o ya da Meta’nın LLaMA 3.1. modeline erişemeyen kurumlar, GRIN-MoE'yu tercih edebilir.

Öte yandan GRIN MoE'nun da bir takım sınırlamaları mevcut. Modelin öncelikle İngilizce dilindeki görevler için optimize edilmiş olması, çok dilli ortamlarda faaliyet gösteren kuruluşlar için zorluklar yaratabilir. Örneğin modelin, eğitim verilerinde yeterince temsil edilmeyen diğer dillere veya lehçelere uygulandığında etkinliği azalabilir.

Bununla beraber, muhakeme ağırlıklı görevlerde başarılı olan GRIN MoE, aynı performansı konuşma bağlamlarında veya doğal dil işleme görevlerinde gösteremeyebilir. Araştırmacıların belirttiğine göre model, doğal dil görevlerinde optimumun altında bir performans sergiliyor. Bu durum, modelin muhakeme ve kodlama yeteneklerine odaklanan eğitiminden kaynaklanıyor olabilir.

Görsel kaynak: Grok 2 (Beta)

Kaynak : Webrazzi

	Benzer konular	Forum		Tarih
T	Webrazzi Microsoft'un Google ve OpenAI'a meydan okuyan yapay zeka modeli serisi: Phi-3.5	Teknoloji Haberleri	17	21 Ağu 2024
C	Webrazzi Microsoft'un, zamanında Bill Gates'in stajyerlerle yalnız kalmasını yasakladığı iddia edildi	Teknoloji Haberleri	22	5 Ağu 2024
C	Webrazzi Microsoft'un Bing için geliştirdiği yapay zeka destekli arama özelliği: Bing Generative Search	Teknoloji Haberleri	39	25 Tem 2024
G	Webrazzi FTC, Microsoft'un Inflection AI ile yaptığı anlaşmayı soruşturuyor	Teknoloji Haberleri	43	6 Haz 2024
G	Webrazzi Microsoft'un yeni Xbox mobil oyun mağazası temmuz ayında açılıyor	Teknoloji Haberleri	50	10 May 2024

Hoş Geldin, Ziyaretçi!

Webrazzi Microsoft'un kod yazımı ve matematik görevlerine odaklanan yeni modeli: GRIN-MoE

Tuğçe İçözü

Misafir

Benzer konular

Reklam

Bu sayfayı paylaş