T
Tuğçe İçözü
Misafir
Meta AI ekibi mobil cihazlar için büyük dil modeli yaklaşımı MobileLLM'i tanıttı. Çalışmayı ortaya koyan araştırma ekibi, Meta Reality Labs, PyTorch ve Meta AI Research (FAIR) üyelerinden oluşuyor. Ekip, 1 milyardan daha az parametreye sahip modelleri optimize etmeye odaklandı. Bu noktada kıyaslamak açısından GPT-4 gibi modellerin bir trilyondan fazla parametreye sahip olduğunu belirtelim.
Meta'nın Baş Yapay Zeka Bilimcisi Yann LeCun'un paylaştığı bilgiler modelde genişlikten ziyade derinlikten söz etmekte. Yani MobileLLM, genişlik yerine model derinliğine öncelik veriyor. Gömme paylaşımı (embedding sharing) ve gruplanmış sorgu dikkatini (grouped-query attention) uygulayan modelde yeni bir ani blok-bilge ağırlık paylaşımı (immediate block-wise weight-sharing) tekniğinin kullanılması söz konusu.
Böylece MobileLLM, benzer boyuttaki önceki modellere kıyasla yüzde 2,7 ila yüzde 4,3 oranında daha iyi performans gösteriyor. MobileLLM'nin 350 milyon parametreli versiyonu, belirli API çağırma görevlerinde doğruluk açısından çok daha büyük olan 7 milyar parametreli LLaMA-2 modeliyle kıyaslanabilir seviyede. Bu anlamda bazı özel uygulamalar için daha az hesaplama kaynağı kullanan daha küçük modellerin benzer işlevsellik sunabileceğini söyleyebiliriz.
MobileLLM henüz genel kullanıma açık değil. Ancak Meta, ön eğitim kodunu açık kaynaklı hale getirdi. Bu sayede diğer araştırmacılar MobileLLM ile çalışmalarını geliştirebiliyor. Şu an için MobileLLM'in genel kullanıma ne zaman açılacağı henüz bilinmiyor. Cihaz üzerinde çalışan MobileLLM gibi modeller, yapay zekanın erişilebilirliğini kolaylıkla artırabilir.
Kaynak : Webrazzi
MobileLLM'in öne çıkan yönleri
Meta'nın Baş Yapay Zeka Bilimcisi Yann LeCun'un paylaştığı bilgiler modelde genişlikten ziyade derinlikten söz etmekte. Yani MobileLLM, genişlik yerine model derinliğine öncelik veriyor. Gömme paylaşımı (embedding sharing) ve gruplanmış sorgu dikkatini (grouped-query attention) uygulayan modelde yeni bir ani blok-bilge ağırlık paylaşımı (immediate block-wise weight-sharing) tekniğinin kullanılması söz konusu.
Böylece MobileLLM, benzer boyuttaki önceki modellere kıyasla yüzde 2,7 ila yüzde 4,3 oranında daha iyi performans gösteriyor. MobileLLM'nin 350 milyon parametreli versiyonu, belirli API çağırma görevlerinde doğruluk açısından çok daha büyük olan 7 milyar parametreli LLaMA-2 modeliyle kıyaslanabilir seviyede. Bu anlamda bazı özel uygulamalar için daha az hesaplama kaynağı kullanan daha küçük modellerin benzer işlevsellik sunabileceğini söyleyebiliriz.
MobileLLM henüz genel kullanıma açık değil. Ancak Meta, ön eğitim kodunu açık kaynaklı hale getirdi. Bu sayede diğer araştırmacılar MobileLLM ile çalışmalarını geliştirebiliyor. Şu an için MobileLLM'in genel kullanıma ne zaman açılacağı henüz bilinmiyor. Cihaz üzerinde çalışan MobileLLM gibi modeller, yapay zekanın erişilebilirliğini kolaylıkla artırabilir.
Kaynak : Webrazzi