Webrazzi Apple'ın 7 milyar parametreli açık kaynak dil modeli: DCLM-7B

Tuğçe İçözü · 22 Tem 2024

Apple'ın yapay zeka teknolojilerine odaklanan Apple Intelligence araştırma ekibi, iki yeni küçük dil modeli yayınladı. Küçük dil modellerinin popüler olduğu bu dönemde Apple'ın da bu furyaya katılması dikkat çekti. Küçük olmasına rağmen yüksek performans gösteren bu dil modelleri, üretken yapay zeka modellerini eğitmek için kullanılılıyor.

Apple'daki Makine Öğrenimi ekibinin açık kaynaklı DataComp for Language Models (DCLM) projesi kapsamında ürettiği iki model, Llama 3 ve Gemma gibi diğer önde gelen eğitim modelleriyle yarışıyor. Bazı kriterlerde bu daha küçük modellerle benzer performans gösteren Apple'ın küçük dil modelleri, bazı ölçütlerde ise onları geçmeyi başarıyor.

Bu arada Harvard ve Stanford gibi okulların ve Toyota gibi şirketlerin yer aldığı DataComp for Language Models projesinin en etkili veri iyileştirme stratejilerine odaklandığını belirtelim.

Apple'ın yayınladığı dil modelleri, standart bir framework sağlayarak ChatGPT ya da Claude gibi yapay zeka motorlarını eğitmek için kullanılıyor. Bu bağlamda modeller, bir mimari, parametreler ve veri kümelerinin filtrelenmesini içeriyor. Veri kümelerinin filtrelenmesiyle, yapay zeka motorlarının yararlanabileceği daha yüksek kaliteli veriler sağlanıyor.

Apple'ın yeni modelinin performansı

Apple'ın DCLM dil modelleri 7 milyar parametre ve 1.4 milyar parametre olmak üzere iki farklı büyüklüğe sahip. 7 milyar parametreye sahip olan dil modeli, bundan önce en yüksek performansı gösteren DCLM modeli MAP-Neo'yu ölçütlerde yüzde 6.6 geçmekte. Üstelik Apple ekibinin DataComp-LM modeli, bu ölçütleri gerçekleştirmek için yüzde 40 daha az bilgi işlem gücü kullanmakta. Böylece model, açık veri setlerine sahip olanlar arasında en iyi performansı sergilerken, özel veri setlerine sahip olanlarla rekabet etmeyi başardı.

Apple'ın iki modeli de Büyük Çok Görevli Dil Anlama (MMLU) ölçütünde aldığı puanlarla dikkat çekti. Yine de Apple'ın 7 milyar parametreli modeli DCLM-7B, MMLU ölçütünde Llama 3, Gemma, Phi-3 ve Qwen-2 modellerini geride bırakamadı.

Apple ekibinin yayınladığı bu modellerin, gelecekte herhangi bir Apple ürününde kullanılmak üzere tasarlanmadığını da belirtelim. Topluluk araştırma projeleri olarak konumlanan modeller, yapay zeka modellerini eğitmek için kullanılan veri kümelerinin etkin bir biçimde iyileştirilmeyi amaçlıyor. Bu anlamda Apple'ın araştırma ekibi ayrıca çeşitli veri iyileştirme tekniklerinin etkisinin yanı sıra model tabanlı kalite filtreleme stratejilerini de araştırdı. Geliştiriciler modellere Hugging Face üzerinden erişebilir.

Kaynak : Webrazzi

	Benzer konular	Forum		Tarih
T	Webrazzi Apple'ın Mac sevkiyatları, yılın ikinci çeyreğinde yüzde 21 artış gösterdi	Teknoloji Haberleri	29	11 Tem 2024
A	Webrazzi Apple'ın e-ticaret gelirleri, 2 yılda yüzde 97 oranında arttı	Teknoloji Haberleri	100	15 Kas 2022
T	Webrazzi Airpods Pro 2, 7 Eylül'de Apple'ın Far Out etkinliğinde tanıtılacak	Teknoloji Haberleri	133	5 Eyl 2022
A	Apple'ın bu yıl bir üst seviyeye çıkardığı gizlilik odağında 7 özelliği	Teknoloji Haberleri	284	9 Haz 2021
C	Apple'ın Dünya Geliştirici Konferansı'nda Türkiye'yi temsil edecek 7 genç yetenek	Teknoloji Haberleri	306	2 Haz 2021

Hoş Geldin, Ziyaretçi!

Webrazzi Apple'ın 7 milyar parametreli açık kaynak dil modeli: DCLM-7B

Tuğçe İçözü

Misafir

Apple'ın yeni modelinin performansı

Benzer konular

Reklam

Bu sayfayı paylaş

Hoş Geldin, Ziyaretçi!

Webrazzi Apple'ın 7 milyar parametreli açık kaynak dil modeli: DCLM-7B

Tuğçe İçözü

Misafir

Apple'ın yeni modelinin performansı​

Benzer konular

Reklam

Bu sayfayı paylaş

Apple'ın yeni modelinin performansı