T
Tuğçe İçözü
Misafir
Yapay zeka alanına yeni bir soluk getirmeye hazırlanan Liquid AI, Massachusetts Teknoloji Enstitüsü (MIT) Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı'nın (CSAIL) eski araştırmacıları tarafından kuruldu. Şirket, paylaştığı bir blog gönderisiyle Liquid Foundation Models (LFMs) adlı ilk çok modlu yapay zeka modellerini duyurdu.
Liquid'in LFM'leri, LFM 1.3B, LFM 3B ve LFM 40B MoE olmak üzere üç farklı boyut ve varyantta sunuluyor. Modellerden en büyüğü olan LFM 40B MoE ise tıpkı Mistral'in Mixtral'i gibi bir Uzmanlar Karışımı modeli.
Bu yeni yapay zeka model serisi, mimarisiyle mevcut üretken Yapay Zeka dalgasından ayrışıyor. Zira söz konusu modeller dönüştürücü (transformer) mimarisine dayanmıyor. Liquid, bunun yerine amacının Üretken Önceden Eğitilmiş Dönüştürücülerin yani GPT'lerin ötesinde temel modeller oluşturmanın yollarını keşfetmek olduğunu belirtiyor. Ekip yeni LFM'lerle, modeli ilk prensiplere dayanarak, tıpkı mühendislerin motor, araba ve uçak inşa ettiği gibi inşa etmeyi hedefliyor.
Yeni LFM modelleri Meta'nın Llama 3.1-8B ve Microsoft'un Phi-3.5 3.8B gibi diğer dönüştürücü tabanlı modellerden daha üstün bir performansa sahip. Liquid AI'ın paylaştığı verilere göre; LFM 1.3B, Meta'nın yeni Llama 3.2-1.2B ve Microsoft'un Phi-1.5'ini birçok önde gelen üçüncü taraf kıyaslamasında geride bıraktı. Buna bilim, teknoloji, mühendislik ve matematik (STEM) alanlarında 57 problemden oluşan popüler Kitlesel Çok Görevli Dil Anlama (MMLU) ölçütü de dahil. Şirket, ilk kez GPT olmayan bir mimarinin dönüştürücü tabanlı modellerden önemli ölçüde daha iyi performans gösterdiğine dikkat çekiyor.
Her üç LFM modeli de bellek verimliliği için optimize edildi. Yani modeller, düşük bellek hacmine sahip olmasına rağmen, son teknoloji performans sunabiliyor. Meta'nın Llama-3.2-3B modeli 48 GB'dan fazla bellek hacmine sahipken, Liquid'in LFM-3B modeli yalnızca 16 GB bellek gerektiriyor.
Liquid'in aktardıklarına göre; ekip, yeni LFM'lerini eğitmek için dinamik sistemler, sinyal işleme ve sayısal doğrusal cebir teorisine derinlemesine kök salmış hesaplama birimlerinin bir karışımını kullandı. Bunun sonucunda ortaya, video, ses, metin, zaman serileri ve sinyaller dahil olmak üzere her türlü sıralı veriyi modellemek için kullanılabilen genel amaçlı yapay zeka modelleri ortaya çıktı.
Geçtiğimiz yıl şirket, mimarisinde; CSAIL'de geliştirilen Liquid Neural Networks'ü (LNNs) kullandığını belirtmişti. Liquid Neural Networks, verileri dönüştürmek için yapay nöronları veya düğümleri daha verimli ve uyarlanabilir hale getirmeyi amaçlayan bir mimari.
Geleneksel derin öğrenme modellerinde karmaşık görevlerin yerine getirilmesi için binlerce nöron gerekmekte. Öte yandan LNN'ler yenilikçi matematiksel formülasyonlarla birlikte daha az sayıda nöronun aynı sonuçları elde edebileceğini gösteriyor. Modeller, çıkarım sırasında gerçek zamanlı ayarlamalar yapılmasını sağlarken, bellek kullanımını minimumda tutarak 1 milyon token'a kadar verimli bir şekilde işliyor. Üstelik bu işlemlerde genelde geleneksel modellerde gördüğümüz hesaplama ek yükü de bulunmuyor.
Liquid'in blogunda paylaştığı bir grafiğe göre; LFM-3B modelinin token uzunluğu ölçeklendikçe, çıkarım belleği ayak izi açısından Google'ın Gemma-2, Microsoft'un Phi-3 ve Meta'nın Llama-3.2 modellerine kıyasla daha iyi performans gösteriyor. Diğer modeller uzun bağlam işleme için bellek kullanımında keskin bir artış yaşarken, LFM-3B dikkate değer seviyede daha küçük bir ayak izine sahip. Bu bağlamda LFM-3B'nin belge analizi veya sohbet robotları uygulamaları için ideal olduğunu söyleyebiliriz.
Liquid AI'ın ses, video ve metin verilerini kapsayan çok modlu yetenekleri, LFM model serisinin finansal hizmetlerden biyoteknoloji ve tüketici elektroniğine kadar çok çeşitli sektöre hizmet verebilmesini sağlıyor.
Liquid AI'ın modelleri, NVIDIA, AMD, Apple, Qualcomm ve Cerebras'ın donanımlarında kullanılmak üzere optimize edildi. Henüz önizleme aşamasında olan modellerin açık kaynak kodlu olmadığını belirtelim. LFM serisini denemek isteyenler, modellere Liquid'in çıkarım oyun alanı, Lambda Chat veya Perplexity AI aracılığıyla erişebilir.
Kaynak : Webrazzi
Liquid Foundation Models'in detayları
Liquid'in LFM'leri, LFM 1.3B, LFM 3B ve LFM 40B MoE olmak üzere üç farklı boyut ve varyantta sunuluyor. Modellerden en büyüğü olan LFM 40B MoE ise tıpkı Mistral'in Mixtral'i gibi bir Uzmanlar Karışımı modeli.
Bu yeni yapay zeka model serisi, mimarisiyle mevcut üretken Yapay Zeka dalgasından ayrışıyor. Zira söz konusu modeller dönüştürücü (transformer) mimarisine dayanmıyor. Liquid, bunun yerine amacının Üretken Önceden Eğitilmiş Dönüştürücülerin yani GPT'lerin ötesinde temel modeller oluşturmanın yollarını keşfetmek olduğunu belirtiyor. Ekip yeni LFM'lerle, modeli ilk prensiplere dayanarak, tıpkı mühendislerin motor, araba ve uçak inşa ettiği gibi inşa etmeyi hedefliyor.
Diğer modellerle karşılaştırma
Yeni LFM modelleri Meta'nın Llama 3.1-8B ve Microsoft'un Phi-3.5 3.8B gibi diğer dönüştürücü tabanlı modellerden daha üstün bir performansa sahip. Liquid AI'ın paylaştığı verilere göre; LFM 1.3B, Meta'nın yeni Llama 3.2-1.2B ve Microsoft'un Phi-1.5'ini birçok önde gelen üçüncü taraf kıyaslamasında geride bıraktı. Buna bilim, teknoloji, mühendislik ve matematik (STEM) alanlarında 57 problemden oluşan popüler Kitlesel Çok Görevli Dil Anlama (MMLU) ölçütü de dahil. Şirket, ilk kez GPT olmayan bir mimarinin dönüştürücü tabanlı modellerden önemli ölçüde daha iyi performans gösterdiğine dikkat çekiyor.
Her üç LFM modeli de bellek verimliliği için optimize edildi. Yani modeller, düşük bellek hacmine sahip olmasına rağmen, son teknoloji performans sunabiliyor. Meta'nın Llama-3.2-3B modeli 48 GB'dan fazla bellek hacmine sahipken, Liquid'in LFM-3B modeli yalnızca 16 GB bellek gerektiriyor.
LFM mimarisinin detayları
Liquid'in aktardıklarına göre; ekip, yeni LFM'lerini eğitmek için dinamik sistemler, sinyal işleme ve sayısal doğrusal cebir teorisine derinlemesine kök salmış hesaplama birimlerinin bir karışımını kullandı. Bunun sonucunda ortaya, video, ses, metin, zaman serileri ve sinyaller dahil olmak üzere her türlü sıralı veriyi modellemek için kullanılabilen genel amaçlı yapay zeka modelleri ortaya çıktı.
Geçtiğimiz yıl şirket, mimarisinde; CSAIL'de geliştirilen Liquid Neural Networks'ü (LNNs) kullandığını belirtmişti. Liquid Neural Networks, verileri dönüştürmek için yapay nöronları veya düğümleri daha verimli ve uyarlanabilir hale getirmeyi amaçlayan bir mimari.
Geleneksel derin öğrenme modellerinde karmaşık görevlerin yerine getirilmesi için binlerce nöron gerekmekte. Öte yandan LNN'ler yenilikçi matematiksel formülasyonlarla birlikte daha az sayıda nöronun aynı sonuçları elde edebileceğini gösteriyor. Modeller, çıkarım sırasında gerçek zamanlı ayarlamalar yapılmasını sağlarken, bellek kullanımını minimumda tutarak 1 milyon token'a kadar verimli bir şekilde işliyor. Üstelik bu işlemlerde genelde geleneksel modellerde gördüğümüz hesaplama ek yükü de bulunmuyor.
Liquid'in blogunda paylaştığı bir grafiğe göre; LFM-3B modelinin token uzunluğu ölçeklendikçe, çıkarım belleği ayak izi açısından Google'ın Gemma-2, Microsoft'un Phi-3 ve Meta'nın Llama-3.2 modellerine kıyasla daha iyi performans gösteriyor. Diğer modeller uzun bağlam işleme için bellek kullanımında keskin bir artış yaşarken, LFM-3B dikkate değer seviyede daha küçük bir ayak izine sahip. Bu bağlamda LFM-3B'nin belge analizi veya sohbet robotları uygulamaları için ideal olduğunu söyleyebiliriz.
Liquid AI'ın ses, video ve metin verilerini kapsayan çok modlu yetenekleri, LFM model serisinin finansal hizmetlerden biyoteknoloji ve tüketici elektroniğine kadar çok çeşitli sektöre hizmet verebilmesini sağlıyor.
Liquid AI'ın modelleri, NVIDIA, AMD, Apple, Qualcomm ve Cerebras'ın donanımlarında kullanılmak üzere optimize edildi. Henüz önizleme aşamasında olan modellerin açık kaynak kodlu olmadığını belirtelim. LFM serisini denemek isteyenler, modellere Liquid'in çıkarım oyun alanı, Lambda Chat veya Perplexity AI aracılığıyla erişebilir.
Kaynak : Webrazzi