T
Tuğçe İçözü
Misafir
OpenAI'ın gizemli projesi Strawberry'den sizlere daha önce de bahsetmiştik. Şimdiye kadar Strawberry olarak bilinen OpenAI'ın yeni modeli o1 dün kullanıcıların ilgisine sunuldu. Aslında o1, bir model ailesi olarak karşımıza çıkıyor. Model ailesinde yer alan o1-preview ve kod oluşturmaya yönelik daha verimli ve küçük bir model olan o1-mini, dün ChatGPT'de ve OpenAI'ın API'si aracılığıyla kullanıma sunuldu.
Şu an için yalnızca ChatGPT Plus veya Team'e abonelerinin o1'e erişmesi mümkün. Kurumsal ve eğitim kullanıcıları ise önümüzdeki hafta başında modele erişebilecek.
GPT-4o ile kıyasladığımızda o1 deneyimi görece basit kalıyor. Örneğin, o1 henüz GPT-4o gibi internette gezinemiyor veya dosyaları analiz edemiyor. Öte yandan modelin görüntü analiz etme özelliklerinin bulunduğunu belirtelim. Ancak bu özellikle ek testler için devre dışı bırakılmış durumda.
Tüm bunların yanı sıra o1'in bir hız limitine sahip olduğunu belirtelim. Haftalık olarak o1-preview için 30 mesaj ve o1-mini için ise 50 mesaj limiti bulunmakta. Üstelik o1'in pahalılığı ile dikkat çektiğini de söylemekte fayda var. Paylaşılan bilgilere göre; API'de o1-preview, 1 milyon girdi tokenı başına 15 dolar ve 1 milyon çıktı tokenı başına 60 dolar alıyor. GPT-4o ile kıyaslandığında o1-preview, girdi için 3 kat ve çıktı için 4 kat daha pahalı.
OpenAI, ChatGPT'nin tüm ücretsiz kullanıcılarına o1-mini erişimi getirmeyi planlanıyor. Ancak şirket, henüz bunun için bir yayın tarihi belirlemediğini dile getiriyor.
OpenAI'ın belirttiğine göre, o1'i diğer üretken yapay zeka modellerinden niteliksel olarak farklı hissettiren şey, sorgulara yanıt vermeden önce “düşünme” yeteneği.
Şirketin aktardıklarına göre; o1'in muhakeme becerisine katkıda bulunanlardan biri de CoT veya düşünce zinciri olarak bilinen bir makine öğrenimi yaklaşımı kullanılması. Bu teknik, Büyük Dil Modelleri'nin (LLM) karmaşık bir görevi daha küçük adımlara ayırmasına ve bu adımları teker teker gerçekleştirmesine yarıyor. Pek çok senaryoda, karmaşık istemleri bu şekilde ele almak, bir LLM'in yanıtlarının doğruluğunu artırmasına destek olabilir. o1'in CoT mekanizması pekiştirmeli öğrenme kullanarak geliştirildi.
OpenAI'da araştırmacı bilim insanı olan Noam Brown'ın X gönderisinde paylaştıklarına göre; o1'in pekiştirmeli öğrenme ile eğitilmesi, sisteme, yanıt vermeden önce özel bir düşünce zinciri aracılığıyla düşünmeyi öğretti. Brown'ın ifadesine göre; o1 yanıtları doğru bildiğinde ödüller, bilmediğinde ise cezalar aldı.
Brown'ın belirttiğine göre; OpenAI, eğitim sürecinde yeni bir optimizasyon algoritması, akıl yürütme verileri ve özellikle akıl yürütme görevleri için uyarlanmış bilimsel literatür içeren eğitim veri seti kullandı. Brown tüm bu çalışmanın neticesini şöyle özetliyor:
Düşünmesi için ek süre verildiğinde, o1 bir görevi bütünsel olarak düşünebilir ve ileriyi planlayabilir. Ayrıca modelin bir cevaba ulaşmasına yardımcı olan uzun bir süre boyunca bir dizi eylem gerçekleştirebileceğini de ekleyelim.
OpenAI'ın belirttiğine göre, bir lise matematik yarışması olan Uluslararası Matematik Olimpiyatı (IMO) için yapılan bir eleme sınavında, o1 problemlerin yüzde 83'ünü doğru çözerken GPT-4o yalnızca yüzde 13'ünü çözdü. Bu noktada Google DeepMind'ın son yapay zekasının gerçek IMO yarışmasına eşdeğer bir yarışmada gümüş madalya kazandığını belirtelim. OpenAI ayrıca o1'in Codeforces olarak bilinen çevrimiçi programlama mücadelesi turlarında katılımcıların 89. yüzdelik dilimine ulaştığını söylüyor. Bu da DeepMind'ın amiral gemisi sistemi AlphaCode 2'den daha iyi bir performans sergilendiğini gösteriyor.
Bir başka değerlendirmede, o1-preview, karmaşık fen sorularından oluşan GPQA Diamond benchmark'ını çözdü. Paylaşılan bilgilere göre; model, bir dizi fizik, biyoloji ve kimya sorusunda doktoralı bir grup uzmandan daha yüksek bir puan elde etti.
OpenAI'ın ifadesine göre; o1, genel olarak veri analizi, bilim ve kodlama alanlarındaki sorunlarda daha iyi performans göstermeli. o1'i yapay zeka kodlama asistanı GitHub Copilot ile test eden GitHub'ın aktardıklarına göre; model, algoritmaları ve uygulama kodunu optimize etme konusunda becerikli. Bunlara ek olarak OpenAI'ın kıyaslaması, o1'in çok dilli becerilerde, özellikle de Arapça ve Korece gibi dillerde GPT-4o'ya göre daha iyi performans sergilediğini gösteriyor.
Öte yandan OpenAI o1, sorguya bağlı olarak diğer modellerden daha yavaş olabiliyor. Kullananlar, o1'in bazı soruları yanıtlamasının 10 saniyeden fazla sürebileceğini dile getiriyor. Bununla beraber Brown, o1'in zaman zaman tic-tac-toe oyunlarında takıldığını aktarıyor. OpenAI'ın teknik bir makalesinde yer alan bilgilere göre, modeli test edenler, o1'in GPT-4o'dan daha fazla halüsinasyon görme eğiliminde olduğu ifade etti. Üstelik test kullanıcılarının geri bildirimlerine göre; model, bir sorunun cevabını bilmediğini daha az kabul ediyor.
Yapay zeka modellerinin akıl yürütme yöntemlerini geliştirmeye çalışan tek şirket OpenAI değil. Google DeepMind araştırmacıları da kısa bir süre önce yayınladıkları bir çalışma ile modellere daha fazla hesaplama süresi vererek ve talepleri yerine getirmeleri için rehberlik ederek, bu modellerin performansının herhangi bir ek ayarlama yapılmadan önemli ölçüde artırılabileceğini gösterdi.
Kaynak : Webrazzi
o1'in öne çıkan özellikleri
Şu an için yalnızca ChatGPT Plus veya Team'e abonelerinin o1'e erişmesi mümkün. Kurumsal ve eğitim kullanıcıları ise önümüzdeki hafta başında modele erişebilecek.
GPT-4o ile kıyasladığımızda o1 deneyimi görece basit kalıyor. Örneğin, o1 henüz GPT-4o gibi internette gezinemiyor veya dosyaları analiz edemiyor. Öte yandan modelin görüntü analiz etme özelliklerinin bulunduğunu belirtelim. Ancak bu özellikle ek testler için devre dışı bırakılmış durumda.
Tüm bunların yanı sıra o1'in bir hız limitine sahip olduğunu belirtelim. Haftalık olarak o1-preview için 30 mesaj ve o1-mini için ise 50 mesaj limiti bulunmakta. Üstelik o1'in pahalılığı ile dikkat çektiğini de söylemekte fayda var. Paylaşılan bilgilere göre; API'de o1-preview, 1 milyon girdi tokenı başına 15 dolar ve 1 milyon çıktı tokenı başına 60 dolar alıyor. GPT-4o ile kıyaslandığında o1-preview, girdi için 3 kat ve çıktı için 4 kat daha pahalı.
OpenAI, ChatGPT'nin tüm ücretsiz kullanıcılarına o1-mini erişimi getirmeyi planlanıyor. Ancak şirket, henüz bunun için bir yayın tarihi belirlemediğini dile getiriyor.
o1'in düşünme yeteneği
OpenAI'ın belirttiğine göre, o1'i diğer üretken yapay zeka modellerinden niteliksel olarak farklı hissettiren şey, sorgulara yanıt vermeden önce “düşünme” yeteneği.
Şirketin aktardıklarına göre; o1'in muhakeme becerisine katkıda bulunanlardan biri de CoT veya düşünce zinciri olarak bilinen bir makine öğrenimi yaklaşımı kullanılması. Bu teknik, Büyük Dil Modelleri'nin (LLM) karmaşık bir görevi daha küçük adımlara ayırmasına ve bu adımları teker teker gerçekleştirmesine yarıyor. Pek çok senaryoda, karmaşık istemleri bu şekilde ele almak, bir LLM'in yanıtlarının doğruluğunu artırmasına destek olabilir. o1'in CoT mekanizması pekiştirmeli öğrenme kullanarak geliştirildi.
OpenAI'da araştırmacı bilim insanı olan Noam Brown'ın X gönderisinde paylaştıklarına göre; o1'in pekiştirmeli öğrenme ile eğitilmesi, sisteme, yanıt vermeden önce özel bir düşünce zinciri aracılığıyla düşünmeyi öğretti. Brown'ın ifadesine göre; o1 yanıtları doğru bildiğinde ödüller, bilmediğinde ise cezalar aldı.
Brown'ın belirttiğine göre; OpenAI, eğitim sürecinde yeni bir optimizasyon algoritması, akıl yürütme verileri ve özellikle akıl yürütme görevleri için uyarlanmış bilimsel literatür içeren eğitim veri seti kullandı. Brown tüm bu çalışmanın neticesini şöyle özetliyor:
“o1, ne kadar uzun süre düşünürse, muhakeme gerektiren görevleri o kadar iyi yapar”
Düşünmesi için ek süre verildiğinde, o1 bir görevi bütünsel olarak düşünebilir ve ileriyi planlayabilir. Ayrıca modelin bir cevaba ulaşmasına yardımcı olan uzun bir süre boyunca bir dizi eylem gerçekleştirebileceğini de ekleyelim.
OpenAI'ın belirttiğine göre, bir lise matematik yarışması olan Uluslararası Matematik Olimpiyatı (IMO) için yapılan bir eleme sınavında, o1 problemlerin yüzde 83'ünü doğru çözerken GPT-4o yalnızca yüzde 13'ünü çözdü. Bu noktada Google DeepMind'ın son yapay zekasının gerçek IMO yarışmasına eşdeğer bir yarışmada gümüş madalya kazandığını belirtelim. OpenAI ayrıca o1'in Codeforces olarak bilinen çevrimiçi programlama mücadelesi turlarında katılımcıların 89. yüzdelik dilimine ulaştığını söylüyor. Bu da DeepMind'ın amiral gemisi sistemi AlphaCode 2'den daha iyi bir performans sergilendiğini gösteriyor.
Bir başka değerlendirmede, o1-preview, karmaşık fen sorularından oluşan GPQA Diamond benchmark'ını çözdü. Paylaşılan bilgilere göre; model, bir dizi fizik, biyoloji ve kimya sorusunda doktoralı bir grup uzmandan daha yüksek bir puan elde etti.
OpenAI'ın ifadesine göre; o1, genel olarak veri analizi, bilim ve kodlama alanlarındaki sorunlarda daha iyi performans göstermeli. o1'i yapay zeka kodlama asistanı GitHub Copilot ile test eden GitHub'ın aktardıklarına göre; model, algoritmaları ve uygulama kodunu optimize etme konusunda becerikli. Bunlara ek olarak OpenAI'ın kıyaslaması, o1'in çok dilli becerilerde, özellikle de Arapça ve Korece gibi dillerde GPT-4o'ya göre daha iyi performans sergilediğini gösteriyor.
o1'in dezavatajları neler?
Öte yandan OpenAI o1, sorguya bağlı olarak diğer modellerden daha yavaş olabiliyor. Kullananlar, o1'in bazı soruları yanıtlamasının 10 saniyeden fazla sürebileceğini dile getiriyor. Bununla beraber Brown, o1'in zaman zaman tic-tac-toe oyunlarında takıldığını aktarıyor. OpenAI'ın teknik bir makalesinde yer alan bilgilere göre, modeli test edenler, o1'in GPT-4o'dan daha fazla halüsinasyon görme eğiliminde olduğu ifade etti. Üstelik test kullanıcılarının geri bildirimlerine göre; model, bir sorunun cevabını bilmediğini daha az kabul ediyor.
Yapay zeka modellerinin akıl yürütme yöntemlerini geliştirmeye çalışan tek şirket OpenAI değil. Google DeepMind araştırmacıları da kısa bir süre önce yayınladıkları bir çalışma ile modellere daha fazla hesaplama süresi vererek ve talepleri yerine getirmeleri için rehberlik ederek, bu modellerin performansının herhangi bir ek ayarlama yapılmadan önemli ölçüde artırılabileceğini gösterdi.
Kaynak : Webrazzi