G
Gözde Ulukan
Misafir
Yapay zeka alanındaki gelişmeler, insan hayatını kolaylaştırmaya devam ediyor. Bu kapsamda teknoloji devlerinden Meta da yeni bir adım attı; konuşma ve metin çevirileri için bir yapay zeka modeli olan SeamlessM4T'yi duyurdu.
Meta'ya göre bu model, hem metni hem de sesi işleyebilen bir sinir ağı olarak, 100 dile kadar metinden konuşmaya, konuşmadan metne, konuşmadan konuşmaya ve metinden metne çeviriler yapabiliyor. SeamlessM4T'nin amacı ise farklı dilleri konuşan insanların birbirleriyle daha etkili iletişim kurmalarına yardımcı olmak.
Şirket blog yazısında, SeamlessM4T modelinin yaklaşık 100 dilde metin ve konuşma arasındaki çevirilerin yanı sıra 35 dil için tam konuşmadan konuşmaya çeviriyi destekleyebileceğini ve daha önce yalnızca ayrı modellerde mevcut olan teknolojiyi birleştirdiğini açıkladı.
Meta, SeamlessM4T'yi geliştiricilerin çalışmayı geliştirmesine olanak tanıyan bir araştırma lisansı (CC BY-NC 4.0) altında yayınlıyor. Şirket ayrıca, 270 bin saatlik çıkarılmış konuşma ve metin hizalamalarını içeren, bugüne kadarki en büyük açık çok modlu çeviri veri kümesi olarak adlandırdığı SeamlessAlign'ı da yayınlıyor. Bununla, diğer araştırmacıların gelecekteki çeviri yapay zeka modellerinin eğitimini başlatması hedefleniyor.
Meta'nın yapay zeka çeviri ve transkripsiyon araçları geliştirmek için yatırım yapan tek şirket olmadığını belirtmekte fayda var. Amazon, Microsoft, OpenAI gibi şirketlerin yanı sıra bu alanda faaliyet gösteren birçok girişim de mevcut. Örneğin; Google, dünyanın en çok konuşulan 1000 dilini anlayabilen bir model oluşturma çabasının bir parçası olarak Universal Speech Model adını verdiği bir model oluşturuyor. Mozilla da otomatik konuşma tanıma algoritmalarını eğitmek için en büyük çok dilli ses koleksiyonlarından biri olan Common Voice'a sahip. Bunun gibi benzer örnekler her geçen gün karşımıza çıkıyor.
Ancak SeamlessM4T, çeviri ve transkripsiyon yeteneklerini tek bir modelde birleştirdiği için ileride adını daha fazla duyacağımız bir yapay zeka modeli olabilecek gibi duruyor.
Kaynak : Webrazzi
Meta'ya göre bu model, hem metni hem de sesi işleyebilen bir sinir ağı olarak, 100 dile kadar metinden konuşmaya, konuşmadan metne, konuşmadan konuşmaya ve metinden metne çeviriler yapabiliyor. SeamlessM4T'nin amacı ise farklı dilleri konuşan insanların birbirleriyle daha etkili iletişim kurmalarına yardımcı olmak.
Şirket blog yazısında, SeamlessM4T modelinin yaklaşık 100 dilde metin ve konuşma arasındaki çevirilerin yanı sıra 35 dil için tam konuşmadan konuşmaya çeviriyi destekleyebileceğini ve daha önce yalnızca ayrı modellerde mevcut olan teknolojiyi birleştirdiğini açıkladı.
Meta, SeamlessM4T'yi geliştiricilerin çalışmayı geliştirmesine olanak tanıyan bir araştırma lisansı (CC BY-NC 4.0) altında yayınlıyor. Şirket ayrıca, 270 bin saatlik çıkarılmış konuşma ve metin hizalamalarını içeren, bugüne kadarki en büyük açık çok modlu çeviri veri kümesi olarak adlandırdığı SeamlessAlign'ı da yayınlıyor. Bununla, diğer araştırmacıların gelecekteki çeviri yapay zeka modellerinin eğitimini başlatması hedefleniyor.
Meta'nın yapay zeka çeviri ve transkripsiyon araçları geliştirmek için yatırım yapan tek şirket olmadığını belirtmekte fayda var. Amazon, Microsoft, OpenAI gibi şirketlerin yanı sıra bu alanda faaliyet gösteren birçok girişim de mevcut. Örneğin; Google, dünyanın en çok konuşulan 1000 dilini anlayabilen bir model oluşturma çabasının bir parçası olarak Universal Speech Model adını verdiği bir model oluşturuyor. Mozilla da otomatik konuşma tanıma algoritmalarını eğitmek için en büyük çok dilli ses koleksiyonlarından biri olan Common Voice'a sahip. Bunun gibi benzer örnekler her geçen gün karşımıza çıkıyor.
Ancak SeamlessM4T, çeviri ve transkripsiyon yeteneklerini tek bir modelde birleştirdiği için ileride adını daha fazla duyacağımız bir yapay zeka modeli olabilecek gibi duruyor.
Kaynak : Webrazzi