Microsoft Phi-3.5 Modeli Google, OpenAI’yı Geride Bırakıyor

Microsoft, OpenAI ile olan ortaklığındaki başarılarla yetinmiyor ve bu başarılara yenilerini eklemek için durmaksızın çalışıyor.

Evet, doğru duydunuz. Washington eyaletindeki Redmond’daki merkezinden tanınan şirket, bugün dil/modlararası yapay zeka alanında gelişen Phi serisinde üç yeni modelin lansmanını yaptı.

Yeni tanıtılan Phi-3.5 serisi, farklı görevler için optimize edilmiş üç modeli içeriyor: 3.82 milyar parametreli Phi-3.5-mini-instruct, 41.9 milyar parametreli Phi-3.5-MoE-instruct ve 4.15 milyar parametreli Phi-3.5-vision-instruct. Bu modeller sırasıyla temel/hızlı akıl yürütme, daha güçlü akıl yürütme ve görsel (resim ve video analizi) görevleri için tasarlandı.

Tüm bu modeller, geliştiriciler tarafından indirilip kullanılabilir ve Hugging Face platformunda Microsoft markasıyla sunulan MIT Lisansı altında ticari kullanım ve özelleştirme kısıtlaması olmadan özelleştirilebilir.

İlginç bir şekilde, bu üç model, çeşitli üçüncü taraf testlerinde neredeyse en son teknoloji performansı sergiliyor ve hatta bazı durumlarda Google’ın Gemini 1.5 Flash, Meta’nın Llama 3.1 ve OpenAI’nın GPT-4o modellerini geride bırakıyor.

Bu performans, esnek açık lisans ile birleştiğinde, sosyal medya platformu X’te Microsoft’a yönelik övgüleri beraberinde getirdi:

Yeni Modellerin Özellikleri

Şimdi, Hugging Face’te yayımlanan sürüm notlarına göre bu yeni modelleri kısaca inceleyelim:

Phi-3.5 Mini Instruct: Kaynak Sınırlı Ortamlar İçin Optimize Edildi

Phi-3.5 Mini Instruct modeli, 3.8 milyar parametreye sahip hafif bir yapay zeka modelidir ve 128k token bağlam uzunluğunu destekleyerek talimatlara uyum sağlamak için tasarlanmıştır.

Bu model, kod üretimi, matematiksel problem çözme ve mantık temelli akıl yürütme gibi güçlü akıl yürütme yetenekleri gerektiren bellek veya hesaplama açısından sınırlı ortamlar için idealdir.

Küçük boyutuna rağmen, Phi-3.5 Mini Instruct modeli çok dilli ve çok dönüşlü konuşma görevlerinde rekabetçi performans sergileyerek seleflerine kıyasla önemli iyileştirmeler sunar. Model, çeşitli karşılaştırmalarda neredeyse son teknoloji performans gösterir ve “uzun bağlam kod anlayışı” ölçen RepoQA benchmark testinde Llama-3.1-8B-instruct ve Mistral-7B-instruct gibi benzer boyutlu modelleri geride bırakır.

Phi-3.5 MoE: Microsoft’un ‘Uzmanlar Karışımı’ Modeli

Phi-3.5 MoE (Uzmanlar Karışımı) modeli, farklı görevlerde uzmanlaşan birden fazla model türünü birleştiren bu türden ilk model gibi görünüyor.

Bu model, 42 milyar aktif parametreli bir mimari kullanıyor ve 128k token bağlam uzunluğunu destekleyerek talepkar uygulamalar için ölçeklenebilir yapay zeka performansı sunuyor. Ancak, Hugging Face belgelendirmesine göre yalnızca 6.6B aktif parametreyle çalışıyor.

Çeşitli akıl yürütme görevlerinde mükemmel performans sergilemek üzere tasarlanan Phi-3.5 MoE, kod, matematik ve çok dilli dil anlayışında güçlü performans sunar ve RepoQA gibi belirli benchmark testlerinde genellikle daha büyük modelleri geride bırakır.

Ayrıca, STEM, beşeri bilimler, sosyal bilimler gibi konularda GPT-4o mini modelini 5-shot MMLU (Massive Multitask Language Understanding) testlerinde etkileyici bir şekilde geride bırakır.

Bu modelin benzersiz mimarisi, birden fazla dili içeren karmaşık yapay zeka görevlerini verimli bir şekilde yönetmesini sağlar.

Phi-3.5 Vision Instruct: Gelişmiş Çok Modlu Akıl Yürütme

Üçlüyü tamamlayan Phi-3.5 Vision Instruct modeli, hem metin hem de görsel işleme yeteneklerini bir araya getiriyor.

Bu çok modlu model, genel görüntü anlama, optik karakter tanıma, tablo ve grafik anlama ve video özetleme gibi görevler için özellikle uygundur.

Phi-3.5 serisindeki diğer modeller gibi, Vision Instruct da 128k token bağlam uzunluğunu destekleyerek karmaşık, çok kareli görsel görevleri yönetebilir.

Microsoft, bu modelin yüksek kaliteli, akıl yürütme yoğun veri setlerine odaklanan sentetik ve filtrelenmiş halka açık veri setleri kombinasyonu ile eğitildiğini vurguluyor.

Yeni Phi Üçlüsünün Eğitimi

Phi-3.5 Mini Instruct modeli, 512 H100-80G GPU kullanılarak 10 gün boyunca 3.4 trilyon token ile eğitildi, Vision Instruct modeli ise 256 A100-80G GPU kullanılarak 6 gün boyunca 500 milyar token ile eğitildi.

Uzmanlar karışımı mimarisine sahip Phi-3.5 MoE modeli ise, 23 gün boyunca 512 H100-80G GPU kullanılarak 4.9 trilyon token ile eğitildi.

MIT Lisansı Altında Açık Kaynak

Üç Phi-3.5 modeli de MIT lisansı altında sunularak, Microsoft’un açık kaynak topluluğunu desteklemeye yönelik taahhüdünü yansıtıyor.

Bu lisans, geliştiricilere yazılımı özgürce kullanma, değiştirme, birleştirme, yayımlama, dağıtma, alt lisans verme veya satma yetkisi verir.

Ayrıca, yazılımın “olduğu gibi” sunulduğunu belirten bir sorumluluk reddi beyanı da içerir. Microsoft ve diğer telif hakkı sahipleri, yazılımın kullanımından kaynaklanan herhangi bir iddia, zarar veya diğer sorumluluklardan sorumlu tutulamaz.

Microsoft’un Phi-3.5 serisini piyasaya sürmesi, çok dilli ve çok modlu yapay zeka geliştirme alanında önemli bir adımı temsil ediyor.

Bu modelleri açık kaynak lisansı altında sunarak, Microsoft geliştiricilere en son yapay zeka yeteneklerini uygulamalarına entegre etme gücü veriyor ve hem ticari hem de araştırma alanlarında inovasyonu teşvik ediyor.