Alibaba Qwen2-VL yapay zekası nedir ne işe yarar?

Alibaba, 20 Dakikadan Uzun Videoları Analiz Edebilen Yeni AI Modeli Qwen2-VL’yi Tanıttı.

Alibaba Cloud, Çinli e-ticaret devinin bulut hizmetleri ve depolama bölümü, görsel anlama, video analizi ve çok dilli metin-görsel işleme yeteneklerini geliştirmek için tasarlanmış en son gelişmiş vizyon-dil modeli Qwen2-VL’yi duyurdu.

Şimdiden, Meta’nın Llama 3.1, OpenAI’nin GPT-4o, Anthropic’in Claude 3 Haiku ve Google’ın Gemini-1.5 Flash gibi diğer en son teknoloji modellerine kıyasla üçüncü parti testlerde etkileyici bir performans sergiliyor. Bu modeli Hugging Face üzerinde deneyebilirsiniz.

Desteklenen Diller: İngilizce, Çince, çoğu Avrupa dili, Japonca, Korece, Arapça ve Vietnamca gibi diller bulunmaktadır.

Görseller ve Videolar Üzerinde Olağanüstü Analiz Yeteneği:

Yeni Qwen2-VL ile Alibaba, görsel veri ile etkileşimde yeni standartlar belirlemeyi hedefliyor. Model, birden fazla dili tanıyabilen el yazısını analiz etme, hareketsiz görüntülerde birden fazla nesneyi tanımlama, açıklama ve ayırt etme gibi yeteneklere sahip. Hatta canlı videoları neredeyse gerçek zamanlı olarak analiz edip özetleyebilir veya geri bildirimde bulunabilir; bu da onu teknik destek gibi canlı operasyonlar için kullanılabilir hale getirebilir.

Qwen araştırma ekibi, GitHub’da Qwen2-VL model ailesi hakkında yayınladıkları bir blog yazısında şunları belirtiyor: “Sabit görüntülerin ötesinde, Qwen2-VL video içeriği analizine de uzanıyor. Video içeriğini özetleyebilir, ilgili soruları yanıtlayabilir ve gerçek zamanlı olarak sürekli bir sohbet akışını sürdürebilir, canlı sohbet desteği sunabilir. Bu işlevsellik, onu kişisel bir asistan olarak kullanarak video içeriğinden doğrudan bilgi ve içgörüler sağlamada kullanıcıya yardımcı olmasını sağlar.”

Ayrıca, Alibaba modelin 20 dakikadan uzun videoları analiz edebildiğini ve içerikleri hakkında soruları yanıtlayabildiğini belirtiyor.

Alibaba, yeni modelin aşağıdaki videoyu doğru bir şekilde analiz edip tanımladığını da gösterdi:

Qwen-2VL’nin Özeti:

Video, kameraya konuşan bir adamla başlıyor, ardından bir kontrol odasında oturan bir grup insan görülüyor. Kamera daha sonra uzay istasyonunda yüzen iki adama geçiyor, bu iki adamın kameraya konuştuğu görülüyor. Görünen o ki bu adamlar astronot ve uzay giysileri giymişler. Uzay istasyonu çeşitli ekipmanlar ve makinelerle dolu, kamera istasyonun farklı alanlarını göstermek için etrafta dolaşıyor. Adamlar kameraya konuşmaya devam ediyor ve görevlerini ve gerçekleştirdikleri çeşitli görevleri tartışıyor gibi görünüyorlar. Genel olarak, video uzay keşfi dünyasına ve astronotların günlük yaşamlarına büyüleyici bir bakış sunuyor.

Üç Boyut, İki Tanesi Tamamen Açık Kaynak:

Alibaba’nın yeni modeli, farklı parametre boyutlarına sahip üç varyant olarak geliyor — Qwen2-VL-72B (72 milyar parametre), Qwen2-VL-7B ve Qwen2-VL-2B. (Parametreler, bir modelin iç ayarlarını tanımlar ve daha fazla parametre genellikle daha güçlü ve yetenekli bir modeli ifade eder.)

7B ve 2B varyantları, ticari amaçlarla kullanılmalarına izin veren açık kaynaklı Apache 2.0 lisansları altında sunuluyor. Bu, potansiyel karar vericiler için cazip bir seçenek haline getiriyor. Bu modeller, rekabetçi performans sunmak üzere tasarlanmış olup, Hugging Face ve ModelScope gibi platformlarda kullanılabilir durumda.

Ancak, en büyük 72B modeli henüz halka açık olarak sunulmadı ve yalnızca Alibaba’nın sunduğu ayrı bir lisans ve API aracılığıyla kullanılabilir olacak.

Fonksiyon Çağrısı ve İnsan Benzeri Görsel Algı:

Qwen2-VL serisi, Qwen model ailesinin temeli üzerine inşa edilmiş olup, görsel veri işleme ve anlama yeteneğini geliştirmek için birçok önemli alanda önemli ilerlemeler sunuyor.

Bu modeller, mobil telefonlar ve robotlar gibi cihazlara entegre edilerek görsel ortamlar ve metin talimatlarına dayalı otomatik işlemler yapabilir. Bu özellik, Qwen2-VL’yi karmaşık akıl yürütme ve karar verme gerektiren görevler için güçlü bir araç haline getiriyor.

Buna ek olarak, Qwen2-VL fonksiyon çağrısını destekler — diğer üçüncü parti yazılımlar, uygulamalar ve araçlarla entegre olarak bu üçüncü parti bilgi kaynaklarından görsel bilgi çıkarma yeteneği sunar. Başka bir deyişle, model “uçuş durumları, hava durumu tahminleri veya paket takibi” gibi bilgileri görebilir ve anlayabilir. Alibaba, bunun modelin “insanların dünyayı algılama biçimine benzer etkileşimleri kolaylaştırabileceğini” belirtiyor.

Qwen2-VL, modelin görsel verileri işleme ve anlama yeteneğini artırmak için bir dizi mimari iyileştirme sunuyor. Naif Dinamik Çözünürlük desteği, modellerin çeşitli çözünürlüklerdeki görüntüleri işlemesine olanak tanıyarak görsel yorumlamada tutarlılık ve doğruluk sağlıyor. Ayrıca, Multimodal Döner Pozisyon Yerleştirme (M-ROPE) sistemi, modellerin metin, görüntü ve videolar arasında aynı anda konumsal bilgileri yakalayıp entegre etmesini sağlıyor.

Qwen Ekibi İçin Sırada Ne Var?

Alibaba’nın Qwen Ekibi, Qwen2-VL’nin başarısı üzerine inşa ederek vizyon-dil modellerinin yeteneklerini daha da ileriye taşımaya kararlıdır. Ekibin planları arasında ek modalitelerin entegrasyonu ve modellerin daha geniş bir uygulama yelpazesinde kullanılabilirliğini artırmak yer alıyor.

Qwen2-VL modelleri artık kullanıma sunulmuş durumda ve Qwen Ekibi, geliştiricileri ve araştırmacıları bu en son araçların potansiyelini keşfetmeye davet ediyor.