Görsel ChatGPT: Microsoft, resimlerle ChatGPT’ye görsel AI özellikleri ekler

Adanali

Member
Visual ChatGPT ile Microsoft, ChatGPT’ye dayalı ve OpenAI’nin yapay zeka sistemini Stable Diffusion gibi çeşitli Visual Foundation Modelleriyle (VFM) birleştiren çok modlu bir konuşma modeli yayımladı. Bu tür temel görsel modellerle, bilgisayarlar karmaşık görüntüleri analiz edebilir ve bunları kendileri üretebilir. Pekin’deki Microsoft Asya’dan kıdemli araştırmacı Dr. Chenfei Wu’nun etrafındaki bilim adamları ekibi, çok modlu ChatGPT’yi sıfırdan eğitmek istememe konusunda. Bunun yerine, Visual ChatGPT için merkezi Bilgi İstemi Yöneticisi, kullanıcı talimatlarına dayalı olarak iş için uygun şablonları seçer. Visual ChatGPT, Mart 2023’ün başlarında Microsoft Almanya tarafından duyurulan çok modlu modellerden biri olabilir.


Aksi takdirde Visual ChatGPT, görüntülerin içeriğini açıklayabilir ve görüntülerle ilgili soruları yanıtlayabilir. Örneğin Visual ChatGPT, bir balona iğne batırırsanız neler olabileceğini açıklar.




VisualGPT'de sohbet geçmişi



Visual ChatGPT’de Sohbet Geçmişi


(Resim: Microsoft)



Bu amaçla Visual ChatGPT, diğer şeylerin yanı sıra BLIP modelini kullanır (Birleşik Görüntü-Dil Anlayışı ve Üretimi için Önyükleme Dili-Görüntü Ön Eğitimi, arXiv.org’daki makale). Örneğin, ControlNet AI modeli, görüntüleme sürecine etkileşimli bir geri bildirim döngüsü dahil ederek AI Stable Difüzyon görüntü oluşturucuyu kontrol etmek için ek talimatlarla yardımcı olur. ChatGPT gibi konuşma yapay zekası, bu istemi Visual ChatGPT’nin kullanıcı geri bildirimlerine dayalı olarak sonraki yinelemelerde bir sonuç sağlaması veya çıktıyı revize etmesi için özelleştirebilir.




VisualGPT mimarisi



VisualGPT mimarisi


(Resim: Chenfei Wu ve ark.)



Görüntüleri Visual ChatGPT ile düzenleme


Visual ChatGPT, Stable Diffusion’a bilgi istemlerini iletmenin yanı sıra, sohbetteki görüntüleri talimatlarla düzenleyebilir veya açıklayabilir. Bir makale için görsele farklı bir arka plan veya renk eklemek isteyen herkes bunu sohbet yoluyla yapabilir. Ayrıca basit elle çizilmiş eskizleri sohbete gönderebilir ve iyileştirmelerini veya değiştirmelerini sağlayabilirsiniz.

Microsoft Asya ekibine göre Visual ChatGPT, büyük ölçüde ChatGPT’ye bağlıdır ve görevleri atamak için OpenAI’nin yapay zeka sohbet sistemine erişmesi gerekir. Ayrıca, görevleri gerçekleştirmek için diğer Visual Foundation şablonlarına erişmeye de bağlıdır. Bu nedenle Visual ChatGPT’nin performansı da bu modellere bağlıdır.


Visual ChatGPT, Meta AI’nın SegmentAnything özelliğini destekler





SegmentAnything Model (SAM), Facebook AI Research tarafından segmentlere ayrılmış görüntü örneği



SegmentAnything Model (SAM), Facebook AI Research tarafından segmentlere ayrılmış görüntü örneği


(Resim: Facebook Yapay Zeka Araştırması (FUAR))



Microsoft’un VFM’si artık GroundingDINO ve SegmentAnything Modelini (SAM) de desteklemektedir. Facebook AI Research (FAIR veya Meta AI), Nisan 2023’ün başlarında SAM görüntü segmenter’i piyasaya sürdü. Bu, nesneleri piksel doğruluğuyla kırpmanıza, her metin girişi için geçerli maskeler oluşturmanıza ve kullanıcıların alan ekleyip çıkarmanıza olanak tanır. Böylece Meta AI, görüntü bölümleme için ilk temel modeli sundu. Multimodalite üzerinde profesyonel olarak çalışan AI uygulayıcıları, SegmentAnything’i “bilgisayar görüşü için bir GPT-3 anı” olarak adlandırıyor çünkü Meta’nın segmentatörü güçlü bir bağlam anlayışına sahip.

Kullanıcılar, İngilizce veya Çince gibi farklı dillerde bir sohbet aracılığıyla Visual ChatGPT’ye istek gönderebilir ve ayrıca resimler sağlayabilir. Tamamen Python’da veya çoğunlukla Jupyter Notebook’ta yazılan Visual ChatGPT kodu, GitHub’da MIT lisansı altında ücretsiz olarak mevcuttur. Depoya göre, Visual ChatGPT’yi denemek istiyorsanız OpenAI API’sine de erişmeniz gerekiyor. Bu, ek maliyetlere yol açabilir.

Diğer satıcılar ve ayrıca LAION gibi açık kaynak dernekleri, kullanıcılara ve geliştiricilere seçenekler sunmak ve yapay zeka geliştirmeyi daha fazla demokratikleştirmek için şu anda OpenAI ve Microsoft ürünlerine açık kaynak alternatifleri üzerinde çalışıyor. OpenAssistant, ChatGPT’ye alternatif olarak kısa süre önce yayınlandı.


(mak)



Haberin Sonu
 
Üst