Tether’in Yapay Zekâ Araştırma Grubu, doğrudan akıllı telefonlarda, giyilebilir cihazlarda ve sınırlı işlem gücüne sahip diğer cihazlarda çalışmak üzere tasarlanan yeni nesil medikal dil modeli QVAC MedPsy’ı tanıttı.
Sistem, yerel ve gizliliği koruyan yapısını sürdürürken performans açısından çok daha büyük modellerle rekabet ediyor, bazı senaryolarda ise onları geride bırakıyor. Performansı yalnızca model boyutunu büyüterek artırmak yerine verimliliğe odaklanan bu yaklaşım, işlem gücü ihtiyacını azaltarak uzak bulut altyapılarına duyulan bağımlılığı minimuma indiriyor. Günümüzde birçok yapay zekâ sistemi hâlâ uzak sunucularda çalışan büyük modellere dayanırken, bu durum hassas verilerin bulut ortamlarında işlenmesini zorunlu kılıyor. Özellikle sağlık sektöründe hasta kayıtları, teşhis süreçleri ve klinik notlar gibi kritik verilerin sıkı gizlilik ve uyumluluk kurallarına tabi olduğu düşünüldüğünde, mevcut mimarilerin sürdürülebilirliği giderek daha fazla tartışılıyor. Yaklaşık 36 milyar dolar büyüklüğündeki pazarın 2033 yılına kadar 500 milyar doların üzerine çıkmasının öngörülmesi de, daha güvenli ve verimli sistemlere duyulan ihtiyacı artırıyor.
Bu lansman, yapay zekâ dünyasındaki en köklü varsayımlardan birine doğrudan meydan okuyor: Daha yüksek performans için daha büyük modeller ve daha fazla işlem gücü gerektiği anlayışına. QVAC MedPsy ise bu yaklaşımı tersine çeviriyor. Yalnızca 1,7 milyar parametreye sahip model, yedi farklı kapalı uçlu medikal benchmarkta ortalama 62,62 puan alarak, kendisinden daha büyük olan Google’ın MedGemma 1.5-4B-it modelini 11,42 puan farkla geride bırakıyor. Gerçek dünya klinik senaryolarını ölçen HealthBench Hard testinde ise model, yaklaşık 16 kat daha büyük parametre yapısına sahip MedGemma 27B’yi dahi aşan performans sergiliyor.
QVAC MedPsy’ın 4 milyar parametreli versiyonu, yedi farklı kapalı uçlu benchmark genelinde 70,54 puan elde ederek, MedGemma-27B-text dahil olmak üzere kendisinden yaklaşık yedi kat daha büyük modelleri geride bıraktı. Model ayrıca HealthBench Hard, HealthBench ve MedXpertQA gibi klinik odaklı değerlendirmelerde de dikkat çekici performans sergiledi. Toplamda sekiz farklı benchmark seti üzerinden gerçekleştirilen değerlendirmelerde; klinik bilgi ve tıbbi sınavlar için MedQA-USMLE ve MedMCQA, sağlık okuryazarlığı için MMLU Health ve MMLU-Pro Health, uzman klinik muhakeme için MedXpertQA, biyomedikal araştırma anlayışı için PubMedQA, küresel sağlık sistemlerine yönelik AfriMedQA ve gerçek dünya klinik senaryolarını ölçen HealthBench ile HealthBench Hard testleri kullanıldı. Elde edilen performans artışı ise kapsamlı medikal denetim süreçleri, yüksek değerli klinik muhakeme verileri ve zorlu medikal vaka analizlerine odaklanan reinforcement learning tabanlı aşamalı eğitim yaklaşımından kaynaklanıyor.
Modeller, yüksek performansın yanı sıra çıkarım maliyetlerinde de ciddi verimlilik sağlıyor. QVAC MedPsy 4B modeli, benzer sistemlerde kullanılan ortalama 2.953 token’a karşılık yalnızca yaklaşık 909 token ile yanıt üreterek 3,2 kat daha düşük işlem yükü sunuyor. QVAC MedPsy 1.7B modeli ise yaklaşık 1.110 token kullanırken, benzer modellerde bu rakam 1.901 seviyesinde kalıyor; bu da yaklaşık 1,7 katlık bir verimlilik avantajına işaret ediyor. Daha düşük token kullanımı, daha hızlı yanıt süreleri ve bulut altyapısına ihtiyaç duymadan yerel çalışma imkânı anlamına geliyor. Modeller ayrıca yerel kullanım için optimize edilen quantized GGUF formatlarında da yayımlanıyor. Önerilen Q4_K_M sürümleri, QVAC MedPsy-1.7B için yaklaşık 1,2 GB, QVAC MedPsy-4B için ise yaklaşık 2,6 GB boyutunda bulunuyor. Yapılan testlerde bu sıkıştırılmış sürümlerin benchmark performansının büyük bölümünü koruduğu ve modelleri mobil ile edge cihazlarda kullanılabilir hale getirdiği görülüyor.
“Tether olarak QVAC MedPsy’da odak noktamız verimliliği artırmak”
QVAC MedPsy’e dair açıklamalarda bulunan Tether CEO’su Paolo Ardoino, “Tether olarak QVAC MedPsy’da odak noktamız model boyutunu büyütmek değil, model seviyesinde verimliliği artırmaktı. Testlerimizde 1,7 milyar parametreli QVAC MedPsy modeli, MedGemma-4B gibi daha büyük sistemleri geride bırakırken, 4 milyar parametreli modelimiz de kendisinden yaklaşık yedi kat büyük modellerden daha iyi sonuçlar verdi ve yanıt başına üç kata kadar daha az token kullandı. Bu kombinasyon önemli çünkü doğrudan işlem gücü gereksinimini, gecikmeyi ve maliyeti azaltıyor. Modelin uzak altyapılara bağlı kalmadan standart donanımlarda yerel olarak çalışmasını sağlıyor. Sağlık sektöründe bu durum tüm sınırları değiştiriyor; medikal muhakemeyi, verinin zaten bulunduğu yerde, yani bir hastane sistemi içinde veya bir cihaz üzerinde, hassas bilgileri bulut üzerinden taşımadan ve harici işlem beklemeden gerçekleştirebiliyorsunuz.” dedi.


