Tıbbi Asistanlar olarak Yüksek Lisans: Hugging Face Benchmark, GPT and Co. için sertifikalar sağlar.

Adanali

Member
AI platformu Hugging Face'in operatörleri “Açık Tıp-LLM Lider Tablosunu” sundu. Karşılaştırma, büyük dil modellerini (LLM'ler) sağlık hizmetleri konularındaki performanslarına göre değerlendirir.

Duyuru



Hugging Face'in mantığı, hataların (LLM'ler halüsinasyona eğilimlidir) havadan sudan konuşmalarda pek önemli olmadığı, ancak sağlık hizmetlerinde yanlış bir açıklama veya cevabın hasta bakımı veya tedavi sonuçları üzerinde ciddi sonuçlar doğurabileceğidir.

Doğru tanı, kontrendikasyon göz ardı edildi


Örneğin, karşılaştırmanın yayınlanmasına eşlik eden blog yazısı, bahçeyle uğraşırken bir ısırıktan sonra ateş, baş ağrısı ve eklem ağrısından şikayet eden hamile bir hastanın bakımıyla ilgili tıbbi bir soruyu aktarıyor. Lyme hastalığı için bir test yapılır ve hangi ilacın hastaya en iyi şekilde yardımcı olacağı sorusu ortaya çıkar. Seçenekler ibuprofen, tetrasiklin, amoksisilin ve gentamisindir.

LLM GPT-3.5, şüpheli Lyme hastalığına doğru tepki vermesine rağmen, hamilelik sırasında kullanım için açık bir kontrendikasyona sahip olan aktif madde tetrasiklini seçer. GPT-3.5 ise hamileliğin ilk üç ayından sonra almanın güvenli olduğunu belirtiyor.







GPT-3.5 tanısı doğrudur ancak aktif madde hamilelik sırasında alınmamalıdır.


(Resim: sarılma yüzü)



Hugging Face'e göre bu nedenle yüksek lisansların sağlık sektöründe ne ölçüde kullanılabileceğini değerlendirmek için bir kıyaslama yapılması gerekiyor.

Temel olarak tıbbi veri seti


Karşılaştırma, tıpla ilgili sorular ve biyoloji için MedQA (USMLE) (Tıbbi Alan Soru Yanıtlama), PubMedQA, MedMCQA (Tıbbi Alan Çoktan Seçmeli Soru Yanıtlama) ve MMLU'nun (Massive Multitask Language Understanding'i Ölçme) bölümlerini içeren çok sayıda tıbbi veri kümesini kullanır. . . Sıralama, her modelin tıbbi bilgisini ve belirli soruları yanıtlama yeteneğini değerlendirir.







Bir tablo, farklı veri kümelerine dayalı modellerin sonuçlarını gösterir


(Resim: sarılma yüzü)



Yanıtların doğruluğu (Metrik Doğruluk (ACC)) modellerin değerlendirilmesinde ana faktördür. Skor tablosu, büyük dil modellerini değerlendirmek için açık kaynaklı Eleuther AI Dil Modeli Değerlendirme Harness çerçevesini kullanır.

Bireysel veri kümelerine ilişkin bilgiler de dahil olmak üzere daha fazla ayrıntıyı Hugging Face blogunda bulabilirsiniz. Gönderi, bazı dil modellerinin sonuçlarını içeren etkileşimli bir tablo içerir.


(kendim)



Haberin Sonu
 
Üst