AI platformu Hugging Face'in operatörleri “Açık Tıp-LLM Lider Tablosunu” sundu. Karşılaştırma, büyük dil modellerini (LLM'ler) sağlık hizmetleri konularındaki performanslarına göre değerlendirir.
Duyuru
Hugging Face'in mantığı, hataların (LLM'ler halüsinasyona eğilimlidir) havadan sudan konuşmalarda pek önemli olmadığı, ancak sağlık hizmetlerinde yanlış bir açıklama veya cevabın hasta bakımı veya tedavi sonuçları üzerinde ciddi sonuçlar doğurabileceğidir.
Doğru tanı, kontrendikasyon göz ardı edildi
Örneğin, karşılaştırmanın yayınlanmasına eşlik eden blog yazısı, bahçeyle uğraşırken bir ısırıktan sonra ateş, baş ağrısı ve eklem ağrısından şikayet eden hamile bir hastanın bakımıyla ilgili tıbbi bir soruyu aktarıyor. Lyme hastalığı için bir test yapılır ve hangi ilacın hastaya en iyi şekilde yardımcı olacağı sorusu ortaya çıkar. Seçenekler ibuprofen, tetrasiklin, amoksisilin ve gentamisindir.
LLM GPT-3.5, şüpheli Lyme hastalığına doğru tepki vermesine rağmen, hamilelik sırasında kullanım için açık bir kontrendikasyona sahip olan aktif madde tetrasiklini seçer. GPT-3.5 ise hamileliğin ilk üç ayından sonra almanın güvenli olduğunu belirtiyor.
GPT-3.5 tanısı doğrudur ancak aktif madde hamilelik sırasında alınmamalıdır.
(Resim: sarılma yüzü)
Hugging Face'e göre bu nedenle yüksek lisansların sağlık sektöründe ne ölçüde kullanılabileceğini değerlendirmek için bir kıyaslama yapılması gerekiyor.
Temel olarak tıbbi veri seti
Karşılaştırma, tıpla ilgili sorular ve biyoloji için MedQA (USMLE) (Tıbbi Alan Soru Yanıtlama), PubMedQA, MedMCQA (Tıbbi Alan Çoktan Seçmeli Soru Yanıtlama) ve MMLU'nun (Massive Multitask Language Understanding'i Ölçme) bölümlerini içeren çok sayıda tıbbi veri kümesini kullanır. . . Sıralama, her modelin tıbbi bilgisini ve belirli soruları yanıtlama yeteneğini değerlendirir.
Bir tablo, farklı veri kümelerine dayalı modellerin sonuçlarını gösterir
(Resim: sarılma yüzü)
Yanıtların doğruluğu (Metrik Doğruluk (ACC)) modellerin değerlendirilmesinde ana faktördür. Skor tablosu, büyük dil modellerini değerlendirmek için açık kaynaklı Eleuther AI Dil Modeli Değerlendirme Harness çerçevesini kullanır.
Bireysel veri kümelerine ilişkin bilgiler de dahil olmak üzere daha fazla ayrıntıyı Hugging Face blogunda bulabilirsiniz. Gönderi, bazı dil modellerinin sonuçlarını içeren etkileşimli bir tablo içerir.
(kendim)
Haberin Sonu
Duyuru
Hugging Face'in mantığı, hataların (LLM'ler halüsinasyona eğilimlidir) havadan sudan konuşmalarda pek önemli olmadığı, ancak sağlık hizmetlerinde yanlış bir açıklama veya cevabın hasta bakımı veya tedavi sonuçları üzerinde ciddi sonuçlar doğurabileceğidir.
Doğru tanı, kontrendikasyon göz ardı edildi
Örneğin, karşılaştırmanın yayınlanmasına eşlik eden blog yazısı, bahçeyle uğraşırken bir ısırıktan sonra ateş, baş ağrısı ve eklem ağrısından şikayet eden hamile bir hastanın bakımıyla ilgili tıbbi bir soruyu aktarıyor. Lyme hastalığı için bir test yapılır ve hangi ilacın hastaya en iyi şekilde yardımcı olacağı sorusu ortaya çıkar. Seçenekler ibuprofen, tetrasiklin, amoksisilin ve gentamisindir.
LLM GPT-3.5, şüpheli Lyme hastalığına doğru tepki vermesine rağmen, hamilelik sırasında kullanım için açık bir kontrendikasyona sahip olan aktif madde tetrasiklini seçer. GPT-3.5 ise hamileliğin ilk üç ayından sonra almanın güvenli olduğunu belirtiyor.

GPT-3.5 tanısı doğrudur ancak aktif madde hamilelik sırasında alınmamalıdır.
(Resim: sarılma yüzü)
Hugging Face'e göre bu nedenle yüksek lisansların sağlık sektöründe ne ölçüde kullanılabileceğini değerlendirmek için bir kıyaslama yapılması gerekiyor.
Temel olarak tıbbi veri seti
Karşılaştırma, tıpla ilgili sorular ve biyoloji için MedQA (USMLE) (Tıbbi Alan Soru Yanıtlama), PubMedQA, MedMCQA (Tıbbi Alan Çoktan Seçmeli Soru Yanıtlama) ve MMLU'nun (Massive Multitask Language Understanding'i Ölçme) bölümlerini içeren çok sayıda tıbbi veri kümesini kullanır. . . Sıralama, her modelin tıbbi bilgisini ve belirli soruları yanıtlama yeteneğini değerlendirir.

Bir tablo, farklı veri kümelerine dayalı modellerin sonuçlarını gösterir
(Resim: sarılma yüzü)
Yanıtların doğruluğu (Metrik Doğruluk (ACC)) modellerin değerlendirilmesinde ana faktördür. Skor tablosu, büyük dil modellerini değerlendirmek için açık kaynaklı Eleuther AI Dil Modeli Değerlendirme Harness çerçevesini kullanır.
Bireysel veri kümelerine ilişkin bilgiler de dahil olmak üzere daha fazla ayrıntıyı Hugging Face blogunda bulabilirsiniz. Gönderi, bazı dil modellerinin sonuçlarını içeren etkileşimli bir tablo içerir.
(kendim)
Haberin Sonu