Intelligenza artificiale e medicina del sonno: valutazione comparativa di large language models sull’esame dell’Accademia Italiana di Medicina del Sonno con retrieval-augmented generation

Leo, Edoardo; Baglivo, Francesco; Starace, Federico; Romigi, Andrea; Antelmi, Elena; Rizzo, Caterina; Faraguna, Ugo

doi:10.1701/4573.45797

Summary. Using Sleep Medicine guidelines and textbook, we evaluated four large language models (LLMs) (Llama 3.2 3B, Llama 3.3 70B, GPT 4o mini, Gemini 2.0 Flash) on AIMS certification questions, comparing baseline and Retrieval Augmented Generation (RAG) performance. RAG improved accuracy in all models (e.g., Llama 3.2 +9.6 points, Gemini 2.0 +4.0 points), highlighting RAG’s role in enhancing LLM reliability in specialized medical domain.

Intelligenza artificiale e medicina del sonno: valutazione comparativa di large language models sull’esame dell’Accademia Italiana di Medicina del Sonno con retrieval-augmented generation

Leo, Edoardo;Baglivo, Francesco;Starace, Federico;Romigi, Andrea;Antelmi, Elena;Rizzo, Caterina;Faraguna, Ugo

2025-01-01

Abstract

Summary. Using Sleep Medicine guidelines and textbook, we evaluated four large language models (LLMs) (Llama 3.2 3B, Llama 3.3 70B, GPT 4o mini, Gemini 2.0 Flash) on AIMS certification questions, comparing baseline and Retrieval Augmented Generation (RAG) performance. RAG improved accuracy in all models (e.g., Llama 3.2 +9.6 points, Gemini 2.0 +4.0 points), highlighting RAG’s role in enhancing LLM reliability in specialized medical domain.

Scheda breve

Scheda completa

Scheda completa (DC)

Anno

2025

Appare nelle tipologie:

1.1 Articolo in rivista

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14245/18431

Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni

ND

0

Intelligenza artificiale e medicina del sonno: valutazione comparativa di large language models sull’esame dell’Accademia Italiana di Medicina del Sonno con retrieval-augmented generation

Leo, Edoardo;Baglivo, Francesco;Starace, Federico;Romigi, Andrea;Antelmi, Elena;Rizzo, Caterina;Faraguna, Ugo

2025-01-01

Abstract

Scheda breve Scheda completa Scheda completa (DC)

Informazioni

Attenzione

Citazioni

social impact

Conferma cancellazione

Scheda breve

Scheda completa

Scheda completa (DC)