banner_pagina

notizia

Il Large Language Model (LLM) consente di scrivere articoli persuasivi basati su parole spontanee, superare esami di idoneità professionale e fornire informazioni empatiche e di facile comprensione per il paziente. Tuttavia, oltre ai ben noti rischi di finzione, fragilità e inesattezza dei fatti nell'LLM, altre questioni irrisolte stanno gradualmente diventando al centro dell'attenzione, come i modelli di intelligenza artificiale che contengono "valori umani" potenzialmente discriminatori nella loro creazione e utilizzo, e anche se l'LLM non fabbrica più contenuti ed elimina risultati di output chiaramente dannosi, i "valori dell'LLM" potrebbero comunque discostarsi dai valori umani.

 

Innumerevoli esempi illustrano come i dati utilizzati per addestrare i modelli di intelligenza artificiale codifichino valori individuali e sociali, che possono consolidarsi all'interno del modello. Questi esempi riguardano una vasta gamma di applicazioni, tra cui l'interpretazione automatica delle radiografie del torace, la classificazione delle malattie della pelle e il processo decisionale algoritmico relativo all'allocazione delle risorse mediche. Come affermato in un recente articolo sulla nostra rivista, i dati di addestramento distorti possono amplificare e rivelare i valori e i pregiudizi presenti nella società. Al contrario, la ricerca ha anche dimostrato che l'intelligenza artificiale può essere utilizzata per ridurre i pregiudizi. Ad esempio, i ricercatori hanno applicato modelli di deep learning alle radiografie del ginocchio e hanno scoperto fattori che non venivano rilevati dagli indicatori di gravità standard (classificati dai radiologi) all'interno dell'articolazione del ginocchio, riducendo così le differenze di dolore inspiegabili tra pazienti di razza nera e bianca.

Sebbene sempre più persone si rendano conto della distorsione dei modelli di intelligenza artificiale, soprattutto in termini di dati di addestramento, molti altri punti di ingresso dei valori umani non ricevono sufficiente attenzione nel processo di sviluppo e implementazione dei modelli di intelligenza artificiale. L'intelligenza artificiale in ambito medico ha recentemente ottenuto risultati impressionanti, ma in larga misura non ha considerato esplicitamente i valori umani e la loro interazione con la valutazione del rischio e il ragionamento probabilistico, né è stata modellata.

 

Per concretizzare questi concetti astratti, immagina di essere un endocrinologo a cui viene richiesto di prescrivere l'ormone della crescita umano ricombinante a un bambino di 8 anni che si trova al di sotto del 3° percentile della sua età. Il livello di ormone della crescita umano stimolato del bambino è inferiore a 2 ng/mL (valore di riferimento, >10 ng/mL, il valore di riferimento per molti paesi al di fuori degli Stati Uniti è >7 ng/mL) e il suo gene codificante per l'ormone della crescita umano ha rilevato rare mutazioni di inattivazione. Riteniamo che l'applicazione della terapia con ormone della crescita umano sia ovvia e indiscutibile in questo contesto clinico.

L'applicazione della terapia con ormone della crescita umano nei seguenti scenari può causare controversie: l'altezza di un ragazzo di 14 anni è sempre stata nel 10° percentile rispetto ai suoi coetanei e il picco di ormone della crescita umano dopo la stimolazione è di 8 ng/mL. Non sono note mutazioni funzionali che possano influenzare l'altezza, né altre cause note di bassa statura, e la sua età ossea è di 15 anni (ovvero nessun ritardo dello sviluppo). Solo una parte della controversia è dovuta alle differenze nei valori soglia determinati dagli esperti sulla base di decine di studi sui livelli di ormone della crescita umano utilizzati per diagnosticare il deficit isolato di ormone della crescita. Almeno altrettanta controversia deriva dal rapporto rischio/beneficio dell'utilizzo della terapia con ormone della crescita umano dal punto di vista dei pazienti, dei genitori dei pazienti, degli operatori sanitari, delle aziende farmaceutiche e degli enti pagatori. Gli endocrinologi pediatrici potrebbero valutare i rari effetti avversi delle iniezioni giornaliere di ormone della crescita per 2 anni con la probabilità di una crescita nulla o minima delle dimensioni corporee adulte rispetto al presente. I ragazzi potrebbero credere che valga la pena iniettarsi l'ormone della crescita anche se la loro altezza aumentasse solo di 2 cm, ma il medico e la casa farmaceutica potrebbero avere opinioni diverse.

 

Prendiamo come esempio l'eGFR basato sulla creatinina, un indicatore di funzionalità renale ampiamente utilizzato per la diagnosi e la stadiazione della malattia renale cronica, per stabilire le condizioni per il trapianto o la donazione di rene e per determinare i criteri di riduzione e le controindicazioni per molti farmaci da prescrizione. L'EGFR è una semplice equazione di regressione utilizzata per stimare la velocità di filtrazione glomerulare (mGFR) misurata, che rappresenta uno standard di riferimento, ma il metodo di valutazione è relativamente macchinoso. Questa equazione di regressione non può essere considerata un modello di intelligenza artificiale, ma illustra molti principi sui valori umani e sul ragionamento probabilistico.

Il primo punto di ingresso per i valori umani nell'eGFR è la selezione dei dati per le equazioni di adattamento. La coda originale utilizzata per progettare la formula dell'eGFR è composta principalmente da partecipanti di razza nera e bianca e la sua applicabilità a molti altri gruppi etnici non è chiara. I successivi punti di ingresso per i valori umani in questa formula includono: la selezione dell'accuratezza dell'mGFR come obiettivo primario per la valutazione della funzionalità renale, qual è un livello di accuratezza accettabile, come misurarla e l'utilizzo dell'eGFR come soglia per l'attivazione del processo decisionale clinico (come la determinazione delle condizioni per il trapianto di rene o la prescrizione di farmaci). Infine, quando si seleziona il contenuto del modello di input, anche i valori umani entreranno in questa formula.

Ad esempio, prima del 2021, le linee guida suggerivano di adattare i livelli di creatinina nella formula dell'eGFR in base all'età, al sesso e alla razza del paziente (classificati solo come individui neri o non neri). L'adattamento basato sulla razza mira a migliorare l'accuratezza della formula dell'mGFR, ma nel 2020, i principali ospedali hanno iniziato a mettere in discussione l'uso dell'eGFR basato sulla razza, adducendo ragioni come il ritardo nell'idoneità del paziente al trapianto e la concretizzazione della razza come concetto biologico. La ricerca ha dimostrato che la progettazione di modelli di eGFR in termini di razza può avere impatti profondi e variabili sull'accuratezza e sugli esiti clinici; pertanto, concentrarsi selettivamente sull'accuratezza o su una parte degli esiti riflette giudizi di valore e può mascherare un processo decisionale trasparente. Infine, il gruppo di lavoro nazionale ha proposto una nuova formula che è stata riadattata senza considerare la razza per bilanciare problemi di performance ed equità. Questo esempio illustra che anche una semplice formula clinica ha molti punti di accesso ai valori umani.

Medico con realtà virtuale in sala operatoria in ospedale. Chirurgo che analizza i risultati dei test cardiaci del paziente e l'anatomia umana su un'interfaccia virtuale futuristica digitale tecnologica, olografica digitale, un concetto innovativo nella scienza e nella medicina.

Rispetto alle formule cliniche con un numero limitato di indicatori predittivi, l'LLM può essere costituito da miliardi a centinaia di miliardi di parametri (pesi del modello) o più, il che ne rende difficile la comprensione. Il motivo per cui diciamo "difficile da comprendere" è che nella maggior parte degli LLM, il modo esatto di ottenere risposte attraverso le domande non può essere mappato. Il numero di parametri per GPT-4 non è stato ancora annunciato; il suo predecessore GPT-3 ne aveva 175 miliardi. Più parametri non significano necessariamente maggiori capacità, poiché modelli più piccoli che includono più cicli computazionali (come la serie di modelli LLaMA [Large Language Model Meta AI]) o modelli finemente ottimizzati in base al feedback umano avranno prestazioni migliori rispetto a modelli più grandi. Ad esempio, secondo i valutatori umani, il modello InstrumentGPT (un modello con 1,3 miliardi di parametri) supera GPT-3 nell'ottimizzazione dei risultati di output del modello.

I dettagli specifici dell'addestramento di GPT-4 non sono ancora stati divulgati, ma sono stati resi noti i dettagli dei modelli di generazione precedente, tra cui GPT-3, InstrumentGPT e molti altri LLM open source. Oggigiorno, molti modelli di intelligenza artificiale sono dotati di schede modello; i dati di valutazione e sicurezza di GPT-4 sono stati pubblicati in una scheda di sistema simile fornita dalla società di creazione di modelli OpenAI. La creazione di LLM può essere suddivisa in due fasi: la fase iniziale di pre-addestramento e la fase di messa a punto volta a ottimizzare i risultati di output del modello. Nella fase di pre-addestramento, al modello viene fornito un ampio corpus che include il testo originale di Internet per addestrarlo a prevedere la parola successiva. Questo processo di "completamento automatico" apparentemente semplice produce un modello fondamentale potente, ma può anche portare a comportamenti dannosi. I valori umani entreranno in gioco nella fase di pre-addestramento, inclusa la selezione dei dati di pre-addestramento per GPT-4 e la decisione di rimuovere contenuti inappropriati, come quelli pornografici, dai dati di pre-addestramento. Nonostante questi sforzi, il modello di base potrebbe non essere ancora utile né in grado di contenere risultati di output dannosi. Nella fase successiva di messa a punto emergeranno molti comportamenti utili e innocui.

Nella fase di fine-tuning, il comportamento dei modelli linguistici viene spesso profondamente modificato attraverso la messa a punto supervisionata e l'apprendimento per rinforzo basato sul feedback umano. Nella fase di messa a punto supervisionata, il personale esterno assunto scriverà esempi di risposta per le parole richieste e addestrerà direttamente il modello. Nella fase di apprendimento per rinforzo basato sul feedback umano, i valutatori umani ordineranno i risultati di output del modello come esempi di contenuto di input. Quindi applicheranno i risultati del confronto di cui sopra per apprendere il "modello di ricompensa" e migliorare ulteriormente il modello attraverso l'apprendimento per rinforzo. Un sorprendente coinvolgimento umano a basso livello può perfezionare questi modelli di grandi dimensioni. Ad esempio, il modello InstrumentGPT ha utilizzato un team di circa 40 dipendenti esterni reclutati da siti web di crowdsourcing e ha superato un test di screening volto a selezionare un gruppo di annotatori sensibili alle preferenze di diversi gruppi di popolazione.

Come dimostrano questi due esempi estremi, ovvero la semplice formula clinica [eGFR] e la potente formula LLM [GPT-4], il processo decisionale umano e i valori umani svolgono un ruolo indispensabile nel plasmare i risultati dei modelli. Questi modelli di intelligenza artificiale possono catturare i diversi valori di pazienti e medici? Come orientare pubblicamente l'applicazione dell'intelligenza artificiale in medicina? Come accennato di seguito, una rivisitazione dell'analisi delle decisioni mediche potrebbe fornire una soluzione di principio a queste problematiche.

 

L'analisi delle decisioni mediche non è familiare a molti clinici, ma è in grado di distinguere tra ragionamento probabilistico (per esiti incerti correlati al processo decisionale, come la somministrazione o meno di ormone della crescita umano nel controverso scenario clinico mostrato nella Figura 1) e fattori di considerazione (per i valori soggettivi attribuiti a questi esiti, il cui valore è quantificato come "utilità", come il valore di un aumento di 2 cm dell'altezza maschile), fornendo soluzioni sistematiche per decisioni mediche complesse. Nell'analisi delle decisioni, i clinici devono innanzitutto determinare tutte le possibili decisioni e probabilità associate a ciascun esito, e quindi incorporare l'utilità del paziente (o di altre parti) associata a ciascun esito per selezionare l'opzione più appropriata. Pertanto, la validità dell'analisi delle decisioni dipende dalla completezza del contesto dell'esito, nonché dall'accuratezza della misurazione dell'utilità e della stima della probabilità. Idealmente, questo approccio contribuisce a garantire che le decisioni siano basate sull'evidenza e allineate alle preferenze del paziente, riducendo così il divario tra dati oggettivi e valori personali. Questo metodo è stato introdotto in campo medico diversi decenni fa e applicato al processo decisionale dei singoli pazienti e alla valutazione della salute della popolazione, ad esempio per fornire raccomandazioni per lo screening del cancro del colon-retto alla popolazione generale.

 

Nell'analisi delle decisioni mediche, sono stati sviluppati vari metodi per ottenere l'utilità. La maggior parte dei metodi tradizionali ricava direttamente il valore dai singoli pazienti. Il metodo più semplice consiste nell'utilizzare una scala di valutazione, in cui i pazienti valutano il loro livello di preferenza per un determinato esito su una scala digitale (ad esempio una scala lineare da 1 a 10), con gli esiti di salute più estremi (come la salute completa e la morte) situati a entrambe le estremità. Il metodo dello scambio di tempo è un altro metodo comunemente utilizzato. In questo metodo, i pazienti devono decidere quanto tempo in salute sono disposti a trascorrere in cambio di un periodo di cattiva salute. Il metodo del gioco d'azzardo standard è un altro metodo comunemente utilizzato per determinare l'utilità. In questo metodo, ai pazienti viene chiesto quale delle due opzioni preferiscono: vivere un certo numero di anni in salute normale con una probabilità specifica (p) (t) e assumersi il rischio di morte con una probabilità pari a 1-p; oppure assicurarsi di vivere per t anni in condizioni di salute incrociate. Chiedere ai pazienti più volte con diversi valori di p fino a quando non mostrano alcuna preferenza per nessuna opzione, in modo che l'utilità possa essere calcolata in base alle risposte dei pazienti.
Oltre ai metodi utilizzati per suscitare le preferenze individuali dei pazienti, sono stati sviluppati anche metodi per ottenere utilità per la popolazione di pazienti. In particolare, le discussioni di gruppo (che riuniscono i pazienti per discutere esperienze specifiche) possono aiutare a comprendere i loro punti di vista. Per aggregare efficacemente l'utilità del gruppo, sono state proposte diverse tecniche di discussione di gruppo strutturata.
Nella pratica, l'introduzione diretta dell'utilità nel processo clinico di diagnosi e trattamento è molto dispendiosa in termini di tempo. Come soluzione, i questionari di indagine vengono solitamente distribuiti a popolazioni selezionate casualmente per ottenere punteggi di utilità a livello di popolazione. Alcuni esempi includono il questionario EuroQol a 5 dimensioni, il questionario breve a 6 dimensioni per il peso dell'utilità, l'Health Utility Index e il questionario Core 30 della European Cancer Research and Treatment Organization (European Cancer Research and Treatment Organization) specifico per il cancro.


Data di pubblicazione: 01-06-2024