Modelul de Limbaj Larg (LLM) poate scrie articole persuasive bazate pe cuvinte prompte, poate trece examene de competență profesională și poate scrie informații prietenoase cu pacientul și empatice. Cu toate acestea, pe lângă riscurile binecunoscute ale ficțiunii, fragilității și faptelor inexacte din LLM, alte probleme nerezolvate devin treptat în centrul atenției, cum ar fi modelele de inteligență artificială care conțin „valori umane” potențial discriminatorii în crearea și utilizarea lor și, chiar dacă LLM nu mai fabrică conținut și elimină rezultatele evident dăunătoare, „valorile LLM” se pot abate în continuare de la valorile umane.
Nenumărate exemple ilustrează modul în care datele utilizate pentru antrenarea modelelor de inteligență artificială codifică valori individuale și sociale, care se pot consolida în cadrul modelului. Aceste exemple implică o gamă largă de aplicații, inclusiv interpretarea automată a radiografiilor toracice, clasificarea bolilor de piele și luarea deciziilor algoritmice privind alocarea resurselor medicale. După cum se menționează într-un articol recent din revista noastră, datele de antrenament distorsionate pot amplifica și dezvălui valorile și prejudecățile prezente în societate. Dimpotrivă, cercetările au arătat, de asemenea, că inteligența artificială poate fi utilizată pentru a reduce prejudecățile. De exemplu, cercetătorii au aplicat modele de învățare profundă la radiografiile de genunchi și au descoperit factori care au fost omiși de indicatorii standard de severitate (evaluați de radiologi) în articulația genunchiului, reducând astfel diferențele de durere inexplicabile între pacienții de culoare și cei albi.
Deși tot mai mulți oameni își dau seama de prejudecățile modelelor de IA, în special în ceea ce privește datele de antrenament, multe alte puncte de intrare în valorile umane nu primesc suficientă atenție în procesul de dezvoltare și implementare a modelelor de IA. IA medicală a obținut recent rezultate impresionante, dar, într-o mare măsură, nu a luat în considerare în mod explicit valorile umane și interacțiunea acestora cu evaluarea riscurilor și raționamentul probabilistic și nici nu a fost modelată.
Pentru a concretiza aceste concepte abstracte, imaginați-vă că sunteți un endocrinolog care trebuie să prescrie hormon de creștere uman recombinant unui băiat de 8 ani, aflat sub percentila 3 a vârstei sale. Nivelul hormonului de creștere uman stimulat al băiatului este sub 2 ng/ml (valoare de referință > 10 ng/ml, valoarea de referință pentru multe țări din afara Statelor Unite este > 7 ng/ml), iar gena sa codificatoare a hormonului de creștere uman a detectat mutații rare de inactivare. Credem că aplicarea terapiei cu hormon de creștere uman este evidentă și incontestabilă în acest context clinic.
Aplicarea terapiei cu hormon de creștere uman în următoarele scenarii poate cauza controverse: înălțimea unui băiat de 14 ani a fost întotdeauna în percentila 10 față de cea a colegilor săi, iar vârful hormonului de creștere uman după stimulare este de 8 ng/ml. Nu există mutații funcționale cunoscute care pot afecta înălțimea, nici alte cauze cunoscute ale staturii mici, iar vârsta sa osoasă este de 15 ani (adică fără întârzieri de dezvoltare). Doar o parte a controversei se datorează diferențelor dintre valorile prag determinate de experți pe baza a zeci de studii privind nivelurile hormonului de creștere uman utilizate pentru diagnosticarea deficitului izolat de hormon de creștere. Cel puțin la fel de multă controversă provine din raportul risc-beneficiu al utilizării terapiei cu hormon de creștere uman din perspectiva pacienților, părinților pacienților, profesioniștilor din domeniul sănătății, companiilor farmaceutice și plătitorilor. Endocrinologii pediatri pot evalua efectele adverse rare ale injecțiilor zilnice cu hormon de creștere timp de 2 ani cu probabilitatea unei creșteri inexistente sau minime a dimensiunii corporale la adulți în comparație cu prezentul. Băieții pot crede că, chiar dacă înălțimea lor poate crește doar cu 2 cm, merită injectarea hormonului de creștere, dar plătitorul și compania farmaceutică pot avea opinii diferite.
Luăm ca exemplu rata de filtrare glomerulară (EGFR) bazată pe creatinină, care este un indicator al funcției renale utilizat pe scară largă pentru diagnosticarea și stadializarea bolilor renale cronice, stabilirea condițiilor de transplant sau donare de rinichi și determinarea criteriilor de reducere și a contraindicațiilor pentru multe medicamente eliberate pe bază de rețetă. EGFR este o ecuație de regresie simplă utilizată pentru a estima rata de filtrare glomerulară măsurată (mGFR), care este un standard de referință, dar metoda de evaluare este relativ greoaie. Această ecuație de regresie nu poate fi considerată un model de inteligență artificială, dar ilustrează multe principii despre valorile umane și raționamentul probabilistic.
Primul punct de intrare pentru valorile umane în eGFR este la selectarea datelor pentru ecuațiile de ajustare. Coada inițială utilizată pentru a proiecta formula eGFR este compusă în mare parte din participanți albi și de culoare, iar aplicabilitatea sa la multe alte grupuri etnice nu este clară. Punctele de intrare ulterioare pentru valorile umane în această formulă includ: selectarea acurateței mGFR ca obiectiv principal pentru evaluarea funcției renale, care este un nivel acceptabil de acuratețe, cum se măsoară acuratețea și utilizarea eGFR ca prag pentru declanșarea luării deciziilor clinice (cum ar fi determinarea condițiilor pentru transplantul de rinichi sau prescrierea de medicamente). În cele din urmă, la selectarea conținutului modelului de intrare, valorile umane vor intra și ele în această formulă.
De exemplu, înainte de 2021, ghidurile sugerau ajustarea nivelurilor de creatinină din formula eGFR în funcție de vârsta, sexul și rasa pacientului (clasificat doar ca persoane de culoare sau non-negre). Ajustarea în funcție de rasă are ca scop îmbunătățirea preciziei formulei mGFR, dar în 2020, spitalele importante au început să pună sub semnul întrebării utilizarea eGFR bazat pe rasă, invocând motive precum întârzierea eligibilității pacientului pentru transplant și concretizarea rasei ca un concept biologic. Cercetările au arătat că proiectarea modelelor eGFR în termeni de rasă poate avea impacturi profunde și variate asupra acurateței și rezultatelor clinice; Prin urmare, concentrarea selectivă pe acuratețe sau concentrarea pe o porțiune a rezultatelor reflectă judecăți de valoare și poate masca procesul decizional transparent. În cele din urmă, grupul național de lucru a propus o nouă formulă care a fost readaptată fără a lua în considerare rasa, pentru a echilibra problemele de performanță și echitate. Acest exemplu ilustrează faptul că până și o formulă clinică simplă are multe puncte de intrare în valorile umane.
Comparativ cu formulele clinice cu un număr mic de indicatori predictivi, LLM poate consta din miliarde până la sute de miliarde de parametri (pondere ale modelului) sau mai mulți, ceea ce îl face dificil de înțeles. Motivul pentru care spunem „dificil de înțeles” este că, în majoritatea LLM-urilor, modul exact de obținere a răspunsurilor prin întrebări nu poate fi cartografiat. Numărul de parametri pentru GPT-4 nu a fost încă anunțat; predecesorul său, GPT-3, avea 175 de miliarde de parametri. Mai mulți parametri nu înseamnă neapărat capacități mai puternice, deoarece modelele mai mici care includ mai multe cicluri de calcul (cum ar fi seria de modele LLaMA [Large Language Model Meta AI]) sau modelele care sunt reglate fin pe baza feedback-ului uman vor performa mai bine decât modelele mai mari. De exemplu, potrivit evaluatorilor umani, modelul InstrumentGPT (un model cu 1,3 miliarde de parametri) depășește GPT-3 în optimizarea rezultatelor modelului.
Detaliile specifice de antrenament pentru GPT-4 nu au fost încă dezvăluite, dar detaliile modelelor din generațiile anterioare, inclusiv GPT-3, InstrumentGPT și multe alte LLM-uri open-source, au fost dezvăluite. În zilele noastre, multe modele de inteligență artificială vin cu fișe de model; datele de evaluare și securitate ale GPT-4 au fost publicate într-o fișă de sistem similară furnizată de compania de creare a modelelor OpenAI. Crearea LLM poate fi împărțită aproximativ în două etape: etapa inițială de pre-antrenament și etapa de reglare fină care vizează optimizarea rezultatelor modelului. În etapa de pre-antrenament, modelului i se oferă un corpus mare, inclusiv textul original de pe internet, pentru a-l antrena să prezică următorul cuvânt. Acest proces aparent simplu de „completare automată” produce un model fundamental puternic, dar poate duce și la comportamente dăunătoare. Valorile umane vor intra în etapa de pre-antrenament, inclusiv selectarea datelor de pre-antrenament pentru GPT-4 și decizia de a elimina conținutul neadecvat, cum ar fi conținutul pornografic, din datele de pre-antrenament. În ciuda acestor eforturi, modelul de bază poate fi încă inutil și incapabil să conțină rezultate dăunătoare. În următoarea etapă de reglare fină, vor apărea multe comportamente utile și inofensive.
În etapa de reglare fină, comportamentul modelelor lingvistice este adesea profund modificat prin reglarea fină supravegheată și învățarea prin consolidare bazată pe feedback uman. În etapa de reglare fină supravegheată, personalul contractant angajat va scrie exemple de răspuns pentru cuvintele prompte și va antrena direct modelul. În etapa de învățare prin consolidare bazată pe feedback uman, evaluatorii umani vor sorta rezultatele modelului ca exemple de conținut de intrare. Apoi, vor aplica rezultatele comparației de mai sus pentru a învăța „modelul de recompensă” și a îmbunătăți în continuare modelul prin învățare prin consolidare. Implicarea umană la nivel scăzut, uimitoare, poate regla fin aceste modele mari. De exemplu, modelul InstrumentGPT a folosit o echipă de aproximativ 40 de angajați contractanți recrutați de pe site-uri web de crowdsourcing și a trecut un test de screening care viza selectarea unui grup de anotatori sensibili la preferințele diferitelor grupuri de populație.
După cum demonstrează aceste două exemple extreme, și anume formula clinică simplă [eGFR] și puternicul LLM [GPT-4], procesul decizional uman și valorile umane joacă un rol indispensabil în modelarea rezultatelor modelului. Pot aceste modele de IA să surprindă diversele lor valori ale pacienților și medicilor? Cum să se ghideze public aplicarea IA în medicină? După cum se menționează mai jos, o reexaminare a analizei deciziilor medicale poate oferi o soluție principială la aceste probleme.
Analiza deciziilor medicale nu este familiară multor clinicieni, dar poate distinge între raționamentul probabilistic (pentru rezultate incerte legate de luarea deciziilor, cum ar fi dacă se administrează hormon de creștere uman în scenariul clinic controversat prezentat în Figura 1) și factorii de considerare (pentru valorile subiective atașate acestor rezultate, a căror valoare este cuantificată ca „utilitate”, cum ar fi valoarea unei creșteri de 2 cm a înălțimii masculine), oferind soluții sistematice pentru decizii medicale complexe. În analiza deciziilor, clinicienii trebuie mai întâi să determine toate deciziile și probabilitățile posibile asociate cu fiecare rezultat și apoi să încorporeze utilitatea pacientului (sau a altei părți) asociată cu fiecare rezultat pentru a selecta cea mai potrivită opțiune. Prin urmare, validitatea analizei deciziilor depinde de cuprinzătorul cadru al rezultatelor, precum și de acuratețea măsurării utilității și a estimării probabilității. În mod ideal, această abordare ajută la asigurarea faptului că deciziile sunt bazate pe dovezi și aliniate cu preferințele pacientului, reducând astfel decalajul dintre datele obiective și valorile personale. Această metodă a fost introdusă în domeniul medical în urmă cu câteva decenii și aplicată în luarea deciziilor individuale ale pacienților și în evaluarea stării de sănătate a populației, cum ar fi furnizarea de recomandări pentru screening-ul cancerului colorectal pentru populația generală.
În analiza deciziilor medicale, au fost dezvoltate diverse metode pentru a obține utilitatea. Majoritatea metodelor tradiționale derivă direct valoarea de la pacienții individuali. Cea mai simplă metodă este utilizarea unei scale de evaluare, în care pacienții își evaluează nivelul de preferință pentru un anumit rezultat pe o scală digitală (cum ar fi o scală liniară de la 1 la 10), cu cele mai extreme rezultate privind sănătatea (cum ar fi sănătatea completă și decesul) situate la ambele capete. Metoda schimbului de timp este o altă metodă frecvent utilizată. În această metodă, pacienții trebuie să ia o decizie cu privire la cât timp sănătos sunt dispuși să petreacă în schimbul unei perioade de sănătate precară. Metoda standard a jocurilor de noroc este o altă metodă frecvent utilizată pentru determinarea utilității. În această metodă, pacienții sunt întrebați care dintre cele două opțiuni preferă: fie să trăiască un anumit număr de ani în stare normală de sănătate cu o probabilitate specifică (p) (t) și să își asume riscul de deces cu o probabilitate de 1-p; fie să se asigure că trăiesc timp de t ani în condiții de sănătate încrucișate. Întrebați pacienții de mai multe ori la diferite valori p până când nu arată nicio preferință pentru nicio opțiune, astfel încât utilitatea să poată fi calculată pe baza răspunsurilor pacientului.
Pe lângă metodele utilizate pentru a afla preferințele individuale ale pacienților, au fost dezvoltate și metode pentru a obține utilitatea pentru populația de pacienți. În special discuțiile de grup (care reunesc pacienții pentru a discuta experiențe specifice) pot ajuta la înțelegerea perspectivelor lor. Pentru a agrega eficient utilitatea grupului, au fost propuse diverse tehnici de discuții structurate în grup.
În practică, introducerea directă a utilității în procesul clinic de diagnostic și tratament necesită foarte mult timp. Ca soluție, chestionarele de anchetă sunt de obicei distribuite unor populații selectate aleatoriu pentru a obține scoruri de utilitate la nivel de populație. Câteva exemple includ chestionarul EuroQol cu 5 dimensiuni, forma scurtă cu 6 dimensiuni de ponderare a utilității, Indexul de Utilitate în Sănătate și instrumentul Chestionarului Core 30 privind Calitatea Vieții, specific pentru cancer, al Organizației Europene de Cercetare și Tratament a Cancerului.
Data publicării: 01 iunie 2024




