OpenAI har utviklet en innovativ modell kalt CriticGPT, som hjelper med å oppdage feil i GPT-4s kodeutdata. Artikkelen utforsker hvordan CriticGPT forbedrer nøyaktighet ved å hjelpe trenere i arbeidet deres med forsterkende læring fra menneskelig tilbakemelding (RLHF).

Forbedret kodegjennomgang

CriticGPT ble trent til å oppdage feil i ChatGPTs kodeutdata. Resultatene viser at brukere assistert av CriticGPT presterer 60 % bedre enn de uten assistanse. CriticGPT hjelper med å identifisere subtile feil som ellers kan være vanskelige å oppdage.

Integrering i RLHF-merking

OpenAI jobber med å integrere CriticGPT-lignende modeller i sin RLHF-merkingspipeline. Dette vil gi trenere eksplisitt AI-assistanse, som er et skritt mot å evaluere avanserte AI-systemer.

Detaljert analyse

GPT-4-modellene som driver ChatGPT er utviklet for å være nyttige gjennom RLHF. En sentral del av RLHF er å samle sammenligninger der AI-trenere evaluerer ulike ChatGPT-svar mot hverandre. Med fremskritt innen modellatferd blir ChatGPT mer nøyaktig og feilene mer subtile. Dette gjør det vanskeligere for trenere å oppdage unøyaktigheter, noe som kompliserer RLHF-prosessen.

TreningskritikerGPT

CriticGPT ble trent ved hjelp av RLHF, der AI-trenere manuelt la inn feil i kode skrevet av ChatGPT og deretter skrev tilbakemeldinger som om de hadde oppdaget feilen. CriticGPT ville deretter identifisere disse feilene og andre naturlig forekommende feil. CriticGPTs kritikk foretrekkes av trenere i 63 % av tilfellene, ettersom den gir færre smålige klager og hallusinerte problemer.

Metoder og resultater

CriticGPT ble også trent til å generere lengre og mer omfattende kritikker ved hjelp av en søkeprosedyre som balanserer aggressiviteten i feilsøkingen. Dette har vist seg effektivt for å produsere nyttig kritikk for RLHF.

Begrensninger

CriticGPT er trent på kortere svar og har begrensninger i håndteringen av komplekse oppgaver. Modeller hallusinerer fortsatt, og trenere kan gjøre feil basert på disse hallusinasjonene. Fremtidige feil kan spres over mange deler av et svar, noe som krever mer sofistikerte metoder.

Fremtidsutsikter

For å tilpasse AI-systemer som blir stadig mer komplekse, trenger vi bedre verktøy. Forskningen viser at det å anvende RLHF på GPT-4 har potensial til å hjelpe mennesker med å produsere bedre RLHF-data for GPT-4. Planen er å utvide dette arbeidet ytterligere og implementere det i praksis.

Konklusjon

Integreringen av CriticGPT i RLHF-rørledninger representerer et viktig skritt fremover i utviklingen av avanserte AI-systemer. Ved å kombinere menneskelig innsikt med CriticGPTs evner, kan man oppnå mer nøyaktige og effektive AI-evalueringer.

Apple EarPods med Lightning
Apple EarPods med Lightning
174,00 kr 230,00 kr