Mot en intelligenseksplosjon: Slik løser KI stadig mer komplekse kodeoppgaver

Utviklingen innen kunstig intelligens har lenge fulgt en jevn, oppadgående kurve. Men ferske analyser fra sikkerhets- og evalueringsorganisasjonen METR (Model Evaluation and Threat Research) antyder at vi nå står på terskelen til noe langt mer radikalt: En mulig «intelligenseksplosjon» innen programvareutvikling og cybersikkerhet.

For oss i TenkeMaskin.no, som kontinuerlig overvåker KI-landskapet, er dataene fra METR blant de mest fascinerende – og urovekkende – vi har sett det siste året. Grafen de presenterer illustrerer et paradigmeskifte, der store språkmodeller (LLM-er) går fra å være enkle kodeassistenter til å bli autonome agenter i stand til å utføre hele dagsverk.

Hva måler egentlig METR-grafen?

For å forstå rekkevidden av denne utviklingen, må vi bryte ned hva METR faktisk har evaluert. I deres analyse har de kartlagt utviklingen av KI-modeller fra 2020 og frem mot anslag for 2026.

X-aksen (Tid): Viser utgivelsesdatoen for ulike modeller, fra tidlige versjoner i 2020 til forventede toppmodeller i 2025 og 2026.
Y-aksen (Kompleksitet): Måles i menneskelig tidsbruk. Dette er en genial måte å kvantifisere kompleksitet på: Hvor lang tid ville en dyktig menneskelig utvikler brukt på å løse nøyaktig den samme oppgaven som KI-en nå mestrer?

Trendlinjen viser en klassisk eksponentiell vekst. Fra 2020 til 2024 var utviklingen relativt flat. Tidlige modeller som GPT-2 og til og med GPT-4 befinner seg nederst på grafen; de kunne utelukkende håndtere avgrensede oppgaver som tar et menneske noen få minutter. Men i 2025 skyter kurven rett til værs.

Vippepunktet: 50 prosent suksessrate

Et avgjørende premiss i METR sin analyse er at modellene måles etter evnen til å løse en gitt oppgave med 50 prosent sannsynlighet for suksess. Men hva betyr egentlig dette i praksis?

I tradisjonell programvareutvikling kan en feilrate på 50 prosent høres uakseptabelt ut. Men når vi snakker om autonome KI-agenter, er dette et kritisk og farlig vippepunkt. Hvis en KI har 50 prosent sjanse for å løse et komplekst, 15-timers problem på sitt første forsøk, betyr det at du med stor sannsynlighet vil få et perfekt resultat bare ved å la modellen prøve to eller tre ganger. I et digitalt miljø hvor kode kan kompileres, testes og verifiseres automatisk, gjør en 50 % suksessrate modellen til et ekstremt kraftig verktøy – eller våpen.

Fra enkle feil til avansert forskning

Grafen fra METR lister opp konkrete tekniske terskler som modellene forventes å passere. Denne progresjonen viser tydelig reisen fra assistent til ekspert:

Enkle feil (~1 time): Fiksing av velkjente, små feil i standard Python-biblioteker. Dette er noe dagens modeller allerede håndterer godt.
Sikkerhet og Hacking: Utnyttelse av sårbarheter som «buffer overflow». Dette krever forståelse av minnehåndtering og systemarkitektur.
Avansert maskinlæring (~4 timer): Trening av robuste bildemodeller. Her må KI-en kunne planlegge, skrive kode, kjøre eksperimenter og justere parametere over tid.
Krypto og Smarte Kontrakter (~8 timer): Finne og utnytte komplekse sårbarheter i Ethereum smart-kontrakter. Dette krever dyp logisk resonnering for å unngå tap av verdier.
Kompleks forskning (~15 timer): På toppen av grafen, indikert for fremtidige modeller som Claude Opus 4.6, finner vi evnen til å fikse dype, strukturelle feil i kodebaser bygget for KI-forskning.

Når en modell som OpenAI sin o3, eller kommende iterasjoner som GPT-5, begynner å mestre oppgaver som tar mennesker 2–6 timer, snakker vi ikke lenger om et verktøy som bare fyller inn kodelinjer. Vi snakker om et system som kan tildeles et prosjekt før lunsj, og levere en ferdig arkitektur før arbeidsdagen er omme.

Sikkerhetsrisiko og rekursiv selvforbedring

For en aktør som METR, som spesialiserer seg på å vurdere trusler fra kunstig intelligens, er denne «intelligenseksplosjonen» en kilde til dyp bekymring. Når KI-systemer kan utføre oppgaver som tilsvarer et uavbrutt dagsverk for en seniorutvikler (14-15 timer), åpnes døren for to kritiske scenarioer:

1. Avansert og skalerbar hacking: Hvis en KI kan finne sårbarheter i smarte kontrakter eller utnytte minnefeil med 50 % suksessrate, kan ondsinnede aktører bruke disse modellene til å angripe tusenvis av mål samtidig, noe som drastisk senker terskelen for alvorlige cyberangrep.

2. Rekursiv selvforbedring: Dette er kanskje det mest fascinerende konseptet i moderne KI-teori. Hvis en KI kan fikse komplekse feil i kodebaser for KI-forskning, kan den i teorien begynne å forbedre sin egen kildekode. Dette kan skape en feedback-loop hvor KI-en gjør seg selv smartere og raskere, noe som igjen fører til enda raskere forbedringer – selve definisjonen på en intelligenseksplosjon.

Det norske perspektivet

For norske teknologiselskaper og offentlige etater betyr denne utviklingen at vi må tenke nytt rundt IT-sikkerhet. Nasjonal sikkerhetsmyndighet (NSM) har allerede advart om at KI vil endre trusselbildet. Når angrepsverktøyene blir autonome, må også forsvarsmekanismene våre bli det.

Samtidig gir det enorme muligheter for norsk IT-sektor. Norske utviklere som lærer seg å orkestrere disse nye, kraftige KI-agentene, vil kunne tidoble sin produktivitet. Utfordringen blir å finne balansen: Å utnytte den eksponentielle veksten i KI-kapasitet, samtidig som man bygger robuste systemer som tåler en fremtid hvor maskinene tenker, koder og angriper i et tempo vi mennesker ikke kan matche.

«Vi går fra en æra hvor vi forteller datamaskinen nøyaktig hva den skal gjøre, til en æra hvor vi gir den et problem og ber den komme tilbake med en løsning.» – TenkeMaskin.no