15. februar 2026

Rapport: OpenAI og Google brukte YouTube-transkripsjoner til AI-trening

OpenAI Google YouTube GPT-4 Opphavsrett Kunstig Intelligens Whisper

Kampen om å bygge de kraftigste modellene for kunstig intelligens har ført teknologigigantene inn i en juridisk og etisk gråsone. En nylig avsløring fra The New York Times kaster lys over hvordan selskaper som OpenAI og Google angivelig har omgått plattformregler og opphavsrett for å sikre seg enorme mengder treningsdata fra YouTube.

For oss i Norge, hvor personvern og åndsverk står sterkt, reiser dette fundamentale spørsmål om hvordan innholdet vi produserer og konsumerer på nett faktisk blir brukt av de store aktørene.

Den desperate jakten på data

Kjernen i problemet er det forskere kaller «data exhaustion» eller datautmattelse. For å gjøre språkmodeller som GPT-4 smartere, trengs det eksponentielt mer tekstdata. Ifølge rapporten innså OpenAI allerede i 2021 at de var i ferd med å gå tomme for pålitelige, offentlig tilgjengelige tekster på internett.

Løsningen skal ha vært å se mot videoinnhold – nærmere bestemt YouTube. Ved å bruke sitt eget talegjenkjenningsverktøy, Whisper, skal OpenAI ha transkribert over én million timer med YouTube-videoer. Denne teksten ble deretter matet inn i treningsgrunnlaget for GPT-4.

«OpenAI-president Greg Brockman skal personlig ha vært involvert i innsamlingen av videoer som ble brukt.» – Ifølge kilder til The New York Times.

Googles dobbeltrolle

Kanskje enda mer oppsiktsvekkende er påstandene om Googles rolle. Google eier YouTube, og plattformens brukervilkår forbyr eksplisitt uautorisert «skraping» eller nedlasting av innhold. Likevel rapporteres det at Google selv har brukt transkripsjoner fra YouTube-videoer til å trene sine egne modeller.

Dette setter Google i en paradoksal situasjon: De må håndheve regler mot eksterne aktører som OpenAI for å beskytte sine skapere, samtidig som de selv har behov for de samme dataene for å holde tritt i AI-kappløpet. Google hevder på sin side at de kun bruker innhold der skaperne har samtykket til dette gjennom eksperimentelle programmer, men omfanget av datainnsamlingen reiser spørsmål om hvorvidt dette dekker alt materialet som er brukt.

Juridisk gråsone og «Fair Use»

I USA lener teknologiselskapene seg ofte på prinsippet om Fair Use (rimelig bruk) for å rettferdiggjøre trening på opphavsrettsbeskyttet materiale. Argumentet er at AI-modellene ikke kopierer innholdet direkte, men «lærer» av det på samme måte som en student leser bøker på et bibliotek.

Dette argumentet møter imidlertid motstand, spesielt fra innholdsskapere og nyhetsmedier som ser sitt arbeid bli brukt til å skape produkter som potensielt kan utkonkurrere dem. Neal Mohan, administrerende direktør i YouTube, uttalte nylig til Bloomberg at bruk av YouTube-videoer til å trene modeller som OpenAIs videogenerator Sora, ville være et «klart brudd» på plattformens vilkår.

Hva betyr dette for norske aktører?

For norske innholdsprodusenter, enten det er mediehus eller youtubere, illustrerer denne saken sårbarheten ved å publisere innhold på globale plattformer. Mens EUs kommende AI Act stiller strengere krav til transparens rundt treningsdata, opererer amerikanske selskaper foreløpig under et annet regime.

Det er viktig å merke seg forskjellen på det amerikanske Fair Use og norsk åndsverklov. I Europa og Norge er reglene for tekst- og datautvinning (TDM) strammere, men håndhevingen overfor amerikanske giganter som henter data fra åpne nettverk forblir en utfordring.

Konklusjon: Behovet for syntetiske data

Avsløringene understreker at internett, slik vi kjenner det, er i ferd med å bli «ferdiglest» av maskinene. Dette tvinger frem to sannsynlige fremtidsscenarioer:

  • Lisensiering: AI-selskaper må begynne å betale for data (slik Google nylig inngikk avtale med Reddit).
  • Syntetiske data: Modeller vil i økende grad trenes på tekst generert av andre AI-modeller, noe som bærer med seg egne risikoer for kvalitetstap og «innavl» i modellene.

TenkeMaskin.no vil fortsette å følge nøye med på hvordan denne praksisen utvikler seg, og hva det betyr for norske rettighetshavere.

Kilder og videre lesning

KI ◈