Det som skulle være en rutinemessig frigivelse av rettsdokumenter knyttet til Jeffrey Epstein-saken, har utviklet seg til en teknisk skandale og en lærebok i hvordan man ikke skal håndtere digital informasjon. En nylig analyse fra All-About-PDF har avdekket at store deler av den sladdede informasjonen i de publiserte dokumentene ikke var fjernet, men kun skjult bak digitale lag.
For oss i TenkeMaskin.no er dette mer enn bare en nyhetssak om en høyprofilert rettssak; det er en kritisk påminnelse om sårbarheten i digitale dokumenter og hvordan moderne teknologi – inkludert kunstig intelligens – endrer spillereglene for informasjonssikkerhet.
Illusjonen av sikkerhet: Når svart tusj ikke er nok
Problemet som oppsto med Epstein-filene er dessverre en klassiker innen IT-sikkerhet. Dokumentene ble «sladdet» ved å legge svarte bokser over sensitiv tekst i PDF-formatet. Visuelt ser dette trygt ut for det blotte øye. Men for en datamaskin, og spesielt for moderne AI-systemer som leser kode og metadata snarere enn piksler, er teksten fortsatt fullt tilgjengelig.
Analysen viser at de underliggende tekstobjektene ikke ble fjernet fra filstrukturen. I praksis betyr dette at hvem som helst med elementær kunnskap om tekstbehandling kunne kopiere innholdet under de svarte boksene og lime det inn i et nytt dokument for å avsløre navn og detaljer.
«Det er en fundamental misforståelse av hvordan PDF-formatet fungerer. En svart boks er bare et objekt som ligger oppå et annet. Hvis du ikke 'flater ut' dokumentet og fjerner underliggende data, har du i praksis ikke sladdet noe som helst.»
AI øker risikoen ved dårlig datavask
I en tid hvor kunstig intelligens og store språkmodeller (LLM) brukes til å analysere enorme mengder dokumenter, blir denne typen feil eksponensielt farligere. En AI-modell som mates med tusenvis av rettsdokumenter bryr seg ikke om visuelle overlegg. Den leser rådataene.
Dette reiser betydelige problemstillinger:
- Utilsiktet trening: AI-modeller kan trenes på data eieren trodde var beskyttet.
- RAG-systemer (Retrieval-Augmented Generation): Bedrifter som bruker AI til å søke i interne arkiver kan risikere at chatboten svarer med hemmeligstemplet informasjon fordi den «ser» gjennom dårlig sladding.
- Rekonstruksjon: Selv der tekst faktisk er fjernet, men layouten er beholdt (f.eks. ved pikselering), har forskning vist at AI-modeller kan brukes til å rekonstruere teksten med høy sannsynlighet (såkalte depixelation-algoritmer).
Norske forhold: Hva kan vi lære?
Norge er et av verdens mest digitaliserte land, og offentlighetsloven sikrer innsyn i store mengder dokumenter hver dag. Dette stiller enorme krav til norske offentlige etater og private virksomheter.
Vi har tidligere sett eksempler på at norske kommuner og etater har publisert dokumenter hvor sensitiv informasjon har vært mulig å hente ut via metadata. Datatilsynet har ved flere anledninger påpekt at manglende teknisk kompetanse rundt filformater utgjør et brudd på personvernforordningen (GDPR).
For norske ledere og IT-ansvarlige bør Epstein-lekkasjen være en vekker. Det er ikke nok å stole på at en PDF-generator gjør jobben. Man må verifisere at dataene faktisk er destruert.
Slik sikrer du korrekt sladding
For å unngå å havne i samme situasjon, er det noen tekniske prinsipper som må følges:
- Bruk dedikerte verktøy: Unngå å bruke tegneprogrammer eller enkle PDF-lesere til å legge på svarte bokser. Bruk verktøy som Adobe Acrobat Pro sin «Sanitize»-funksjon eller spesialiserte løsninger for dokumentvask.
- Fjerning, ikke skjuling: Sørg for at programvaren fysisk fjerner informasjonen fra filkoden, samt tilhørende metadata og skjulte lag.
- Flattening: Dokumentet bør «flates ut» (rasteriseres) til et bilde, for så å kjøres gjennom OCR (tekstgjenkjenning) på nytt etter at informasjonen er fjernet, dersom man ønsker at resten av teksten skal være søkbar.
- Manuell kontroll: Forsøk alltid å kopiere teksten fra det sladdede området selv, før publisering.
Teknologien gir oss verktøyene til å beskytte personvern, men som denne saken viser, krever det at vi forstår verktøyene vi bruker. I møte med stadig smartere AI-systemer, er det ikke lenger rom for slurv i den digitale hygienen.