Fra kryptosøppel til KI-gull: Slik gjør entusiaster utdaterte Nvidia-kort om til KI-akseleratorer for 2000 kroner

Det pågår et våpenkappløp innen kunstig intelligens, og drivstoffet i dette kappløpet er maskinvare. For store teknologiselskaper betyr dette innkjøp av titusenvis av Nvidias H100- og B200-brikker til astronomiske summer. For uavhengige forskere, oppstartsbedrifter og teknologi-entusiaster har imidlertid maskinvarekravene skapt en nesten uoverstigelig barriere. Men nå skaper en ny, undergrunns maskinvaretrend bølger i KI-miljøet: Et maskinvare-hack til rundt 2000 norske kroner (200 dollar) som forvandler utdaterte kryptogruve-kort til fullverdige KI-akseleratorer.

VRAM-krisen og den lokale KI-revolusjonen

For å forstå hvorfor dette er en massiv nyhet, må vi forstå flaskehalsen i moderne kunstig intelligens. Når man skal kjøre store språkmodeller (LLM-er) som Metas Llama 3 eller Mistral lokalt, er det ikke nødvendigvis den rå regnekraften som er problemet. Problemet er VRAM (Video Random Access Memory).

Språkmodeller krever enormt med minne bare for å laste inn modellens parametere. Et typisk forbrukerskjermkort, selv i toppsjiktet som Nvidia RTX 4080, kommer ofte med 16 GB VRAM. Dette er knapt nok til å kjøre en kvantisert (komprimert) versjon av mellomstore modeller. Skal du ha mer minne fra Nvidia i dag, må du enten kjøpe et RTX 4090 (24 GB) til over 20 000 kroner, eller bevege deg over på bedriftsmarkedet hvor prisene raskt overstiger 100 000 kroner per kort.

Slik fungerer "200-dollar-hacket"

Det er her oppfinnsomheten til maskinvare-entusiaster og moddere, i stor grad drevet frem av miljøer i Kina og på plattformer som GitHub og Reddit, kommer inn i bildet. De har rettet blikket mot et enormt, uutnyttet marked av elektronisk avfall: Kryptogruve-kort.

Under kryptoboomen produserte Nvidia egne kort dedikert til utvinning av kryptovaluta, kjent som CMP-serien (Crypto Mining Processor), i tillegg til at eldre serverkort som Tesla P40 og M40 florerte. Da Ethereum gikk over til "Proof-of-Stake" i 2022, ble millioner av disse kortene verdiløse over natten. De mangler skjermutganger, har ofte redusert PCIe-båndbredde, og er kunstig begrenset av Nvidias drivere.

"Ved å lodde på nye minnebrikker med høyere tetthet, og bruke modifiserte drivere for å omgå Nvidias programvaresperrer, kan et utdatert kort til en slikk og ingenting plutselig håndtere avansert KI-inferens."

Hacket, som nå koster rundt 200 dollar i deler og arbeid, går ut på to hovedprosesser:

Fysisk modifisering: Moddere fjerner de eksisterende minnebrikkene på kretskortet og lodder på nye brikker med dobbel kapasitet. Et kort som opprinnelig hadde 8 GB eller 11 GB, kan dermed oppgraderes til 16 GB eller 22 GB VRAM.
Programvareomgåelse: Entusiastene flasher en modifisert BIOS (grunnleggende programvare på kortet) og bruker spesialtilpassede Linux-drivere for å lure operativsystemet til å gjenkjenne kortet som en fullverdig regneenhet, slik at plattformer som PyTorch og CUDA kan utnytte det.

Bærekraft og det norske perspektivet

For Norge, som i en periode var et yndet land for etablering av kryptofabrikker på grunn av billig, grønn strøm (spesielt i Nord-Norge), representerer denne utviklingen en interessant mulighet for sirkulærøkonomi. Da kryptomarkedet krasjet og reguleringene strammet seg til, satt mange datasentre igjen med paller av maskinvare som var ansett som e-avfall.

Ved å gjenbruke denne maskinvaren til KI-inferens, slår man to fluer i ett smekk: Man reduserer mengden elektronisk avfall betydelig, og man senker terskelen for at norske oppstartsbedrifter og studenter kan eksperimentere med kunstig intelligens lokalt, uten å sende sensitive data til amerikanske skytjenester som OpenAI eller Google.

Nvidias respons og de tekniske fallgruvene

Selv om dette høres ut som en utopi for KI-entusiaster, understreker vi i TenkeMaskin.no at dette ikke er en løsning for hvem som helst. Det er viktig å skille mellom den romantiske ideen om billig KI og de faktiske, tekniske realitetene.

For det første opererer disse modifiserte kortene i en juridisk og teknisk gråsone. Nvidia er kjent for å vokte sin markedssegmentering strengt. Deres lisensavtaler (EULA) forbyr ofte bruk av forbrukerdrivere i datasentre, og de har en historikk med å rulle ut driveroppdateringer som aktivt blokkerer modifisert maskinvare. Å bygge en bedriftskritisk infrastruktur på modifiserte gruvekort er derfor forbundet med ekstrem risiko.

For det andre er ytelsen asymmetrisk. Mens kortene nå har nok minnekapasitet til å laste inn store modeller, er minnebåndbredden og selve regnekraften (FLOPS) fremdeles basert på eldre arkitektur (som Turing eller Pascal). Dette betyr at kortene er utmerkede for inferens (å spørre en ferdig trent modell), men de er tilnærmet ubrukelige for trening av nye modeller, noe som krever moderne Tensor-kjerner og massiv båndbredde.

En demokratisering av teknologien

Til syvende og sist representerer "200-dollar-hacket" et fascinerende innblikk i teknologiens natur. Der store selskaper bygger murer gjennom prising og programvarelåser, vil åpne miljøer alltid lete etter smutthull. For studenten på NTNU som vil kjøre en privat, ukensurert språkmodell på gutterommet, eller for den lille norske bedriften som vil bygge en intern chatbot uten skyhøye skykostnader, er gjenbruk av kryptokort en genial, om enn uoffisiell, løsning.

Maskinvare-innovasjon skjer ikke bare i Nvidias laboratorier i Santa Clara; den skjer også ved hjelp av loddebolter og åpen kildekode over hele verden.