Voksesmerter for Anthropic: Hvorfor suksessmodellen Claude stadig oftere er nede

Av: Redaksjonen, TenkeMaskin.no

Kunstig intelligens har på rekordtid gått fra å være et spennende teknologisk eksperiment til å bli et uunnværlig og forretningskritisk verktøy for millioner av mennesker. I fronten av denne utviklingen finner vi Anthropic og deres flaggskipmodell, Claude. Spesielt etter lanseringen av Claude 3.5 Sonnet, har selskapet opplevd en massiv brukervekst. Men suksessen har en tydelig bakside: Infrastrukturen sliter med å holde følge.

En suksesshistorie med en bismak

For mange utviklere, tekstforfattere og analytikere har Claude blitt det foretrukne valget over OpenAI sin ChatGPT, mye takket være modellens overlegne evne til koding, nyanserte språkforståelse og evne til å følge komplekse instruksjoner. Dette gjelder også i høy grad for norske brukere, da Claude har vist en bemerkelsesverdig god forståelse for norsk språk og kulturell kontekst.

Den enorme tilstrømningen av nye brukere har imidlertid ført til betydelige kapasitetsproblemer. I sosiale medier og på utviklerforum koker det av frustrasjon. Et ferskt og illustrerende eksempel er en populær tråd på nettforumet Reddit, hvor brukere diskuterer den stadig mer velkjente feilmeldingen:

"This isn't working right now. You can try again later or check our system status."

Problemet begrenser seg ikke lenger til korte utfall i rushtiden. For mange har det blitt en daglig hindring som forstyrrer arbeidsflyten, og det reiser et viktig spørsmål: Takler rett og slett ikke Anthropic sin egen suksess?

Hva ligger bak feilmeldingene?

For å forstå hvorfor en digital tjeneste i 2024 ikke bare kan "skaleres opp" med et tastetrykk, må vi se på de underliggende tekniske kravene for store språkmodeller (LLM-er).

Inference: En krevende prosess

Når du besøker en vanlig nettside, henter serveren frem ferdiglagret informasjon og sender den til nettleseren din. Dette krever minimalt med regnekraft. Når du derimot stiller Claude et spørsmål, må modellen generere svaret ord for ord i sanntid. Dette kalles inference (inferens).

Hver eneste forespørsel krever massiv parallell prosesseringering, typisk drevet av svært avanserte og kostbare grafikkort (GPU-er), som Nvidias H100-brikker. Selv om Anthropic har tung finansiell og infrastrukturell ryggdekning fra gigantene Amazon (AWS) og Google (GCP), er det en global mangel på fysisk maskinvare dedikert til KI-inferens.

Fysiske begrensninger: Det er en grense for hvor raskt datasentre kan utvides med ny maskinvare.
Dynamisk lastbalansering: KI-trafikk er svært uforutsigbar. En plutselig økning i komplekse forespørsler (som analyse av store dokumenter) kan overbelaste servernodene umiddelbart.
Kostnadskontroll: Å drive KI-modeller er ekstremt dyrt. Selskapene må balansere tilgjengelighet mot tapsprosjektet det er å la gratiskunder bruke ubegrenset med regnekraft.

Norske brukere og bedrifter i klem

I Norge merkes nedetiden spesielt godt i teknologisektoren og mediebransjen. Mange norske utviklingsmiljøer har integrert Claude i sine daglige rutiner, enten direkte via webgrensesnittet eller gjennom API-er for å automatisere kundeservice og dataanalyse.

Når systemene går ned, stopper produksjonen opp. Flere norske IT-ledere TenkeMaskin.no har vært i kontakt med, uttrykker bekymring for stabiliteten. Mens plattformen lovprises for sin kvalitet når den fungerer, tvinger ustabiliteten bedrifter til å opprettholde abonnementer hos flere leverandører samtidig – for eksempel både Claude Pro og ChatGPT Plus – for å sikre redundans. Dette fordyrer KI-satsingen for norske selskaper.

Analyse: Veien videre for Anthropic

Det er viktig å skille mellom faktisk nedetid (hvor serverne krasjer) og bevisst struping (rate limiting). Analyserer vi Anthropics statusoppdateringer og brukermønstre, er det tydelig at mye av det brukerne opplever som "nedetid", egentlig er systemer som beskytter seg selv mot overbelastning.

For å håndtere veksten fremover, er det sannsynlig at Anthropic vil stramme inn ytterligere på følgende områder:

Strenge grenser for gratisbrukere: Gratisversjonen vil i økende grad fungere som en smaksprøve, med svært lav toleranse for trafikktopper.
Prioritering av bedriftskunder: API-brukere og Enterprise-kunder vil alltid få forrang på regnekraften (Compute).
Mindre, raskere modeller: Vi vil trolig se et økt fokus på å rute enkle spørsmål til mindre ressurskrevende modeller (som Claude 3.5 Haiku) for å avlaste flaggskipmodellene.

Anthropic befinner seg i en klassisk skvis. De har bygget et produkt markedet elsker, men fysikkens og økonomiens lover setter grenser for hvor raskt de kan levere det. Frem til infrastrukturen tar igjen etterspørselen, må brukerne smøre seg med tålmodighet – eller være forberedt på å betale en høyere pris for garantert oppetid.