De mest imponerende AI-demoene – og hva de egentlig beviser
De høye innsatsene i en femminutters pitch
Den polerte tech-demoen er en bærebjelke i vår moderne tid. Vi ser på mens en presentatør snakker til en datamaskin, og maskinen svarer med menneskelig vidd. Vi ser videoklipp generert fra en enkelt setning som ser ut som de hører hjemme i en storfilm. Disse øyeblikkene er designet for å skape ærefrykt. De er nøye koreograferte forestillinger ment for å sikre finansiering og fange offentlighetens fantasi. Men for den vanlige brukeren er gapet mellom en scenedemo og et ferdig produkt ofte en dyp kløft. En demo beviser at et spesifikt resultat er mulig under perfekte forhold. Det beviser ikke at teknologien er klar for den rotete virkeligheten i daglig bruk. Vi lever for øyeblikket i en periode der spektakulære fremtidsvisjoner overskygger nytten av det som faktisk fungerer. Dette skaper en hype-syklus som kan være vanskelig å tolke selv for de mest erfarne observatørene. For å forstå den sanne fremgangen må vi se forbi kinolyset og de skriptede interaksjonene. Vi må spørre hva som skjer når kameraene slås av og koden må kjøre på en standard internettforbindelse.
Bak teppet av syntetisk perfeksjon
Moderne AI-demoer baserer seg på en kombinasjon av high-end hardware og betydelig menneskelig forberedelse. Når et selskap viser en ny modell som interagerer i sanntid, bruker de ofte klynger av spesialiserte chips som gjennomsnittspersonen aldri vil få tilgang til. De bruker også teknikker som prompt engineering for å sikre at modellen holder seg på sporet. En demo er i bunn og grunn en høydepunktsvideo. Utviklerne kan ha kjørt den samme prompten femti ganger for å få det ene perfekte svaret som vises på skjermen. Dette er ikke nødvendigvis villedende, men det er en spesifikk type historiefortelling. Ifølge rapporter fra MIT Technology Review blir ventetiden (latency) vi ser i disse videoene ofte redigert bort. I en live-setting kan en modell bruke flere sekunder på å behandle en kompleks forespørsel. I en demo fjernes den pausen for å få interaksjonen til å føles flytende. Dette skaper en falsk forventning til hvordan teknologien føles å bruke. En annen vanlig taktikk er bruken av smale parametere. En modell kan være utmerket til å generere en video av en katt med hatt fordi den er spesifikt trent på den typen data. Når en bruker prøver å generere noe mer komplekst, sliter systemet ofte. Demoene viser et produkt som er optimalisert for et spesifikt sett med oppgaver, mens det faktiske verktøyet ofte er mye mer begrenset. Vi ser et skifte der selve demoen er produktet, og fungerer som et markedsføringsverktøy fremfor en forhåndsvisning av en tilgjengelig tjeneste. Dette gjør det vanskeligere for forbrukere å vite hva de faktisk kjøper når de registrerer seg for en ny plattform.
Geopolitikken bak den virale videoen
Effekten av disse demoene strekker seg langt utover tech-miljøet. De har blitt en form for «soft power» på den globale scenen. Nasjoner og massive selskaper bruker disse utstillingene for å signalisere sin dominans innen kunstig intelligens. Når et stort firma i USA slipper en viral video av et nytt generativt verktøy, utløser det en respons fra konkurrenter i Europa og Asia. Dette skaper et kappløp der fart verdsettes høyere enn stabilitet. Investorer pøser milliarder av dollar inn i selskaper basert på noen få minutter med imponerende opptak. Dette kan føre til markedsbobler der verdsettelsen av et selskap er koblet fra faktiske inntekter eller produktmodenhet. Som bemerket av The Verge, kan dette presset om å levere føre til etiske snarveier. Selskaper kan forhaste seg med å slippe demoer av modeller som ennå ikke er trygge eller pålitelige. Det globale publikummet blir kondisjonert til å forvente raske, nesten magiske gjennombrudd hver måned. Dette legger et enormt press på forskere og ingeniører som må prøve å gjøre disse forestillingene om til stabil programvare. Vi har sett flere tilfeller der en demo forårsaket et massivt hopp i et selskaps aksjekurs, bare for at prisen falt når det faktiske produktet ikke levde opp til hypen. Denne volatiliteten påvirker hele verdensøkonomien. Den påvirker hvor venturekapital flyter og hvilke startups som overlever. Den virale demoen har blitt en primær driver for tech-politikk og investeringer, noe som gjør den til en av de mest innflytelsesrike medieformene i verden i dag. Den former hvordan myndigheter ser på fremtiden for arbeid og nasjonal sikkerhet.
Å leve i skyggen av prototypen
Tenk på opplevelsen til Sarah, en markedsføringsleder som jobber for et lite byrå. Hun ser en demo for et nytt generativt videoverktøy som lover å lage reklamer av høy kvalitet på sekunder. Demoen viser en bruker som skriver inn en enkel prompt og får en perfekt 30-sekunders reklamefilm. Sarah er begeistret. Hun forteller kundene sine at de kan kutte produksjonsbudsjettene og fremskynde tidslinjene. Hun er fast bestemt på å bruke denne nye teknologien for å ligge i forkant av konkurrentene. Når hun endelig får tilgang til betaversjonen, er virkeligheten et sjokk. Systemet bruker tjue minutter på å generere et enkelt klipp. Karakterene i videoen har forvrengte ansikter og bakgrunnen skifter farge tilfeldig. Sarah bruker timer på å prøve å fikse feilene, bare for å innse at det ville vært raskere å bare ansette en tradisjonell klipper. Dette er «demo-gapet» i praksis. Sarahs historie er vanlig blant profesjonelle som prøver å integrere disse verktøyene i sitt daglige arbeid. De siste trendene i AI Magazine antyder at selv om teknologien forbedres, er den ennå ikke den sømløse løsningen som ble vist på scenen.
BotNews.today bruker AI-verktøy for å forske, skrive, redigere og oversette innhold. Teamet vårt gjennomgår og overvåker prosessen for å holde informasjonen nyttig, klar og pålitelig.
- Demoer bruker ofte forhåndsrendrede ressurser som utløses av en prompt i stedet for å genereres i sanntid.
- Hardwaren som brukes til sceneopptredener er ofte betydelig kraftigere enn cloud-serverne som brukes til den offentlige utgivelsen.
- Skriptede interaksjoner unngår «edge cases» og hallusinasjoner som preger faktisk bruk.
- Menneskelige moderatorer brukes noen ganger bak kulissene for å filtrere eller korrigere modellens output før den vises.
Konsekvensen for brukeren er en følelse av å bli villedet. Når verktøyet ikke fungerer som annonsert, gir brukeren seg selv eller sine prompter skylden. De innser ikke at demoen var et nøye kontrollert eksperiment. Dette skaper en kultur av forvirring der det er vanskelig å skille mellom et genuint gjennombrudd og et smart stykke markedsføring. For kreative betyr dette at jobbene deres endrer seg på måter som ikke alltid er forutsigbare. De får høre at ferdighetene deres er utdaterte av en demo, bare for å finne ut at erstatningsverktøyet er upålitelig. Denne usikkerheten gjør det vanskelig å planlegge for fremtiden eller investere i nye ferdigheter. Fokus på «wow-faktoren» ignorerer de praktiske behovene til menneskene som faktisk skal bruke disse verktøyene hver dag.
Den ubehagelige matematikken bak inferens
Vi må stille vanskelige spørsmål om de skjulte kostnadene ved disse imponerende fremvisningene. Hver gang en modell genererer et bilde eller en video av høy kvalitet, forbruker den en betydelig mengde energi. Karbonavtrykket til disse demoene blir sjelden nevnt. Vi ser en massiv økning i strømbehovet til datasentre, drevet i stor grad av behovet for å kjøre disse komplekse modellene. Ifølge Wired kan miljøkostnaden ved en enkelt viral demo tilsvare energibruken til hundrevis av hjem. Det er også spørsmålet om personvern. Hvor kom treningsdataene for disse modellene fra? Mange av de mest imponerende demoene er bygget på datasett som inkluderer opphavsrettslig materiale og personlig informasjon uten samtykke fra de opprinnelige skaperne. Dette er et juridisk og etisk minefelt som selskaper prøver å ignorere. Vi må også vurdere kostnaden ved inferens. Å kjøre disse modellene i stor skala er utrolig dyrt. De fleste selskapene som viser frem disse demoene taper penger på hver eneste forespørsel. Dette er ikke en bærekraftig forretningsmodell. Det antyder at når disse verktøyene er fullt utgitt, vil de enten være veldig dyre eller betydelig nedgradert i kvalitet. Hvorfor skjuler demoene disse begrensningene? Svaret er vanligvis knyttet til investortillit. Hvis et selskap innrømmet at modellen deres er for dyr å kjøre for allmennheten, ville verdsettelsen deres kollapset. Vi blir vist en fremtid som kanskje ikke er økonomisk levedyktig for den gjennomsnittlige personen. Vi bør også være skeptiske til «sikkerhetsfunksjonene» som vises i demoer. Det er lett å få en modell til å se trygg ut i et kontrollert miljø. Det er mye vanskeligere å forhindre at den blir brukt til skade når den først er i hendene på millioner av brukere. Mangelen på åpenhet rundt disse problemene er et stort rødt flagg som vi ikke har råd til å ignorere.
Har du en AI-historie, et verktøy, en trend eller et spørsmål du synes vi bør dekke? Send oss din artikkelidé — vi vil gjerne høre den.
Arkitektur og API-taket
For «power users» og utviklere blir spenningen ved en demo ofte dempet av virkeligheten i de tekniske spesifikasjonene. De mest imponerende modellene er ofte låst bak restriktive API-er. Disse grensesnittene har strenge begrensninger og høye kostnader som gjør implementering i stor skala vanskelig. Du ser kanskje en demo av en modell som behandler et dokument på tusen sider på sekunder, men API-et tillater deg kanskje bare å laste opp ti sider av gangen. Dette er context window-problemet. Selv om den teoretiske grensen til en modell kan være enorm, er den praktiske grensen for en utvikler ofte mye mindre. Det er også problemet med lokal lagring og prosessering. De fleste verktøyene som vises i demoer krever en konstant internettforbindelse og en enorm mengde cloud computing-kraft. Dette er et problem for brukere som må jobbe offline eller som har strenge krav til datasikkerhet. Lokale LLM-er blir mer populære, men de ligger fortsatt bak de skybaserte gigantene når det gjelder ytelse. For å kjøre en modell som nærmer seg kvaliteten til en topp-demo, trenger du en arbeidsstasjon med flere high-end GPU-er. Dette er utenfor rekkevidde for de fleste enkeltpersoner og små bedrifter. Vi ser også en mangel på standardisering i bransjen. Hvert selskap har sitt eget proprietære format og API, noe som gjør det vanskelig å bygge arbeidsflyter som bruker flere verktøy. «Geek»-virkeligheten av AI er et fragmentert landskap av inkompatibel programvare og dyr hardware. Her er de primære tekniske hindringene som power users møter i dag.
- Token-grenser hindrer ofte behandling av langt innhold eller komplekse kodebaser i én omgang.
- Høy ventetid i API-responser gjør det vanskelig å bygge applikasjoner som krever sanntidstilbakemelding.
- Mangelen på finjusteringsalternativer for mange toppmodeller hindrer brukere i å tilpasse AI-en for spesifikke bransjer.
- Datautgangskostnader kan raskt bli uoverkommelige når man flytter store mengder generert innhold ut av en skyleverandør.
Arbeidsflyt-integrasjon forblir den største utfordringen. De fleste AI-verktøy er fortsatt designet som frittstående chat-grensesnitt. De kobles ikke enkelt til eksisterende programvare som videoredigerere, IDE-er eller prosjektstyringsverktøy. En demo kan vise en sømløs interaksjon, men den faktiske implementeringen krever kompleks «limkode» som ofte går i stykker. Vi venter fortsatt på dagen da disse verktøyene virkelig kan snakke sammen uten menneskelig inngripen. Inntil da sitter power useren fast i en syklus av manuell datainntasting og feilsøking.
Å skille signal fra kinostøy
De mest imponerende AI-demoene er ikke bare forhåndsvisninger av fremtiden. De er en spesifikk type media designet for å påvirke vår oppfatning av hva som er mulig. De beviser at teknologien har nådd et visst nivå av sofistikering, men de beviser ikke at den er klar for verden. Som brukere og observatører må vi lære å se etter sømmene i forestillingen. Vi bør spørre om hardwaren, kostnadene og den menneskelige innsatsen som gikk med til å få en femminutters video til å se perfekt ut. Den virkelige fremgangen innen AI finnes ofte i de kjedelige oppdateringene. Det er i de litt raskere inferenstidene, de mer stabile API-ene og de bedre personvernkontrollene. Disse lager ikke gode virale videoer, men det er de tingene som faktisk endrer hvordan vi jobber og lever. Vi må bevege oss forbi æraen med å bli «wow-et» og begynne å kreve verktøy som er pålitelige, etiske og tilgjengelige. Gapet mellom demoen og produktet vil etter hvert lukkes, men bare hvis vi holder skaperne ansvarlige for løftene de gir på scenen. Fremtidens teknologi bør dømmes etter sin nytteverdi i hendene på de mange, ikke sin ytelse i hendene på de få.
Redaktørens merknad: Vi opprettet dette nettstedet som et flerspråklig knutepunkt for AI-nyheter og guider for folk som ikke er datanerder, men som likevel ønsker å forstå kunstig intelligens, bruke den med større selvtillit og følge fremtiden som allerede er her.
Fant du en feil eller noe som må korrigeres? Gi oss beskjed.