Sådan læser du performance i en støjende AI-æra
Tiden, hvor vi lod os imponere af simple chat-svar, er forbi. Vi befinder os nu i en periode, hvor nytteværdi er den eneste målestok, der betyder noget for både forretning og personlig produktivitet. De sidste to år har samtalen fokuseret på, hvad disse systemer kunne i teorien. I dag er fokus skiftet til, hvor pålideligt de præsterer under pres. Dette skift kræver et farvel til smarte demoer og et goddag til grundig evaluering. At måle performance handler ikke længere om at tjekke, om en model kan skrive et digt. Det handler om, hvorvidt den model præcist kan behandle tusindvis af juridiske dokumenter uden at miste en eneste detalje. Denne ændring skete, fordi nyhedens interesse er fordampet. Brugere forventer nu, at disse værktøjer fungerer med samme pålidelighed som en database eller en lommeregner. Når de fejler, er omkostningerne reelle. Virksomheder opdager, at en model, der har ret 90 procent af tiden, kan være farligere end en, der har ret 50 procent af tiden. 90-procents-modellen skaber en falsk tryghed, der fører til dyre fejl.
Den forvirring, som læsere bringer med sig til dette emne, stammer ofte fra en misforståelse af, hvad performance egentlig betyder. I traditionel software handler performance om hastighed og oppetid. I den nuværende æra er performance en blanding af logik, nøjagtighed og pris. Et system kan være utroligt hurtigt, men producere svar, der er subtilt forkerte. Det er her, støjen kommer ind i billedet. Vi bliver oversvømmet med benchmarks, der hævder, at den ene model er bedre end den anden baseret på snævre tests. Disse tests afspejler ofte ikke, hvordan en person rent faktisk bruger værktøjet. Det, der er ændret for nylig, er erkendelsen af, at benchmarks bliver manipuleret. Udviklere træner modeller specifikt til at bestå disse tests, hvilket gør resultaterne mindre meningsfulde for den gennemsnitlige bruger. For at se igennem støjen skal du se på, hvordan et system håndterer dine specifikke data og dine specifikke workflows. Dette er ikke et statisk felt. Måden, vi måler disse værktøjer på, udvikler sig i takt med, at vi opdager nye måder, de kan fejle på. Du kan ikke stole på en enkelt score for at vurdere, om et værktøj er din tid eller dine penge værd.
Skiftet fra hastighed til kvalitet
For at forstå teknologiens nuværende tilstand skal du adskille råstyrke fra praktisk anvendelse. Råstyrke er evnen til at behandle milliarder af parametre. Praktisk anvendelse er evnen til at opsummere et møde uden at overse det vigtigste punkt. De fleste kigger på de forkerte tal. De ser på, hvor mange tokens en model kan producere pr. sekund. Selvom hastighed er vigtig for en god brugeroplevelse, er det en sekundær målestok. Den primære målestok er kvaliteten af outputtet i forhold til målet. Dette er sværere at måle, fordi kvalitet er subjektivt. Vi ser dog fremkomsten af automatiserede evalueringssystemer, der bruger én model til at bedømme en anden. Dette skaber en feedback-loop, der både kan være hjælpsom og vildledende. Hvis bedømmeren er fejlbehæftet, kollapser hele målesystemet. Det er derfor, menneskelig gennemgang forbliver guldstandarden for opgaver med høj indsats. Du kan selv prøve det ved at give den samme prompt til tre forskellige værktøjer og sammenligne nuancerne i deres svar. Du vil hurtigt se, at den med den højeste annoncerede score ikke altid er den, der giver det mest brugbare svar.
Den globale effekt af denne målingskrise er betydelig. Regeringer og store virksomheder træffer beslutninger til milliarder af dollars baseret på disse målinger. I USA arbejder National Institute of Standards and Technology på at skabe bedre rammer for AI-risikostyring. Du kan finde deres arbejde på det officielle NIST-website. Hvis vi ikke kan måle performance præcist, kan vi ikke regulere det effektivt. Dette fører til en situation, hvor virksomheder kan implementere systemer, der er forudindtagede eller upålidelige, fordi de bestod en fejlbehæftet test. I Europa er fokus på gennemsigtighed og at sikre, at brugere ved, hvornår de interagerer med et automatiseret system. Indsatsen er høj, fordi disse værktøjer bliver integreret i kritisk infrastruktur som elnet og sundhedssystemer. En fejl på disse områder er ikke bare en mindre gene. Det er et spørgsmål om offentlig sikkerhed. Det globale samfund kæmper for at finde et universelt sprog for performance, men vi er der ikke endnu. Hver region har sine egne prioriteter, hvilket gør en enkelt standard svær at opnå.
Overvej en logistikchef i Singapore ved navn Sarah. Hun bruger et automatiseret system til at koordinere fragtruter over Stillehavet. En tirsdag morgen foreslår systemet en rute, der sparer fire dages rejsetid. Dette ligner en massiv performance-gevinst. Sarah bemærker dog, at ruten går gennem et område med høj risiko for sæsonbestemte storme, som modellen ikke tog højde for. De data, hun modtog fra modellen, var teknisk korrekte baseret på historiske gennemsnit, men de formåede ikke at inddrage vejrmønstre i realtid. Dette er hverdagen for en moderne professionel. Du tjekker konstant arbejdet fra en maskine, der er hurtigere end dig, men som mangler din situationsfornemmelse. Sarah skal beslutte, om hun vil stole på maskinen og spare penge, eller stole på sin intuition og spille sikkert. Hvis hun følger maskinen, og et skib går tabt, koster det millioner af dollars. Hvis hun ignorerer maskinen, og vejret forbliver klart, har hun spildt tid og brændstof. Dette er den praktiske indsats ved performancemåling. Det handler ikke om abstrakte scores. Det handler om selvtilliden til at træffe en beslutning.
Rollen for menneskelig gennemgang er ikke at udføre arbejdet, men at auditere det. Det er her, mange virksomheder går galt i byen. De forsøger også at automatisere audit-processen. Dette skaber en lukket loop, hvor fejl kan forplante sig uden at blive bemærket. I et kreativt bureau kan en forfatter bruge en AI til at generere et første udkast. Performance af det værktøj måles på, hvor meget tid det sparer forfatteren. Hvis forfatteren skal bruge tre timer på at rette et udkast, der tog ti sekunder at generere, er performance faktisk negativ. Målet er at finde det