Agentic AI staat klaar om de klantervaring en operationele efficiëntie te transformeren, wat een nieuwe strategische aanpak van leiderschap noodzakelijk maakt. Deze evolutie in kunstmatige intelligentie stelt systemen in staat taken te plannen, uit te voeren en vol te houden, waarbij ze verder gaan dan eenvoudige aanbevelingen en proactieve actie ondernemen. Voor UX-teams, productmanagers en leidinggevenden is het begrijpen van deze verschuiving cruciaal voor het ontsluiten van kansen op het gebied van innovatie, het stroomlijnen van workflows en het opnieuw definiëren van de manier waarop technologie mensen dient. Het is gemakkelijk om Agentic AI te verwarren met Robotic Process Automation (RPA), een technologie die zich richt op op regels gebaseerde taken die op computers worden uitgevoerd. Het onderscheid ligt in starheid versus redenering. RPA is uitstekend in het volgen van een strikt script: als X gebeurt, doe dan Y. Het bootst menselijke handen na. Agentic AI bootst de menselijke redenering na. Het volgt geen lineair script; het creëert er een. Overweeg een wervingsworkflow. Een RPA-bot kan een cv scannen en uploaden naar een database. Het voert een repetitieve taak perfect uit. Een Agentic-systeem bekijkt het cv, merkt op dat de kandidaat een specifieke certificering vermeldt, verwijst naar een nieuwe klantvereiste en besluit een gepersonaliseerde outreach-e-mail op te stellen waarin die match wordt benadrukt. RPA voert een vooraf gedefinieerd plan uit; Agentic AI formuleert het plan op basis van een doel. Deze autonomie scheidt agenten van de voorspellende instrumenten die we de afgelopen tien jaar hebben gebruikt. Een ander voorbeeld is het omgaan met vergaderconflicten. Een voorspellend model dat in uw agenda is geïntegreerd, kan uw vergaderschema en de planningen van uw collega's analyseren. Het kan dan potentiële conflicten suggereren, zoals twee belangrijke vergaderingen die tegelijkertijd zijn gepland, of een vergadering die is gepland terwijl een belangrijke deelnemer op vakantie is. Het biedt u informatie en signaleert mogelijke problemen, maar u bent zelf verantwoordelijk voor het ondernemen van actie. Een agentische AI zou in hetzelfde scenario verder gaan dan alleen het suggereren van conflicten om te vermijden. Bij het identificeren van een conflict met een belangrijke deelnemer kan de agent handelen door:
Het controleren van de beschikbaarheid van alle benodigde deelnemers. Het identificeren van alternatieve tijdsloten die voor iedereen werken. Het versturen van voorgestelde nieuwe uitnodigingen voor vergaderingen naar alle deelnemers. Als het conflict met een externe deelnemer is, kan de agent een e-mail opstellen en verzenden waarin de noodzaak van een nieuwe afspraak wordt uitgelegd en alternatieve tijden worden aangeboden. Het bijwerken van uw agenda en de agenda's van uw collega's met de nieuwe vergadergegevens zodra deze zijn bevestigd.
Deze agentische AI begrijpt het doel (het oplossen van het vergaderingsconflict), plant de stappen (beschikbaarheid controleren, alternatieven vinden, uitnodigingen verzenden), voert die stappen uit en gaat door totdat het conflict is opgelost, allemaal met minimale directe tussenkomst van de gebruiker. Dit toont het ‘agentische’ verschil aan: het systeem onderneemt proactieve stappen voor de gebruiker, in plaats van alleen maar informatie aan de gebruiker te verstrekken. Agentische AI-systemen begrijpen een doel, plannen een reeks stappen om dit te bereiken, voeren die stappen uit en passen zich zelfs aan als er iets misgaat. Zie het als een proactieve digitale assistent. De onderliggende technologie combineert vaak grote taalmodellen (LLM's) voor begrip en redenering, met planningsalgoritmen die complexe taken opsplitsen in beheersbare acties. Deze agenten kunnen communiceren met verschillende tools, API’s en zelfs andere AI-modellen om hun doelstellingen te bereiken, en – cruciaal – ze kunnen een persistente status behouden, wat betekent dat ze eerdere acties onthouden en in de loop van de tijd naar een doel blijven werken. Dit maakt ze fundamenteel anders dan de typische generatieve AI, die meestal een enkel verzoek voltooit en vervolgens opnieuw instelt. Een eenvoudige taxonomie van agentisch gedrag We kunnen het gedrag van agenten categoriseren in vier verschillende vormen van autonomie. Hoewel deze er vaak uitzien als een progressie, functioneren ze als onafhankelijke bedrijfsmodi. Een gebruiker kan erop vertrouwen dat een agent autonoom handelt voor de planning, maar deze in de 'suggestiemodus' houdt voor financiële transacties. We hebben deze niveaus afgeleid door industriestandaarden voor autonome voertuigen (SAE-niveaus) aan te passen aan de context van digitale gebruikerservaringen. Observeer en suggereer De agent fungeert als monitor. Het analyseert datastromen en signaleert afwijkingen of kansen, maar onderneemt geen actie. DifferentiatieIn tegenstelling tot het volgende niveau genereert de agent geen complex plan. Het wijst op een probleem. VoorbeeldEen DevOps-agent merkt een CPU-piek op de server op en waarschuwt de technicus die aanwezig is. Het weet niet hoe het probleem kan worden opgelost en probeert het ook niet te repareren, maar het weet wel dat er iets mis is. Implicaties voor ontwerp en toezichtOp dit niveauontwerp en toezicht moeten prioriteit geven aan duidelijke, niet-opdringerige meldingen en een goed gedefinieerd proces waarmee gebruikers op suggesties kunnen reageren. De focus ligt op het voorzien van tijdige en relevante informatie aan de gebruiker zonder de controle over te nemen. UX-beoefenaars moeten zich concentreren op het duidelijk en gemakkelijk te begrijpen maken van suggesties, terwijl productmanagers ervoor moeten zorgen dat het systeem waarde biedt zonder de gebruiker te overweldigen. Plan-en-voorstel De agent identificeert een doel en genereert een meerstappenstrategie om dit te bereiken. Het presenteert het volledige plan voor menselijke beoordeling. DifferentiatieDe agent treedt op als strateeg. Het wordt niet uitgevoerd; het wacht op goedkeuring van de hele aanpak. VoorbeeldDezelfde DevOps-agent merkt de CPU-piek op, analyseert de logboeken en stelt een herstelplan voor:
Maak twee extra exemplaren. Start de load-balancer opnieuw. Archiveer oude logboeken.
De mens beoordeelt de logica en klikt op ‘Plan goedkeuren’. Implicaties voor ontwerp en toezicht Voor agenten die plannen en voorstellen moet het ontwerp ervoor zorgen dat de voorgestelde plannen gemakkelijk te begrijpen zijn en dat gebruikers intuïtieve manieren hebben om ze te wijzigen of af te wijzen. Toezicht is cruciaal bij het bewaken van de kwaliteit van voorstellen en de planningslogica van de agent. UX-beoefenaars moeten duidelijke visualisaties van de voorgestelde plannen ontwerpen, en productmanagers moeten duidelijke beoordelings- en goedkeuringsworkflows opzetten. Handelen met bevestiging De agent voltooit alle voorbereidende werkzaamheden en plaatst de laatste actie in een geënsceneerde staat. Het houdt de deur effectief open, wachtend op een knikje. DifferentiatieDit verschilt van “Plan-and-Propose” omdat het werk al gedaan en geënsceneerd is. Het vermindert wrijving. De gebruiker bevestigt de uitkomst, niet de strategie. VoorbeeldEen wervingsagent stelt vijf uitnodigingen voor een sollicitatiegesprek op, zoekt open tijden in agenda's en maakt de agenda-evenementen aan. Het presenteert een knop "Alles verzenden". De gebruiker geeft de definitieve autorisatie om de externe actie te activeren. Implicaties voor ontwerp en toezicht Wanneer agenten handelen met bevestiging, moet het ontwerp transparante en beknopte samenvattingen bieden van de beoogde actie, waarbij de mogelijke gevolgen duidelijk worden uiteengezet. Toezicht moet verifiëren dat het bevestigingsproces robuust is en dat gebruikers niet wordt gevraagd om blindelings acties goed te keuren. UX-professionals moeten bevestigingsvragen ontwerpen die duidelijk zijn en alle noodzakelijke informatie bieden, en productmanagers moeten prioriteit geven aan een robuust audittraject voor alle bevestigde acties. Handel autonoom De agent voert taken zelfstandig uit binnen gedefinieerde grenzen. DifferentiatieDe gebruiker bekijkt de geschiedenis van acties, niet de acties zelf. VoorbeeldDe rekruteringsagent ziet een conflict, verplaatst het interview naar een back-uplocatie, brengt de kandidaat op de hoogte en brengt de rekruteringsmanager op de hoogte. De mens ziet alleen een melding: Interview verplaatst naar dinsdag. Implicaties voor ontwerp en toezichtVoor autonome agenten moet het ontwerp duidelijke, vooraf goedgekeurde grenzen stellen en robuuste monitoringinstrumenten bieden. Toezicht vereist een continue evaluatie van de prestaties van de agent binnen deze grenzen, een cruciale behoefte aan robuuste logboekregistratie, duidelijke override-mechanismen en door de gebruiker gedefinieerde kill-switches om de controle en het vertrouwen van de gebruiker te behouden. UX-beoefenaars moeten zich concentreren op het ontwerpen van effectieve dashboards voor het monitoren van het gedrag van autonome agenten, en productmanagers moeten ervoor zorgen dat er duidelijke governance- en ethische richtlijnen zijn.
Laten we eens kijken naar een echte toepassing in HR-technologie om deze modi in actie te zien. Overweeg een “Interview Coördinatie Agent” die is ontworpen om de logistiek van de aanwerving af te handelen.
In de suggestiemodus merkt de agent dat een interviewer dubbel is geboekt. Het benadrukt het conflict op het dashboard van de recruiter: “Waarschuwing: Sarah is dubbel geboekt voor het interview van 14.00 uur.” In de planmodus analyseert de agent de agenda van Sarah en de beschikbaarheid van de kandidaat. Het biedt een oplossing: "Ik raad aan het interview te verplaatsen naar donderdag om 10.00 uur. Hiervoor moet Sarah's 1:1 met haar manager worden verplaatst." De recruiter beoordeelt deze logica. In de bevestigingsmodus stelt de agent de e-mails op voor de kandidaat en de manager. Het vult de agenda-uitnodigingen in. De recruiter ziet een samenvatting: "Klaar om te verzetten naar donderdag. Updates sturen?" De recruiter klikt op ‘Bevestigen’. In de autonome modus handelt de agent het conflict onmiddellijk af. Het respecteert een vooraf ingestelde regel: “Geef altijd prioriteit aan sollicitatiegesprekken met kandidaten boven interne 1:1-gesprekken.” Het verplaatst de vergadering en verzendt de meldingen. De recruiter ziet een logvermelding: “Opgelostplanningsconflict voor kandidaat B.”
Research Primer: wat te onderzoeken en hoe Het ontwikkelen van effectieve agentische AI vereist een aparte onderzoeksaanpak vergeleken met traditionele software of zelfs generatieve AI. Het autonome karakter van AI-agenten, hun vermogen om beslissingen te nemen en hun potentieel voor proactieve actie vereisen gespecialiseerde methodologieën voor het begrijpen van de verwachtingen van gebruikers, het in kaart brengen van complex agentgedrag en het anticiperen op mogelijke mislukkingen. De volgende onderzoeksprimer schetst de belangrijkste methoden om deze unieke aspecten van agentische AI te meten en evalueren. Interviews met mentale modellen Deze interviews onthullen de vooroordelen van gebruikers over hoe een AI-agent zich zou moeten gedragen. In plaats van simpelweg te vragen wat gebruikers willen, ligt de nadruk op het begrijpen van hun interne modellen van de mogelijkheden en beperkingen van de agent. We moeten vermijden het woord ‘agent’ te gebruiken bij deelnemers. Het draagt sciencefictionbagage met zich mee of is een term die te gemakkelijk wordt verward met een menselijke agent die ondersteuning of diensten aanbiedt. Plaats de discussie in plaats daarvan rond ‘assistenten’ of ‘het systeem’. We moeten ontdekken waar gebruikers de grens trekken tussen nuttige automatisering en opdringerige controle.
Methode: Vraag gebruikers om hun verwachte interacties met de agent in verschillende hypothetische scenario's te beschrijven, tekenen of vertellen. Key Probes (die een verscheidenheid aan industrieën weerspiegelen): Om de grenzen van de gewenste automatisering en de potentiële zorgen rond overautomatisering te begrijpen, kunt u het volgende vragen: Wat wilt u dat het systeem automatisch doet als uw vlucht wordt geannuleerd? Waar zou u zich zorgen over maken als het dat deed zonder uw expliciete instructies?
Om het inzicht van de gebruiker in de interne processen en noodzakelijke communicatie van de agent te onderzoeken, kunt u het volgende vragen: Stel je voor dat een digitale assistent je slimme huis beheert. Als er een pakket wordt afgeleverd, welke stappen denkt u dan dat dit zal ondernemen en welke informatie verwacht u te ontvangen?
Om de verwachtingen rond controle en toestemming binnen een uit meerdere stappen bestaand proces bloot te leggen, vraagt u zich het volgende af: Als u uw digitale assistent vraagt om een vergadering te plannen, welke stappen denkt u dan te zullen nemen? Op welke punten zou u geraadpleegd willen worden of keuzemogelijkheden?
Voordelen van de methode: onthult impliciete aannames, benadrukt gebieden waar het geplande gedrag van de agent zou kunnen afwijken van de verwachtingen van de gebruiker, en informeert het ontwerp van geschikte controles en feedbackmechanismen.
Agentreis in kaart brengen: Net als bij het traditionele in kaart brengen van de gebruikersreis, richt de reismapping van agenten zich specifiek op de verwachte acties en beslissingspunten van de AI-agent zelf, naast de interactie van de gebruiker. Dit helpt om proactief potentiële valkuilen te identificeren.
Methode: Maak een visuele kaart die de verschillende stadia van de werking van een agent schetst, van initiatie tot voltooiing, inclusief alle mogelijke acties, beslissingen en interacties met externe systemen of gebruikers. Belangrijkste elementen om in kaart te brengen: Agentacties: Welke specifieke taken of beslissingen voert de agent uit? Informatie-invoer/-uitvoer: welke gegevens heeft de agent nodig en welke informatie genereert of communiceert hij? Beslissingspunten: waar maakt de agent keuzes, en wat zijn de criteria voor die keuzes? Gebruikersinteractiepunten: waar levert de gebruiker input, beoordeelt of keurt hij acties goed? Faalpunten: Het is van cruciaal belang dat u specifieke gevallen identificeert waarin de agent instructies verkeerd kan interpreteren, een onjuiste beslissing kan nemen of met de verkeerde entiteit kan communiceren. Voorbeelden: onjuiste ontvanger (bijvoorbeeld het verzenden van gevoelige informatie naar de verkeerde persoon), rood staan (bijvoorbeeld een geautomatiseerde betaling die het beschikbare saldo overschrijdt), verkeerde interpretatie van de intentie (bijvoorbeeld het boeken van een vlucht voor de verkeerde datum vanwege dubbelzinnig taalgebruik).
Herstelpaden: hoe kan de agent of gebruiker herstellen van deze fouten? Welke mechanismen zijn er voor correctie of interventie?
Voordelen van de methode: Biedt een holistisch beeld van de operationele stroom van de agent, legt verborgen afhankelijkheden bloot en maakt het proactief ontwerpen van beveiligingen, foutafhandeling en gebruikersinterventiepunten mogelijk om negatieve uitkomsten te voorkomen of te beperken.
Gesimuleerd wangedrag testen: Deze aanpak is ontworpen om het systeem aan een stresstest te onderwerpen en de reacties van gebruikers te observeren wanneer de AI-agent faalt of afwijkt van de verwachtingen. Het gaat over het begrijpen van vertrouwensherstel en emotionele reacties in ongunstige situaties.
Methode: In gecontroleerde laboratoriumstudies opzettelijk scenario's introduceren waarin de agent een fout maakt, een commando verkeerd interpreteert of zich onverwacht gedraagt. Soorten ‘wangedrag’ om te simuleren: CommandoVerkeerde interpretatie: de agent voert een actie uit die enigszins afwijkt van wat de gebruiker bedoelde (bijvoorbeeld twee items bestellen in plaats van één). Overbelasting/onderbelasting van informatie: De agent biedt te veel irrelevante informatie of te weinig kritische details. Ongevraagde actie: de agent onderneemt een actie die de gebruiker expliciet niet wilde of verwachtte (bijvoorbeeld aandelen kopen zonder goedkeuring). Systeemfout: de agent crasht, reageert niet meer of geeft een foutmelding. Ethische dilemma's: De agent neemt een beslissing met ethische implicaties (bijvoorbeeld prioriteit geven aan de ene taak boven de andere op basis van een onvoorziene maatstaf).
Observatiefocus: Gebruikersreacties: Hoe reageren gebruikers emotioneel (frustratie, woede, verwarring, verlies van vertrouwen)? Herstelpogingen: welke stappen ondernemen gebruikers om het gedrag van de agent te corrigeren of zijn acties ongedaan te maken? Vertrouwensherstelmechanismen: Helpen de ingebouwde herstel- of feedbackmechanismen van het systeem het vertrouwen te herstellen? Hoe willen gebruikers geïnformeerd worden over fouten? Mentale modelverschuiving: Verandert het wangedrag het inzicht van de gebruiker in de mogelijkheden of beperkingen van de agent?
Voordelen van de methode: Cruciaal voor het identificeren van ontwerplacunes met betrekking tot foutherstel, feedback en gebruikerscontrole. Het biedt inzicht in hoe veerkrachtig gebruikers zijn bij falende agenten en wat er nodig is om het vertrouwen te behouden of opnieuw op te bouwen, wat leidt tot robuustere en vergevingsgezinde agentsystemen.
Door deze onderzoeksmethodologieën te integreren kunnen UX-beoefenaars verder gaan dan alleen het bruikbaar maken van agentische systemen, maar ze ook vertrouwd, controleerbaar en verantwoordelijk maken, waardoor een positieve en productieve relatie tussen gebruikers en hun AI-agenten wordt bevorderd. Houd er rekening mee dat dit niet de enige methoden zijn die relevant zijn voor het effectief verkennen van agent-AI. Er bestaan veel andere methoden, maar deze zijn op korte termijn het meest toegankelijk voor beoefenaars. Ik heb eerder de Wizard of Oz-methode besproken, een iets geavanceerdere methode voor het testen van concepten, die ook een waardevol hulpmiddel is voor het verkennen van agentische AI-concepten. Ethische overwegingen bij onderzoeksmethodologie Bij onderzoek naar agentische AI, vooral bij het simuleren van wangedrag of fouten, zijn ethische overwegingen van cruciaal belang om rekening mee te houden. Er zijn veel publicaties die zich richten op ethisch UX-onderzoek, waaronder een artikel dat ik schreef voor Smashing Magazine, deze richtlijnen van het UX Design Institute en deze pagina uit de Inclusive Design Toolkit. Belangrijke statistieken voor Agentic AI U hebt een uitgebreide reeks belangrijke statistieken nodig om de prestaties en betrouwbaarheid van agentische AI-systemen effectief te kunnen beoordelen. Deze statistieken bieden inzicht in het gebruikersvertrouwen, de systeemnauwkeurigheid en de algehele gebruikerservaring. Door deze indicatoren te volgen, kunnen ontwikkelaars en ontwerpers verbeterpunten identificeren en ervoor zorgen dat AI-agenten veilig en efficiënt werken. 1. InterventiepercentageVoor autonome agenten meten we succes af aan de stilte. Als een agent een taak uitvoert en de gebruiker niet binnen een bepaald tijdsbestek (bijvoorbeeld 24 uur) ingrijpt of de actie ongedaan maakt, beschouwen we dat als acceptatie. We houden het interventiepercentage bij: hoe vaak springt een mens tussenbeide om de agent tegen te houden of te corrigeren? Een hoog interventiepercentage duidt op een verkeerde afstemming in vertrouwen of logica. 2. Frequentie van onbedoelde acties per 1.000 taken. Deze kritische maatstaf kwantificeert het aantal door de AI-agent uitgevoerde acties die niet door de gebruiker gewenst of verwacht waren, genormaliseerd per 1.000 voltooide taken. Een lage frequentie van onbedoelde acties duidt op een goed uitgelijnde AI die de bedoelingen van de gebruiker nauwkeurig interpreteert en binnen gedefinieerde grenzen opereert. Deze maatstaf is nauw verbonden met het begrip van de AI van de context, zijn vermogen om opdrachten ondubbelzinnig te maken en de robuustheid van zijn veiligheidsprotocollen. 3. Tarieven voor terugdraaien of ongedaan maken. Deze statistiek houdt bij hoe vaak gebruikers een door de AI uitgevoerde actie ongedaan moeten maken of ongedaan moeten maken. Hoge terugdraaipercentages duiden erop dat de AI regelmatig fouten maakt, instructies verkeerd interpreteert of handelt op een manier die niet in lijn is met de verwachtingen van de gebruiker. Het analyseren van de redenen achter deze terugdraaiingen kan waardevolle feedback opleveren voor het verbeteren van de algoritmen van de AI, het begrip van gebruikersvoorkeuren en het vermogen ervan om gewenste resultaten te voorspellen. Om te begrijpen waarom, moet u een micro-onderzoek naar de ongedaan gemaakte actie implementeren. Wanneer een gebruiker bijvoorbeeld een planningswijziging ongedaan maakt, kan een eenvoudige prompt vragen: "Verkeerde tijd? Verkeerde persoon? Of wilde je het gewoon zelf doen?" De gebruiker de mogelijkheid geven om op de optie te klikken die het beste overeenkomt met zijn of haar redenering. 4. Tijd tot oplossing na een ErrorThis-statistiekmeet de tijd die een gebruiker nodig heeft om een door de AI gemaakte fout te corrigeren of voordat het AI-systeem zelf herstelt van een foutieve toestand. Een korte oplossingstijd duidt op een efficiënt en gebruiksvriendelijk foutherstelproces, dat de frustratie van de gebruiker kan verminderen en de productiviteit op peil kan houden. Dit omvat het gemak waarmee de fout kan worden geïdentificeerd, de toegankelijkheid van mechanismen voor ongedaan maken of corrigeren, en de duidelijkheid van de foutmeldingen die door de AI worden verstrekt.
Voor het verzamelen van deze statistieken is het nodig dat uw systeem wordt geïnstrumenteerd om agentactie-ID's bij te houden. Elke afzonderlijke actie die de agent onderneemt, zoals het voorstellen van een vluchtschema of het boeken van een vlucht, moet een unieke ID genereren die in de logboeken blijft staan. Om het interventiepercentage te meten, kijken we niet naar een onmiddellijke gebruikersreactie. We zoeken naar de afwezigheid van een tegenactie binnen een bepaald venster. Als er om 09:00 uur een actie-ID wordt gegenereerd en geen enkele menselijke gebruiker de volgende dag om 09:00 uur de specifieke ID wijzigt of terugdraait, tagt het systeem deze logischerwijs als Geaccepteerd. Hierdoor kunnen we succes kwantificeren op basis van stilte van de gebruiker in plaats van actieve bevestiging. Voor terugdraaipercentages zijn ruwe tellingen onvoldoende omdat ze geen context hebben. Om de onderliggende reden vast te leggen, moet u onderscheppingslogica implementeren in de functies Ongedaan maken of Terugzetten van uw toepassing. Wanneer een gebruiker een door een agent geïnitieerde actie ongedaan maakt, activeert u een lichtgewicht micro-onderzoek. Dit kan een eenvoudig modaal met drie opties zijn, waarbij de gebruiker wordt gevraagd de fout te categoriseren als feitelijk onjuist, zonder context, of als eenvoudige voorkeur om de taak handmatig af te handelen. Dit combineert kwantitatieve telemetrie met kwalitatief inzicht. Het stelt technische teams in staat onderscheid te maken tussen een kapot algoritme en een mismatch in gebruikersvoorkeuren. Wanneer deze statistieken consistent worden gevolgd en holistisch worden geanalyseerd, bieden ze een robuust raamwerk voor het evalueren van de prestaties van agentische AI-systemen, waardoor voortdurende verbetering van de controle, toestemming en verantwoording mogelijk is. Ontwerpen tegen bedrog Naarmate agenten steeds capabeler worden, worden we geconfronteerd met een nieuw risico: Agentic Sludge. Traditioneel slib zorgt voor wrijving waardoor het moeilijk is om een abonnement op te zeggen of een account te verwijderen. Agentisch slib werkt omgekeerd. Het neemt de wrijving over een fout weg, waardoor het voor een gebruiker te gemakkelijk wordt om in te stemmen met een actie die het bedrijf ten goede komt in plaats van zijn eigen belangen. Overweeg een agent die helpt bij het boeken van reizen. Zonder duidelijke vangrails zou het systeem voorrang kunnen geven aan een partnerluchtvaartmaatschappij of een hotel met een hogere marge. Het presenteert deze keuze als het optimale pad. De gebruiker vertrouwt op de autoriteit van het systeem en accepteert de aanbeveling zonder enige controle. Dit creëert een misleidend patroon waarbij het systeem onder het mom van gemak optimaliseert voor inkomsten. Het risico van vals ingebeelde competentie Misleiding mag niet voortkomen uit kwaadwillige bedoelingen. Het manifesteert zich in AI vaak als ingebeelde competentie. Grote taalmodellen klinken vaak gezaghebbend, zelfs als ze onjuist zijn. Ze presenteren een valse boekingsbevestiging of een onnauwkeurige samenvatting met hetzelfde vertrouwen als een geverifieerd feit. Gebruikers kunnen uiteraard vertrouwen op deze zelfverzekerde toon. Deze discrepantie creëert een gevaarlijke kloof tussen de systeemmogelijkheden en de verwachtingen van de gebruiker. We moeten specifiek ontwerpen om deze kloof te overbruggen. Als een agent er niet in slaagt een taak te voltooien, moet de interface dat falen duidelijk signaleren. Als het systeem onzeker is, moet het onzekerheid uiten in plaats van deze te maskeren met gepolijst proza. Transparantie via primitieven Het tegengif voor zowel slib als hallucinaties is de herkomst. Elke autonome actie vereist een specifieke metadatatag die de oorsprong van de beslissing uitlegt. Gebruikers moeten de mogelijkheid hebben om de logische keten achter het resultaat te inspecteren. Om dit te bereiken moeten we primitieven vertalen in praktische antwoorden. In software-engineering verwijzen primitieven naar de kerneenheden van informatie of acties die een agent uitvoert. Voor de ingenieur lijkt dit op een API-oproep of een logische poort. Voor de gebruiker moet het een duidelijke uitleg zijn. De ontwerpuitdaging ligt in het in kaart brengen van deze technische stappen in voor mensen leesbare grondgedachten. Als een agent een specifieke vlucht aanbeveelt, moet de gebruiker weten waarom. De interface kan zich niet verschuilen achter een algemene suggestie. Het moet de onderliggende primitief blootleggen: Logica: Cheapest_Direct_Flight of Logic: Partner_Airline_Priority. Figuur 4 illustreert deze vertaalstroom. We nemen het ruwe systeemprimitief – de daadwerkelijke codelogica – en wijzen deze toe aan een op de gebruiker gerichte string. Een primitief die bijvoorbeeld een agenda controleert, een vergadering plant, wordt een duidelijke verklaring: ik heb om 16.00 uur voorgesteldontmoeting. Dit niveau van transparantie zorgt ervoor dat de acties van de agent logisch en nuttig lijken. Hiermee kan de gebruiker verifiëren dat de agent in zijn of haar belang heeft gehandeld. Door de primitieven bloot te leggen, transformeren we een zwarte doos in een glazen doos, zodat gebruikers de uiteindelijke autoriteit blijven over hun eigen digitale leven.
Het toneel instellen voor ontwerp Het bouwen van een agentsysteem vereist een nieuw niveau van psychologisch en gedragsmatig inzicht. Het dwingt ons om verder te gaan dan conventionele bruikbaarheidstesten en ons te begeven op het gebied van vertrouwen, toestemming en verantwoordelijkheid. De onderzoeksmethoden die we hebben besproken, van het onderzoeken van mentale modellen tot het simuleren van wangedrag en het vaststellen van nieuwe maatstaven, bieden een noodzakelijke basis. Deze praktijken zijn de essentiële hulpmiddelen om proactief te identificeren waar een autonoom systeem mogelijk faalt en, nog belangrijker, hoe de user-agent-relatie kan worden hersteld als dat het geval is. De verschuiving naar agentische AI is een herdefinitie van de relatie tussen gebruiker en systeem. We ontwerpen niet langer tools die simpelweg op commando's reageren; wij ontwerpen voor partners die namens ons handelen. Dit verandert de ontwerpvereiste van efficiëntie en gebruiksgemak naar transparantie, voorspelbaarheid en controle. Wanneer een AI een vlucht kan boeken of een aandeel kan verhandelen zonder een laatste klik, wordt het ontwerp van de ‘op- en afritten’ van cruciaal belang. Het is onze verantwoordelijkheid om ervoor te zorgen dat gebruikers het gevoel hebben dat ze aan het stuur zitten, zelfs als ze het stuur hebben overgedragen. Deze nieuwe realiteit verhoogt ook de rol van de UX-onderzoeker. Wij worden de hoeders van het gebruikersvertrouwen en werken samen met ingenieurs en productmanagers om de vangrails voor de autonomie van een agent te definiëren en te testen. Naast dat we onderzoekers zijn, worden we pleitbezorgers voor gebruikerscontrole, transparantie en ethische waarborgen binnen het ontwikkelingsproces. Door primitieven te vertalen naar praktische vragen en worst-case scenario’s te simuleren, kunnen we robuuste systemen bouwen die zowel krachtig als veilig zijn. Dit artikel schetst het ‘wat’ en ‘waarom’ van onderzoek naar agentische AI. Het heeft aangetoond dat onze traditionele toolkits ontoereikend zijn en dat we nieuwe, toekomstgerichte methodologieën moeten adopteren. Het volgende artikel bouwt voort op deze basis en biedt de specifieke ontwerppatronen en organisatiepraktijken die het nut van een agent transparant maken voor gebruikers, zodat ze de kracht van agentische AI met vertrouwen en controle kunnen benutten. De toekomst van UX gaat over het betrouwbaar maken van systemen. Voor meer inzicht in agentische AI kunt u de volgende bronnen raadplegen:
Google AI-blog over Agentic AI Microsoft’s onderzoek naar AI-agenten