Agentic AI ist bereit, das Kundenerlebnis und die betriebliche Effizienz zu verändern, was einen neuen strategischen Ansatz der Führung erfordert. Diese Weiterentwicklung der künstlichen Intelligenz ermöglicht es Systemen, Aufgaben zu planen, auszuführen und beizubehalten und geht über einfache Empfehlungen hinaus zu proaktivem Handeln. Für UX-Teams, Produktmanager und Führungskräfte ist das Verständnis dieses Wandels von entscheidender Bedeutung, um Innovationsmöglichkeiten zu erschließen, Arbeitsabläufe zu rationalisieren und neu zu definieren, wie Technologie den Menschen dient. Es ist leicht, Agentic AI mit Robotic Process Automation (RPA) zu verwechseln, einer Technologie, die sich auf regelbasierte Aufgaben konzentriert, die auf Computern ausgeführt werden. Der Unterschied liegt in der Starrheit gegenüber der Argumentation. RPA ist hervorragend darin, einem strengen Skript zu folgen: Wenn X passiert, dann tue Y. Es ahmt menschliche Hände nach. Agentische KI ahmt menschliches Denken nach. Es folgt keinem linearen Skript; es schafft eins. Erwägen Sie einen Recruiting-Workflow. Ein RPA-Bot kann einen Lebenslauf scannen und ihn in eine Datenbank hochladen. Es führt eine sich wiederholende Aufgabe perfekt aus. Ein Agentensystem prüft den Lebenslauf, stellt fest, dass der Kandidat eine bestimmte Zertifizierung auflistet, vergleicht diese mit einer neuen Kundenanforderung und beschließt, eine personalisierte Kontakt-E-Mail zu verfassen, in der diese Übereinstimmung hervorgehoben wird. RPA führt einen vordefinierten Plan aus; Agentische KI formuliert den Plan basierend auf einem Ziel. Diese Autonomie unterscheidet Agenten von den Vorhersagetools, die wir im letzten Jahrzehnt verwendet haben. Ein weiteres Beispiel ist die Bewältigung von Besprechungskonflikten. Ein in Ihren Kalender integriertes Vorhersagemodell kann Ihren Besprechungsplan und die Zeitpläne Ihrer Kollegen analysieren. Es könnte dann auf potenzielle Konflikte hinweisen, z. B. auf zwei gleichzeitig geplante wichtige Besprechungen oder auf eine Besprechung, die angesetzt ist, während ein wichtiger Teilnehmer im Urlaub ist. Es versorgt Sie mit Informationen und weist auf potenzielle Probleme hin, Sie sind jedoch dafür verantwortlich, entsprechende Maßnahmen zu ergreifen. Eine Agenten-KI würde im gleichen Szenario über die bloße Empfehlung von zu vermeidenden Konflikten hinausgehen. Sobald der Agent einen Konflikt mit einem wichtigen Teilnehmer erkennt, könnte er wie folgt vorgehen:
Prüfung der Verfügbarkeit aller notwendigen Teilnehmer. Identifizieren alternativer Zeitfenster, die für alle geeignet sind. Versenden vorgeschlagener neuer Besprechungseinladungen an alle Teilnehmer. Wenn der Konflikt mit einem externen Teilnehmer besteht, könnte der Agent eine E-Mail verfassen und versenden, in der er die Notwendigkeit einer Verschiebung erläutert und alternative Zeiten anbietet. Aktualisieren Sie Ihren Kalender und die Kalender Ihrer Kollegen mit den neuen Besprechungsdetails, sobald diese bestätigt sind.
Diese Agenten-KI versteht das Ziel (Lösung des Besprechungskonflikts), plant die Schritte (Verfügbarkeit prüfen, Alternativen finden, Einladungen senden), führt diese Schritte aus und bleibt bestehen, bis der Konflikt gelöst ist, und das alles mit minimalem direkten Benutzereingriff. Dies verdeutlicht den „agentischen“ Unterschied: Das System ergreift proaktive Schritte für den Benutzer, anstatt ihm nur Informationen bereitzustellen. Agentische KI-Systeme verstehen ein Ziel, planen eine Reihe von Schritten, um es zu erreichen, führen diese Schritte aus und passen sich sogar an, wenn etwas schief geht. Stellen Sie es sich wie einen proaktiven digitalen Assistenten vor. Die zugrunde liegende Technologie kombiniert häufig große Sprachmodelle (LLMs) zum Verstehen und Denken mit Planungsalgorithmen, die komplexe Aufgaben in überschaubare Aktionen zerlegen. Diese Agenten können mit verschiedenen Tools, APIs und sogar anderen KI-Modellen interagieren, um ihre Ziele zu erreichen, und – was entscheidend ist – sie können einen dauerhaften Zustand aufrechterhalten, was bedeutet, dass sie sich an frühere Aktionen erinnern und im Laufe der Zeit weiter auf ein Ziel hinarbeiten. Damit unterscheiden sie sich grundlegend von typischer generativer KI, die normalerweise eine einzelne Anfrage abschließt und dann zurücksetzt. Eine einfache Taxonomie des Agentenverhaltens Wir können das Agentenverhalten in vier verschiedene Autonomiemodi einteilen. Während diese oft wie eine Abfolge aussehen, funktionieren sie als unabhängige Betriebsmodi. Ein Benutzer könnte darauf vertrauen, dass ein Agent bei der Planung autonom handelt, ihn aber bei Finanztransaktionen im „Vorschlagsmodus“ belassen. Wir haben diese Ebenen abgeleitet, indem wir Industriestandards für autonome Fahrzeuge (SAE-Ebenen) an digitale Benutzererfahrungskontexte angepasst haben. Beobachten und vorschlagen Der Agent fungiert als Monitor. Es analysiert Datenströme und meldet Anomalien oder Chancen, ergreift jedoch keine Maßnahmen. DifferenzierungIm Gegensatz zur nächsten Ebene erstellt der Agent keinen komplexen Plan. Es deutet auf ein Problem hin. Beispiel: Ein DevOps-Agent bemerkt eine Server-CPU-Spitze und alarmiert den Bereitschaftstechniker. Es weiß nicht, wie das Problem behoben werden kann, und versucht auch nicht, es zu beheben, aber es weiß, dass etwas nicht stimmt. Auswirkungen auf Design und AufsichtAuf dieser EbeneDesign und Aufsicht sollten klare, unaufdringliche Benachrichtigungen und einen klar definierten Prozess für Benutzer zum Handeln auf Vorschläge priorisieren. Der Schwerpunkt liegt darauf, den Benutzer mit zeitnahen und relevanten Informationen zu versorgen, ohne die Kontrolle zu übernehmen. UX-Praktiker sollten sich darauf konzentrieren, Vorschläge klar und leicht verständlich zu machen, während Produktmanager sicherstellen müssen, dass das System einen Mehrwert bietet, ohne den Benutzer zu überfordern. Planen und vorschlagen Der Agent identifiziert ein Ziel und erstellt eine mehrstufige Strategie, um dieses zu erreichen. Es präsentiert den vollständigen Plan zur menschlichen Überprüfung. DifferenzierungDer Agent fungiert als Stratege. Es wird nicht ausgeführt; Es wartet auf die Genehmigung des gesamten Ansatzes. BeispielDerselbe DevOps-Agent bemerkt die CPU-Spitze, analysiert die Protokolle und schlägt einen Behebungsplan vor:
Starten Sie zwei zusätzliche Instanzen. Starten Sie den Load Balancer neu. Archivieren Sie alte Protokolle.
Der Mensch überprüft die Logik und klickt auf „Plan genehmigen“. Auswirkungen auf Design und Aufsicht: Für Agenten, die planen und vorschlagen, muss das Design sicherstellen, dass die vorgeschlagenen Pläne leicht verständlich sind und dass Benutzer intuitive Möglichkeiten haben, sie zu ändern oder abzulehnen. Bei der Überwachung der Qualität der Vorschläge und der Planungslogik des Agenten ist die Aufsicht von entscheidender Bedeutung. UX-Praktiker sollten klare Visualisierungen der vorgeschlagenen Pläne entwerfen und Produktmanager müssen klare Überprüfungs- und Genehmigungsworkflows einrichten. Handeln mit Bestätigung Der Agent schließt alle Vorbereitungsarbeiten ab und versetzt die letzte Aktion in einen bereitgestellten Zustand. Es hält die Tür praktisch offen und wartet auf ein Nicken. Differenzierung: Dies unterscheidet sich von „Plan-and-Propose“, da die Arbeit bereits erledigt und in Etappen erfolgt. Es reduziert die Reibung. Der Benutzer bestätigt das Ergebnis, nicht die Strategie. Beispiel: Ein Personalvermittler entwirft fünf Einladungen zu Vorstellungsgesprächen, sucht in Kalendern nach offenen Zeiten und erstellt die Kalenderereignisse. Es wird die Schaltfläche „Alle senden“ angezeigt. Der Benutzer erteilt die endgültige Berechtigung zum Auslösen der externen Aktion. Auswirkungen auf Design und Aufsicht: Wenn Agenten mit Bestätigung handeln, sollte das Design transparente und prägnante Zusammenfassungen der beabsichtigten Aktion liefern und mögliche Konsequenzen klar umreißen. Die Aufsicht muss sicherstellen, dass der Bestätigungsprozess robust ist und Benutzer nicht blind aufgefordert werden, Aktionen zu genehmigen. UX-Praktiker sollten Bestätigungsaufforderungen entwerfen, die klar sind und alle notwendigen Informationen bereitstellen, und Produktmanager sollten einem robusten Prüfpfad für alle bestätigten Aktionen Priorität einräumen. Handeln Sie autonom Der Agent führt Aufgaben selbstständig innerhalb definierter Grenzen aus. Differenzierung: Der Benutzer überprüft den Aktionsverlauf, nicht die Aktionen selbst. Beispiel: Der Personalvermittler sieht einen Konflikt, verschiebt das Vorstellungsgespräch in einen Ersatztermin, aktualisiert den Kandidaten und benachrichtigt den Personalmanager. Der Mensch sieht nur eine Benachrichtigung: Vorstellungsgespräch auf Dienstag verschoben. Auswirkungen auf Design und Aufsicht: Für autonome Agenten muss das Design klare, vorab genehmigte Grenzen festlegen und robuste Überwachungstools bereitstellen. Die Überwachung erfordert eine kontinuierliche Bewertung der Leistung des Agenten innerhalb dieser Grenzen, eine entscheidende Notwendigkeit für eine robuste Protokollierung, eindeutige Überschreibungsmechanismen und benutzerdefinierte Kill-Schalter, um die Kontrolle und das Vertrauen des Benutzers aufrechtzuerhalten. UX-Praktiker sollten sich auf die Entwicklung effektiver Dashboards zur Überwachung des Verhaltens autonomer Agenten konzentrieren, und Produktmanager müssen sicherstellen, dass klare Governance- und ethische Richtlinien vorhanden sind.
Schauen wir uns eine reale Anwendung in der HR-Technologie an, um diese Modi in Aktion zu sehen. Ziehen Sie einen „Interview Coordination Agent“ in Betracht, der sich um die Logistik der Einstellung kümmert.
Im Vorschlagsmodus bemerkt der Agent, dass ein Interviewer doppelt gebucht ist. Der Konflikt wird im Dashboard des Personalvermittlers hervorgehoben: „Warnung: Sarah ist für das Vorstellungsgespräch um 14 Uhr doppelt gebucht.“ Im Planmodus analysiert der Agent Sarahs Kalender und die Verfügbarkeit des Kandidaten. Es bietet eine Lösung: „Ich empfehle, das Vorstellungsgespräch auf Donnerstag um 10 Uhr zu verschieben. Dazu muss Sarahs 1:1 mit ihrem Vorgesetzten verschoben werden.“ Der Personalvermittler überprüft diese Logik. Im Bestätigungsmodus verfasst der Agent die E-Mails an den Kandidaten und den Manager. Es füllt die Kalendereinladungen aus. Der Personalvermittler sieht eine Zusammenfassung: „Bereit, den Termin auf Donnerstag zu verschieben. Updates senden?“ Der Personalvermittler klickt auf „Bestätigen“. Im autonomen Modus bearbeitet der Agent den Konflikt sofort. Es respektiert eine voreingestellte Regel: „Bewerberinterviews haben immer Vorrang vor internen Einzelgesprächen.“ Es verschiebt die Besprechung und sendet die Benachrichtigungen. Der Personalvermittler sieht einen Protokolleintrag: „GelöstTerminkonflikt für Kandidat B.“
Forschungsleitfaden: Was und wie erforscht werden sollte Die Entwicklung effektiver Agenten-KI erfordert im Vergleich zu herkömmlicher Software oder sogar generativer KI einen anderen Forschungsansatz. Der autonome Charakter von KI-Agenten, ihre Fähigkeit, Entscheidungen zu treffen, und ihr Potenzial für proaktives Handeln erfordern spezielle Methoden zum Verständnis der Benutzererwartungen, zur Abbildung komplexer Agentenverhalten und zur Antizipation potenzieller Fehler. In der folgenden Forschungsanleitung werden die wichtigsten Methoden zur Messung und Bewertung dieser einzigartigen Aspekte der Agenten-KI beschrieben. Mental-Model-Interviews Diese Interviews decken die vorgefassten Meinungen der Benutzer darüber auf, wie sich ein KI-Agent verhalten sollte. Anstatt einfach nur zu fragen, was Benutzer wollen, liegt der Schwerpunkt darauf, ihre internen Modelle der Fähigkeiten und Einschränkungen des Agenten zu verstehen. Wir sollten es vermeiden, gegenüber Teilnehmern das Wort „Agent“ zu verwenden. Es trägt den Ballast einer Science-Fiction in sich oder ist ein Begriff, der zu leicht mit einem menschlichen Agenten verwechselt wird, der Unterstützung oder Dienstleistungen anbietet. Richten Sie die Diskussion stattdessen auf „Assistenten“ oder „das System“ aus. Wir müssen herausfinden, wo Benutzer die Grenze zwischen hilfreicher Automatisierung und aufdringlicher Kontrolle ziehen.
Methode: Bitten Sie Benutzer, ihre erwarteten Interaktionen mit dem Agenten in verschiedenen hypothetischen Szenarien zu beschreiben, zu zeichnen oder zu erzählen. Schlüsselsonden (die eine Vielzahl von Branchen widerspiegeln): Um die Grenzen der gewünschten Automatisierung und mögliche Ängste im Zusammenhang mit einer Überautomatisierung zu verstehen, fragen Sie: Was soll das System automatisch tun, wenn Ihr Flug storniert wird? Was würde Sie beunruhigen, wenn dies ohne Ihre ausdrückliche Anweisung geschehen würde?
Um das Verständnis des Benutzers für die internen Prozesse und die notwendige Kommunikation des Agenten zu untersuchen, fragen Sie: Stellen Sie sich vor, ein digitaler Assistent verwaltet Ihr Smart Home. Welche Schritte sind Ihrer Meinung nach erforderlich, wenn ein Paket zugestellt wird, und welche Informationen würden Sie erwarten?
Um Erwartungen in Bezug auf Kontrolle und Einwilligung innerhalb eines mehrstufigen Prozesses aufzudecken, fragen Sie: Welche Schritte gehen Sie vor, wenn Sie Ihren digitalen Assistenten bitten, ein Meeting zu planen? An welchen Stellen möchten Sie konsultiert werden oder eine Auswahl erhalten?
Vorteile der Methode: Deckt implizite Annahmen auf, hebt Bereiche hervor, in denen das geplante Verhalten des Agenten von den Benutzererwartungen abweichen könnte, und informiert über die Gestaltung geeigneter Kontrollen und Feedbackmechanismen.
Agent Journey Mapping: Ähnlich wie beim herkömmlichen User Journey Mapping konzentriert sich das Agent Journey Mapping speziell auf die erwarteten Aktionen und Entscheidungspunkte des KI-Agenten selbst sowie auf die Interaktion des Benutzers. Dies hilft, potenzielle Fallstricke proaktiv zu erkennen.
Methode: Erstellen Sie eine visuelle Karte, die die verschiedenen Phasen der Arbeit eines Agenten darstellt, von der Einleitung bis zum Abschluss, einschließlich aller potenziellen Aktionen, Entscheidungen und Interaktionen mit externen Systemen oder Benutzern. Zu kartierende Schlüsselelemente: Agentenaktionen: Welche spezifischen Aufgaben oder Entscheidungen führt der Agent aus? Informationseingaben/-ausgaben: Welche Daten benötigt der Agent und welche Informationen generiert oder kommuniziert er? Entscheidungspunkte: Wo trifft der Agent Entscheidungen und was sind die Kriterien für diese Entscheidungen? Benutzerinteraktionspunkte: Wo gibt der Benutzer Eingaben ein, überprüft oder genehmigt Aktionen? Fehlerquellen: Entscheidend ist, bestimmte Fälle zu identifizieren, in denen der Agent Anweisungen falsch interpretieren, eine falsche Entscheidung treffen oder mit der falschen Entität interagieren könnte. Beispiele: Falscher Empfänger (z. B. Senden sensibler Informationen an die falsche Person), Überziehung (z. B. eine automatisierte Zahlung, die das verfügbare Guthaben überschreitet), Fehlinterpretation der Absicht (z. B. Buchung eines Fluges für das falsche Datum aufgrund einer mehrdeutigen Sprache).
Wiederherstellungspfade: Wie kann der Agent oder Benutzer diese Fehler beheben? Welche Korrektur- bzw. Interventionsmechanismen gibt es?
Vorteile der Methode: Bietet eine ganzheitliche Sicht auf den Betriebsablauf des Agenten, deckt versteckte Abhängigkeiten auf und ermöglicht die proaktive Gestaltung von Schutzmaßnahmen, Fehlerbehandlung und Benutzereingriffspunkten, um negative Ergebnisse zu verhindern oder abzumildern.
Simulierte Fehlverhaltenstests: Dieser Ansatz dient dazu, das System einem Stresstest zu unterziehen und Benutzerreaktionen zu beobachten, wenn der KI-Agent ausfällt oder von den Erwartungen abweicht. Es geht darum, die Wiederherstellung von Vertrauen und emotionale Reaktionen in widrigen Situationen zu verstehen.
Methode: Führen Sie in kontrollierten Laborstudien bewusst Szenarien ein, in denen der Agent einen Fehler macht, einen Befehl falsch interpretiert oder sich unerwartet verhält. Zu simulierende Arten von „Fehlverhalten“: BefehlFehlinterpretation: Der Agent führt eine Aktion aus, die sich geringfügig von der vom Benutzer beabsichtigten Aktion unterscheidet (z. B. die Bestellung von zwei Artikeln anstelle von einem). Informationsüberlastung/-unterlastung: Der Agent stellt zu viele irrelevante Informationen oder nicht genügend wichtige Details bereit. Unaufgeforderte Aktion: Der Agent führt eine Aktion aus, die der Benutzer ausdrücklich nicht wollte oder erwartete (z. B. Aktienkauf ohne Genehmigung). Systemfehler: Der Agent stürzt ab, reagiert nicht mehr oder gibt eine Fehlermeldung aus. Ethische Dilemmata: Der Agent trifft eine Entscheidung mit ethischen Implikationen (z. B. Priorisierung einer Aufgabe gegenüber einer anderen auf der Grundlage einer unvorhergesehenen Metrik).
Beobachtungsschwerpunkt: Benutzerreaktionen: Wie reagieren Benutzer emotional (Frustration, Wut, Verwirrung, Vertrauensverlust)? Wiederherstellungsversuche: Welche Schritte unternehmen Benutzer, um das Verhalten des Agenten zu korrigieren oder seine Aktionen rückgängig zu machen? Mechanismen zur Vertrauensreparatur: Helfen die integrierten Wiederherstellungs- oder Feedbackmechanismen des Systems dabei, das Vertrauen wiederherzustellen? Wie wollen Nutzer über Fehler informiert werden? Mentale Modellverschiebung: Verändert das Fehlverhalten das Verständnis des Benutzers über die Fähigkeiten oder Einschränkungen des Agenten?
Vorteile der Methode: Entscheidend für die Identifizierung von Designlücken im Zusammenhang mit Fehlerbeseitigung, Feedback und Benutzerkontrolle. Es bietet Erkenntnisse darüber, wie widerstandsfähig Benutzer gegenüber Agentenausfällen sind und was erforderlich ist, um Vertrauen aufrechtzuerhalten oder wiederherzustellen, was zu robusteren und toleranteren Agentensystemen führt.
Durch die Integration dieser Forschungsmethoden können UX-Praktiker nicht nur Agentensysteme nutzbar machen, sondern sie auch vertrauenswürdig, kontrollierbar und rechenschaftspflichtig machen und so eine positive und produktive Beziehung zwischen Benutzern und ihren KI-Agenten fördern. Beachten Sie, dass dies nicht die einzigen Methoden sind, die für die effektive Erforschung der Agenten-KI relevant sind. Es gibt viele andere Methoden, aber diese sind für Praktiker in naher Zukunft am zugänglichsten. Ich habe bereits zuvor die Methode „Wizard of Oz“ behandelt, eine etwas fortgeschrittenere Methode zum Testen von Konzepten, die auch ein wertvolles Werkzeug für die Erforschung von Agenten-KI-Konzepten ist. Ethische Überlegungen in der Forschungsmethodik Bei der Erforschung der Agenten-KI, insbesondere bei der Simulation von Fehlverhalten oder Fehlern, müssen ethische Überlegungen berücksichtigt werden. Es gibt viele Veröffentlichungen, die sich mit ethischer UX-Forschung befassen, darunter einen Artikel, den ich für das Smashing Magazine geschrieben habe, diese Richtlinien des UX Design Institute und diese Seite des Inclusive Design Toolkit. Schlüsselmetriken für Agenten-KI Sie benötigen einen umfassenden Satz wichtiger Kennzahlen, um die Leistung und Zuverlässigkeit von Agenten-KI-Systemen effektiv bewerten zu können. Diese Metriken bieten Einblicke in das Vertrauen der Benutzer, die Systemgenauigkeit und die allgemeine Benutzererfahrung. Durch die Verfolgung dieser Indikatoren können Entwickler und Designer Verbesserungspotenziale identifizieren und sicherstellen, dass KI-Agenten sicher und effizient arbeiten. 1. InterventionsrateFür autonome Agenten messen wir den Erfolg an der Stille. Wenn ein Agent eine Aufgabe ausführt und der Benutzer innerhalb eines festgelegten Zeitfensters (z. B. 24 Stunden) nicht eingreift oder die Aktion nicht rückgängig macht, werten wir dies als Akzeptanz. Wir verfolgen die Interventionsrate: Wie oft springt ein Mensch ein, um den Agenten zu stoppen oder zu korrigieren? Eine hohe Interventionsrate signalisiert einen Missstand im Vertrauen oder in der Logik. 2. Häufigkeit unbeabsichtigter Aktionen pro 1.000 Aufgaben Diese kritische Metrik quantifiziert die Anzahl der vom KI-Agenten durchgeführten Aktionen, die vom Benutzer nicht gewünscht oder erwartet wurden, normalisiert pro 1.000 abgeschlossene Aufgaben. Eine geringe Häufigkeit unbeabsichtigter Aktionen weist auf eine gut abgestimmte KI hin, die die Absichten des Benutzers genau interpretiert und innerhalb definierter Grenzen agiert. Diese Metrik hängt eng mit dem Kontextverständnis der KI, ihrer Fähigkeit, Befehle eindeutig zu machen, und der Robustheit ihrer Sicherheitsprotokolle zusammen. 3. Rollback- oder Undo-RatenDiese Metrik verfolgt, wie oft Benutzer eine von der KI durchgeführte Aktion rückgängig machen oder rückgängig machen müssen. Hohe Rollback-Raten deuten darauf hin, dass die KI häufig Fehler macht, Anweisungen falsch interpretiert oder auf eine Weise handelt, die nicht den Erwartungen der Benutzer entspricht. Die Analyse der Gründe für diese Rollbacks kann wertvolles Feedback für die Verbesserung der Algorithmen der KI, das Verständnis der Benutzerpräferenzen und ihre Fähigkeit, gewünschte Ergebnisse vorherzusagen, liefern. Um zu verstehen, warum, müssen Sie eine Mikroumfrage zur Rückgängig-Aktion durchführen. Wenn ein Benutzer beispielsweise eine Terminänderung rückgängig macht, kann eine einfache Eingabeaufforderung mit der Frage lauten: „Falsche Zeit? Falsche Person? Oder wollten Sie es einfach selbst tun?“ Dem Benutzer ermöglichen, auf die Option zu klicken, die seiner Argumentation am besten entspricht. 4. Zeit bis zur Lösung nach einem FehlerDiese Metrikmisst die Dauer, die ein Benutzer benötigt, um einen von der KI gemachten Fehler zu korrigieren oder bis sich das KI-System selbst von einem fehlerhaften Zustand erholt. Eine kurze Zeit bis zur Behebung weist auf einen effizienten und benutzerfreundlichen Fehlerbehebungsprozess hin, der die Frustration der Benutzer mindern und die Produktivität aufrechterhalten kann. Dazu gehören die einfache Identifizierung des Fehlers, die Zugänglichkeit von Rückgängig- oder Korrekturmechanismen und die Klarheit der von der KI bereitgestellten Fehlermeldungen.
Das Erfassen dieser Metriken erfordert die Instrumentierung Ihres Systems, um Agentenaktions-IDs zu verfolgen. Für jede einzelne Aktion des Agenten, etwa das Vorschlagen eines Flugplans oder das Buchen eines Fluges, muss eine eindeutige ID generiert werden, die in den Protokollen bestehen bleibt. Um die Interventionsrate zu messen, achten wir nicht auf eine unmittelbare Benutzerreaktion. Wir suchen nach dem Ausbleiben einer Gegenmaßnahme innerhalb eines definierten Fensters. Wenn um 9:00 Uhr eine Aktions-ID generiert wird und bis 9:00 Uhr am nächsten Tag kein menschlicher Benutzer diese spezifische ID ändert oder zurücksetzt, markiert das System sie logischerweise als „Akzeptiert“. Dadurch können wir den Erfolg anhand des Schweigens des Benutzers und nicht anhand aktiver Bestätigung quantifizieren. Für Rollback-Raten reichen die Rohdaten nicht aus, da ihnen der Kontext fehlt. Um den zugrunde liegenden Grund zu erfassen, müssen Sie eine Abfanglogik für die Rückgängig- oder Wiederherstellungsfunktionen Ihrer Anwendung implementieren. Wenn ein Benutzer eine vom Agenten initiierte Aktion rückgängig macht, lösen Sie eine einfache Mikroumfrage aus. Dies kann ein einfaches Drei-Optionen-Modal sein, in dem der Benutzer aufgefordert wird, den Fehler als sachlich falsch, fehlender Kontext oder eine einfache Präferenz für die manuelle Bearbeitung der Aufgabe zu kategorisieren. Dies kombiniert quantitative Telemetrie mit qualitativen Erkenntnissen. Es ermöglicht Entwicklungsteams, zwischen einem fehlerhaften Algorithmus und einer Nichtübereinstimmung der Benutzerpräferenzen zu unterscheiden. Wenn diese Metriken konsistent verfolgt und ganzheitlich analysiert werden, bieten sie einen robusten Rahmen für die Bewertung der Leistung von Agenten-KI-Systemen und ermöglichen eine kontinuierliche Verbesserung der Kontrolle, Zustimmung und Verantwortlichkeit. Entwerfen gegen Täuschung Da Agenten immer leistungsfähiger werden, stehen wir vor einem neuen Risiko: Agentic Sludge. Herkömmlicher Schlamm verursacht Reibung, die es schwierig macht, ein Abonnement zu kündigen oder ein Konto zu löschen. Wirkstoffschlamm verhält sich umgekehrt. Es beseitigt Reibungsverluste bei einem Fehler und macht es für einen Benutzer zu einfach, einer Aktion zuzustimmen, die eher dem Unternehmen als seinen eigenen Interessen zugute kommt. Ziehen Sie einen Agenten in Betracht, der Sie bei der Reisebuchung unterstützt. Ohne klare Leitplanken könnte das System einer Partnerfluggesellschaft oder einem Hotel mit höheren Margen Vorrang einräumen. Es stellt diese Wahl als den optimalen Weg dar. Der Benutzer, der auf die Autorität des Systems vertraut, akzeptiert die Empfehlung ohne Prüfung. Dadurch entsteht ein irreführendes Muster, bei dem das System unter dem Deckmantel der Bequemlichkeit den Umsatz optimiert. Das Risiko falsch eingebildeter Kompetenz Eine Täuschung darf nicht auf böswilliger Absicht beruhen. Sie manifestiert sich in der KI oft als imaginierte Kompetenz. Große Sprachmodelle klingen häufig maßgeblich, selbst wenn sie falsch sind. Sie präsentieren eine falsche Buchungsbestätigung oder eine ungenaue Zusammenfassung mit der gleichen Sicherheit wie eine überprüfte Tatsache. Auf diesen selbstbewussten Ton können Nutzer selbstverständlich vertrauen. Dieses Missverhältnis führt zu einer gefährlichen Lücke zwischen der Systemleistung und den Benutzererwartungen. Wir müssen gezielt entwerfen, um diese Lücke zu schließen. Wenn ein Agent eine Aufgabe nicht abschließen kann, muss die Schnittstelle diesen Fehler deutlich signalisieren. Wenn das System unsicher ist, muss es Unsicherheit zum Ausdruck bringen, anstatt sie mit ausgefeilter Prosa zu maskieren. Transparenz durch Primitive Das Gegenmittel gegen Schlamm und Halluzinationen ist die Herkunft. Jede autonome Aktion erfordert ein spezifisches Metadaten-Tag, das den Ursprung der Entscheidung erklärt. Benutzer benötigen die Möglichkeit, die Logikkette hinter dem Ergebnis zu überprüfen. Um dies zu erreichen, müssen wir Primitiven in praktische Antworten übersetzen. In der Softwareentwicklung beziehen sich Primitive auf die Kerneinheiten von Informationen oder Aktionen, die ein Agent ausführt. Für den Ingenieur sieht dies wie ein API-Aufruf oder ein Logikgatter aus. Für den Benutzer muss es als klare Erklärung erscheinen. Die Designherausforderung besteht darin, diese technischen Schritte auf für Menschen lesbare Begründungen abzubilden. Wenn ein Agent einen bestimmten Flug empfiehlt, muss der Benutzer wissen, warum. Die Schnittstelle kann sich nicht hinter einem generischen Vorschlag verstecken. Es muss das zugrunde liegende Grundelement offenlegen: Logik: Günstigster_Direktflug oder Logik: Partner_Airline_Priority. Abbildung 4 veranschaulicht diesen Übersetzungsfluss. Wir nehmen das Rohsystemprimitiv – die eigentliche Codelogik – und ordnen es einer für den Benutzer sichtbaren Zeichenfolge zu. Wenn man zum Beispiel einen Kalender überprüft und ein Meeting plant, erhält man eine klare Aussage: „Ich habe 16 Uhr vorgeschlagen.“treffen. Dieses Maß an Transparenz stellt sicher, dass die Handlungen des Agenten logisch und vorteilhaft erscheinen. Dadurch kann der Benutzer überprüfen, ob der Agent in seinem besten Interesse gehandelt hat. Indem wir die Grundelemente freilegen, verwandeln wir eine Blackbox in eine Glasbox und stellen so sicher, dass Benutzer die letzte Autorität über ihr eigenes digitales Leben bleiben.
Die Bühne für Design bereiten Der Aufbau eines Agentensystems erfordert ein neues Maß an psychologischem und verhaltensbezogenem Verständnis. Es zwingt uns, über herkömmliche Usability-Tests hinauszugehen und in den Bereich von Vertrauen, Zustimmung und Verantwortlichkeit vorzudringen. Die von uns besprochenen Forschungsmethoden, von der Untersuchung mentaler Modelle über die Simulation von Fehlverhalten bis hin zur Etablierung neuer Metriken, bieten eine notwendige Grundlage. Diese Praktiken sind die wesentlichen Werkzeuge, um proaktiv zu erkennen, wo ein autonomes System ausfallen könnte, und, was noch wichtiger ist, wie die Benutzer-Agent-Beziehung repariert werden kann, wenn dies der Fall ist. Der Übergang zur agentischen KI ist eine Neudefinition der Benutzer-System-Beziehung. Wir entwickeln keine Tools mehr, die einfach auf Befehle reagieren. Wir entwerfen für Partner, die in unserem Namen handeln. Dadurch ändert sich die Designanforderung von Effizienz und Benutzerfreundlichkeit hin zu Transparenz, Vorhersehbarkeit und Kontrolle. Wenn eine KI ohne einen letzten Klick einen Flug buchen oder eine Aktie handeln kann, ist die Gestaltung ihrer „Ein- und Ausstiege“ von größter Bedeutung. Es liegt in unserer Verantwortung, dafür zu sorgen, dass der Nutzer das Gefühl hat, am Steuer zu sitzen, auch wenn er das Steuer abgegeben hat. Diese neue Realität stärkt auch die Rolle des UX-Forschers. Wir werden zum Hüter des Benutzervertrauens und arbeiten mit Ingenieuren und Produktmanagern zusammen, um die Leitplanken der Autonomie eines Agenten zu definieren und zu testen. Wir sind nicht nur Forscher, sondern setzen uns auch für Benutzerkontrolle, Transparenz und ethische Schutzmaßnahmen im Entwicklungsprozess ein. Indem wir Primitive in praktische Fragen übersetzen und Worst-Case-Szenarien simulieren, können wir robuste Systeme aufbauen, die sowohl leistungsstark als auch sicher sind. In diesem Artikel wurde das „Was“ und „Warum“ der Erforschung der Agenten-KI dargelegt. Es hat sich gezeigt, dass unsere traditionellen Toolkits nicht ausreichen und dass wir neue, zukunftsweisende Methoden einführen müssen. Der nächste Artikel baut auf dieser Grundlage auf und stellt die spezifischen Entwurfsmuster und Organisationspraktiken vor, die den Nutzen eines Agenten für Benutzer transparent machen und sicherstellen, dass sie die Leistungsfähigkeit der Agenten-KI sicher und kontrolliert nutzen können. In der Zukunft von UX geht es darum, Systeme vertrauenswürdig zu machen. Für zusätzliches Verständnis der Agenten-KI können Sie die folgenden Ressourcen erkunden:
Google AI-Blog über Agentische KI Microsofts Forschung zu KI-Agenten