Agentic AI jest gotowa przekształcić doświadczenie klienta i efektywność operacyjną, co wymaga nowego strategicznego podejścia ze strony przywództwa. Ta ewolucja sztucznej inteligencji umożliwia systemom planowanie, wykonywanie i wytrwałość w wykonywaniu zadań, wykraczając poza proste zalecenia i przechodząc do proaktywnych działań. Dla zespołów UX, menedżerów produktów i kadry kierowniczej zrozumienie tej zmiany ma kluczowe znaczenie dla odblokowania możliwości w zakresie innowacji, usprawnienia przepływów pracy i ponownego zdefiniowania sposobu, w jaki technologia służy ludziom. Agentyczną sztuczną inteligencję łatwo pomylić z Robotic Process Automation (RPA), czyli technologią skupiającą się na zadaniach opartych na regułach wykonywanych na komputerach. Różnica polega na sztywności i rozumowaniu. RPA doskonale radzi sobie ze ścisłym scenariuszem: jeśli wydarzy się X, wykonaj Y. Naśladuje ludzkie ręce. Agentyczna sztuczna inteligencja naśladuje ludzkie rozumowanie. Nie ma linearnego scenariusza; tworzy jeden. Rozważ proces rekrutacji. Bot RPA może zeskanować CV i przesłać je do bazy danych. Doskonale radzi sobie z powtarzalnym zadaniem. System Agentic sprawdza CV, zauważa, że ​​kandydat wymienia konkretny certyfikat, powiązuje go z wymaganiami nowego klienta i decyduje się sporządzić spersonalizowaną wiadomość e-mail, podkreślającą to dopasowanie. RPA realizuje z góry zdefiniowany plan; Agentyczna sztuczna inteligencja formułuje plan w oparciu o cel. Ta autonomia oddziela agentów od narzędzi predykcyjnych, z których korzystaliśmy przez ostatnią dekadę. Innym przykładem jest zarządzanie konfliktami podczas spotkań. Model predykcyjny zintegrowany z Twoim kalendarzem może analizować harmonogram spotkań i harmonogramy Twoich współpracowników. Może wówczas sugerować potencjalne konflikty, np. dwa ważne spotkania zaplanowane w tym samym czasie lub spotkanie zaplanowane, gdy kluczowy uczestnik jest na urlopie. Dostarcza informacji i sygnalizuje potencjalne problemy, ale to Ty jesteś odpowiedzialny za podjęcie działań. W tym samym scenariuszu agentyczna sztuczna inteligencja wykraczałaby poza samo sugerowanie konfliktów, których należy unikać. Po zidentyfikowaniu konfliktu z kluczowym uczestnikiem agent może podjąć następujące działania:

Sprawdzanie dostępności wszystkich niezbędnych uczestników. Identyfikacja alternatywnych przedziałów czasowych, które odpowiadają każdemu. Rozsyłanie proponowanych nowych zaproszeń na spotkania do wszystkich uczestników. Jeśli konflikt dotyczy uczestnika zewnętrznego, agent może przygotować i wysłać wiadomość e-mail wyjaśniającą potrzebę zmiany terminu i oferującą alternatywne godziny. Aktualizacja Twojego kalendarza i kalendarzy Twoich współpracowników o nowe szczegóły spotkania po potwierdzeniu.

Ta agentyczna sztuczna inteligencja rozumie cel (rozwiązanie konfliktu podczas spotkania), planuje kroki (sprawdzanie dostępności, znajdowanie alternatyw, wysyłanie zaproszeń), wykonuje te kroki i działa do momentu rozwiązania konfliktu, a wszystko to przy minimalnej bezpośredniej interwencji użytkownika. To pokazuje różnicę „agentyczną”: system podejmuje proaktywne kroki za użytkownika, a nie tylko dostarcza użytkownikowi informacji. Agentyczne systemy AI rozumieją cel, planują serię kroków, aby go osiągnąć, wykonują te kroki, a nawet dostosowują się, jeśli coś pójdzie nie tak. Pomyśl o tym jak o proaktywnym asystencie cyfrowym. Podstawowa technologia często łączy duże modele językowe (LLM) umożliwiające zrozumienie i rozumowanie z algorytmami planowania, które dzielą złożone zadania na możliwe do wykonania działania. Agenci ci mogą wchodzić w interakcje z różnymi narzędziami, interfejsami API, a nawet innymi modelami sztucznej inteligencji, aby osiągnąć swoje cele, a co najważniejsze, mogą utrzymywać trwały stan, co oznacza, że ​​pamiętają poprzednie działania i kontynuują pracę nad osiągnięciem celu w miarę upływu czasu. To sprawia, że ​​zasadniczo różnią się od typowej generatywnej sztucznej inteligencji, która zwykle realizuje pojedyncze żądanie, a następnie resetuje się. Prosta taksonomia zachowań agentycznych Możemy podzielić zachowanie agentów na cztery różne tryby autonomii. Chociaż często wyglądają one jak postęp, funkcjonują jako niezależne tryby pracy. Użytkownik może ufać agentowi, że będzie działał autonomicznie w zakresie planowania, ale w przypadku transakcji finansowych powinien pozostawać w „trybie sugestii”. Poziomy te wyprowadziliśmy, dostosowując standardy branżowe dotyczące pojazdów autonomicznych (poziomy SAE) do kontekstów doświadczenia użytkownika cyfrowego. Obserwuj i sugeruj Agent pełni rolę monitora. Analizuje strumienie danych i sygnalizuje anomalie lub możliwości, ale nie podejmuje żadnych działań. Zróżnicowanie W przeciwieństwie do następnego poziomu, agent nie generuje skomplikowanego planu. Wskazuje na problem. PrzykładAgent DevOps zauważa gwałtowny wzrost wydajności procesora serwera i powiadamia inżyniera dyżurującego. Nie wie, jak to naprawić i nie próbuje tego naprawić, ale wie, że coś jest nie tak. Konsekwencje dla projektowania i nadzoru Na tym poziomieprzy projektowaniu i nadzorze należy priorytetowo traktować jasne, nieinwazyjne powiadomienia oraz dobrze zdefiniowany proces umożliwiający użytkownikom działanie zgodnie z sugestiami. Nacisk położony jest na zapewnienie użytkownikowi aktualnych i istotnych informacji bez przejmowania kontroli. Praktycy UX powinni skupić się na przedstawianiu sugestii jasnych i łatwych do zrozumienia, podczas gdy menedżerowie produktu muszą zadbać o to, aby system zapewniał wartość bez przytłaczania użytkownika. Planuj i proponuj Agent identyfikuje cel i generuje wieloetapową strategię jego osiągnięcia. Przedstawia pełny plan przeglądu przez człowieka. Zróżnicowanie Agent pełni rolę stratega. Nie wykonuje się; oczekuje na zatwierdzenie całego podejścia. PrzykładTen sam agent DevOps zauważa wzrost wydajności procesora, analizuje logi i proponuje plan naprawczy:

Rozkręć dwie dodatkowe instancje. Uruchom ponownie moduł równoważenia obciążenia. Archiwizuj stare logi.

Człowiek przegląda logikę i klika „Zatwierdź plan”. Konsekwencje dla projektowania i nadzoru W przypadku agentów, którzy planują i proponują, projekt musi zapewniać, że proponowane plany będą łatwo zrozumiałe, a użytkownicy będą mieli intuicyjne sposoby ich modyfikowania lub odrzucania. Nadzór jest kluczowy w monitorowaniu jakości propozycji i logiki planowania agenta. Praktycy UX powinni projektować przejrzyste wizualizacje proponowanych planów, a menedżerowie produktów muszą ustalić jasne przepływy pracy związane z przeglądami i zatwierdzaniem. Działaj z potwierdzeniem Agent kończy wszystkie prace przygotowawcze i umieszcza akcję końcową w stanie etapowym. Skutecznie przytrzymuje drzwi otwarte, czekając na skinienie głowy. Zróżnicowanie Różni się od „Zaplanuj i zaproponuj”, ponieważ praca jest już wykonana i zainscenizowana. Zmniejsza tarcie. Użytkownik potwierdza wynik, a nie strategię. PrzykładAgent rekrutacyjny przygotowuje pięć zaproszeń na rozmowy kwalifikacyjne, znajduje godziny otwarcia w kalendarzach i tworzy wydarzenia w kalendarzu. Zawiera przycisk „Wyślij wszystko”. Użytkownik udziela ostatecznej autoryzacji do uruchomienia działania zewnętrznego. Konsekwencje dla projektu i nadzoru Kiedy agenci działają za potwierdzeniem, projekt powinien zapewniać przejrzyste i zwięzłe podsumowanie zamierzonych działań, jasno określając potencjalne konsekwencje. Nadzór musi sprawdzać, czy proces potwierdzania jest solidny i czy użytkownicy nie są proszeni o ślepe zatwierdzanie działań. Praktycy UX powinni projektować monity potwierdzające, które są jasne i zawierają wszystkie niezbędne informacje, a menedżerowie produktu powinni priorytetowo traktować solidną ścieżkę audytu dla wszystkich potwierdzonych działań. Działaj autonomicznie Agent realizuje zadania samodzielnie w określonych granicach. Różnicowanie Użytkownik przegląda historię działań, a nie same działania. PrzykładAgent rekrutujący widzi konflikt, przenosi rozmowę kwalifikacyjną do zapasowego terminu, aktualizuje kandydata i powiadamia menedżera ds. rekrutacji. Człowiek widzi tylko powiadomienie: Rozmowa przełożona na wtorek. Konsekwencje dla projektu i nadzoru W przypadku agentów autonomicznych projekt musi ustanawiać jasne, wcześniej zatwierdzone granice i zapewniać solidne narzędzia monitorowania. Nadzór wymaga ciągłej oceny wydajności agenta w tych granicach, krytycznej potrzeby solidnego rejestrowania, przejrzystych mechanizmów obejścia i zdefiniowanych przez użytkownika wyłączników awaryjnych w celu utrzymania kontroli i zaufania użytkownika. Praktycy UX powinni skupić się na projektowaniu skutecznych dashboardów do monitorowania zachowań autonomicznych agentów, a menedżerowie produktów muszą zadbać o jasne wytyczne dotyczące zarządzania i etyki.

Przyjrzyjmy się rzeczywistemu zastosowaniu technologii HR, aby zobaczyć te tryby w akcji. Weź pod uwagę „agenta ds. koordynacji rozmów kwalifikacyjnych”, którego zadaniem jest obsługa logistyki rekrutacji.

W trybie sugerowaniaAgent zauważa, że ​​osoba przeprowadzająca rozmowę kwalifikacyjną jest podwójnie obsadzona. Podkreśla konflikt na pulpicie rekrutacyjnym: „Ostrzeżenie: Sarah ma podwójną rezerwację na rozmowę kwalifikacyjną o 14:00”. W trybie Planowania agent analizuje kalendarz Sarah i dostępność kandydata. Przedstawia rozwiązanie: „Polecam przenieść rozmowę na czwartek na 10:00. Wymaga to przeniesienia Sarah 1:1 z jej przełożonym.” Rekruter sprawdza tę logikę. W trybie potwierdzenia Agent wysyła e-maile do kandydata i menedżera. Wypełnia zaproszenia kalendarza. Rekruter widzi podsumowanie: „Gotowy do przełożenia na czwartek. Wysłać aktualizacje?” Rekruter klika „Potwierdź”. W trybie autonomicznymAgent rozwiązuje konflikt natychmiast. Przestrzega ustalonej zasady: „Zawsze przedkładaj rozmowy kwalifikacyjne z kandydatami nad wewnętrzne rozmowy 1:1”. Przenosi spotkanie i wysyła powiadomienia. Rekruter widzi wpis w dzienniku: „Rozwiązanokonflikt w harmonogramie dla Kandydata B.”

Elementarz badawczy: co badać i jak Opracowanie skutecznej agentycznej sztucznej inteligencji wymaga odrębnego podejścia badawczego w porównaniu z tradycyjnym oprogramowaniem, a nawet generatywną sztuczną inteligencją. Autonomiczny charakter agentów AI, ich zdolność do podejmowania decyzji i potencjał proaktywnego działania wymagają specjalistycznych metodologii zrozumienia oczekiwań użytkowników, mapowania złożonych zachowań agentów i przewidywania potencjalnych awarii. W poniższym podręczniku badawczym przedstawiono kluczowe metody pomiaru i oceny tych unikalnych aspektów agentycznej sztucznej inteligencji. Wywiady z modelem mentalnym Wywiady te ujawniają z góry przyjęte wyobrażenia użytkowników na temat tego, jak powinien zachowywać się agent AI. Zamiast po prostu pytać, czego chcą użytkownicy, skupiamy się na zrozumieniu ich wewnętrznych modeli możliwości i ograniczeń agenta. Powinniśmy unikać używania słowa „agent” w odniesieniu do uczestników. Nosi bagaż science-fiction lub jest terminem, który zbyt łatwo można pomylić z agentem ludzkim oferującym wsparcie lub usługi. Zamiast tego skup dyskusję wokół „asystentów” lub „systemu”. Musimy odkryć, gdzie użytkownicy wyznaczają granicę między pomocną automatyzacją a inwazyjną kontrolą.

Metoda: Poproś użytkowników o opisanie, narysowanie lub opowiedzenie o swoich oczekiwanych interakcjach z agentem w różnych hipotetycznych scenariuszach. Kluczowe sondy (odzwierciedlające różne branże): Aby zrozumieć granice pożądanej automatyzacji i potencjalne obawy związane z nadmierną automatyzacją, zapytaj: Jeśli Twój lot zostanie odwołany, co chcesz, aby system zrobił automatycznie? Co by Cię martwiło, gdyby stało się to bez Twoich wyraźnych instrukcji?

Aby zbadać zrozumienie przez użytkownika wewnętrznych procesów agenta i niezbędnej komunikacji, zapytaj: Wyobraź sobie, że cyfrowy asystent zarządza Twoim inteligentnym domem. Jeśli paczka zostanie dostarczona, jakie kroki według ciebie będzie wymagał i jakich informacji byś się spodziewał?

Aby odkryć oczekiwania dotyczące kontroli i zgody w ramach wieloetapowego procesu, zapytaj: Jeśli poprosisz swojego cyfrowego asystenta o zaplanowanie spotkania, jakie kroki według ciebie podejmie? W jakich momentach chciałbyś, aby Cię konsultowano lub dano Ci możliwość wyboru?

Korzyści z metody: Ujawnia ukryte założenia, podkreśla obszary, w których planowane zachowanie agenta może odbiegać od oczekiwań użytkownika, a także pomaga w projektowaniu odpowiednich mechanizmów kontroli i informacji zwrotnej.

Mapowanie podróży agenta: Podobnie jak tradycyjne mapowanie podróży użytkownika, mapowanie podróży agenta koncentruje się w szczególności na przewidywanych działaniach i punktach decyzyjnych samego agenta AI, a także na interakcji użytkownika. Pomaga to w proaktywnym identyfikowaniu potencjalnych pułapek.

Metoda: Utwórz mapę wizualną przedstawiającą różne etapy działania agenta, od inicjacji do zakończenia, włączając wszystkie potencjalne działania, decyzje i interakcje z systemami zewnętrznymi lub użytkownikami. Kluczowe elementy do mapy: Działania agenta: jakie konkretne zadania lub decyzje wykonuje agent? Wejścia/wyjścia informacyjne: jakich danych potrzebuje agent i jakie informacje generuje lub przekazuje? Punkty decyzyjne: Gdzie agent dokonuje wyborów i jakie są kryteria tych wyborów? Punkty interakcji użytkownika: gdzie użytkownik wprowadza dane, przegląda je lub zatwierdza działania? Punkty awarii: co najważniejsze, zidentyfikuj konkretne przypadki, w których agent może błędnie zinterpretować instrukcje, podjąć niewłaściwą decyzję lub wejść w interakcję z niewłaściwym podmiotem. Przykłady: nieprawidłowy odbiorca (np. wysłanie wrażliwych informacji do niewłaściwej osoby), debet (np. automatyczna płatność przekraczająca dostępne środki), błędna interpretacja intencji (np. rezerwacja lotu na zły termin ze względu na niejednoznaczny język).

Ścieżki odzyskiwania: w jaki sposób agent lub użytkownik może odzyskać siły po takich awariach? Jakie istnieją mechanizmy korygujące lub interwencyjne?

Zalety tej metody: Zapewnia całościowy obraz przepływu operacyjnego agenta, odkrywa ukryte zależności i pozwala na proaktywne projektowanie zabezpieczeń, obsługi błędów i punktów interwencji użytkownika, aby zapobiec negatywnym skutkom lub je złagodzić.

Symulowane badanie niewłaściwego zachowania: Podejście to ma na celu przetestowanie systemu w warunkach skrajnych i obserwację reakcji użytkowników, gdy agent AI zawiedzie lub odbiega od oczekiwań. Chodzi o zrozumienie naprawy zaufania i reakcji emocjonalnych w niekorzystnych sytuacjach.

Metoda: W kontrolowanych badaniach laboratoryjnych celowo wprowadzaj scenariusze, w których agent popełnia błąd, błędnie interpretuje polecenie lub zachowuje się nieoczekiwanie. Rodzaje „niewłaściwego zachowania” do symulacji: PolecenieBłędna interpretacja: Agent wykonuje akcję nieco odmienną od zamierzonej przez użytkownika (np. zamawia dwa przedmioty zamiast jednego). Przeciążenie/niedociążenie informacji: Agent dostarcza zbyt wiele nieistotnych informacji lub zbyt mało krytycznych szczegółów. Niezamówione działanie: agent podejmuje działanie, którego użytkownik wyraźnie nie chciał lub się nie spodziewał (np. kupuje akcje bez zgody). Awaria systemu: Agent ulega awarii, przestaje odpowiadać lub wyświetla komunikat o błędzie. Dylematy etyczne: agent podejmuje decyzję, która ma implikacje etyczne (np. nadanie priorytetu jednemu zadaniu względem drugiego w oparciu o nieprzewidziany wskaźnik).

Ostrość obserwacji: Reakcje użytkowników: Jak użytkownicy reagują emocjonalnie (frustracja, złość, dezorientacja, utrata zaufania)? Próby odzyskania: jakie kroki podejmują użytkownicy, aby skorygować zachowanie agenta lub cofnąć jego działania? Mechanizmy naprawy zaufania: czy wbudowane w system mechanizmy odzyskiwania lub przekazywania informacji zwrotnych pomagają przywrócić zaufanie? How do users want to be informed about errors? Zmiana modelu mentalnego: czy niewłaściwe zachowanie zmienia zrozumienie przez użytkownika możliwości lub ograniczeń agenta?

Korzyści z metody: Kluczowe dla identyfikacji luk projektowych związanych z odzyskiwaniem błędów, informacją zwrotną i kontrolą użytkownika. Zapewnia wgląd w to, jak odporni są użytkownicy na awarie agentów i co jest potrzebne do utrzymania lub odbudowania zaufania, co prowadzi do powstania solidniejszych i wybaczających błędów systemów agentowych.

Integrując te metodologie badawcze, praktycy UX mogą wyjść poza proste tworzenie użytecznych systemów agentowych i uczynić je zaufanymi, możliwymi do kontrolowania i odpowiedzialnymi, wspierając pozytywne i produktywne relacje między użytkownikami a ich agentami AI. Należy pamiętać, że nie są to jedyne metody istotne dla skutecznego eksplorowania agentycznej sztucznej inteligencji. Istnieje wiele innych metod, ale te będą najbardziej dostępne dla praktyków w najbliższej przyszłości. Wcześniej omawiałem metodę Czarnoksiężnika z Krainy Oz, nieco bardziej zaawansowaną metodę testowania koncepcji, która jest również cennym narzędziem do badania koncepcji agentycznej sztucznej inteligencji. Ethical Considerations In Research Methodology Badając agentyczną sztuczną inteligencję, szczególnie podczas symulowania niewłaściwego zachowania lub błędów, należy wziąć pod uwagę względy etyczne. Istnieje wiele publikacji skupiających się na etycznych badaniach UX, w tym artykuł, który napisałem dla Smashing Magazine, niniejsze wytyczne UX Design Institute oraz ta strona z Inclusive Design Toolkit. Key Metrics For Agentic AI Będziesz potrzebować kompleksowego zestawu kluczowych wskaźników, aby skutecznie ocenić wydajność i niezawodność agentycznych systemów AI. Metryki te zapewniają wgląd w zaufanie użytkowników, dokładność systemu i ogólne wrażenia użytkownika. Śledząc te wskaźniki, programiści i projektanci mogą zidentyfikować obszary wymagające poprawy i zapewnić, że agenci AI działają bezpiecznie i wydajnie. 1. Wskaźnik interwencji W przypadku agentów autonomicznych sukces mierzymy ciszą. Jeśli agent wykona zadanie, a użytkownik nie zainterweniuje lub nie cofnie akcji w określonym oknie (np. 24 godziny), liczymy to jako akceptację. Śledzimy współczynnik interwencji: jak często człowiek wkracza, aby zatrzymać lub skorygować agenta? Wysoki wskaźnik interwencji sygnalizuje rozbieżność zaufania lub logiki. 2. Częstotliwość niezamierzonych działań na 1000 zadań Ten krytyczny wskaźnik określa ilościowo liczbę działań wykonanych przez agenta AI, które nie były pożądane lub oczekiwane przez użytkownika, znormalizowane na 1000 ukończonych zadań. Niska częstotliwość niezamierzonych działań oznacza dobrze dostosowaną sztuczną inteligencję, która dokładnie interpretuje intencje użytkownika i działa w określonych granicach. Wskaźnik ten jest ściśle powiązany ze zrozumieniem kontekstu przez sztuczną inteligencję, jej zdolnością do ujednoznaczniania poleceń i solidnością protokołów bezpieczeństwa. 3. Częstotliwość wycofywania lub cofania Ta metryka śledzi, jak często użytkownicy muszą cofać lub cofać akcję wykonaną przez sztuczną inteligencję. Wysokie wskaźniki wycofywania zmian sugerują, że sztuczna inteligencja często popełnia błędy, błędnie interpretuje instrukcje lub działa w sposób niezgodny z oczekiwaniami użytkownika. Analiza przyczyn tych wycofań może dostarczyć cennych informacji zwrotnych umożliwiających ulepszenie algorytmów sztucznej inteligencji, zrozumienie preferencji użytkowników i jej zdolności do przewidywania pożądanych wyników. Aby zrozumieć dlaczego, musisz wdrożyć mikroankietę dotyczącą akcji cofania. Na przykład, gdy użytkownik cofnie zmianę harmonogramu, prosty monit może zapytać: "Zły czas? Niewłaściwa osoba? A może po prostu chciałeś to zrobić sam?" Umożliwienie użytkownikowi kliknięcia opcji, która najlepiej odpowiada jego rozumowaniu. 4. Time to Resolution After an ErrorThis metricmierzy czas potrzebny użytkownikowi na naprawienie błędu popełnionego przez sztuczną inteligencję lub na przywrócenie działania samego systemu sztucznej inteligencji po błędnym stanie. Krótki czas do rozwiązania wskazuje na skuteczny i przyjazny dla użytkownika proces odzyskiwania błędów, który może złagodzić frustrację użytkowników i utrzymać produktywność. Obejmuje to łatwość identyfikacji błędu, dostępność mechanizmów cofania lub korygowania oraz przejrzystość komunikatów o błędach dostarczanych przez sztuczną inteligencję.

Zbieranie tych metryk wymaga oprzyrządowania systemu do śledzenia identyfikatorów działań agentów. Każde odrębne działanie podejmowane przez agenta, takie jak zaproponowanie rozkładu jazdy lub rezerwacja lotu, musi wygenerować unikalny identyfikator, który pozostaje w dziennikach. Aby zmierzyć współczynnik interwencji, nie szukamy natychmiastowej reakcji użytkownika. Braku przeciwdziałania szukamy w określonym oknie. Jeśli identyfikator akcji zostanie wygenerowany o godzinie 9:00 i żaden użytkownik nie zmodyfikuje ani nie przywróci tego konkretnego identyfikatora do godziny 9:00 następnego dnia, system logicznie oznaczy je jako Zaakceptowane. Dzięki temu możemy określić ilościowo sukces na podstawie milczenia użytkownika, a nie aktywnego potwierdzenia. W przypadku współczynników wycofywania surowe liczby są niewystarczające, ponieważ brakuje im kontekstu. Aby uchwycić przyczynę, należy zaimplementować logikę przechwytywania w funkcjach Cofania lub Przywracania aplikacji. Gdy użytkownik cofnie akcję zainicjowaną przez agenta, uruchom uproszczoną mikroankietę. Może to być prosty moduł składający się z trzech opcji, proszący użytkownika o zaklasyfikowanie błędu jako niezgodny ze stanem faktycznym, pozbawiony kontekstu lub jako prosta preferencja ręcznego wykonania zadania. Łączy w sobie telemetrię ilościową z wglądem jakościowym. Umożliwia zespołom inżynierskim rozróżnienie między uszkodzonym algorytmem a niezgodnością preferencji użytkownika. Wskaźniki te, jeśli są konsekwentnie śledzone i analizowane całościowo, zapewniają solidne ramy do oceny wydajności agentycznych systemów sztucznej inteligencji, umożliwiając ciągłą poprawę kontroli, zgody i odpowiedzialności. Projektowanie przeciw oszustwom W miarę jak agenci stają się coraz bardziej zdolni, stajemy w obliczu nowego ryzyka: agentycznego osadu. Tradycyjny szlam powoduje tarcia, które utrudniają anulowanie subskrypcji lub usunięcie konta. Osad czynny działa odwrotnie. Eliminuje tarcia powodujące, że użytkownikowi zbyt łatwo jest zgodzić się na działanie, które przynosi korzyści firmie, a nie jego własnym interesom. Weź pod uwagę agenta pomagającego w rezerwacji podróży. Bez wyraźnych barier system mógłby priorytetowo traktować partnerską linię lotniczą lub hotel o wyższej marży. Przedstawia ten wybór jako ścieżkę optymalną. Użytkownik ufając autorytetowi systemu, przyjmuje rekomendację bez kontroli. Tworzy to zwodniczy wzorzec, w którym system optymalizuje przychody pod pozorem wygody. Ryzyko fałszywie wyobrażonych kompetencji Oszustwo nie może wynikać ze złych zamiarów. Często przejawia się w sztucznej inteligencji jako wyimaginowana kompetencja. Modele wielkojęzykowe często brzmią wiarygodnie, nawet jeśli są nieprawidłowe. Przedstawiają fałszywe potwierdzenie rezerwacji lub niedokładne podsumowanie z taką samą pewnością, jak zweryfikowany fakt. Użytkownicy mogą w naturalny sposób zaufać temu pewnemu tonowi. To niedopasowanie tworzy niebezpieczną lukę pomiędzy możliwościami systemu a oczekiwaniami użytkownika. Musimy projektować specjalnie, aby wypełnić tę lukę. Jeśli agent nie wykona zadania, interfejs musi wyraźnie sygnalizować tę awarię. Jeśli system jest niepewny, musi raczej wyrażać niepewność niż maskować ją dopracowaną prozą. Przejrzystość poprzez prymitywy Antidotum na szlam i halucynacje jest pochodzenie. Każde autonomiczne działanie wymaga określonego znacznika metadanych wyjaśniającego pochodzenie decyzji. Użytkownicy potrzebują możliwości sprawdzenia łańcucha logicznego stojącego za wynikiem. Aby to osiągnąć, musimy przełożyć prymitywy na praktyczne odpowiedzi. W inżynierii oprogramowania prymitywy odnoszą się do podstawowych jednostek informacji lub działań wykonywanych przez agenta. Dla inżyniera wygląda to na wywołanie API lub bramkę logiczną. Dla użytkownika musi to być jasne wyjaśnienie. Wyzwanie projektowe polega na odwzorowaniu tych etapów technicznych w uzasadnienie czytelne dla człowieka. Jeśli agent rekomenduje konkretny lot, użytkownik musi wiedzieć dlaczego. Interfejs nie może ukryć się za ogólną sugestią. Musi ujawniać podstawowy element podstawowy: Logika: Najtańszy_Direct_Flight lub Logika: Partner_Airline_Priority. Rysunek 4 ilustruje ten przepływ tłumaczenia. Bierzemy pierwotny element systemu — rzeczywistą logikę kodu — i mapujemy go na ciąg znaków widoczny dla użytkownika. Na przykład prymitywne sprawdzenie harmonogramu spotkania w kalendarzu staje się jasnym stwierdzeniem: zaproponowałem 16:00spotkanie. Ten poziom przejrzystości sprawia, że ​​działania agenta wydają się logiczne i korzystne. Pozwala użytkownikowi zweryfikować, czy agent działał w jego najlepszym interesie. Odsłaniając prymitywy, przekształcamy czarną skrzynkę w szklane pudełko, dzięki czemu użytkownicy pozostają ostatecznym autorytetem w zakresie własnego cyfrowego życia.

Ustawienie sceny dla projektu Budowa systemu agentycznego wymaga nowego poziomu zrozumienia psychologicznego i behawioralnego. Zmusza nas to do wyjścia poza konwencjonalne testy użyteczności i wkroczenia w sferę zaufania, zgody i odpowiedzialności. Metody badawcze, które omówiliśmy, od badania modeli mentalnych po symulowanie niewłaściwego zachowania i ustalanie nowych wskaźników, zapewniają niezbędną podstawę. Praktyki te są niezbędnymi narzędziami do proaktywnego identyfikowania miejsc, w których system autonomiczny może zawieść, i, co ważniejsze, tego, jak naprawić relację użytkownik-klient, gdy to nastąpi. Przejście na agentyczną sztuczną inteligencję oznacza redefinicję relacji użytkownik-system. Nie projektujemy już narzędzi, które po prostu reagują na polecenia; projektujemy dla partnerów, którzy działają w naszym imieniu. Zmienia to imperatyw projektowania z wydajności i łatwości użytkowania na przejrzystość, przewidywalność i kontrolę. Kiedy sztuczna inteligencja może zarezerwować lot lub handlować akcjami bez ostatniego kliknięcia, projekt jej „podjazdów” i „zjazdów” staje się sprawą najwyższej wagi. Naszym obowiązkiem jest dopilnowanie, aby użytkownicy czuli się na miejscu kierowcy, nawet po oddaniu kierownicy. Ta nowa rzeczywistość podnosi także rolę badacza UX. Stajemy się strażnikami zaufania użytkowników, współpracując z inżynierami i menedżerami produktu w celu zdefiniowania i przetestowania barier autonomii agenta. Oprócz tego, że jesteśmy badaczami, stajemy się zwolennikami kontroli użytkownika, przejrzystości i zabezpieczeń etycznych w procesie rozwoju. Przekładając prymitywy na pytania praktyczne i symulując najgorsze scenariusze, możemy zbudować solidne systemy, które są zarówno wydajne, jak i bezpieczne. W tym artykule omówiono „co” i „dlaczego” badania agentycznej sztucznej inteligencji. Pokazało, że nasze tradycyjne zestawy narzędzi są niewystarczające i że musimy przyjąć nowe, przyszłościowe metodologie. Następny artykuł będzie opierał się na tym fundamencie, przedstawiając konkretne wzorce projektowe i praktyki organizacyjne, które sprawiają, że narzędzie agenta jest przejrzyste dla użytkowników, dzięki czemu mogą oni bez obaw i pod kontrolą wykorzystać moc agentowej sztucznej inteligencji. Przyszłość UX polega na tworzeniu systemów godnych zaufania. Aby uzyskać dodatkowe zrozumienie agentycznej sztucznej inteligencji, możesz zapoznać się z następującymi zasobami:

Blog Google AI na temat agentycznej sztucznej inteligencji Badania Microsoftu dotyczące agentów AI

You May Also Like

Enjoyed This Article?

Get weekly tips on growing your audience and monetizing your content — straight to your inbox.

No spam. Join 138,000+ creators. Unsubscribe anytime.

Create Your Free Bio Page

Join 138,000+ creators on Seemless.

Get Started Free