Agentic AI는 고객 경험과 운영 효율성을 변화시킬 준비가 되어 있으므로 리더십의 새로운 전략적 접근 방식이 필요합니다. 인공 지능의 이러한 발전은 시스템이 작업을 계획, 실행 및 지속할 수 있도록 지원하여 단순한 권장 사항을 넘어 사전 조치로 전환합니다. UX 팀, 제품 관리자 및 경영진의 경우 이러한 변화를 이해하는 것은 혁신의 기회를 열고 워크플로를 간소화하며 기술이 사람들에게 서비스를 제공하는 방식을 재정의하는 데 중요합니다. Agentic AI는 컴퓨터에서 수행되는 규칙 기반 작업에 초점을 맞춘 기술인 RPA(Robotic Process Automation)와 혼동하기 쉽습니다. 차이점은 경직성과 추론에 있습니다. RPA는 X가 발생하면 Y를 수행하는 엄격한 스크립트를 따르는 데 탁월합니다. 인간의 손을 모방합니다. Agentic AI는 인간의 추론을 모방합니다. 선형 스크립트를 따르지 않습니다. 그것은 하나를 만듭니다. 채용 워크플로를 고려해보세요. RPA 봇은 이력서를 스캔하여 데이터베이스에 업로드할 수 있습니다. 반복적인 작업을 완벽하게 수행합니다. Agentic 시스템은 이력서를 보고 후보자가 특정 인증을 나열하고 새로운 고객 요구 사항과 상호 참조한 것을 확인한 후 해당 일치 사항을 강조하는 개인화된 지원 이메일 초안을 작성하기로 결정합니다. RPA는 사전 정의된 계획을 실행합니다. Agentic AI는 목표에 따라 계획을 수립합니다. 이러한 자율성은 지난 10년 동안 우리가 사용해 온 예측 도구와 에이전트를 분리합니다. 또 다른 예는 회의 충돌을 관리하는 것입니다. 달력에 통합된 예측 모델은 회의 일정과 동료의 일정을 분석할 수 있습니다. 그런 다음 동시에 예정된 두 개의 중요한 회의 또는 주요 참가자가 휴가 중일 때 예정된 회의와 같은 잠재적인 충돌을 제안할 수 있습니다. 이는 정보를 제공하고 잠재적인 문제를 표시하지만 조치를 취할 책임은 귀하에게 있습니다. 동일한 시나리오에서 에이전트 AI는 피해야 할 충돌을 제안하는 것 이상입니다. 주요 참여자와의 충돌이 확인되면 상담원은 다음과 같은 조치를 취할 수 있습니다.
필요한 모든 참가자의 가용성을 확인합니다. 모두에게 적합한 대체 시간 슬롯을 식별합니다. 모든 참석자에게 제안된 새 회의 초대장을 보냅니다. 외부 참가자와의 충돌이 발생하는 경우 상담원은 일정 변경 필요성을 설명하고 대체 시간을 제안하는 이메일 초안을 작성하여 보낼 수 있습니다. 확인된 후 새로운 회의 세부정보로 귀하의 캘린더와 동료의 캘린더를 업데이트합니다.
이 에이전트 AI는 목표(회의 충돌 해결)를 이해하고 단계(가용성 확인, 대안 찾기, 초대 보내기)를 계획하고 해당 단계를 실행하며 충돌이 해결될 때까지 지속됩니다. 이 모든 작업은 최소한의 직접적인 사용자 개입으로 이루어집니다. 이는 "에이전트적" 차이를 보여줍니다. 즉, 시스템은 사용자에게 정보를 제공하기만 하는 것이 아니라 사용자를 위해 사전 조치를 취합니다. Agentic AI 시스템은 목표를 이해하고, 이를 달성하기 위한 일련의 단계를 계획하고, 해당 단계를 실행하고, 문제가 발생하면 적응하기도 합니다. 능동적인 디지털 비서처럼 생각해보세요. 기본 기술은 이해 및 추론을 위한 대규모 언어 모델(LLM)과 복잡한 작업을 관리 가능한 작업으로 나누는 계획 알고리즘을 결합하는 경우가 많습니다. 이러한 에이전트는 다양한 도구, API 및 기타 AI 모델과 상호 작용하여 목표를 달성할 수 있으며, 중요한 점은 지속적인 상태를 유지할 수 있다는 것입니다. 즉, 이전 작업을 기억하고 시간이 지남에 따라 목표를 향해 계속 작업할 수 있습니다. 이는 일반적으로 단일 요청을 완료한 다음 재설정하는 일반적인 생성 AI와 근본적으로 다릅니다. 에이전트 행동의 간단한 분류 에이전트 행동을 네 가지 자율성 모드로 분류할 수 있습니다. 이는 종종 진행처럼 보이지만 독립적인 작동 모드로 작동합니다. 사용자는 에이전트가 일정 관리를 위해 자율적으로 행동한다고 신뢰할 수 있지만 금융 거래에 대해서는 "제안 모드"로 유지할 수 있습니다. 우리는 자율주행차에 대한 산업 표준(SAE 수준)을 디지털 사용자 경험 컨텍스트에 맞게 조정하여 이러한 수준을 도출했습니다. 관찰 및 제안 에이전트는 모니터 역할을 합니다. 데이터 스트림을 분석하고 이상 징후나 기회를 표시하지만 아무런 조치도 취하지 않습니다. 차별화다음 단계와 달리 에이전트는 복잡한 계획을 생성하지 않습니다. 문제가 있음을 지적합니다. 예DevOps 에이전트는 서버 CPU 급증을 발견하고 대기 중인 엔지니어에게 경고합니다. 문제를 해결하는 방법이나 시도를 알지 못하지만 뭔가 잘못되었다는 것을 알고 있습니다. 설계 및 감독에 대한 시사점 이 수준에서,디자인과 감독에서는 명확하고 방해가 되지 않는 알림과 사용자가 제안에 따라 조치를 취할 수 있도록 잘 정의된 프로세스를 우선시해야 합니다. 제어권을 가지지 않고도 사용자에게 시기적절하고 관련성 높은 정보를 제공하는 데 중점을 두고 있습니다. UX 실무자는 명확하고 이해하기 쉬운 제안을 제공하는 데 중점을 두어야 하며, 제품 관리자는 시스템이 사용자에게 부담을 주지 않으면서 가치를 제공하는지 확인해야 합니다. 계획 및 제안 에이전트는 목표를 식별하고 이를 달성하기 위한 다단계 전략을 생성합니다. 이는 인적 검토를 위한 전체 계획을 제시합니다. 차별화에이전트는 전략가 역할을 합니다. 실행되지 않습니다. 전체 접근 방식에 대한 승인을 기다립니다. 예동일한 DevOps 에이전트가 CPU 급증을 감지하고 로그를 분석하며 문제 해결 계획을 제안합니다.
두 개의 추가 인스턴스를 가동하세요. 로드 밸런서를 다시 시작합니다. 오래된 로그를 보관하세요.
사람이 논리를 검토하고 "계획 승인"을 클릭합니다. 설계 및 감독에 대한 의미 계획하고 제안하는 에이전트의 경우 설계에서는 제안된 계획을 쉽게 이해할 수 있고 사용자가 이를 수정하거나 거부할 수 있는 직관적인 방법을 제공해야 합니다. 감독은 제안의 품질과 상담사의 계획 논리를 모니터링하는 데 매우 중요합니다. UX 실무자는 제안된 계획의 명확한 시각화를 디자인해야 하며, 제품 관리자는 명확한 검토 및 승인 워크플로를 설정해야 합니다. 확인을 통한 조치 에이전트는 모든 준비 작업을 완료하고 최종 작업을 단계적 상태로 설정합니다. 그것은 효과적으로 문을 열어두고 고개를 끄덕이기를 기다립니다. 차별화작업이 이미 완료되고 준비되어 있다는 점에서 "계획 및 제안"과 다릅니다. 마찰을 줄여줍니다. 사용자는 전략이 아닌 결과를 확인합니다. 예채용 담당자는 5개의 인터뷰 초대장 초안을 작성하고 달력에서 영업 시간을 찾아 달력 이벤트를 생성합니다. "모두 보내기" 버튼이 표시됩니다. 사용자는 외부 작업을 트리거하기 위한 최종 권한을 제공합니다. 설계 및 감독에 대한 함의 에이전트가 확인을 받아 행동할 때 설계는 의도된 작업에 대한 투명하고 간결한 요약을 제공하고 잠재적인 결과를 명확하게 설명해야 합니다. 감독은 확인 프로세스가 강력하고 사용자에게 맹목적으로 작업 승인을 요청하지 않는지 확인해야 합니다. UX 실무자는 명확하고 필요한 모든 정보를 제공하는 확인 메시지를 디자인해야 하며, 제품 관리자는 확인된 모든 조치에 대해 강력한 감사 추적의 우선순위를 지정해야 합니다. 자율적으로 행동하다 에이전트는 정의된 경계 내에서 독립적으로 작업을 실행합니다. 차별화사용자는 작업 자체가 아닌 작업 기록을 검토합니다. 예채용 담당자는 충돌을 확인하고 인터뷰를 백업 슬롯으로 이동하고 후보자를 업데이트하고 채용 관리자에게 알립니다. 인간에게는 알림만 표시됩니다. 인터뷰 일정이 화요일로 변경되었습니다. 설계 및 감독에 대한 의미 자율 에이전트의 경우 설계에서는 사전 승인된 명확한 경계를 설정하고 강력한 모니터링 도구를 제공해야 합니다. 감독을 위해서는 이러한 경계 내에서 에이전트의 성능을 지속적으로 평가해야 하며, 강력한 로깅, 명확한 재정의 메커니즘, 사용자 제어 및 신뢰를 유지하기 위한 사용자 정의 킬 스위치에 대한 중요한 요구 사항이 필요합니다. UX 실무자는 자율적인 에이전트 행동을 모니터링하기 위한 효과적인 대시보드를 설계하는 데 집중해야 하며, 제품 관리자는 명확한 거버넌스와 윤리적 지침이 마련되어 있는지 확인해야 합니다.
HR 기술의 실제 애플리케이션을 살펴보고 이러한 모드가 어떻게 작동하는지 살펴보겠습니다. 채용 과정을 처리하도록 설계된 "인터뷰 조정 에이전트"를 고려해보세요.
제안 모드에서 상담원은 면접관이 이중 예약되었음을 알아차립니다. 채용 담당자의 대시보드에 "경고: Sarah는 오후 2시 인터뷰에 두 번 예약되었습니다."라는 갈등이 강조됩니다. 계획 모드에서 에이전트는 Sarah의 일정과 후보자의 가용성을 분석합니다. "인터뷰를 목요일 오전 10시로 옮기는 것이 좋습니다. 이를 위해서는 사라와 매니저의 1:1 대화가 필요합니다."라는 해결책을 제시합니다. 채용 담당자는 이 논리를 검토합니다. 확인 모드에서는 상담원이 후보자와 관리자에게 이메일 초안을 작성합니다. 캘린더 초대가 채워집니다. 채용 담당자는 "목요일로 일정을 변경할 준비가 되었습니다. 업데이트를 보내시겠습니까?"라는 요약을 확인합니다. 채용 담당자는 “확인”을 클릭합니다. 자율 모드에서는 에이전트가 충돌을 즉시 처리합니다. 이는 "내부 1:1 인터뷰보다 항상 지원자 인터뷰를 우선시합니다."라는 사전 설정된 규칙을 존중합니다. 회의를 이동하고 알림을 보냅니다. 채용 담당자는 다음과 같은 로그 항목을 확인합니다.후보 B의 일정이 충돌합니다.”
연구 입문서: 연구 대상 및 방법 효과적인 에이전트 AI를 개발하려면 기존 소프트웨어나 생성 AI에 비해 뚜렷한 연구 접근 방식이 필요합니다. AI 에이전트의 자율적 특성, 의사 결정 능력 및 사전 조치 가능성을 고려하면 사용자 기대를 이해하고, 복잡한 에이전트 동작을 매핑하고, 잠재적인 오류를 예측하기 위한 전문적인 방법론이 필요합니다. 다음 연구 입문서에서는 에이전트 AI의 이러한 고유한 측면을 측정하고 평가하는 주요 방법을 간략하게 설명합니다. 정신 모델 인터뷰 이러한 인터뷰는 AI 에이전트가 어떻게 행동해야 하는지에 대한 사용자의 선입견을 밝혀줍니다. 단순히 사용자가 원하는 것이 무엇인지 묻는 대신 에이전트의 기능과 한계에 대한 내부 모델을 이해하는 데 중점을 둡니다. 참가자들에게 "대리인"이라는 단어를 사용하는 것을 피해야 합니다. 공상 과학 소설에 나오는 수하물을 운반하거나 지원이나 서비스를 제공하는 인간 대리인과 너무 쉽게 혼동되는 용어입니다. 대신, "보조자" 또는 "시스템"을 중심으로 토론의 틀을 잡으세요. 우리는 사용자가 유용한 자동화와 침해적인 제어 사이의 경계를 파악해야 합니다.
방법: 사용자에게 다양한 가상 시나리오에서 에이전트와의 예상되는 상호 작용을 설명, 그림 또는 설명하도록 요청합니다. 주요 조사(다양한 산업을 반영): 원하는 자동화의 경계와 과잉 자동화에 대한 잠재적인 우려를 이해하려면 다음을 질문하십시오. 항공편이 취소되면 시스템이 자동으로 무엇을 하길 원하시나요? 당신의 명시적인 지시 없이 그런 일이 일어난다면 당신은 무엇을 걱정하겠습니까?
상담사의 내부 프로세스와 필요한 커뮤니케이션에 대한 사용자의 이해를 알아보려면 다음을 질문하세요. 디지털 비서가 스마트 홈을 관리한다고 상상해 보세요. 패키지가 배송된 경우 어떤 단계를 거쳐야 하며 어떤 정보를 받을 것으로 예상하시나요?
다단계 프로세스 내에서 통제 및 동의에 대한 기대치를 파악하려면 다음을 질문하십시오. 디지털 비서에게 회의 예약을 요청하면 어떤 단계를 밟을 것으로 예상하시나요? 어느 시점에서 상담을 받거나 선택권을 받고 싶습니까?
이 방법의 이점: 암시적인 가정을 밝히고 에이전트의 계획된 동작이 사용자 기대와 다를 수 있는 영역을 강조하며 적절한 제어 및 피드백 메커니즘의 설계를 알려줍니다.
상담원 여정 매핑: 기존 사용자 여정 매핑과 유사하게 에이전트 여정 매핑은 특히 사용자 상호 작용과 함께 AI 에이전트 자체의 예상되는 작업 및 결정 지점에 중점을 둡니다. 이는 잠재적인 위험을 사전에 식별하는 데 도움이 됩니다.
방법: 모든 잠재적인 작업, 결정, 외부 시스템 또는 사용자와의 상호 작용을 포함하여 시작부터 완료까지 에이전트 작업의 다양한 단계를 설명하는 시각적 지도를 만듭니다. 매핑할 주요 요소: 상담원 작업: 상담원이 수행하는 특정 작업이나 결정은 무엇입니까? 정보 입력/출력: 에이전트에 필요한 데이터는 무엇이며 에이전트가 생성하거나 전달하는 정보는 무엇입니까? 결정 포인트: 상담원은 어디에서 선택을 하며, 그러한 선택의 기준은 무엇입니까? 사용자 상호 작용 지점: 사용자는 어디에서 입력, 검토 또는 승인 작업을 제공합니까? 실패 지점: 결정적으로 상담원이 지침을 잘못 해석하거나, 잘못된 결정을 내리거나, 잘못된 개체와 상호 작용할 수 있는 구체적인 사례를 식별합니다. 예: 잘못된 수신자(예: 민감한 정보를 잘못된 사람에게 보내기), 당좌 대월(예: 사용 가능한 자금을 초과하는 자동 결제), 의도의 잘못된 해석(예: 모호한 언어로 인해 잘못된 날짜에 항공편 예약).
복구 경로: 에이전트나 사용자는 이러한 오류로부터 어떻게 복구할 수 있습니까? 교정이나 개입을 위해 어떤 메커니즘이 마련되어 있나요?
이 방법의 이점: 에이전트의 운영 흐름에 대한 전체적인 보기를 제공하고 숨겨진 종속성을 찾아내며 부정적인 결과를 예방하거나 완화하기 위한 보호 장치, 오류 처리 및 사용자 개입 지점의 사전 설계를 허용합니다.
시뮬레이션된 오작동 테스트: 이 접근 방식은 AI 에이전트가 실패하거나 기대에서 벗어날 때 시스템을 스트레스 테스트하고 사용자 반응을 관찰하도록 설계되었습니다. 불리한 상황에서 신뢰 회복과 감정적 반응을 이해하는 것입니다.
방법: 통제된 연구실 연구에서 에이전트가 실수를 하거나 명령을 잘못 해석하거나 예기치 않게 행동하는 시나리오를 의도적으로 도입합니다. 시뮬레이션할 "잘못된 행동" 유형: 명령잘못된 해석: 상담사가 사용자가 의도한 것과 약간 다른 작업을 수행합니다(예: 하나가 아닌 두 개의 항목 주문). 정보 과부하/과소부하: 에이전트가 관련 없는 정보를 너무 많이 제공하거나 중요한 세부 정보가 충분하지 않습니다. 원치 않는 행동: 에이전트는 사용자가 명시적으로 원하지 않거나 기대하지 않은 행동을 취합니다(예: 승인 없이 주식 구매). 시스템 오류: 에이전트가 충돌하거나 응답하지 않거나 오류 메시지를 표시합니다. 윤리적 딜레마: 에이전트는 윤리적 의미를 지닌 결정을 내립니다(예: 예상치 못한 측정항목을 기반으로 한 작업의 우선순위를 다른 작업보다 우선시함).
관찰 초점: 사용자 반응: 사용자는 어떻게 감정적으로 반응합니까(좌절, 분노, 혼란, 신뢰 상실)? 복구 시도: 에이전트의 동작을 수정하거나 해당 작업을 취소하기 위해 사용자는 어떤 단계를 수행합니까? 신뢰 회복 메커니즘: 시스템에 내장된 복구 또는 피드백 메커니즘이 신뢰 회복에 도움이 됩니까? 사용자는 오류에 대해 어떻게 알고 싶어합니까? 정신 모델 전환: 잘못된 행동으로 인해 상담원의 능력이나 한계에 대한 사용자의 이해가 바뀌나요?
이 방법의 이점: 오류 복구, 피드백 및 사용자 제어와 관련된 설계 격차를 식별하는 데 중요합니다. 이는 에이전트 오류에 대한 복원력이 있는 사용자의 방법과 신뢰를 유지하거나 재구축하는 데 필요한 것이 무엇인지에 대한 통찰력을 제공하여 더욱 강력하고 관용적인 에이전트 시스템으로 이어집니다.
이러한 연구 방법론을 통합함으로써 UX 실무자는 단순히 에이전트 시스템을 사용 가능하게 만드는 것 이상으로 시스템을 신뢰할 수 있고 제어 가능하며 책임 있게 만들 수 있으며 사용자와 AI 에이전트 간의 긍정적이고 생산적인 관계를 조성할 수 있습니다. 에이전트 AI를 효과적으로 탐색하는 데 관련된 유일한 방법은 아닙니다. 다른 많은 방법이 존재하지만 가까운 시일 내에 실무자들이 가장 쉽게 이용할 수 있는 방법입니다. 나는 이전에 조금 더 발전된 개념 테스트 방법인 오즈의 마법사 방법을 다루었습니다. 이 방법은 에이전트 AI 개념을 탐색하는 데 유용한 도구이기도 합니다. 연구 방법론의 윤리적 고려 사항 에이전트 AI를 연구할 때, 특히 잘못된 행동이나 오류를 시뮬레이션할 때 윤리적 고려 사항을 고려해야 합니다. 제가 Smashing Magazine에 쓴 기사, UX 디자인 연구소의 지침, Inclusive Design Toolkit의 이 페이지를 포함하여 윤리적인 UX 연구에 초점을 맞춘 출판물이 많이 있습니다. Agentic AI의 주요 지표 에이전트 AI 시스템의 성능과 안정성을 효과적으로 평가하려면 포괄적인 주요 지표 세트가 필요합니다. 이러한 지표는 사용자 신뢰, 시스템 정확성 및 전반적인 사용자 경험에 대한 통찰력을 제공합니다. 이러한 지표를 추적함으로써 개발자와 설계자는 개선이 필요한 영역을 식별하고 AI 에이전트가 안전하고 효율적으로 작동하는지 확인할 수 있습니다. 1. 개입률 자율 에이전트의 경우 침묵으로 성공을 측정합니다. 에이전트가 작업을 실행하고 사용자가 설정된 기간(예: 24시간) 내에 작업을 개입하거나 취소하지 않으면 이를 수락으로 간주합니다. 우리는 개입 비율을 추적합니다. 인간이 에이전트를 중지하거나 수정하기 위해 얼마나 자주 개입합니까? 높은 개입률은 신뢰나 논리의 불일치를 나타냅니다. 2. 작업 1,000개당 의도하지 않은 작업 빈도 이 중요한 측정항목은 완료된 작업 1,000개당 정규화되어 사용자가 원하지 않거나 예상하지 않은 AI 에이전트가 수행한 작업 수를 정량화합니다. 의도하지 않은 행동의 빈도가 낮다는 것은 사용자 의도를 정확하게 해석하고 정의된 경계 내에서 작동하는 잘 정렬된 AI를 의미합니다. 이 지표는 AI의 상황 이해, 명령을 명확하게 하는 능력, 안전 프로토콜의 견고성과 밀접하게 연관되어 있습니다. 3. 롤백 또는 실행 취소 비율 이 지표는 AI가 수행한 작업을 사용자가 취소하거나 실행 취소해야 하는 빈도를 추적합니다. 높은 롤백 비율은 AI가 빈번한 오류를 범하거나, 지침을 잘못 해석하거나, 사용자 기대에 부응하지 않는 방식으로 행동하고 있음을 나타냅니다. 이러한 롤백의 원인을 분석하면 AI 알고리즘을 개선하고 사용자 선호도를 이해하며 바람직한 결과를 예측하는 능력에 대한 귀중한 피드백을 얻을 수 있습니다. 이유를 이해하려면 실행 취소 작업에 대한 세부 조사를 구현해야 합니다. 예를 들어, 사용자가 일정 변경을 취소하면 간단한 프롬프트를 통해 "시간이 잘못됐나요? 사람이 잘못됐나요? 아니면 직접 하시겠습니까?"라고 질문할 수 있습니다. 사용자가 자신의 추론에 가장 잘 맞는 옵션을 클릭할 수 있도록 허용합니다. 4. 오류 발생 후 해결 시간이 지표사용자가 AI에 의해 발생한 오류를 수정하거나 AI 시스템 자체가 오류 상태에서 복구하는 데 걸리는 시간을 측정합니다. 해결 시간이 짧다는 것은 사용자의 불만을 완화하고 생산성을 유지할 수 있는 효율적이고 사용자 친화적인 오류 복구 프로세스를 의미합니다. 여기에는 오류 식별의 용이성, 실행 취소 또는 수정 메커니즘의 접근성, AI가 제공하는 오류 메시지의 명확성이 포함됩니다.
이러한 측정항목을 수집하려면 에이전트 작업 ID를 추적하도록 시스템을 계측해야 합니다. 일정 제안, 항공편 예약 등 에이전트가 수행하는 모든 개별 작업은 로그에 유지되는 고유 ID를 생성해야 합니다. 개입률을 측정하기 위해 우리는 즉각적인 사용자 반응을 찾지 않습니다. 우리는 정의된 기간 내에 대응 조치가 없는지 찾습니다. 작업 ID가 오전 9시에 생성되고 인간 사용자가 다음 날 오전 9시까지 해당 특정 ID를 수정하거나 되돌리지 않으면 시스템은 이를 논리적으로 수락됨으로 태그 지정합니다. 이를 통해 적극적인 확인보다는 사용자의 침묵을 기반으로 성공을 수량화할 수 있습니다. 롤백 비율의 경우 컨텍스트가 부족하기 때문에 원시 개수가 충분하지 않습니다. 근본적인 이유를 파악하려면 애플리케이션의 실행 취소 또는 되돌리기 기능에 인터셉트 논리를 구현해야 합니다. 사용자가 에이전트가 시작한 작업을 되돌리면 간단한 미세 설문조사를 트리거합니다. 이는 사용자에게 오류를 실제로 부정확하거나, 맥락이 부족한 것으로 분류하도록 요청하는 간단한 3가지 옵션 모달이거나 작업을 수동으로 처리하기 위한 간단한 기본 설정일 수 있습니다. 이는 정량적 원격 측정과 정성적 통찰력을 결합합니다. 이를 통해 엔지니어링 팀은 손상된 알고리즘과 사용자 기본 설정 불일치를 구별할 수 있습니다. 이러한 지표를 일관되게 추적하고 전체적으로 분석하면 에이전트 AI 시스템의 성능을 평가하기 위한 강력한 프레임워크를 제공하여 제어, 동의 및 책임을 지속적으로 개선할 수 있습니다. 속임수에 대비한 설계 에이전트의 능력이 점점 더 발전함에 따라 우리는 Agentic Sludge라는 새로운 위험에 직면하게 됩니다. 전통적인 슬러지는 구독을 취소하거나 계정을 삭제하기 어렵게 만드는 마찰을 일으킵니다. 작용성 슬러지는 반대로 작용합니다. 이는 결함에 대한 마찰을 제거하여 사용자가 자신의 이익보다는 비즈니스에 이익이 되는 조치에 너무 쉽게 동의하도록 만듭니다. 여행 예약을 지원하는 대리인을 고려해 보세요. 명확한 가드레일이 없으면 시스템은 제휴 항공사나 마진이 더 높은 호텔을 우선시할 수 있습니다. 이 선택을 최적의 경로로 제시합니다. 시스템의 권한을 신뢰하는 사용자는 조사 없이 권장 사항을 수락합니다. 이는 시스템이 편의를 가장하여 수익을 최적화하는 기만적인 패턴을 생성합니다. 잘못 상상된 역량의 위험 속임수는 악의적인 의도에서 비롯된 것이 아닐 수 있습니다. 이는 AI에서 상상된 역량으로 나타나는 경우가 많습니다. 대규모 언어 모델은 정확하지 않은 경우에도 권위 있는 것처럼 들리는 경우가 많습니다. 그들은 확인된 사실과 동일한 확신을 가지고 허위 예약 확인 또는 부정확한 요약을 제시합니다. 사용자는 자연스럽게 이 자신감 있는 어조를 신뢰할 수 있습니다. 이러한 불일치로 인해 시스템 기능과 사용자 기대 사이에 위험한 격차가 발생합니다. 우리는 이러한 격차를 해소할 수 있도록 구체적으로 설계해야 합니다. 에이전트가 작업을 완료하지 못하는 경우 인터페이스는 해당 실패를 명확하게 신호해야 합니다. 시스템이 불확실하다면, 세련된 산문으로 그것을 가리기보다는 불확실성을 표현해야 합니다. 프리미티브를 통한 투명성 슬러지와 환각에 대한 해독제는 출처입니다. 모든 자율적 행동에는 결정의 출처를 설명하는 특정 메타데이터 태그가 필요합니다. 사용자는 결과 뒤에 숨어 있는 논리 체인을 검사할 수 있는 능력이 필요합니다. 이를 달성하려면 기본 요소를 실용적인 답변으로 변환해야 합니다. 소프트웨어 엔지니어링에서 프리미티브는 에이전트가 수행하는 정보 또는 작업의 핵심 단위를 나타냅니다. 엔지니어에게는 이것이 API 호출이나 논리 게이트처럼 보입니다. 사용자에게는 명확한 설명으로 나타나야 합니다. 설계상의 과제는 이러한 기술 단계를 사람이 읽을 수 있는 근거로 매핑하는 것입니다. 상담원이 특정 항공편을 추천하는 경우 사용자는 그 이유를 알아야 합니다. 인터페이스는 일반적인 제안 뒤에 숨길 수 없습니다. 기본 기본 요소인 논리: Cheapest_Direct_Flight 또는 논리: Partner_Airline_Priority를 노출해야 합니다. 그림 4는 이러한 번역 흐름을 보여줍니다. 우리는 원시 시스템 프리미티브(실제 코드 로직)를 가져와 이를 사용자 측 문자열에 매핑합니다. 예를 들어 회의 일정을 확인하는 기본 요소는 다음과 같은 명확한 진술이 됩니다. 나는 오후 4시를 제안했습니다.회의. 이러한 수준의 투명성은 상담원의 행동이 논리적이고 유익하게 보이도록 보장합니다. 이를 통해 사용자는 상담원이 최선의 이익을 위해 행동했는지 확인할 수 있습니다. 기본 요소를 노출함으로써 블랙박스를 유리 상자로 변환하여 사용자가 자신의 디지털 생활에 대한 최종 권한을 유지할 수 있도록 보장합니다.
디자인을 위한 무대 설정 에이전트 시스템을 구축하려면 새로운 수준의 심리적, 행동적 이해가 필요합니다. 이를 통해 우리는 기존의 사용성 테스트를 넘어 신뢰, 동의 및 책임의 영역으로 이동하게 됩니다. 정신적 모델을 조사하는 것부터 잘못된 행동을 시뮬레이션하고 새로운 지표를 설정하는 것까지 우리가 논의한 연구 방법은 필요한 기반을 제공합니다. 이러한 관행은 자율 시스템이 실패할 수 있는 위치를 사전에 식별하고, 더 중요한 것은 실패할 때 사용자-에이전트 관계를 복구하는 방법을 파악하는 데 필수적인 도구입니다. 에이전트 AI로의 전환은 사용자-시스템 관계를 재정의하는 것입니다. 우리는 더 이상 단순히 명령에 응답하는 도구를 설계하지 않습니다. 우리는 우리를 대신하여 행동하는 파트너를 위해 설계하고 있습니다. 이로 인해 설계의 중요성이 효율성과 사용 편의성에서 투명성, 예측 가능성 및 제어로 바뀌었습니다. AI가 최종 클릭 없이 항공편을 예약하거나 주식을 거래할 수 있는 경우 "출입로"와 "출로"의 디자인이 가장 중요합니다. 사용자가 운전대를 넘겨준 경우에도 운전석에 앉아 있는 듯한 느낌을 받을 수 있도록 하는 것이 우리의 책임입니다. 이 새로운 현실은 또한 UX 연구원의 역할을 향상시킵니다. 우리는 사용자 신뢰의 관리인이 되어 엔지니어 및 제품 관리자와 협력하여 에이전트 자율성의 가드레일을 정의하고 테스트합니다. 연구자로서의 역할을 넘어 우리는 개발 프로세스 내에서 사용자 제어, 투명성 및 윤리적 보호 조치를 옹호합니다. 기본 요소를 실용적인 질문으로 변환하고 최악의 시나리오를 시뮬레이션함으로써 강력하고 안전한 강력한 시스템을 구축할 수 있습니다. 이 기사에서는 에이전트 AI 연구의 "무엇"과 "이유"에 대해 설명했습니다. 이는 우리의 기존 툴킷이 충분하지 않으며 새롭고 미래 지향적인 방법론을 채택해야 함을 보여주었습니다. 다음 기사에서는 이러한 기반을 바탕으로 에이전트의 유틸리티를 사용자에게 투명하게 만드는 특정 설계 패턴과 조직적 관행을 제공하여 에이전트 AI의 성능을 자신감과 통제력으로 활용할 수 있도록 보장합니다. UX의 미래는 시스템을 신뢰할 수 있게 만드는 것입니다. 에이전트 AI에 대한 추가 이해를 위해 다음 리소스를 탐색할 수 있습니다.
Agentic AI에 대한 Google AI 블로그 AI 에이전트에 대한 Microsoft의 연구