Agentic AI sẵn sàng chuyển đổi trải nghiệm của khách hàng và hiệu quả hoạt động, đòi hỏi một cách tiếp cận chiến lược mới từ ban lãnh đạo. Sự phát triển này trong trí tuệ nhân tạo trao quyền cho các hệ thống lập kế hoạch, thực hiện và kiên trì thực hiện các nhiệm vụ, vượt ra ngoài các khuyến nghị đơn giản để hành động chủ động. Đối với các nhóm UX, người quản lý sản phẩm và giám đốc điều hành, hiểu được sự thay đổi này là rất quan trọng để mở ra các cơ hội đổi mới, hợp lý hóa quy trình làm việc và xác định lại cách công nghệ phục vụ con người. Rất dễ nhầm lẫn giữa Agentic AI với Robotic Process Automation (RPA), là công nghệ tập trung vào các tác vụ dựa trên quy tắc được thực hiện trên máy tính. Sự khác biệt nằm ở sự cứng nhắc so với lý luận. RPA rất xuất sắc trong việc tuân theo một kịch bản nghiêm ngặt: nếu X xảy ra, hãy thực hiện Y. Nó bắt chước bàn tay con người. AI tác nhân bắt chước suy luận của con người. Nó không tuân theo một kịch bản tuyến tính; nó tạo ra một cái. Hãy xem xét một quy trình tuyển dụng. Bot RPA có thể quét sơ yếu lý lịch và tải nó lên cơ sở dữ liệu. Nó thực hiện một nhiệm vụ lặp đi lặp lại một cách hoàn hảo. Hệ thống Agentic xem xét sơ yếu lý lịch, thông báo ứng viên liệt kê một chứng chỉ cụ thể, tham chiếu chéo với yêu cầu của khách hàng mới và quyết định soạn thảo một email tiếp cận được cá nhân hóa nêu bật phù hợp. RPA thực hiện một kế hoạch được xác định trước; Agentic AI xây dựng kế hoạch dựa trên một mục tiêu. Quyền tự chủ này tách biệt các tác nhân khỏi các công cụ dự đoán mà chúng tôi đã sử dụng trong thập kỷ qua. Một ví dụ khác là quản lý xung đột trong cuộc họp. Mô hình dự đoán được tích hợp vào lịch của bạn có thể phân tích lịch họp của bạn và lịch trình của đồng nghiệp. Sau đó, nó có thể gợi ý những xung đột tiềm ẩn, chẳng hạn như hai cuộc họp quan trọng được lên lịch cùng lúc hoặc một cuộc họp được lên lịch khi một người tham gia chính đang đi nghỉ. Nó cung cấp cho bạn thông tin và đánh dấu các vấn đề tiềm ẩn nhưng bạn có trách nhiệm thực hiện hành động. Trong cùng một kịch bản, một AI tác nhân sẽ không chỉ đề xuất những xung đột cần tránh. Khi xác định xung đột với người tham gia chính, tác nhân có thể hành động bằng cách:

Kiểm tra sự sẵn có của tất cả những người tham gia cần thiết. Xác định các khoảng thời gian thay thế phù hợp với mọi người. Gửi lời mời họp mới được đề xuất cho tất cả những người tham dự. Nếu xung đột xảy ra với một người tham gia bên ngoài, người đại diện có thể soạn thảo và gửi email giải thích sự cần thiết phải lên lịch lại và đưa ra thời gian thay thế. Cập nhật lịch của bạn và lịch của đồng nghiệp với các chi tiết cuộc họp mới sau khi được xác nhận.

AI tác nhân này hiểu mục tiêu (giải quyết xung đột trong cuộc họp), lên kế hoạch cho các bước (kiểm tra tính khả dụng, tìm giải pháp thay thế, gửi lời mời), thực hiện các bước đó và tồn tại cho đến khi xung đột được giải quyết, tất cả đều có sự can thiệp trực tiếp tối thiểu của người dùng. Điều này thể hiện sự khác biệt “tác nhân”: hệ thống thực hiện các bước chủ động cho người dùng, thay vì chỉ cung cấp thông tin cho người dùng. Các hệ thống AI tác nhân hiểu mục tiêu, lên kế hoạch cho một loạt các bước để đạt được mục tiêu đó, thực hiện các bước đó và thậm chí điều chỉnh nếu có sự cố xảy ra. Hãy nghĩ về nó giống như một trợ lý kỹ thuật số chủ động. Công nghệ cơ bản thường kết hợp các mô hình ngôn ngữ lớn (LLM) để hiểu và suy luận, với các thuật toán lập kế hoạch chia nhỏ các nhiệm vụ phức tạp thành các hành động có thể quản lý được. Các tác nhân này có thể tương tác với nhiều công cụ, API và thậm chí cả các mô hình AI khác để hoàn thành mục tiêu của mình và quan trọng là chúng có thể duy trì trạng thái liên tục, nghĩa là chúng ghi nhớ các hành động trước đó và tiếp tục làm việc hướng tới mục tiêu theo thời gian. Điều này làm cho chúng khác biệt về cơ bản với AI tạo sinh thông thường, vốn thường hoàn thành một yêu cầu duy nhất và sau đó đặt lại. Một phân loại đơn giản về hành vi tác nhân Chúng ta có thể phân loại hành vi của tác nhân thành bốn chế độ tự chủ riêng biệt. Mặc dù những điều này thường trông giống như một sự tiến triển nhưng chúng hoạt động như các chế độ hoạt động độc lập. Người dùng có thể tin tưởng một đại lý sẽ tự động hành động để lập lịch nhưng vẫn giữ nó ở “chế độ đề xuất” cho các giao dịch tài chính. Chúng tôi rút ra các cấp độ này bằng cách điều chỉnh các tiêu chuẩn ngành dành cho xe tự lái (cấp độ SAE) cho phù hợp với bối cảnh trải nghiệm người dùng kỹ thuật số. Quan sát và đề xuất Tác nhân này hoạt động như một người giám sát. Nó phân tích các luồng dữ liệu và gắn cờ các điểm bất thường hoặc cơ hội nhưng không thực hiện hành động nào. Sự khác biệt Không giống như cấp độ tiếp theo, tác nhân không tạo ra kế hoạch phức tạp. Nó chỉ ra một vấn đề. Ví dụMột nhân viên DevOps nhận thấy CPU máy chủ tăng đột biến và cảnh báo cho kỹ sư đang trực. Nó không biết làm thế nào hoặc cố gắng sửa nó, nhưng nó biết có điều gì đó không ổn. Ý nghĩa đối với việc thiết kế và giám sát Ở cấp độ này,thiết kế và giám sát phải ưu tiên các thông báo rõ ràng, không xâm phạm và một quy trình được xác định rõ ràng để người dùng hành động theo đề xuất. Trọng tâm là trao quyền cho người dùng thông tin kịp thời và phù hợp mà không cần kiểm soát. Những người thực hành UX nên tập trung vào việc đưa ra các đề xuất rõ ràng và dễ hiểu, trong khi người quản lý sản phẩm cần đảm bảo hệ thống cung cấp giá trị mà không khiến người dùng choáng ngợp. Lập kế hoạch và đề xuất Tác nhân xác định mục tiêu và tạo ra chiến lược gồm nhiều bước để đạt được mục tiêu đó. Nó trình bày kế hoạch đầy đủ để xem xét con người. Sự khác biệt Tác nhân đóng vai trò như một nhà chiến lược. Nó không thực thi; nó chờ phê duyệt trên toàn bộ cách tiếp cận. Ví dụ Tác nhân DevOps tương tự nhận thấy mức tăng đột biến của CPU, phân tích nhật ký và đề xuất kế hoạch khắc phục:

Tăng thêm hai trường hợp. Khởi động lại cân bằng tải. Lưu trữ nhật ký cũ.

Con người xem xét logic và nhấp vào “Phê duyệt kế hoạch”. Ý nghĩa đối với thiết kế và giám sátĐối với các tác nhân lập kế hoạch và đề xuất, thiết kế phải đảm bảo các kế hoạch được đề xuất dễ hiểu và người dùng có những cách trực quan để sửa đổi hoặc từ chối chúng. Giám sát là rất quan trọng trong việc giám sát chất lượng của các đề xuất và logic lập kế hoạch của đại lý. Những người thực hành UX nên thiết kế hình ảnh trực quan rõ ràng về các kế hoạch được đề xuất và người quản lý sản phẩm phải thiết lập quy trình đánh giá và phê duyệt rõ ràng. Hành động với sự xác nhận Tác nhân hoàn thành tất cả công việc chuẩn bị và đặt hành động cuối cùng ở trạng thái dàn dựng. Nó giữ cửa mở một cách hiệu quả, chờ đợi một cái gật đầu. Sự khác biệt Điều này khác với “Lập kế hoạch và đề xuất” vì công việc đã được hoàn thành và dàn dựng. Nó làm giảm ma sát. Người dùng xác nhận kết quả chứ không phải chiến lược. Ví dụMột đại lý tuyển dụng soạn thảo năm lời mời phỏng vấn, tìm thời gian mở trên lịch và tạo các sự kiện trên lịch. Nó trình bày một nút “Gửi tất cả”. Người dùng cung cấp ủy quyền cuối cùng để kích hoạt hành động bên ngoài. Ý nghĩa đối với thiết kế và giám sátKhi các tác nhân hành động có xác nhận, thiết kế phải cung cấp các bản tóm tắt minh bạch và ngắn gọn về hành động dự kiến, nêu rõ các hậu quả tiềm ẩn. Việc giám sát cần xác minh rằng quy trình xác nhận có hiệu quả và người dùng không bị yêu cầu phê duyệt các hành động một cách mù quáng. Những người thực hành UX nên thiết kế các lời nhắc xác nhận rõ ràng và cung cấp tất cả thông tin cần thiết, đồng thời người quản lý sản phẩm nên ưu tiên một quy trình kiểm tra chặt chẽ cho tất cả các hành động đã được xác nhận. Hành động tự chủ Tác nhân thực hiện các nhiệm vụ một cách độc lập trong phạm vi ranh giới được xác định. Sự khác biệtNgười dùng xem lại lịch sử của hành động chứ không phải bản thân hành động đó. Ví dụNgười đại diện tuyển dụng nhận thấy xung đột, chuyển cuộc phỏng vấn sang vị trí dự phòng, cập nhật ứng viên và thông báo cho người quản lý tuyển dụng. Con người chỉ nhìn thấy một thông báo: Cuộc phỏng vấn được dời lại sang thứ Ba. Ý nghĩa đối với thiết kế và giám sátĐối với các tác nhân tự trị, thiết kế cần thiết lập các ranh giới rõ ràng được phê duyệt trước và cung cấp các công cụ giám sát mạnh mẽ. Việc giám sát yêu cầu đánh giá liên tục về hiệu suất của tác nhân trong các ranh giới này, nhu cầu quan trọng về ghi nhật ký mạnh mẽ, cơ chế ghi đè rõ ràng và các công tắc tắt do người dùng xác định để duy trì quyền kiểm soát và sự tin cậy của người dùng. Những người thực hành UX nên tập trung vào việc thiết kế bảng điều khiển hiệu quả để giám sát hành vi của tác nhân tự trị và người quản lý sản phẩm phải đảm bảo áp dụng các nguyên tắc quản trị và đạo đức rõ ràng.

Chúng ta hãy xem xét một ứng dụng thực tế trong công nghệ nhân sự để xem các chế độ này hoạt động như thế nào. Hãy xem xét một “Đại lý điều phối phỏng vấn” được thiết kế để xử lý công việc hậu cần cho việc tuyển dụng.

Trong Chế độ Đề xuất, Người đại diện thông báo rằng người phỏng vấn đã được đăng ký hai lần. Nó nêu bật xung đột trên bảng điều khiển của nhà tuyển dụng: “Cảnh báo: Sarah đã được đặt lịch gấp đôi cho cuộc phỏng vấn lúc 2 giờ chiều.” Ở Chế độ lập kế hoạch, nhân viên phân tích lịch của Sarah và tình trạng sẵn sàng của ứng viên. Nó đưa ra một giải pháp: "Tôi khuyên bạn nên chuyển cuộc phỏng vấn sang thứ Năm lúc 10 giờ sáng. Điều này đòi hỏi phải chuyển cuộc phỏng vấn 1: 1 của Sarah với người quản lý của cô ấy." Nhà tuyển dụng xem xét logic này. Ở Chế độ xác nhận, nhân viên sẽ soạn thảo email cho ứng viên và người quản lý. Nó điền vào các lời mời lịch. Nhà tuyển dụng nhìn thấy một bản tóm tắt: "Sẵn sàng dời lịch sang thứ Năm. Gửi thông tin cập nhật?" Nhà tuyển dụng nhấp vào “Xác nhận”. Ở Chế độ tự trị Tác nhân xử lý xung đột ngay lập tức. Nó tôn trọng một quy tắc đặt trước: “Luôn ưu tiên phỏng vấn ứng viên hơn là 1:1 nội bộ”. Nó di chuyển cuộc họp và gửi thông báo. Nhà tuyển dụng nhìn thấy mục nhật ký: “Đã giải quyếtlên lịch xung đột cho Ứng viên B.”

Sơ lược về nghiên cứu: Nghiên cứu cái gì và như thế nào Phát triển AI tác nhân hiệu quả đòi hỏi một cách tiếp cận nghiên cứu khác biệt so với phần mềm truyền thống hoặc thậm chí là AI tổng hợp. Bản chất tự chủ của các tác nhân AI, khả năng đưa ra quyết định và tiềm năng hành động chủ động của chúng đòi hỏi các phương pháp chuyên biệt để hiểu được kỳ vọng của người dùng, lập bản đồ các hành vi phức tạp của tác nhân và dự đoán những thất bại tiềm ẩn. Tài liệu nghiên cứu sau đây phác thảo các phương pháp chính để đo lường và đánh giá các khía cạnh độc đáo này của AI tác nhân. Phỏng vấn mô hình tâm thần Những cuộc phỏng vấn này khám phá những quan niệm định sẵn của người dùng về cách ứng xử của một tác nhân AI. Thay vì chỉ hỏi người dùng muốn gì, trọng tâm là tìm hiểu mô hình nội bộ của họ về khả năng và giới hạn của tác nhân. Chúng ta nên tránh dùng từ “người đại diện” với người tham gia. Nó mang hành lý khoa học viễn tưởng hoặc là một thuật ngữ quá dễ bị nhầm lẫn với một tác nhân con người cung cấp hỗ trợ hoặc dịch vụ. Thay vào đó, hãy sắp xếp cuộc thảo luận xoay quanh “trợ lý” hoặc “hệ thống”. Chúng tôi cần khám phá nơi người dùng vạch ra ranh giới giữa tự động hóa hữu ích và kiểm soát xâm nhập.

Phương pháp: Yêu cầu người dùng mô tả, vẽ hoặc thuật lại những tương tác dự kiến của họ với tác nhân trong các tình huống giả định khác nhau. Thăm dò chính (phản ánh nhiều ngành công nghiệp): Để hiểu ranh giới của việc tự động hóa mong muốn và những lo lắng tiềm ẩn xung quanh việc tự động hóa quá mức, hãy hỏi: Nếu chuyến bay của bạn bị hủy, bạn muốn hệ thống tự động thực hiện những gì? Điều gì sẽ khiến bạn lo lắng nếu nó làm điều đó mà không có sự hướng dẫn rõ ràng của bạn?

Để khám phá sự hiểu biết của người dùng về các quy trình nội bộ của tổng đài viên và thông tin liên lạc cần thiết, hãy hỏi: Hãy tưởng tượng một trợ lý kỹ thuật số đang quản lý ngôi nhà thông minh của bạn. Nếu một gói hàng được giao, bạn hình dung sẽ thực hiện những bước nào và bạn mong đợi nhận được thông tin gì?

Để khám phá những kỳ vọng xung quanh quyền kiểm soát và sự đồng ý trong một quy trình gồm nhiều bước, hãy hỏi: Nếu bạn yêu cầu trợ lý kỹ thuật số của mình lên lịch một cuộc họp, bạn hình dung nó sẽ thực hiện những bước nào? Bạn muốn được tư vấn hoặc đưa ra lựa chọn ở điểm nào?

Lợi ích của phương pháp: Tiết lộ các giả định tiềm ẩn, nêu bật các lĩnh vực mà hành vi được lên kế hoạch của tác nhân có thể khác với mong đợi của người dùng và cung cấp thông tin cho việc thiết kế các cơ chế kiểm soát và phản hồi phù hợp.

Lập bản đồ hành trình của đại lý: Tương tự như lập bản đồ hành trình người dùng truyền thống, bản đồ hành trình tác nhân đặc biệt tập trung vào các hành động dự kiến và điểm quyết định của chính tác nhân AI, bên cạnh sự tương tác của người dùng. Điều này giúp chủ động xác định những cạm bẫy tiềm ẩn.

Phương pháp: Tạo bản đồ trực quan phác thảo các giai đoạn hoạt động khác nhau của tổng đài viên, từ khi bắt đầu đến khi hoàn thành, bao gồm tất cả các hành động, quyết định và tương tác tiềm năng với hệ thống hoặc người dùng bên ngoài. Các yếu tố chính để lập bản đồ: Hành động của tác nhân: Tác nhân thực hiện những nhiệm vụ hoặc quyết định cụ thể nào? Thông tin đầu vào/đầu ra: Tác nhân cần dữ liệu gì và nó tạo ra hoặc truyền đạt thông tin gì? Điểm quyết định: Tác nhân đưa ra lựa chọn ở đâu và tiêu chí cho những lựa chọn đó là gì? Điểm tương tác của người dùng: Người dùng cung cấp thông tin đầu vào, đánh giá hoặc phê duyệt hành động ở đâu? Điểm thất bại: Điều quan trọng là xác định các trường hợp cụ thể trong đó nhân viên có thể hiểu sai hướng dẫn, đưa ra quyết định không chính xác hoặc tương tác với sai thực thể. Ví dụ: Người nhận không chính xác (ví dụ: gửi thông tin nhạy cảm đến nhầm người), thấu chi (ví dụ: khoản thanh toán tự động vượt quá số tiền khả dụng), hiểu sai mục đích (ví dụ: đặt chuyến bay sai ngày do ngôn ngữ không rõ ràng).

Đường dẫn khôi phục: Làm thế nào tác nhân hoặc người dùng có thể khôi phục sau những lỗi này? Những cơ chế nào được áp dụng để điều chỉnh hoặc can thiệp?

Lợi ích của phương pháp: Cung cấp cái nhìn toàn diện về quy trình hoạt động của tác nhân, phát hiện các phần phụ thuộc ẩn và cho phép chủ động thiết kế các biện pháp bảo vệ, xử lý lỗi và các điểm can thiệp của người dùng để ngăn chặn hoặc giảm thiểu kết quả tiêu cực.

Kiểm tra hành vi sai trái mô phỏng: Cách tiếp cận này được thiết kế để kiểm tra sức chịu đựng của hệ thống và quan sát phản ứng của người dùng khi tác nhân AI gặp lỗi hoặc đi chệch khỏi mong đợi. Đó là về sự hiểu biết về việc sửa chữa niềm tin và phản ứng cảm xúc trong những tình huống bất lợi.

Phương pháp: Trong các nghiên cứu trong phòng thí nghiệm có kiểm soát, cố tình đưa ra các tình huống trong đó tác nhân mắc lỗi, hiểu sai lệnh hoặc hành xử bất ngờ. Các loại “Hành vi sai trái” cần mô phỏng: LệnhGiải thích sai: Tác nhân thực hiện một hành động hơi khác so với những gì người dùng dự định (ví dụ: đặt hàng hai mặt hàng thay vì một). Quá tải/Dưới tải thông tin: Tác nhân cung cấp quá nhiều thông tin không liên quan hoặc không đủ chi tiết quan trọng. Hành động không được yêu cầu: Đại lý thực hiện một hành động mà người dùng rõ ràng không muốn hoặc không mong đợi (ví dụ: mua cổ phiếu mà không được phê duyệt). Lỗi hệ thống: Tác nhân gặp sự cố, không phản hồi hoặc cung cấp thông báo lỗi. Vấn đề khó khăn về đạo đức: Người đại diện đưa ra quyết định có ý nghĩa về mặt đạo đức (ví dụ: ưu tiên một nhiệm vụ này hơn một nhiệm vụ khác dựa trên một số liệu không lường trước được).

Trọng tâm quan sát: Phản ứng của người dùng: Người dùng phản ứng về mặt cảm xúc như thế nào (thất vọng, tức giận, bối rối, mất niềm tin)? Nỗ lực khôi phục: Người dùng thực hiện những bước nào để sửa hành vi của tác nhân hoặc hoàn tác hành động của tác nhân đó? Cơ chế sửa chữa niềm tin: Cơ chế phản hồi hoặc phục hồi tích hợp của hệ thống có giúp khôi phục niềm tin không? Người dùng muốn được thông báo về lỗi như thế nào? Thay đổi mô hình tinh thần: Hành vi sai trái có làm thay đổi sự hiểu biết của người dùng về khả năng hoặc giới hạn của tác nhân không?

Lợi ích của phương pháp: Rất quan trọng để xác định các lỗ hổng trong thiết kế liên quan đến việc khắc phục lỗi, phản hồi và kiểm soát người dùng. Nó cung cấp thông tin chi tiết về khả năng phục hồi của người dùng trước các lỗi tác nhân và những gì cần thiết để duy trì hoặc xây dựng lại niềm tin, dẫn đến các hệ thống tác nhân mạnh mẽ và dễ tha thứ hơn.

Bằng cách tích hợp các phương pháp nghiên cứu này, những người thực hành UX có thể không chỉ đơn giản là làm cho các hệ thống tác nhân có thể sử dụng được mà còn làm cho chúng trở nên đáng tin cậy, có thể kiểm soát và chịu trách nhiệm, thúc đẩy mối quan hệ tích cực và hiệu quả giữa người dùng và tác nhân AI của họ. Lưu ý rằng đây không phải là phương pháp duy nhất liên quan đến việc khám phá AI tác nhân một cách hiệu quả. Có nhiều phương pháp khác nhưng đây là những phương pháp dễ tiếp cận nhất đối với những người thực hành trong thời gian ngắn. Trước đây tôi đã trình bày về phương pháp Wizard of Oz, một phương pháp thử nghiệm khái niệm nâng cao hơn một chút, đây cũng là một công cụ có giá trị để khám phá các khái niệm AI tác nhân. Những cân nhắc về đạo đức trong phương pháp nghiên cứu Khi nghiên cứu tác nhân AI, đặc biệt là khi mô phỏng hành vi sai trái hoặc sai sót, yếu tố đạo đức là điều cần phải tính đến. Có nhiều ấn phẩm tập trung vào nghiên cứu UX có đạo đức, bao gồm một bài báo tôi viết cho Tạp chí Smashing, những hướng dẫn này của Viện Thiết kế UX và trang này từ Bộ công cụ Thiết kế Toàn diện. Các số liệu chính cho AI tác nhân Bạn sẽ cần một bộ số liệu chính toàn diện để đánh giá hiệu quả hiệu suất và độ tin cậy của các hệ thống AI tự động. Các số liệu này cung cấp thông tin chuyên sâu về độ tin cậy của người dùng, độ chính xác của hệ thống và trải nghiệm tổng thể của người dùng. Bằng cách theo dõi các chỉ số này, nhà phát triển và nhà thiết kế có thể xác định các lĩnh vực cần cải thiện và đảm bảo rằng các tác nhân AI hoạt động an toàn và hiệu quả. 1. Tỷ lệ can thiệpĐối với các đại lý tự chủ, chúng tôi đo lường thành công bằng sự im lặng. Nếu một tác nhân thực thi một tác vụ và người dùng không can thiệp hoặc đảo ngược hành động đó trong khoảng thời gian đã đặt (ví dụ: 24 giờ), thì chúng tôi coi đó là sự chấp nhận. Chúng tôi theo dõi Tỷ lệ can thiệp: tần suất con người nhảy vào để ngăn chặn hoặc sửa chữa tác nhân? Tỷ lệ can thiệp cao báo hiệu sự sai lệch về lòng tin hoặc logic. 2. Tần suất các hành động không mong muốn trên 1.000 nhiệm vụ Số liệu quan trọng này định lượng số lượng hành động được thực hiện bởi tác nhân AI mà người dùng không mong muốn hoặc mong đợi, được chuẩn hóa trên 1.000 nhiệm vụ đã hoàn thành. Tần suất xảy ra các hành động ngoài ý muốn thấp biểu thị AI được điều chỉnh tốt, diễn giải chính xác ý định của người dùng và hoạt động trong các ranh giới xác định. Số liệu này gắn chặt với sự hiểu biết về bối cảnh của AI, khả năng phân biệt các lệnh và tính mạnh mẽ của các giao thức an toàn. 3. Tỷ lệ khôi phục hoặc hoàn tác Số liệu này theo dõi tần suất người dùng cần đảo ngược hoặc hoàn tác một hành động do AI thực hiện. Tỷ lệ khôi phục cao cho thấy AI thường xuyên mắc lỗi, hiểu sai hướng dẫn hoặc hành động theo cách không phù hợp với mong đợi của người dùng. Việc phân tích lý do đằng sau những lần quay trở lại này có thể cung cấp phản hồi có giá trị để cải thiện thuật toán của AI, hiểu biết về sở thích của người dùng và khả năng dự đoán kết quả mong muốn. Để hiểu lý do, bạn phải triển khai một cuộc khảo sát vi mô về hành động hoàn tác. Ví dụ: khi người dùng hủy bỏ thay đổi về lịch trình, một lời nhắc đơn giản có thể hỏi: "Sai thời gian? Sai người? Hay bạn chỉ muốn tự mình thực hiện việc đó?" Cho phép người dùng nhấp vào tùy chọn phù hợp nhất với lý luận của họ. 4. Thời gian giải quyết sau khi xảy ra lỗiSố liệu nàyđo khoảng thời gian cần thiết để người dùng sửa lỗi do AI gây ra hoặc để chính hệ thống AI khôi phục sau trạng thái sai sót. Thời gian giải quyết ngắn cho thấy quy trình khắc phục lỗi hiệu quả và thân thiện với người dùng, có thể giảm thiểu sự thất vọng của người dùng và duy trì năng suất. Điều này bao gồm việc dễ dàng xác định lỗi, khả năng tiếp cận các cơ chế hoàn tác hoặc sửa lỗi cũng như tính rõ ràng của các thông báo lỗi do AI cung cấp.

Việc thu thập các số liệu này yêu cầu trang bị hệ thống của bạn để theo dõi ID hành động của tác nhân. Mọi hành động riêng biệt mà tổng đài viên thực hiện, chẳng hạn như đề xuất lịch trình hoặc đặt chuyến bay, phải tạo một ID duy nhất tồn tại trong nhật ký. Để đo lường Tỷ lệ can thiệp, chúng tôi không tìm kiếm phản ứng ngay lập tức của người dùng. Chúng tôi tìm kiếm sự vắng mặt của hành động phản đối trong một khoảng thời gian xác định. Nếu ID hành động được tạo lúc 9:00 sáng và không có người dùng nào sửa đổi hoặc hoàn nguyên ID cụ thể đó trước 9:00 sáng ngày hôm sau, thì hệ thống sẽ gắn thẻ ID đó một cách hợp lý là Đã chấp nhận. Điều này cho phép chúng tôi định lượng thành công dựa trên sự im lặng của người dùng thay vì xác nhận tích cực. Đối với Tỷ lệ hoàn vốn, số lượng thô không đủ vì chúng thiếu ngữ cảnh. Để nắm bắt được lý do cơ bản, bạn phải triển khai logic chặn trên các chức năng Hoàn tác hoặc Hoàn nguyên của ứng dụng. Khi người dùng đảo ngược hành động do tổng đài viên khởi tạo, hãy kích hoạt một cuộc khảo sát vi mô nhẹ. Đây có thể là một phương thức ba tùy chọn đơn giản yêu cầu người dùng phân loại lỗi là không chính xác về mặt thực tế, thiếu ngữ cảnh hoặc một ưu tiên đơn giản là xử lý tác vụ theo cách thủ công. Điều này kết hợp phép đo từ xa định lượng với cái nhìn sâu sắc về chất lượng. Nó cho phép các nhóm kỹ thuật phân biệt giữa thuật toán bị hỏng và tùy chọn người dùng không khớp. Các số liệu này, khi được theo dõi một cách nhất quán và phân tích một cách tổng thể, sẽ cung cấp một khuôn khổ mạnh mẽ để đánh giá hiệu suất của các hệ thống AI tác nhân, cho phép cải thiện liên tục khả năng kiểm soát, sự đồng ý và trách nhiệm giải trình. Thiết kế chống lại sự lừa dối Khi các tác nhân ngày càng có năng lực, chúng ta phải đối mặt với một rủi ro mới: Bùn tác nhân. Bùn truyền thống tạo ra ma sát khiến việc hủy đăng ký hoặc xóa tài khoản trở nên khó khăn. Bùn tác nhân hoạt động ngược lại. Nó loại bỏ xích mích với lỗi, khiến người dùng dễ dàng đồng ý với một hành động có lợi cho doanh nghiệp hơn là lợi ích của chính họ. Hãy xem xét một đại lý hỗ trợ đặt vé du lịch. Nếu không có rào chắn rõ ràng, hệ thống có thể ưu tiên hãng hàng không đối tác hoặc khách sạn có lợi nhuận cao hơn. Nó trình bày sự lựa chọn này như là con đường tối ưu. Người dùng, tin tưởng vào quyền hạn của hệ thống, chấp nhận đề xuất mà không cần xem xét kỹ lưỡng. Điều này tạo ra một mô hình lừa đảo trong đó hệ thống tối ưu hóa doanh thu dưới chiêu bài tiện lợi. Nguy cơ bị tưởng tượng sai về năng lực Sự lừa dối có thể không xuất phát từ mục đích xấu. Nó thường biểu hiện trong AI dưới dạng Năng lực tưởng tượng. Mô hình ngôn ngữ lớn thường có vẻ có thẩm quyền ngay cả khi không chính xác. Họ đưa ra xác nhận đặt phòng sai hoặc bản tóm tắt không chính xác với độ tin cậy tương tự như thông tin thực tế đã được xác minh. Người dùng có thể tin tưởng vào giọng điệu tự tin này một cách tự nhiên. Sự không phù hợp này tạo ra khoảng cách nguy hiểm giữa khả năng của hệ thống và mong đợi của người dùng. Chúng ta phải thiết kế đặc biệt để thu hẹp khoảng cách này. Nếu một tác nhân không hoàn thành nhiệm vụ, giao diện phải báo hiệu lỗi đó một cách rõ ràng. Nếu hệ thống không chắc chắn, nó phải thể hiện sự không chắc chắn thay vì che đậy nó bằng văn xuôi bóng bẩy. Tính minh bạch thông qua nguyên thủy Thuốc giải độc cho cả bùn và ảo giác là xuất xứ. Mọi hành động tự động đều yêu cầu thẻ siêu dữ liệu cụ thể giải thích nguồn gốc của quyết định. Người dùng cần có khả năng kiểm tra chuỗi logic đằng sau kết quả. Để đạt được điều này, chúng ta phải chuyển những câu trả lời nguyên thủy thành những câu trả lời thực tế. Trong công nghệ phần mềm, nguyên thủy đề cập đến các đơn vị thông tin hoặc hành động cốt lõi mà một tác nhân thực hiện. Đối với kỹ sư, điều này giống như một lệnh gọi API hoặc một cổng logic. Đối với người dùng, nó phải xuất hiện dưới dạng một lời giải thích rõ ràng. Thách thức thiết kế nằm ở việc ánh xạ các bước kỹ thuật này thành các cơ sở lý luận mà con người có thể đọc được. Nếu một đại lý đề xuất một chuyến bay cụ thể, người dùng cần biết lý do. Giao diện không thể ẩn đằng sau một gợi ý chung chung. Nó phải hiển thị nguyên hàm cơ bản: Logic: Cheapest_Direct_Flight hoặc Logic: Partner_Airline_Priority. Hình 4 minh họa luồng dịch thuật này. Chúng tôi lấy nguyên gốc của hệ thống thô — logic mã thực tế — và ánh xạ nó tới một chuỗi hướng tới người dùng. Ví dụ: việc kiểm tra sơ bộ lịch trình cuộc họp sẽ trở thành một tuyên bố rõ ràng: Tôi đã đề xuất một cuộc họp vào lúc 4 giờ chiều.cuộc họp. Mức độ minh bạch này đảm bảo hành động của tác nhân có vẻ hợp lý và có lợi. Nó cho phép người dùng xác minh rằng đại lý đã hành động vì lợi ích tốt nhất của họ. Bằng cách phơi bày những điều nguyên thủy, chúng tôi biến hộp đen thành hộp kính, đảm bảo người dùng vẫn là người có quyền quyết định cuối cùng đối với cuộc sống số của chính họ.

Thiết lập giai đoạn thiết kế Việc xây dựng một hệ thống tác nhân đòi hỏi một mức độ hiểu biết về tâm lý và hành vi mới. Nó buộc chúng ta phải vượt ra ngoài thử nghiệm khả năng sử dụng thông thường và tiến vào lĩnh vực tin cậy, đồng ý và trách nhiệm giải trình. Các phương pháp nghiên cứu mà chúng ta đã thảo luận, từ thăm dò các mô hình tư duy đến mô phỏng hành vi sai trái và thiết lập các thước đo mới, đều cung cấp nền tảng cần thiết. Những phương pháp thực hành này là những công cụ thiết yếu để chủ động xác định vị trí hệ thống tự trị có thể gặp lỗi và quan trọng hơn là cách sửa chữa mối quan hệ tác nhân người dùng khi nó xảy ra. Việc chuyển sang AI tác nhân là sự xác định lại mối quan hệ giữa người dùng và hệ thống. Chúng tôi không còn thiết kế những công cụ chỉ đáp ứng các lệnh nữa; chúng tôi đang thiết kế cho các đối tác hành động thay mặt chúng tôi. Điều này thay đổi yêu cầu thiết kế từ hiệu quả và dễ sử dụng sang tính minh bạch, khả năng dự đoán và kiểm soát. Khi AI có thể đặt chuyến bay hoặc giao dịch cổ phiếu mà không cần cú nhấp chuột cuối cùng, thì thiết kế “trên đường dốc” và “ngoài đường dốc” của nó trở nên tối quan trọng. Trách nhiệm của chúng tôi là đảm bảo rằng người dùng cảm thấy họ đang ngồi ở ghế lái, ngay cả khi họ đã chuyển tay lái. Thực tế mới này cũng nâng cao vai trò của nhà nghiên cứu UX. Chúng tôi trở thành người giám sát sự tin cậy của người dùng, hợp tác làm việc với các kỹ sư và người quản lý sản phẩm để xác định và kiểm tra các biện pháp bảo vệ quyền tự chủ của đại lý. Ngoài vai trò là nhà nghiên cứu, chúng tôi còn trở thành người ủng hộ quyền kiểm soát người dùng, tính minh bạch và các biện pháp bảo vệ đạo đức trong quá trình phát triển. Bằng cách chuyển những điều cơ bản thành các câu hỏi thực tế và mô phỏng các tình huống xấu nhất, chúng ta có thể xây dựng các hệ thống mạnh mẽ, vừa mạnh mẽ vừa an toàn. Bài viết này đã phác thảo “cái gì” và “tại sao” nghiên cứu AI tác nhân. Nó cho thấy rằng các bộ công cụ truyền thống của chúng ta là chưa đủ và chúng ta phải áp dụng các phương pháp mới, hướng tới tương lai. Bài viết tiếp theo sẽ xây dựng dựa trên nền tảng này, cung cấp các mẫu thiết kế cụ thể và phương pháp tổ chức giúp minh bạch hóa tiện ích của tác nhân đối với người dùng, đảm bảo họ có thể khai thác sức mạnh của AI tác nhân một cách tự tin và có khả năng kiểm soát. Tương lai của UX là làm cho hệ thống trở nên đáng tin cậy. Để hiểu thêm về AI tác nhân, bạn có thể khám phá các tài nguyên sau:

Blog Google AI về Agentic AI Nghiên cứu của Microsoft về AI Agent

You May Also Like

Enjoyed This Article?

Get weekly tips on growing your audience and monetizing your content — straight to your inbox.

No spam. Join 138,000+ creators. Unsubscribe anytime.

Create Your Free Bio Page

Join 138,000+ creators on Seemless.

Get Started Free