ഈ ആഴ്ച ആദ്യം, ഗൂഗിൾ ഡീപ്മൈൻഡ് ജെമിനി റോബോട്ടിക്സ്-ഇആർ-1.6 പുറത്തിറക്കി, റോബോട്ടുകളെ അവരുടെ ചുറ്റുപാടുകൾ മനസ്സിലാക്കാൻ സഹായിക്കുന്ന ഒരു പുതിയ കാഴ്ചപ്പാടും ഭാഷാ മോഡലും. അതിൻ്റെ കഴിവുകൾ കാണിക്കാൻ, ബോസ്റ്റൺ ഡൈനാമിക്സ്—അതിൻ്റെ ഹ്യൂമനോയിഡ് റോബോട്ടുകളിൽ ജെമിനി ഉപയോഗിക്കുന്നതിന് ഉടമ്പടിയുണ്ട്—ഒരു വ്യാവസായിക സൗകര്യത്തിൻ്റെ പരിശോധനയ്ക്കിടെ തെർമോമീറ്റർ വായിക്കാൻ അതിൻ്റെ റോബോട്ട് നായ്ക്കൾ മോഡൽ ഉപയോഗിക്കുന്ന ഒരു വീഡിയോ പ്രസിദ്ധീകരിച്ചു.
കണ്ണ് പിടിച്ചുപറ്റുന്ന ഡെമോകൾ ഉണ്ടെങ്കിലും, ഗൂഗിളിൻ്റെ പുതിയ റോബോട്ടിക്സ് മോഡൽ അതിൻ്റെ മുൻകാല മോഡലുകളെക്കാളും അതിൻ്റെ നിർണ്ണായകതയെക്കാൾ മികച്ചതായി പറയുന്നു. ഗൂഗിളിൻ്റെ മാനദണ്ഡങ്ങൾ അനുസരിച്ച്, ഒരൊറ്റ ക്യാമറ ഫീഡ് ഉപയോഗിച്ച് അത് ഒരു ടാസ്ക് പൂർത്തിയാക്കി. എന്നാൽ ഒന്നിലധികം ക്യാമറ ഫീഡുകൾ എടുക്കുമ്പോൾ, മോഡൽ ഒരു പുരോഗതി കാണിച്ചു. അത് പ്രധാനമാണ്, ഗൂഗിൾ പറയുന്നു, കാരണം ഇന്നത്തെ പല റോബോട്ടിക് സജ്ജീകരണങ്ങളും, ഫാക്ടറികളിലോ വെയർഹൗസുകളിലോ ഉള്ളത് പോലെ, ഒരു ഓവർഹെഡ് ക്യാമറയും റോബോട്ടിൻ്റെ കൈയിൽ ഘടിപ്പിച്ച ക്യാമറയും പോലെ ഒന്നിലധികം ക്യാമറ കാഴ്ചകൾ ഉപയോഗിക്കുന്നു. റോബോട്ടിന് ആ ക്യാമറകളെല്ലാം ഉപയോഗിക്കാനാകണം, അത് എന്താണ് ചെയ്യുന്നതെന്ന് യോജിച്ച ധാരണ സൃഷ്ടിക്കാനും ടാസ്ക് പൂർത്തിയാകുമ്പോൾ അറിയാനും.