આ અઠવાડિયાની શરૂઆતમાં, Google DeepMind એ જેમિની રોબોટિક્સ-ER-1.6 રજૂ કર્યું, જે રોબોટ્સને તેમની આસપાસના વાતાવરણને સમજવામાં મદદ કરવા માટે એક નવું વિઝન અને ભાષા મોડેલ છે. તેની ક્ષમતાઓ બતાવવા માટે, બોસ્ટન ડાયનેમિક્સ-જેના હ્યુમનૉઇડ રોબોટ્સમાં જેમિનીનો ઉપયોગ કરવાનો કરાર છે-એ ઔદ્યોગિક સુવિધાના નિરીક્ષણ દરમિયાન થર્મોમીટર વાંચવા માટે મોડેલનો ઉપયોગ કરીને તેના રોબોટ ડોગ્સનો એક વિડિયો પ્રકાશિત કર્યો.
આકર્ષક ડેમો હોવા છતાં, Googleનું નવું રોબોટિક્સ મોડલ જ્યારે તેના અગાઉના મોડલની તુલનામાં વધુ સ્પષ્ટતા દર્શાવે છે. ગૂગલના બેન્ચમાર્ક મુજબ, સિંગલ કેમેરા ફીડનો ઉપયોગ કરીને એક કાર્ય પૂર્ણ કર્યું હતું. પરંતુ જ્યારે બહુવિધ કેમેરા ફીડ્સ લેતી વખતે, મોડેલે સુધારો દર્શાવ્યો હતો. તે મહત્વનું છે, Google કહે છે, કારણ કે આજે ઘણા રોબોટિક્સ સેટઅપ્સ, જેમ કે ફેક્ટરીઓ અથવા વેરહાઉસમાં, ઓવરહેડ કેમેરા અને રોબોટના હાથ પર માઉન્ટ થયેલ કેમેરા જેવા બહુવિધ કેમેરા વ્યૂનો ઉપયોગ કરે છે. રોબોટ તે શું કરી રહ્યું છે તેની સુસંગત સમજ બનાવવા અને કાર્ય ક્યારે પૂર્ણ થાય છે તે જાણવા માટે તે બધા કેમેરાનો ઉપયોગ કરવા સક્ષમ હોવા જોઈએ.