DeepMind și divizia sa de inteligență artificială au prezentat recent o arhitectură în doi pași pentru roboți, destinată să le ofere mai multă versatilitate și autonomie în medii reale. Sistemul combină planificarea avansată cu execuția motorie precisă, permițând roboților să caute informații pe internet și să transforme acele date în acțiuni concrete. Această inovație reprezintă un pas semnificativ în dezvoltarea roboților generaliști, potrivit comunicatelor oficiale ale companiei.
Funcționarea duetului de modele
Gemini Robotics‑ER 1.5 acționează ca un „dirijor” multimodal, capabil să interpreteze imagini și text, să genereze planuri în pași multipli și să solicite informații externe. Modelul interoghează internetul pentru reguli locale sau prognoze meteo, apoi încorporează răspunsurile în strategia de execuție. În același timp, Gemini Robotics 1.5 traduce indicațiile primite în comenzi motorii, controlând brațele și deplasarea robotului.
– ER 1.5: analiză vizuală, generare de planuri, acces la web.
– Robotics 1.5: interpretare limbaj natural, control motorizat, transfer de mișcări.
Scenarii de aplicare în lumea reală
În demonstrațiile efectuate, roboții au sortat deșeurile menajere, compostul și materialele reciclabile după regulile specifice ale orașului San Francisco. Modelul „strateg” a căutat online normele de reciclare, a stabilit pașii necesari și a ghidat robotul în identificarea și plasarea corectă a obiectelor. Un alt test a constat în pregătirea unui bagaj pentru o călătorie la Londra; sistemul a consultat prognoza meteo, a inclus umbrela și jacheta impermeabilă în listă și a aranjat articolele în valiză.
– Sortare deșeuri: identificare material, verificare regulă, plasare corectă.
– Pregătire bagaj: consultare meteo, selectare articole, verificare finală.
Avantaje, limitări și perspective de dezvoltare
Separarea clară între planificare și execuție permite actualizarea rapidă a cunoștințelor fără reantrenarea completă a componentelor motorii. Transferul de mișcări între diferite platforme robotice scade timpul de integrare în producție. Totuși, dependența de internet introduce riscuri legate de calitatea surselor și necesită mecanisme de filtrare și verificare. În medii variabile, percepția vizuală rămâne vulnerabilă la iluminare slabă sau obiecte atipice, iar siguranța interacțiunii cu oamenii trebuie să fie garantată prin sisteme de oprire și evitarea coliziunilor.
Conform informațiilor disponibile, tehnologia propusă de DeepMind ar putea fi testată inițial în medii controlate, unde sarcinile au o structură clară și accesul la date externe adaugă valoare operațională. Monitorizarea evoluțiilor și actualizarea continuă a cunoștințelor rămân esențiale pentru a asigura utilizarea eficientă și sigură a roboților care planifică și execută pe baza informațiilor online.

Fii primul care comentează