【財新網(wǎng)】機(jī)器人AI引入大語言模型,即使遇到見過的新情況,也能理解。谷歌近日推出AI機(jī)器人模型Robotics Transformer 2(RT-2),作為視覺-語言-動作(vision-language-action,VLA)模型,RT-2配備了大語言模型技術(shù),直接從互聯(lián)網(wǎng)學(xué)習(xí)知識,可以識別物體、理解語言命令,然后做出有邏輯的動作。
RT-2主要有三種能力:符號理解(Symbol understanding)、推理(Reasoning)和人類識別(Human recognition),依靠這些能力,機(jī)器人可以理解“撿起即將從桌子上掉下來的袋子”或“把香蕉移到2加1的和的標(biāo)志那里”這樣的命令——其中的物體或場景是原有機(jī)器人數(shù)據(jù)中從未有過的,機(jī)器人模型使用了互聯(lián)網(wǎng)的知識,最后完成操作。