Токиогийн Их Сургуулийн баг GPT-3 Large Language Model (LLM) ашиглан хөдөлгөөн хийх чадвартай Alter4 хэмээх хүн дүрст роботыг бүтээжээ. Alter3 нь хамгийн сүүлийн үеийн хэрэгслийг ашигладаг AI-г нээх Урьдчилан програмчлагдсан өгөгдлийн санд оруулах шаардлагагүйгээр өөр өөр позуудыг динамикаар авах боломжтой.

"Alter3-ийн ярианы агуулгад нүүрний хувирал, дохио зангаа ашиглан хариу үйлдэл үзүүлсэн нь бусад андроидуудад хамгийн бага өөрчлөлттэй амархан дасан зохицож болох хүн дүрст робот техникийн томоохон дэвшил юм" гэж судлаачид хэлэв.

LLM-ийг роботтой нэгтгэх чиглэлээр үндсэн харилцаа холбоог сайжруулж, бодитой хариултыг загварчлахад гол анхаарлаа хандуулдаг. Судлаачид роботуудад нарийн төвөгтэй зааврыг ойлгож, гүйцэтгэх боломжийг олгохын тулд LLM-ийн чадавхийг судалж, улмаар тэдний үйл ажиллагааг сайжруулж байна.

Уламжлал ёсоор бол доод түвшний удирдлага ажилладаг нь техник хангамжтай холбоотой бөгөөд LLM корпорацуудын эрх мэдлээс гадуур байдаг. Энэ нь LLM-д суурилсан ажлыг шууд удирдахад хүндрэл үүсгэдэг. Энэ асуудлыг шийдэж, Японы баг хүний хөдөлгөөний илэрхийлэлийг Android үйлдлийн системд ойлгомжтой код болгон хувиргах аргыг боловсруулжээ. Энэ нь хөгжүүлэгчид биеийн хэсэг бүрийг тус тусад нь програмчлах шаардлагагүйгээр робот цаг хугацааны явцад бие даан үйлдлийн дарааллыг үүсгэж чадна гэсэн үг юм.

Харилцааны үеэр хүн Alter3-д "iPhone-тойгоо селфи хийх" гэх мэт командуудыг өгч болно. Үүний дараа робот шаардлагатай алхмуудын талаар заавар авахын тулд GPT-4-д хэд хэдэн хүсэлт илгээдэг. GPT-4 үүнийг Python код руу орчуулах бөгөөд энэ нь ажлыг "ойлгох" болон шаардлагатай хөдөлгөөнийг гүйцэтгэх боломжийг олгодог. Энэхүү шинэлэг зүйл нь Alter3-т биеийн дээд хэсгийг хөдөлгөж, доод бие нь сууринд бэхлэгдсэн хөдөлгөөнгүй хэвээр байх боломжийг олгодог.

Alter3 нь шахсан агаараар ажилладаг нүүрний хувирал, мөчний хөдөлгөөнийг хариуцдаг 2016 идэвхжүүлэгчтэй 43 оноос хойш Alter-ийн хүн дүрст роботуудын гурав дахь давталт юм. Энэхүү тохиргоо нь олон төрлийн илэрхийлэлтэй дохио зангааг өгдөг. Робот алхаж чадахгүй ч ердийн алхах, гүйх хөдөлгөөнийг дуурайж чаддаг.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 нь камер болон OpenPose framework ашиглан хүний зургийг хуулбарлах чадварыг харуулсан. Робот нь үе мөчөө ажиглагдсан байрлалд тохируулж, дараа нь ашиглахаар амжилттай дуурайлган хийдэг. Хүнтэй харилцах нь нярай хүүхэд дуурайлган сурдагтай адил хүнийг дуурайснаар янз бүрийн хөдөлгөөн үүсдэг гэсэн санааг дэмжиж, илүү олон янзын байрлалыг бий болгосон.

LLM-ээс өмнө судлаачид хүний дүр төрхийг сэргээх эсвэл цай уух, шатар тоглох зэрэг зан үйлийг дуурайхын тулд бүх 43 идэвхжүүлэгчийг сайтар хянах шаардлагатай байв. Энэ нь олон тооны гараар тохируулга хийх шаардлагатай байсан ч AI багийг энэ хэвшлээс чөлөөлөхөд тусалсан. “Бид Alter3-ийг контекст хамааралтай нүүрний хувирал, дохио зангаагаар харилцан ярианд үр дүнтэй оролцуулна гэж найдаж байна. Энэ нь сэтгэлийн хөдлөлийг тусгах, жишээлбэл, уйтгар гуниг, баяр баясгаланг харуулах, ингэснээр бидэнтэй сэтгэл хөдлөлөө хуваалцах чадварыг харуулсан" гэж судлаачид хэлэв.

Мөн уншина уу:

Эх сурвалжсонирхолтой инженерчлэл

Бүртгүүлэх

0 Сэтгэгдэл

Суулгасан тойм

Бүх сэтгэгдлийг харах

Бусад нийтлэлүүд

Токио хотод GPT-3 дээр суурилсан Alter4 хүн дүрст роботын амжилтыг үзүүлэв

Сүүлийн үеийн сэтгэгдлүүд