8 оны тавдугаар сарын 2024, Лхагва гараг

ширээний v4.2.1

Root NationМэдээ мэдээлэлМэдээллийн технологийн мэдээЗураг AI нь хүн дүрстэй AI роботынхоо шинэ ур чадварыг харуулсан

Зураг AI нь хүн дүрстэй AI роботынхоо шинэ ур чадварыг харуулсан

-

Хүн дүрст роботуудын хөгжил сүүлийн 2024 жилийн хугацаанд удаан хурдацтай хөгжиж байсан ч сүүлийн үед бид энэ салбарт илүү олон нээлтүүдийг олж харах болсон. Саяхан бидний бичсэнчлэн AI роботыг MWC дээр танилцуулсан Амекаболон өөр нэг хөгжил, Unitree H1, хүн дүрст роботуудын дунд хурдны дээд амжилтыг эвдсэн. Одоо AI болон OpenAI компаниудын хамтын ажиллагааны гайхалтай үр дүн интернетэд гарч ирэв - одоо хүмүүстэй яриа өрнүүлэх чадвартай хүн дүрст роботын гайхалтай видео.

Зураг AI болон OpenAI нь хиймэл оюун ухаантай шинэ хүн дүрст роботыг танилцуулав

Startup Figure AI нь шинэ Visual Language Model (VLM) дээр ажиллаж байгаа Зураг 01 роботыг харуулсан видеог гаргажээ. Үүний дотор 01-р зураг дээр таваг, алим, аяга байгаа ширээний ард зогсож байна. Зүүн талд хатаагч байна. Мөн хүний ​​өмнө робот юу хардаг вэ гэсэн асуултад тэрээр ширээн дээр хэвтэж буй бүх зүйлийг нарийвчлан тайлбарлаж хариулдаг.

Тэгээд тэр хүн ямар нэг юм идэж болох уу гэж асуухад робот: "Мэдээж" гэж хариулж, дараа нь тэр алимыг зөөлөн хөдөлгөөнөөр авч, хүнд өгөв. Үүний дараа өөр нэг гайхалтай жагсаал гарч ирдэг - нэг хүн 01-р зургийн урд сагсан дээрээс үрчийсэн хогийг асгаж, роботоос яагаад үүнийг хийснээ тайлбарлахыг хүсч, тэр үед хогоо сагсанд цуглуулдаг. Тэгээд тэр цаасаа хогийн саванд буцааж хийж байхдаа "бодол санаагаа" тайлбарлав. "Тиймээс би чамд алим өгсөн, учир нь энэ бол ширээн дээрээс өгч чадах цорын ганц идэж болох зүйл" гэж робот хэлэв.

Компанийн төлөөлөгчид 01-р зурагт урьдчилан бэлтгэгдсэн мультимодаль загварыг ашигласан гэж тайлбарлав Нээлттэй байна, VLM нь зураг, текстийг ойлгохын тулд дуут дохиололд тулгуурлан хариултаа үүсгэдэг. Энэ нь OpenAI-ийн GPT-4-ээс ялгаатай бөгөөд энэ нь бичмэл сануулга дээр төвлөрдөг.

Энэ нь мөн компаний "сурсан доод түвшний хоёр гарын авлага" гэж нэрлэдэг зүйлийг ашигладаг. Систем нь хөдөлгөөнийг хянах мэдрэлийн сүлжээтэйгээ дүрсний нарийн тохируулгыг (пикселийн түвшин хүртэл) зохицуулдаг. "Эдгээр сүлжээнүүд нь 10 Гц давтамжтай зураг хүлээн авч, 24 Гц-т 200-DOF үйлдэл (бугуйны байрлал, хурууны үений өнцөг) үүсгэдэг" гэж Зураг AI мэдэгдэлд дурджээ.

Тус компани нь видеон дээрх зан үйл бүр нь системд суралцахад суурилдаг тул хөшигний ард хэн ч Зураг 01-ийн утсыг татдаггүй гэж мэдэгджээ. Мэдээжийн хэрэг, нэг нюанс бий - робот энэ процедурыг хэдэн удаа давсан нь тодорхойгүй байна. Магадгүй энэ нь зуу дахь удаагаа байсан нь түүний нарийн хөдөлгөөнийг тайлбарладаг. Гэхдээ ямар ч тохиолдолд энэ амжилт нь гайхалтай, бага зэрэг гайхалтай харагдаж байна.

Мөн уншина уу:

Эх сурвалжтехнологич
Бүртгүүлэх
тухай мэдэгдэх
зочин

0 Сэтгэгдэл
Суулгасан тойм
Бүх сэтгэгдлийг харах