8 оны тавдугаар сарын 2024, Лхагва гараг

ширээний v4.2.1

Root NationМэдээ мэдээлэлМэдээллийн технологийн мэдээМетагийн ImageBind AI нь хүний ​​ойлголтыг дуурайж чаддаг

Метагийн ImageBind AI нь хүний ​​ойлголтыг дуурайж чаддаг

-

Мета уг кодыг хиймэл оюун ухаанд нээлттэй хандалтад нэрээр нийтэлдэг ImageBind, энэ нь хүмүүс хүрээлэн буй орчноо хэрхэн хүлээн авч, төсөөлж байгаатай төстэй өгөгдөл хоорондын хамаарлыг урьдчилан таамаглаж байна. Midjourney, Stable Diffusion, DALL-E 2 гэх мэт дүрс үүсгэгч нь зурагтай үгсийг холбож, зөвхөн текстийн тайлбар дээр тулгуурлан визуал үзэгдэл үүсгэх боломжийг олгодог бол ImageBind үүнээс ч илүү юм. Энэ нь текст, зураг эсвэл видео, аудио, 3D хэмжилт, температурын өгөгдөл, хөдөлгөөний өгөгдлийг холбох боломжтой бөгөөд үүнийг боломж болгонд урьдчилан бэлтгэл хийх шаардлагагүй болно. Энэ нь текстийн сануулга, зураг эсвэл аудио (эсвэл тэдгээрийн хослол) зэрэг энгийн оролтуудаас нарийн төвөгтэй орчин үүсгэх боломжтой хүрээний эхний үе шат юм.

Метаверс төсөл

Та ImageBind-ийг хүний ​​​​сургалттай машин сургалтын ойролцоолсон хувилбар гэж үзэж болно. Жишээлбэл, хэрэв та хотын хөл хөдөлгөөн ихтэй гудамжинд зогсож байгаа бол таны тархи (ихэнхдээ ухамсаргүйгээр) өнгөрч буй машин, өндөр байшин, цаг агаар болон бусад зүйлийн талаар мэдээлэл авахын тулд хараа, дуу чимээ болон бусад мэдрэхүйн мэдрэмжийг шингээдэг. . Хүмүүс болон бусад амьтад бидний генетикийн давуу тал болох амьд үлдэх, бидний ДНХ-ийг дамжуулах зорилгоор энэхүү өгөгдлийг боловсруулахын тулд хувьссан. (Та эргэн тойрныхоо талаар илүү ихийг мэдэх тусам аюулаас зайлсхийж, илүү сайн амьд үлдэх, цэцэглэн хөгжихийн тулд хүрээлэн буй орчиндоо дасан зохицож чадна). Компьютерууд амьтдын олон мэдрэхүйн холболтыг дуурайхад ойртох тусам тэдгээр холболтыг ашиглан зөвхөн хязгаарлагдмал өгөгдлийн хэсгүүдэд тулгуурлан бүрэн бодит дүр зураг үүсгэх боломжтой болно.

Тиймээс та Midjourney-ийг ашиглан "эрэг дээрх бөмбөгөн дээр тэнцвэртэй байгаа Гандалфын хувцастай бассет нохой" бүтээж, тэр хачирхалтай үзэгдлийн харьцангуй бодит зургийг авах боломжтой ч ImageBind гэх мэт мультимодал хиймэл оюун ухааны хэрэгсэл нь нохойтой холбоотой видео бичлэг хийж магадгүй юм. Нарийвчилсан зочны өрөө, өрөөний температур, нохой болон дүр зурагт байгаа бусад хүмүүсийн яг байршил зэрэг дуу чимээ. Мета судлаачид хөгжүүлэгч рүү чиглэсэн блогтоо "Энэ нь хөдөлгөөнгүй зургуудыг аудио сануулгатай хослуулах замаар хөдөлгөөнт дүрс үүсгэх гайхалтай боломжийг бий болгож байна" гэж тэмдэглэжээ. "Жишээ нь, бүтээгч нь дүрсийг сэрүүлэгтэй цаг, азарган тахиатай хослуулж, аудио дохио ашиглан азарган тахиа эсвэл сэрүүлгийн дууг хэсэгчлэн хувааж, видео дарааллаар хоёуланг нь хөдөлгөөнд оруулж болно."

 

Мета

Энэхүү шинэ тоглоомоор өөр юу хийж болох талаар энэ нь Метагийн үндсэн амбицуудын нэг болох VR, холимог бодит байдал, мета орон зайг тодорхой харуулж байна. Жишээлбэл, 3D дүр төрхийг (дуу чимээ, хөдөлгөөн гэх мэт) шууд бүтээх боломжтой ирээдүйн чихэвчийг төсөөлөөд үз дээ. Эсвэл виртуал тоглоом хөгжүүлэгчид үүнийг эцэст нь дизайны үйл явцын шаргуу ажлын чухал хэсгийг хэмнэхийн тулд ашиглаж болно. Үүний нэгэн адил контент бүтээгчид зөвхөн текст, зураг эсвэл аудио дээр тулгуурлан бодит дуу, хөдөлгөөнтэй гайхалтай видеог бүтээх боломжтой. ImageBind гэх мэт хэрэгсэл нь харааны болон сонсголын бэрхшээлтэй хүмүүст хүрээлэн буй орчныг илүү сайн ойлгоход нь туслахын тулд бодит цагийн мультимедиа тайлбарыг бий болгосноор хүртээмжийн шинэ үүд хаалгыг хэрхэн нээж байгааг төсөөлөхөд хялбар байдаг.

Мөн сонирхолтой: Хиймэл оюун ухаанд суурилсан шилдэг хэрэгслүүд

"Ердийн хиймэл оюун ухааны системд холбогдох горим бүрийн хувьд тусгай суулгац (жишээ нь, тоон векторууд болон тэдгээрийн хамаарлыг машин сургалтын системд илэрхийлэх) байдаг" гэж Мета хэлэв. “ImageBind нь тус бүрийн горимын хослолоор өгөгдөл дээр сургах шаардлагагүйгээр олон горимд зориулсан нийтлэг оруулах орон зайг бий болгох боломжтойг харуулж байна. Судлаачид хотын хөл хөдөлгөөн ихтэй гудамжнаас авсан аудио мэдээлэл, дулааны мэдээлэл, гүний өгөгдөл, далайн эргийн хадан цохионы бичвэрийн тайлбарыг агуулсан дээж бүхий мэдээллийн багц үүсгэж чадахгүй учраас энэ нь чухал юм."

Мета энэ технологи нь эцсийн эцэст одоогийн зургаан "мэдрэхүй"-ээс давж гарна гэж үзэж байна. "Бид одоогийн судалгаандаа зургаан аргыг судалсан ч хүрэлцэх, хэл яриа, үнэрлэх, fMRI тархины дохио гэх мэт аль болох олон мэдрэхүйг холбосон шинэ аргуудыг нэвтрүүлэх нь хүн төвтэй хиймэл оюун ухааны загваруудыг баяжуулах боломжийг олгоно гэж бид үзэж байна." Энэхүү шинэ хамгаалагдсан хязгаарлагдмал орчинтой танилцах сонирхолтой хөгжүүлэгчид Метагийн нээлттэй эх код руу шумбаж эхлэх боломжтой.

Мөн уншина уу:

Эх сурвалжEngadget
Бүртгүүлэх
тухай мэдэгдэх
зочин

0 Сэтгэгдэл
Суулгасан тойм
Бүх сэтгэгдлийг харах
Бусад нийтлэлүүд
Шинэчлэлтүүдийг авахын тулд бүртгүүлнэ үү
Одоо алдартай