Нэгж IBM Хиймэл оюун ухаан (AI) судалгааны төв нь програмчлалын даалгаварт туслах машин сургалтын загваруудыг хөгжүүлэхийн тулд 14 сая дээжийн өгөгдлийн багцыг танилцуулсан. Датасет нэртэй CodeNet төсөл, компьютерийн алсын хараа болон гүнзгий суралцахад хувьсгал хийсэн алдартай зургийн агуулах ImageNet-ээс нэрээ авсан.
Програмистууд ухамсрын болон далд ухамсрын сэтгэлгээний олон механизмыг ашиглан шинэ асуудлуудыг олж илрүүлж, өөр өөр шийдлүүдийг эрэлхийлдэг. Ихэнх машин сургалтын алгоритмууд ижил асуудлыг шийдэж чадах загваруудыг боловсруулахын тулд нарийн тодорхойлсон даалгавар, их хэмжээний тайлбартай өгөгдөл шаарддаг.
Шинжээчдийн нийгэмлэг AI-for-code системийг хөгжүүлэх, үнэлэх мэдээллийн багц, жишиг үзүүлэлтийг бий болгоход маш их хүчин чармайлт гаргасан. Гэхдээ програм хангамж хөгжүүлэх бүтээлч, нээлттэй шинж чанарыг харгалзан програмчлалын төгс мэдээллийн багцыг бий болгох нь маш хэцүү байдаг. Project CodeNet-ийн тусламжтайгаар IBM-ийн судлаачид машин сургалтын загваруудыг янз бүрийн даалгаварт сургахад ашиглаж болох олон зориулалттай өгөгдлийн багц үүсгэхийг оролдсон. CodeNet-ийн бүтээгчид үүнийг "кодын хиймэл оюун ухаан дахь алгоритмын дэвшлийг хурдасгах маш том хэмжээний, олон янзын, өндөр чанартай өгөгдлийн багц" гэж тодорхойлдог.
Өгөгдлийн багц нь 14 өөр програмчлалын хэлээр бичигдсэн 500 сая мөр кодын 55 сая жишээг агуулдаг. Кодын дээжийг AIZU болон AtCoder онлайн кодчиллын платформ дээр нийтэлсэн 4000 шахам даалгавраас авсан. Кодын жишээнүүд нь өгөгдсөн даалгаврын зөв ба буруу хариултуудыг агуулдаг.
Мөн сонирхолтой:
- Хаббл компьютер дээрх програм хангамжийн алдааны улмаас аюулгүй горимд орсон
- CD Projekt-ийн өөр нэг асуудал: Хакерууд тоглоомын эх кодыг сүлжээнд задруулна гэж заналхийлж байна
CodeNet-ийн гол онцлогуудын нэг бол жишээн дээр нэмсэн тэмдэглэгээний хэмжээ юм. Өгөгдлийн багцад багтсан кодчиллын даалгавар бүр нь текстийн тайлбар, түүнчлэн CPU-ийн хугацаа, санах ойн хязгаарлалттай байдаг. Ирүүлсэн код бүр нь хэл, илгээсэн огноо, хэмжээ, гүйцэтгэх хугацаа, хүлээн авалт, алдааны төрлүүд зэрэг олон арван мэдээллийг агуулдаг. IBM-ийн судлаачид програмчлалын хэл, хүлээн зөвшөөрөгдөх байдал, алдааны төрлүүд зэрэг олон параметрийн дагуу өгөгдлийн багцыг тэнцвэртэй байлгахын тулд маш их хүчин чармайлт гаргасан.
CodeNet нь програмчлалын даалгавар дээр машин сургалтын загваруудыг сургах цорын ганц мэдээллийн багц биш юм. Гэхдээ үүнийг бусдаас ялгах хэд хэдэн шинж чанарууд байдаг. Эхнийх нь түүврийн тоо, хэлний олон янз байдал зэрэг өгөгдлийн багцын асар том хэмжээ юм. Гэхдээ кодын дээжтэй хамт ирдэг мета өгөгдөл нь илүү чухал байж магадгүй юм. CodeNet-д нэмсэн баялаг тайлбарууд нь тусгай програмчлалын даалгавруудад мэргэшсэн бусад кодчилолын өгөгдлийн багцаас ялгаатай нь үүнийг олон төрлийн даалгаварт тохиромжтой болгодог.
Энэ бол оюун ухаан.
GPT-3-ийн тусламжтай би хүссэн зохион байгуулалтаа дүрслэн харуулсан зохион байгуулалтын генераторыг бүтээсэн бөгөөд энэ нь танд зориулж JSX кодыг үүсгэдэг.
ЮУ зурагtwitter.com/w8JkrZO4lk
- Шариф Шамем (@sharifshameem) Долдугаар сарын 13, 2020
CodeNet-ийг ашиглах хэд хэдэн арга байдаг. Үүний нэг нь хэлний орчуулга юм. Өгөгдлийн багц дахь кодчиллын даалгавар бүр өөр өөр програмчлалын хэлнүүдийн дүрслэлийг агуулсан байдаг тул өгөгдлийн эрдэмтэд үүнийг нэг хэлнээс нөгөө хэл рүү код хөрвүүлэх машин сургалтын загвар бүтээхэд ашиглаж болно. Энэ нь хуучин кодыг шинэ хэл рүү шилжүүлж, шинэ үеийн програмистуудад хүртээмжтэй болгох хүсэлтэй байгууллагуудад тохиромжтой байж болох юм.
Мөн уншина уу:
- IBM компани дэлхийн анхны 2нм чип үйлдвэрлэх технологийг нэвтрүүлсэн
- IBM шинэ антибиотик зохион бүтээх хиймэл оюун ухаан хөгжүүлж байна
Уламжлал, удамшил нь өөр өөр сэтгэлгээтэй, залуу үеийн мэдрэлийн алгоритмууд болон асуудал дэвшүүлэх, бие биенээ сайжруулах ML-аргатай хамт тоглох ёстой.
Цаг хугацаа өнгөрөхөд программистуудын түвшин улам бүр буурах болно (одоогийнхтой харьцуулахад). Өөрөөр хэлбэл, ташуу, муруй кодыг "новшийн хэлээр" бичих боломжтой болно. Дараа нь машиныг оновчтой болгох бөгөөд та эцэст нь мэргэжлийн ассемблер програмистын оновчтой кодыг (эсвэл бүр илүү сайн) авах боломжтой болно.