Дееп 'Реинфорцемент Леарнинг' је подучавање робота новим вјештинама брже него икада

$config[ads_kvadrat] not found
Anonim

Роботи уче како да заврше задатке у убрзаном виртуелном свету, развијајући вештине у неколико сати које би иначе могле да трају месецима. Симулирано учење дубоког појачања (или Дееп РЛ) значи вјештину која би обично трајала 55 дана за А.И. учење у стварном свијету траје само један дан у хипер-убрзаној учионици.

"То има потенцијал да заиста револуционира оно што можемо да урадимо у домену роботике", рекла је Раиа Хадселл, истраживач са Гоогле ДеепМинд-а, на самиту Ре-Ворк Дееп Леарнинг у Лондону у четвртак. "Можемо научити људске способности."

Може звучати контра-интуитивно, јер сигурно је да је смисао робота програмери да их науче да раде ствари, зар не? Међутим, када се пројектује машина која ради у стварном свету, роботима је потребно много података да би разумели како да ураде задатак у непознатој ситуацији. А.И. могу користити ове податке да би "научили" вјештину на основу свих инстанци које су раније постојале.

Учење дубоког појачања прикупља те податке на сличан начин као што људи уче: робот ће поновити задатак више пута, као што је хватање лопте, и снимање података како би изградио слику о томе како најбоље ухватити лопту у новој ситуацији. Када је ДеепМинд користио модел 2013. године како би научио робота како да овлада Атари играма, једноставно га седећи испред екрана и говорећи му крајњи циљ, научна заједница га је обожавала.

Проблем је што ово траје заувек. Морате више пута бацати лопте на робота, или у случају Атари, оставити робота самог у својој спаваћој соби неко време. Вођењем МуЈоЦо симулације, у комбинацији са прогресивном неуронском мрежом, тренери могу да воде програм који опонаша робота, преноси научена понашања на робота и мапира виртуелне покрете у стварни свет.

"Можемо да водимо те симулаторе цео дан и целу ноћ", рекао је Хадселл.

Резултати говоре сами за себе. Овај робот, који је добио своју диплому у хватању, сада може да прати виртуелне лопте као да су стварне, правећи га за велики дан када се тражи да ухвати праву лопту:

$config[ads_kvadrat] not found