Алгоритам који је овладао 'понгом' Одлично у 'Флаппи Бирд', Стилл Сингле

$config[ads_kvadrat] not found

Настя и сборник весёлых историй

Настя и сборник весёлых историй
Anonim

Побољшање методе дубоког учења Понг, Освајачи свемира, и други Атари игре, студент Кевин Цхен, студент рачунарства на Универзитету Станфорд, креирао је алгоритам који је прилично добар у класичном 2014 скролеру Птица која лепрша. Цхен је искористио концепт познат као “к-леарнинг”, у којем агент има за циљ да побољша свој наградни резултат са сваком игром играња, како би усавршио готово немогућу и немогуће заразну игру.

Цхен је створио систем у којем је његов алгоритам оптимизиран да тражи три награде: малу позитивну награду за сваки оквир који је остао жив, велику награду за пролазак кроз цијев и једнако велику (али негативну) награду за умирање. Тако мотивисана, такозвана дубока к мрежа може надмудрити људе, према извјештају који је Цхен написао: “Успјели смо успјешно играти игру Птица која лепрша учењем директно из пиксела и резултата, постижући супер-људске резултате."

Оригинални Атари папир, објављен 2015. године у Природа, дошао из Гоогле-ове компаније ДеепМинд (сада познат по свом мајсторству древне кинеске игре на плочи Го). Постигнуће у ДеепМинду је био пробој у томе што је за визуелну или пикселну информацију било потребно бар мало информација и, уз минималан унос, могао је максимизирати награде. Такав систем награђивања је сличан допаминергичком одговору мозга, само поједностављен.

Није први пут да је алгоритам покорио птицу која је плесала: Раније класе студената рачунарске науке на Универзитету Станфорд створиле су програм који је, када је трениран преко ноћи, његов резултат побољшан у односу на 0 цијеви прошао на 1.600.

$config[ads_kvadrat] not found