Разработчики OpenAI поделились отчетом о работе

Sedoyje

Постоялец
ТЕНЕВОЙ НАДЗИРАТЕЛЬ
PREMIUM USER
ЮБИЛЕЙНАЯ ЛЕНТА

Sedoyje

Постоялец
ТЕНЕВОЙ НАДЗИРАТЕЛЬ
PREMIUM USER
ЮБИЛЕЙНАЯ ЛЕНТА
Регистрация
1 Июн 2018
Сообщения
835
Реакции
327
Репутация
1
В воскресенье прошел матч команды людей против ботов OpenAI, в котором нейросеть дважды победила человеческий коллектив. Разработчики поделились возможностями своего проекта, а также рассказали о самых частых ошибках. Перевод основных моментов уже в нашем материале.



Прогнозирование

Одной из возможностей OpenAI Five является моментальная оценка шансов на победу после того или иного драфта. Выбор героя является весьма сложной частью Dota 2, так как отдельные герои взаимодействуют между собой по-разному.



Изображение показывает, как изменялись шансы на победу после появления того или иного героя.

В конце июня мы добавили отображение вероятности выигрыша в нашу нейросеть, чтобы видеть то, что прогнозирует OpenAI. Позже, когда мы рассматривали черновой вариант, стало понятно, что возможно использовать его для оценки вероятности победы при любом драфте: обратите внимание на промежуточные прогнозы на изображении выше. За одну неделю мы создали вариацию для каждого из 11 миллионов возможных матчей и написали алгоритм поиска, чтобы найти оптимальный пик OpenAI Five.



После первой игры драфт OpenAI Five предсказал вероятность выигрыша в 95%. Боты выиграли первую игру за 21 минуту и 37 секунд. После второй игры драфт OpenAI предсказал вероятность выигрыша 76,2% и выиграл второй за 24 минуты 53 секунды.

Драфт для третьей карты выбирали зрители. До начала матча нейросеть предсказала вероятность победы в размере 2,9%. Боты играли несмотря на плохие шансы, и в один момент достигли 17% шанса одержать верх. В конечном итоге они проиграли за 26 минут.

Обучение

Наш цикл разработки заключается в обучении каждой крупной версии с нуля. Текущая нейросеть OpenAIсодержит знания, которые были получены с 9 июня. Она имеет шесть системных обновлений, которые основаны на параметрах предыдущих версий.

Мы вложили много усилий в инструменты, которые позволяют сопоставлять старые параметры с новой сетевой архитектурой.

Наблюдение за ботами
Мы можем получить представление о том, куда герой отправится в ближайшем будущем. В следующем видео выделенная область показывает, куда
Sven отправится в течение шести секунд.



Также мы можем прогнозировать количество ластхитов, добиваний и прочее.


Ошибки и нелогичное поведение являются неотъемлемой частью работы над нейросетью. Вот несколько примеров.


Что дальше?

Эти результаты дают уверенность в переходе к следующей ступени проекта: сыграть против команды профессионалов на The International в этом месяце. Мы объявим детали матча, как только он будет подтвержден.
 
Сверху