Вопрос:

Хорошие реализации обучения подкрепления?

language-agnostic artificial-intelligence machine-learning reinforcement-learning

5568 просмотра

9 ответа

2134 Репутация автора

Для проекта класса ai мне нужно реализовать алгоритм обучения с подкреплением, который превосходит простую игру в тетрис. Игра написана на Java и у нас есть исходный код. Я знаю основы теории обучения с подкреплением, но мне было интересно, есть ли у кого-то из сообщества SO опыт работы с подобными вещами.

  1. Какими будут ваши рекомендуемые показания для реализации усиленного обучения в игре тетрис?
  2. Есть ли хорошие проекты с открытым исходным кодом, которые выполняют подобные вещи, которые стоит проверить?

Изменить: Чем конкретнее, тем лучше, но общие ресурсы по теме приветствуются.

Следовать за:

Думал, что было бы неплохо, если бы я опубликовал продолжение.

Вот решение (код и рецензирование), которое я выбрал для будущих студентов :).

Бумага / Код

Автор: bdd Источник Размещён: 11.04.2009 04:32

Ответы (9)


3 плюса

3550 Репутация автора

Хитон Research книга довольно хорошо объяснить нейронную концепцию сети (с кодом). Глава 4 посвящена машинному обучению и различным методам обучения для ваших сетей. Существует загружаемая библиотека и примеры приложений для просмотра.

Автор: Codebrain Размещён: 11.04.2009 05:05

3 плюса

30367 Репутация автора

Вот хорошая книга на эту тему:

Машинное обучение и интеллектуальный анализ данных: введение в принципы и алгоритмы
Игорь Кононенко, Матяз Кукар (июнь 2007 г.)

Также взгляните на эти проекты с открытым исходным кодом:

Автор: Konstantin Tarkus Размещён: 11.04.2009 05:08

13 плюса

23036 Репутация автора

Решение

Взгляните на RL-конкурс 2009 года . Одной из проблемных областей является игра тетрис . В прошлом году была проблема с тетрисом. Вот 52-страничный итоговый отчет финалистки, занявшей пятое место в этом году, в котором подробно рассказывается о том, как работал агент.

Автор: andrewdotn Размещён: 13.04.2009 02:32

2 плюса

24420 Репутация автора

TD-Gammon , gnubackgammon или любой другой подобный проект имели огромный успех в играх.

В книге Саттона и Барто «Обучение усилению: введение» также есть несколько других примеров .

Автор: Shaggy Frog Размещён: 25.08.2009 06:21

1 плюс

3202 Репутация автора

Это не относится к усиленному обучению, но в Стэнфорде есть отличная серия лекций по машинному обучению на Youtube и iTunes.

Ссылка на первую лекцию, которая занимает около 30 минут, чтобы погрузиться в содержание.

Автор: hannson Размещён: 12.10.2009 11:29

1 плюс

706 Репутация автора

Burlap - это недавняя библиотека Java, которая предоставляет реализации многих общих алгоритмов обучения с подкреплением, а также несколько сред и полезных инструментов.

Автор: Nick Walker Размещён: 02.06.2016 01:19

1 плюс

498 Репутация автора

Этот вопрос действительно старый, но для всех, кто читает его в 2018 году, я настоятельно рекомендую вам использовать OpenAI Baselines, если вы заинтересованы в надежных ссылках на существующие алгоритмы RL. Эти алгоритмы реализованы группой сотрудников в OpenAI, которые действительно знают это, и были тщательно отлажены и отлажены.

Честно говоря, они вам не нужны для тетриса, но в настоящее время я подозреваю, что домашние вопросы могут включать более сложные среды.

https://github.com/openai/baselines

Автор: ComputerScientist Размещён: 22.04.2018 04:32

0 плюса

183 Репутация автора

Я бы предложил изучить RL4J, основанный на Java. Я использовал это, и я был поражен, как все работает гладко, и вы можете изучать даже сети LSTM в алгоритме обучения подкрепления с алгоритмом Actor Critic (называемым A3C)

Вот ссылка: https://github.com/deeplearning4j/dl4j-examples/blob/master/rl4j-examples/

Автор: Borislav Markov Размещён: 11.12.2018 03:34

0 плюса

1 Репутация автора

Я заметил, что этот вопрос довольно устарел и что мой регулярно обновляемый репозиторий для всех основных сред RL и фреймворков / наборов алгоритмов отлично ответил бы на это в современную эпоху.

https://github.com/TheMTank/RL-code-resources

Автор: Ben Duffy Размещён: 06.02.2019 04:14
Вопросы из категории :
32x32