Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: LXXXIII Международной научно-практической конференции «Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ» (Россия, г. Новосибирск, 14 ноября 2019 г.)

Наука: Информационные технологии

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Волчек А.Ю. ОБЗОР УЛУЧШЕНИЙ МЕТОДА Q-ОБУЧЕНИЯ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LXXXIII междунар. студ. науч.-практ. конф. № 11(82). URL: https://sibac.info/archive/technic/11(82).pdf (дата обращения: 18.01.2025)
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

ОБЗОР УЛУЧШЕНИЙ МЕТОДА Q-ОБУЧЕНИЯ

Волчек Андрей Юрьевич

магистрант 2 курса, кафедра «ПОИТ» Белорусский государственный университет информатики и радиоэлектроники

Республика Беларусь, г. Минск

Волорова Наталья Алексеевна

научный руководитель,

канд. техн. наук., доцент, кафедра «Информатика», Белорусский государственный университет информатики и радиоэлектроники

Республика Беларусь, г. Минск

Одним из основных алгоритмов обучения с подкреплением является Q-обучение. Q-обучение ставит своей целью выучить стратегию, которая говорит агенту какое действие оптимально в каждом конкретном состоянии среды. Алгоритм не требует задания модели среды и может работать в средах со стохастическими переходами и функциями награды.

К известным недостаткам алгоритма Q-обучения относится его нестабильность в некоторых задачах. Также в сложных средах для достижения хороших результатов требуется очень много обучающих данных. В последнее время было предложено много различных улучшения алгоритма Q-обучения, которые ставят своей целью решить эти и другие проблемы. Рассмотрим несколько самых эффективных из них.

 

1. Двойное Q-обучение. Параметры нейросети в глубоком Q-обучении оптимизируются стохастическим градиентным спуском, минимизируя функцию потерь:

                                               (1)

В работе (van Hasselt 2010) показано, что из-за применения операции максимизации в уравнении (1) оценка Q-функции почти всегда является смещённой. Предложенный в данной работе подход позволяет частично избавиться от этой проблемы. Предлагается поддерживать рядом ещё одну нейросеть (target network), параметры в которую копируются из основной раз в несколько итераций. Вместо максимизации в уравнении (1) мы сначала выбираем действие с максимальным значением Q-функции, основываясь на данных из основной сети, но дальше используем значения Q-функции для этого действия из дополнительной сети. Это повышает стабильность обучения, а также позволяет улучшить результаты, полученные на датасете из игр Atari в несколько раз.

2. Приоретизированный буфер опыта. Буфер опыта (experience replay) значительно ускоряет обучение и улучшает его стабильность, позволяя обучаться на ранее виденных ситуациях. В обычном его варианте мы выбираем обучающее множество равновероятно среди всех его элементов. Очевидно, что на практике существует много “простых” ситуаций, для которых сеть выучила хорошую аппроксимацию Q-функции и некоторое количество “сложных”. В приоритезированном буфере опыта [2] мы выбираем каждый элемент в обучающее множество с вероятностью, пропорциональной значению функции потерь на этом элементе во время предыдущей итерации обучения. После того, как мы обновили параметры модели по элементам, выбранным в обучающее множество, значения функции потерь для этих элементов пересчитываются и они снова попадают в буфер опыта с новыми значениями функции потерь. При использовании такой процедуры обучающая выборка становится смещенной, что может существенно вредить обучению. Для борьбы с этой проблемой используется алгоритм Importance sampling.

3. Многошаговое Q-обучение. Обычное Q-обучение обновляет значение Q-функции на основе награды на данном шаге и Q-значения на следующем шаге для жадно выбранного наилучшего действия. Альтернативой этому подходу является использование аккумулированной награды за несколько шагов.

4. Dueling Deep Q-Learning

В обычном Q-обучении значение Q(s, a) показывает насколько выгодно находясь в состоянии s совершить действие a. Можно представить эту функцию в виде:

Значение функции V(s) является оценкой того, насколько хорошо находиться в состоянии s. А функцию A(s, a) в свою очередь является оценкой того, насколько хорошо совершить действие a находясь в состоянии s. В работе [3] предлагается обучать нейросеть с двумя головами, одна из которых предсказывает значение функции V, а другая – значения функции A для всего набора действий.

Значение функции Q(s, a) получается по формуле:

По результатам экспериментов в статье это позволяет значительно улучшить результаты алгоритма на датасете из игр Atari.

Предложенные методы улучшения алгоритма Q-обучения позволяют ускорить обучение и увеличить стабильность получаемых результатов.

 

Список литературы:

  1. Hado V. Hasselt. Double Q-learning [Электронный ресурс] // Advances in Neural Information Processing Systems 23 – Режим доступа: https://papers.nips.cc/paper/3964-double-q-learning.pdf. – Дата обращения: 01.10.2019.
  2. Experience Replay [Электронный ресурс] // Arxiv. – Режим доступа: https://arxiv.org/abs/1511.05952. – Дата обращения: 01.10.2019.
  3. Dueling Network Architectures for Deep Reinforcement Learning [Электронный ресурс] // Arxiv. – Режим доступа: https://arxiv.org/abs/1511.06581. – Дата обращения: 01.10.2019.
Проголосовать за статью
Конференция завершена
Эта статья набрала 0 голосов
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий