Реализация алгоритма Sail из статьи Learning Heuristic Search via Imitation.
В данной работе основное внимание уделяется разработке эвристик, которые явно уменьшают усилия поиска в интересах производительности в реальном времени. Ключевая идея заключается в том, что эвристики должны адаптироваться: по мере продвижения поиска они должны активно выводить структуру допустимого пространства и направлять поиск на потенциально хорошие области.
Нейронной сетью аппроксимируется функция Q - длина кратчайшего пути из вершины v, в которую попадает поиск из состояния s. На вход нейронной сети подаётся признаковое описание вершины v, включающее в себя признаки среды и признаки состояния поиска. Во время обучения метода для любой задачи планирования мы можем получить точные значения функции Q, используя алгоритм Дейкстры. Данные значения будут использоваться для обучения нейронной сети Q как желаемые ответы.
Предлагается использовать двухслойную полносвязную сеть
Наборы карт взяты из репозитория автора статьи. Для каждого типа карт имеется 1000 изображений, которые располагаются в папке с именем тип карты и поделены на train(800), validation(100), test(100). Все карты находятся в папке motion_planning_datasets.
Обученные модели находятся в папке models. Имя файла модели = тип карты + номер итерации обучения, после которой данная модель была получена.



