칼만 필터의 시스템 오차 공분산 Q를 강화학습을 통해 튜닝하여 필터링 성능을 끌어올리는 것을 목표로 한다. 우선 확률 프로세스와, DDPG의 특징, 연속 행동 공간을 갖는 모델의 탐색을 위한 OU 프로세스 노이즈를 생성하는 법을 다룬다. 해당 내용은 네이버 블로그에 정리되어 있다.
[강화 학습 - 1] 확률적 프로세스(Stochastic Process) 이토 적분(Itô Integral)
https://m.blog.naver.com/rlarlarlathgus/223758341591
[강화 학습 - 1] 확률적 프로세스(Stochastic Process) 이토 적분(Itô Integral)
강화학습을 공부하기에 앞서 확률적 프로세스가 무엇인지 알아야 한다. 강화학습과 확률적 프로세스 강화학...
blog.naver.com
[강화학습 - 2] OU(Ornstein–Uhlenbeck) 프로세스
https://m.blog.naver.com/rlarlarlathgus/223758661480
[강화학습 - 2] OU(Ornstein–Uhlenbeck) 프로세스
[강화 학습 - 1] 확률적 프로세스 글에서 확률적 프로세스와, 이토 적분에 대해 알아보았다. 이번 글에서는...
blog.naver.com
[강화학습 - 3] 결정론적 정책 기울기 Deep Deterministic Policy Gradient https://m.blog.naver.com/rlarlarlathgus/223759907465
[강화학습 - 3] 결정론적 정책 기울기 Deep Deterministic Policy Gradient, DDPG
칼만 필터의 Q 행렬을 에이전트 액션으로 예측하여, 추정 성능 개선을 목표로 한다. 따라서 연속적인 액션...
blog.naver.com
[강화학습 - 4] TD 오차 기반 미니배치 샘플링 Prioritized Experience Replay https://m.blog.naver.com/rlarlarlathgus/223763524912
[강화학습 - 4] TD 오차 기반 미니배치 샘플링 Prioritized Experience Replay
DDPG는 Off-policy 학습이 가능하다. 과거의 경험들(상태, 행동, 보상, 다음 상태, 종료 여부)을 Rep...
blog.naver.com