Reinforcement Learning(강화학습: RL)은 Interpreter(관리자)가 Agent(로봇) 에게 보상과 상태를 주며 action(행동)을 시키는데 그 action이 맞으면 

reward를(1) 틀리면 punishment(?) 를 줘서 그 행동의 방향을 우리가 원하는 방향으로 바꾸는 알고리즘이다


[그림] 간단한 reinforcement learning 

https://en.wikipedia.org/wiki/Reinforcement_learning


RL은 Machine learning(기계학습: ML) 분야에 많이 사용되는데 ML분야에 기본인 Data를 이용하여 Output을 추론하는 과정에
가장 최적화된 방법을 찾는데 사용된다


ML의 방법에는 크게

Label된 데이터가 필요한 Supervised learning(지도학습)

Label된 데이터가 필요 없는 Unsupervised learning(비지도학습)

이 있는데 Supervised learning의 경우 많은 수의 label된 데이터를 수집하는데 어려움이 있고

Unsupervised learning의 경우에는 학습하는데 어려움이 있다

RL를 사용하여 세상에 존재하는 모든 데이터를 학습함에 있어 Unsupervised learning에 좀 더 최적화된 데이터 분류 방법을

제공함으로서 최적화된 ML 알고리즘을 제작하는데 그 사용방법을 사용한다


다음은 RL에 가장 기초가 되는 MDP(Markov Decision Process)에 대해 간단히 알아보도록 하겠다

+ Recent posts