# 강화학습이란?

파이토치와 유니티 ML-Agents로 배우는 강화학습 이라는 책을 읽고 쓰는 내용임

 


 

강화학습을 이해하기 앞서 기계학습이 무엇인지 짚고 가보자

 

기계학습은 1959년 아서 사무엘이라는 분이 

 

기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야"

라고 정의했다

 

기계학습 알고리즘에는 결정 트리, 랜덤 포레스트, 서포트 벡터 머신,인공 신경망이 있다

 

기계학습은 크게 지도 학습비지도 학습강화 학습 3가지 유형으로 나눌 수 있다

 

3가지 유형에 대해 짤막하게 설명해보자면

 

지도 학습 : 머신러닝 알고리즘이 데이터 세트특징을 통해 예측한 값실제 정답의 오차를 줄여나가도록 반복적으로 학습, 주로 회귀분류와 같은 문제를 해결하는데 사용 됨, 특정 지역에 있는 주택의 가격을 예측하거나 손 글씨 예측등

 

강아지 그림을 설명하고 있는 선생님

이해를 돕기 위해 사진을 그려옴, 상황은 초등학생 교사가 초등학생들에게 모니터에 있는 강아지 사진을 보여주며 강아지라(말티즈)는 것을 알려줌!(즉, 정답을 알려줌),  다음에는 진돗개를 보여주고 다음에는 다른 종들을 보여주며 학습시켜줌!! 그러면, 나중에 학생들은 강아지 사진을 보고 해당 종이 무엇인지 알 수 있게 됨!! 아무트 그럼 ㅇㅇ..

 

 

비지도 학습 : 데이터 세트정답이 따로 존재하지 않음, 데이터가 가진 특징을 기반으로 학습하여 데이터가 어떻게 구성돼 있는지 알아냄, 군집화 같은 문제를 해결하는 데 사용, 불량인지 정상인지 알 수 없는 제도 과정의 신호 데이터들을 가지고 군집화를 통해 불량품을 찾아냄 등

 

바닥에 널부러져 있는 강아지 사진들과 고양이 사진들

이해를 돕기 위해 고양이 사진과 강아지 사진을 그려와봤음, 정답은 따로 주어지지 않았지만, 강아지와 고양이라는 특징이 구분되어 있음!!

 

 

강화

 학습 : 지도 학습처럼 정답이 있지 않고, 비지도 학습처럼 데이터의 특징만을 기반으로 학습하지도 않음, 에이전트환경상호작용하고, 환경에는 보상이라는 기준이 있어 다양한 시행착오를 겪어가며 보상을 최대하하는 방향으로 학습함, 게임을 처음 접했을 때 등

티어가 점점 오르는 모습을 표현해 봄


 

재밌어서 넣어봄

강화학습의 성과

2016년 세계를 놀라게 한 사건!

바로 구글 딥마인드의 알파고!!!!!!

 

2017년 구글 딥마인드가 알파고-제로를 개발!!! 알파고와는 다르게 인간의 기보를 이용하지 않고 처음부터 자가 대국을 통해 학습! 24시간만에 알파고-리의 실력을 따라잡았고 72시간만에 알파고-리를 100대0으로 이겼다함 ㄷㄷㄷㄷㄷㄷㄷㄷㄷ

 

2018년 알파 제로!!!!!!!!!!!!!!! 보드게임을 쉽게 정복할 수 있는 알고리즘임 ㄷㄷㄷㄷㄷㄷ 30시간만에 알파고-제로 압도했다함 ㄷㄷ

 

2018년 OpenAI에서 개발한 인공지능이 인간팀을 상대로 도타2 게임을 승리하게 됨 ㄷㄷ

 

2019년 구글 딥마인드가 알파스타 개발!! 스타2로 인간팀을 상대로 10대1ㅇ ㅏㅂ승함 ㄷㄷㄷㄷㄷ

 

2020년 구글 딥마인드가 하나의 알고리즘으로 아타리의 57개 게임 모두에서 사람보다 좋은 실력을 보인 Agent57 알고리즘을 발표함 + 뮤제로(Muzero)도 발표함

 

2021년 구글 브레인에서 반도체 칩 디자인에 강화하습을 적용하는 연구를 수행함