네이버 연관채널 0네이버 연관채널 1네이버 연관채널 2
김기응 (KAIST 교수) Reinforcement Learning
  • 강송희산업정책연구팀 선임연구원
날짜2016.10.24
조회수5309
글자크기
    • 프로그램
      일 시 2016. 10. 24(월) 09:30~12:30
      장 소 소프트웨어정책연구소 회의실 (판교글로벌R&D센터)
      주 제 Reinforcement Learning
      발 제 자 김기응 (KAIST 교수)
      참 석 자 SPRi 연구진
    • 기계학습은 비지도학습(Unsupervised Learning), 지도학습(Supervised Learning), 강화학습(Reinforcement Learning)으로 나뉘어짐
    • 강화학습이란, 일종의 예측하는 학습 알고리즘이 피드백을 받아 학습하는 과정
    • (예제) Can you beat the bandit algorithms? : 환자에게 약을 투여하는 최적 전략을 계산
    • 현재 Greedy, Posterior Sampling, UCB, ɛ(epsilon)-greedy 알고리즘 등이 알려짐
    • (문제) Multi-armed Bandits이란, 여러 가지의 액션(arm)을 보상이 최적이 되도록 계산하는 문제로 Stochastic bandits(Robbins, 1952)을 기반으로 함
    • Policy(Allocation Strategy)를 구현하는 Bandit 알고리즘을 누적 보상을 기준으로 성능 판단 - Lower Bound:
    • RT = Ω(ln T)
    • 강화학습의 딜레마 : Exploration-Exploitation Dilemma(새로운 것을 선택할까, 제일 좋았던 것을 선택할까?)
    • 강화학습 알고리즘의 종류
    • Add noize: ɛ-greedy의 경우 (1-ɛ)확률로 과거 경험에 비추어 가장 좋았던 것을 선택하고 ɛ 확률로 다른 것을 탐색
    • Optimism in the Face of Uncertainty : 불확실할 때는 낙관적으로 행동하는 알고리즘으로, 이 정책을 쓰는 UCB1(Auer et al, 2002)의 경우 Lower Bound를 만족하며, 알파고에서도 사용
    • 이 외에도 Probability Matching 군, Lookahead Search 군 등이 있음
    • Contextual Bandits(Langford&Zhang 2008) : 프로파일(컨텍스트) 정보가 주어진 Bandit 문제
    • Yahoo의 개인화 뉴스 추천 시스템에 사용된 알고리즘으로 학습에 활용된 데이터셋이 공개되어 있어 비영리 단체의 경우 재활용 가능
    • Policy : π : S→1,···,K(a mapping), RT ≤2T|S|KlnK (예: LinUCB 등)
    • General Model of Reinforcement Learning(Russell&Novig, 2014)가 제시됨
    • 환경 -> 인지 -> 센서 -> 에이전트 -> 액션 -> 환경