SPRi - 소프트웨어정책연구소 : SPRi칼럼

본문 바로가기
주메뉴 바로가기

SPRi칼럼

알파고 제로, 인공지능의 새 길을 열다

추형석 역대연구원

2017.11.28

17651

글자크기

- AlphaGo Zero, Open a New Way of AI(Artificial Intelligence)
- 알파고는 지난 5월 중국의 바둑 신성 커제 9단과의 대결에서 승리한 뒤 화려하게 은퇴했다. 이 대결은 과거 이세돌 9단과의 대결에 비하면 충격적이지 않았지만, 학계에 남겨진 여운은 매우 컸다.
- 첫 번째 이유는 알파고가 컴퓨터 한 대를 활용해 커제와 대결했다는 점이다. 이세돌 9단과의 대결에서는 슈퍼컴퓨터급의 장비를 활용했는데, 1년 여의 기간 동안 전력소비를 큰 폭으로 개선한 것이다. 두 번째는 바둑기사의 기보를 전혀 학습하지 않았다는 점이다. 이런 접근은 역설적으로 대규모 데이터를 학습해 패턴을 예측하는 현대 인공지능 개념을 뒤엎는 것이다.
- 구글 딥마인드는 지난 10월, 앞서 기술한 여운을 해결해 줄 논문을 세계적인 학술지 ‘ 네이처(Nature)’에 게재했다. 논문에서 소개된‘ 알파고 제로’는 바둑기사의 기보없이 스스로 대결하며 학습했다고 밝혔다. 비결은 강화학습이다. 강화학습은 행위에 대한 보상을 통해 전략을 강화하는 방법으로 게임 인공지능 분야에 주로 활용된다.
- 이세돌 9단과 대결한 알파고의 강화학습은 자체 대결(Self-Play)로 전략을 가다듬는데 활용됐다. 자체 대결에 사용된 바둑 전략은 인간의 기보를 학습한 인공신경망이다. 이것은 잘 알려졌다시피 3,000만 개의 바둑판 상태를 학습하여 전문 바둑기사의 착수 선호도를 학습했다. 그러나 전문 바둑기사의 기보는 완벽하지 않으며, 바둑 격언에 고착될 가능성이 높다. 이에 딥마인드는 학습한 기보 자료를 한 차원 뛰어 넘기 위해서 강화학습을 적용한 것이다. 결과적으로 이 접근은 이세돌 9단을 4:1로 물리치게 된 성공요인으로 작용했다.
- 알파고 제로의 강화학습 알고리즘은 지난 이세돌 9단과 대결했던 것보다 상당부분 개선됐다. 먼저 이세돌 9단과 대결한 알파고는 두 가지 형태의 인공신경망을 활용했다. 이 두 가지는 전문 바둑기사의 기보를 학습하여 착수 선호도를 결정하는 정책망과 현재 바둑판의 승률을 근사하는 가치망이다. 알파고 제로에서는 이 두 가지를 하나의 신경망으로 통합해 성능을 개선했다. 또한 기존 알파고는 바둑판을 48가지 특징으로 분류하여 학습을 진행했으나, 알파고 제로는 바둑돌의 위치만을 토대로 학습했다. 요약하자면 알파고 제로는 백지상태에서 바둑의 규칙만을 토대로 학습했다고 볼 수 있다.
- 바둑 규칙만을 토대로 스스로 학습한 알파고 제로는 이세돌 9단과 대결한 알파고와의 대국에서 100:0으로 완승했다. 또한 커제 9단과 대결한 알파고와는 89:11로 압도적인 승리를 기록했다. 알파고 제로는 비로소 바둑에서 인간을 뛰어 넘는(Superhuman) 성능을 보유한 것이다. 더욱 놀라운 사실은 이정도 수준에 오르기까지 약 48시간 남짓한 시간이 소요됐다는 것이다(그림 참고). 인간이 처음 바둑을 시작하여 프로 9단까지의 험난한 여정을 비춰보면 인공지능 기술의 발전이 새삼 빠르게 느껴지는 대목이다.
- 한편, 알파고 제로는 학습을 위해 4개의 TPU(Tensorflow Processing Unit)를 활용했다. TPU는 구글이 고안한 학습 전용 하드웨어(HW)로, 기존 연산처리장치보다 최대 80배 정도 전력 효율이 높다. 학습기반 인공지능은 일반적으로 계산량이 매우 많다. 현재 인공지능 컴퓨팅 인프라로 GPU가 각광받는 이유도 같은 가격의 CPU 대비 계산 성능이 월등히 뛰어나기 때문이다. 그러나 GPU의 전력 소모가 크다는 단점이 있다. TPU는 GPU와 같이 인공지능 학습에 뛰어난 성능을 보이면서도 전력을 적게 소모한다는 점을 주목할 필요가 있다.
- 구글 딥마인드의 알파고 제로는 현대 인공지능을 변혁을 알리는 신호탄이 될 것이다. 데이터를 스스로 생산하며 학습한다는 패러다임을 제시했기 때문이다. 사람처럼 행동하는 인공지능은 여전히 요 원한 일이지만, 알파고 제 로가 증 명한 기술발전의 속 도는 우리가 생각하는 것보다 더 빠를지도 모른다.
- 이 칼럼은 서울신문 2017년 11월 13일자‘ IT 신트렌드’에 게재된 글입니다.
- http://www.seoul.co.kr/news/newsView.php?id=20171114029006&wlog_tag3=naver

목록

대표저자 연구자료

- 연구보고서
SW안전 패러다임의 변화와 기술 대응 동향 연구
- 추형석
- 유재흥
- 조원영
- 안성원
- 노재원
2023-09-22
- 연구보고서
글로벌 AI 신뢰성 정책 동향 연구
- 유재흥
- 조원영
- 안성원
- 추형석
- 노재원
- 손효현
2023-09-22
- 산업/정책 동향
엑사스케일 슈퍼컴퓨터로 배우는 SW생태계의 중요성
- 추형석
2022-07-25
- 이슈리포트
인공지능 시스템의 성능 측정, MLPerf의 현황과 시사점
- 추형석
- 유재흥
2022-07-08
- 연구보고서
인공지능 신뢰체계 정립방안 연구
2022-05-24

연관태그 연구자료

알파고

- SPRi칼럼
알파고 제로, 인공지능의 새 길을 열다
2017-11-28
- 산업/정책 동향
알파고 세계 바둑계를 정복하다
2017-06-30
- SPRi칼럼
구글 인공지능으로 인류 ‘일상 장악’ 꿈꾼다
2016-05-12
- SPRi칼럼
인공지능 알파고가 남긴 숙제 1
2016-03-23
- SPRi칼럼
알파고의 계산성능
2016-03-18

SPRi 소프트웨어정책연구소

경기도 성남시 분당구 대왕판교로 712번길 22 글로벌 R&D센터 연구동 B 4층 개인정보처리방침

Copyright © 2014-2021 By Software Policy & Research Institute.
All rights reserved.

공공누리 Open / 공공저작물 자유이용허락(출처표시,변경금지)

웹접근성인증마크

뉴스레터 구독하기

다양한 소프트웨어 관련 소식을 전달해드립니다.

구독을 하시면 이메일을 통해 매달 <SPRi 뉴스레터>를 보내드립니다.

이메일주소

개인 정보 수집 및 이용에 대한 안내 (필수)

뉴스레터 서비스 제공을 위하여 아래와 같이 개인 정보를 수집·이용 및 제공하고자 합니다.
내용을 자세히 읽으신 후 동의 여부를 결정하여 주십시오.
가입자는 동의를 거부할 권리가 있으며, 서비스 제공에 필요한 최소한의 개인정보 수집에 동의하지 않을 경우 서비스 이용이 불가능할 수 있습니다.

항목, 수집목적, 보유기간 내용이 담겨있는 표
항목	수집목적	보유기간
이메일	SPRi 뉴스레터 발송, 신규 콘텐츠, SPRi 소식 등 제공	수신거부 시 까지

동의합니다.

뉴스레터 구독 해지 하기

뉴스레터 구독을 해지하시면 뉴스레터 발송을 위해 저장되었던 이메일 정보가 삭제되며,

제공되던 뉴스레터 서비스를 이용하실 수 없습니다.

이메일주소