네이버 연관채널 0네이버 연관채널 1네이버 연관채널 2
설명가능한 인공지능(Explainable AI; XAI) 연구 동향과 시사점 학습이 완료된 딥러닝 모델에 대한 설명을 중심으로
날짜2021.09.13
조회수6437
글자크기
    • 딥러닝의 대두 이후 구체적으로 인공지능의 판단이 어떤 매커니즘으로 결론이 도출되었는지 알 수 없어, 생명과 존엄이 관련된 곳에는 도입이 지체됐다. 이를 극복하기 위해 설명가능 인공지능(Explainable AI)의 필요성이 요구됐으나 여전히 기대에 미치지 못하고 블랙박스로 치부되는 실정이다. 본 고는 현실과 이상의 간극을 좁히고자, 실제 설명가능 인공지능 분야의 주요 기법들을 소개한다. 이를 바탕으로 향후 연구지원 정책 방향 등에 대한 시사점을 고민해본다.
  • 들어가는 글
    • 설명가능 인공지능(Explainable AI 이하 XAI)은 딥러닝 기술이 주목받고 있지만, 모델의 복잡한 구조로 인해 어떤 근거로 해당 결과를 얻었는지 이해하기 어렵기에 주목받고 있는 분야이다. 설명가능한 인공지능 기술의 발전으로 모델의 개량, 새로운 통찰의 습득, 법적 책임 및 준수 확인 등의 이점이 있을 것으로 예상되나(Samek, W. et al., 2017), 이를 실질적으로 구현하기 위한 연구는 아직 기대에 미치지 못한다는 평을 받는다. 기대와 현실의 간극은 설명가능성을 평가하기 위해 해석가능성(Interpretability)과 완전 무결성(Completeness)을 다른 개념으로 구분하여 보는 관점에서 살펴볼 때 좀 더 이해하기 쉽다. 이 둘은 XAI 분야에서 혼용되는 중이지만 이를 나눠서 보는 관점은 우리에게 많은 시사점을 줄 수 있다(Gilpin, L et al., 2018). 이러한 관점은 단순히 수치적인 변화만을 읊는 설명과 지나치게 간략화된 자연어로 표현된 설명 사이 균형을 잡을 필요성을 제기한다는 점에 의의가 있기 때문이다.
    • 학계에서 합의된 정의는 아니나 편의상 선행연구(Gilpin, L et al., 2018)를 참조해 이 글에서 완전 무결성은 입력값 또는 매개변수의 변경에 따른 변화를 일일이 확인하는 것, 해석 가능성은 모델 내부의 역학을 자연어로 표현하는 것이라 정의한다. 예를 들어 ‘성별 입력값이 -1 감소하면 채용 면접 합격의 여부에 -5.5% 기여도를 보이며 신뢰도는 95%입니다. 사용된 파라미터는 다음과 같습니다’ 같이 세세한 수치까지 알려주는 완전 무결성은 탈락자에게 많은 것을 설명하는 것처럼 보이지만, 대부분 이해하지 못한다. 해석 가능성은 탈락자에게 ‘본 의사결정에서 AI모델은 AA이론에 의거한 XX를 썼으며, 데이터 편향에 대해선 OO컨설팅의 자문받았고, 다음 순서도에 따라 인과관계를 통계적으로 증명해 의사결정이 이뤄졌습니다. 따라서 본 채용 과정에 있어 성별에 따른 차별은 없는 것으로 인증받았습니다.’ 같이 설명한다고 예를 들 수 있다. 이 또한 지나치게 간략화되어 중요한 정보(e.g. 인증 과정의 허술함)를 숨길 가능성이 있으나, 비전문가로서는 비교적 이해하기 쉽다.
    • 설명 수준에 대한 논의는 구체성 수준이나 요구사항 등을 중심으로 팽팽하게 엇갈리고 있다. 비근한 예로 EU의 GDPR(일반정보보호규정)에서 정의한 설명을 요구할 권리에 대해 플랫폼 사업자들이 제기한 ‘우리가 말할 때 인간의 뉴런이 어떻게 활동, 또는 결합하는 과정을 거쳐 말하는지 설명하나요?’라는 불평을 상기해 볼 수 있겠다. 설명 요구는 이제까지 별로 해명할 필요성을 느끼지 않던 부문에 대해 불필요한 노력을 요구하는 것처럼 보일 수 있다. 그렇다고 간략하게 전문가 집단에 인증, 감사받았으니 서비스를 무조건 신뢰해달라고 설명 요구를 뭉개는 것은 노력의 부족으로 비춰질 수 있다. 그러나 지나친 투명성과 편향된 설명 사이 적정선을 찾기 위한 논의에 앞서 할 일이 있다. 구체적으로 어떤 접근법이 있는지 확인하고 비교하는 것이다. 아무리 좋은 정책과 원칙이라도 실제 사용되는 수단과 괴리되면 무용지물이 될 수 있기 때문이다.
  • 연구 동향
    • 딥러닝 모델은 내부에 무수한 매개변수와 격자가 있어, 일일이 설명이 어렵기에 블랙박스형 모델로 불린다. 이러한 상황에서 설명을 위해 필요한 것은 무엇인가?
    • 국립국어원에 따르면 ‘설명(說明)「명사」어떤 일이나 대상의 내용을 상대편이 잘 알 수 있도록 밝혀 말함. 또는 그런 말.’이라 한다. 구문을 임의로 분해하여 풀어 쓰면 ①관념 내지는 개념을 기계와 인간이 이해할 수 있는 형태로 표현 가능해야 하고, ②화자와 청자는 모르는 개념을 접하면 상대를 통해 새로운 개념을 알 수 있어야 하며, ③이 과정이 ‘잘’ 이뤄져야 한다. ①은 텍스트를 벡터로 사상(mapping)시키는 방식 등에 기반한 자연어 처리 기술이 상당 부분 연구된 상태이다. ②는 신경망을 모사한 인공지능의 학습 성능만은 인간에 점점 근접해가고 있으며, 인간은 인공지능이 찾아낸 패턴을 통해 새로운 통찰을 조금씩 얻어가고 있으나 전달력은 다소 부족하다고 여겨진다. ③은 그 기준이 주관적이고, 여러 가지 쟁점이 존재할 수 있다. 그러나 설명의 성공 여부를 가늠하고 기계적인 수치 해석에서 자연어로 이뤄진 설명으로 넘어가는 부분으로 볼 수 있어, 이에 대한 충분한 고찰이 요구된다.
    • 이처럼 인간이 간단히 하는 -혹은 하는 것처럼 보이는- 설명이 얼마나 복잡한 이슈를 거치는지 의식하고, 현재 기술과의 틈을 더 명확히 인지하면 이를 보완하기 위한 노력을 할 수 있을 것이다. 다음은 대표적인 설명 가능 인공지능, 그중에서도 딥러닝 모델에 유효하면서도 서로 상이한 접근법을 쓰는 기법을 위주로 개념과 장/단점을 소개한다. 표에 제시된 것 외에도 많은 기법이 시도되고 있고, 이를 분류하는 방법도 가지각색이다.
    • 대표적인 설명가능 인공지능 방법론 목록 및 장단점 요약
    • LIME(Local Interpretable Model-Agnostic Explanation) : 특정 관심 영역과 같은 정보를 갖췄다고 보는 영역을 나눠 이해 단위로 삼는다. 이를 슈퍼 픽셀이라 부른다. 슈퍼 픽셀의 마스킹 여부 조합들을 해석 가능한 모델에 넣고, 어떤 슈퍼픽셀이 마스킹 되어 반영되지 않을 때 블랙박스 모델의 예측에 얼마나 영향을 미치는지 중요도를 확인하는 식이다. 예를 들어 개구리라고 분류된 이미지가 개구리로 인식된 이유를 알기 위해, 이미지를 적절한 설명 단위로 자른다. 이를 토대로 각 설명 단위가 마스킹 된 것과 마스킹 되지 않은 경우의 수만큼 이미지를 만든다. 이후 이미지들을 블랙박스 모델에 넣어 각 이미지가 개구리로 분류될 때 준거가 된 확률을 확인한다. 마스킹 경우의 수만큼의 이미지를 입력값으로, 확률을 출력값으로 하는 대체 모델(Surrogate model)을 학습시키고 각 경우의 수에 포함된 설명 단위가 얼마나 이바지했는지 해석한다.
    • LIME 도식(Ribeiro, M. T. et. al, 2016)
    • 장점 : 직관적인 결과를 보인다. 다른 기법들에 비해 연산자원이 적게 필요하다. 기계학습 모델과 무관하게(Model agnostic) 적용 가능한 기법이며, 이는 블랙박스와 비슷한 결과가 나오도록 학습되었으나 설명이 가능한 대체모델(Surrogate model)을 이용한 기법들이 가진 공통된 특징이다.
    • 단점 : 모델의 결정경계를 확정 짓는 방법이 비결정적, 즉 출력값이 호출될 때마다 달라짐. 데이터 하나에 관해서만 설명하므로 모델 전체에 대해선 설명을 할 수 없다. 단지 대표성 띠는 서브모듈러(이미지의 경우 슈퍼픽셀)를 선정할 알고리즘이 대안으로 제시되어 있을 뿐이다. 피처맵 시각화 방식은 입력값의 기여에 대한 간접적인 해석만 될 뿐, 블랙박스에 접근해 은닉층 단계의 역학이나 기여를 보진 않는다.
    • LRP(계층별 타당성 전파; Layer-wise Relevance Propagation) : LRP는 결괏값을 은닉층마다 분해(Decomposition)하여 기여도를 계산 후 타당성 전파로 (Relevance Propagation) 이전 은닉층에 재분배. 해당 기여도를 히트맵(Heatmap)으로 시각화하여 어느 부분이 판단에 영향을 미쳤는지 확인한다. 기여도 계산 방법은 테일러 급수(Taylor series)를 응용한 심층 테일러 분해(Deep Taylor decomposition)를 지표로 삼았다. 테일러 급수는 잘 모르거나 복잡한 함수를 다루기 쉽고 이해하기 쉽게 바꾸기 위해 쓰이는 방법이다. 예를 들어 해당 신경망 모델이 왜 이미지를 고양이로 판단했는지 확인한다고 가정한다. 특정 은닉층의 기여도를 토대로 표현한 히트맵을 확인하다가 사람이 보기에 고양이 형상의 히트맵이 보이면 이러한 픽셀이 고양이로 분류하게끔 기여했다고 해석한다.
    • LRP 도식(Alexander Binder, 2017)
    • 장점 : 비교적 직관적. 1995년 딥러닝 활성화 함수 분해하는 민감도 분석(Sensitivity Analysis)은 원본 이미지에 히트맵을 밀집시키지 못해 해석력이 떨어졌고, 2014년 신경망의 연결을 역 재생하는 디컨볼루션 기법은 은닉층 간 연관성을 합리적으로 설명하지 못했다. LRP는 디컨볼루션을 응용했고, 이전 방법들의 단점을 극복하여 이후 파생 기법의 기반이 됐다.
    • 단점 : 기여도의 해석일 뿐 설명이 되려면 추가적인 맥락이 요구된다. 일일이 히트맵으로 기여도를 보고 객체를 인식해야 한다는 번거로움이 있다. 출력에 가까운 은닉층일수록 히트맵으로 나타난 추상적 개념은 해석이 어렵다.
    • Explorative Sampling Considering the Generative Boundaries of Deep Generative Neural Networks(DGNN의 생성 경계를 고려한 탐색적 샘플링 방식) : 이미지, 텍스트 등의 생성 모델은 어떤 기준으로 만드는지 알기 어렵다. 예제 기반 설명을 통해 알아보기 위해, 모델이 다차원 공간에 만든 격자 혹은 경계 중 중요한 것만 남긴 후 경로 찾기 알고리즘(e.g. RRT; Rapidly-exploring random tree)의 응용을 사용해 격자 사이에 있는 데이터를 기반으로 생성한 예제를 샘플링 한다. 어느 격자에 가까워질수록 샘플에 어떤 영향을 주는지 확인하여 격자의 역할을 추론해볼 수 있다. 예를 들어 이미지 생성모델의 특정 격자 사이 공간 내에서 남성의 사진이 있다고 가정한다. 특정 격자에 가까운 이미지 샘플을 만들수록 여성스러운 느낌을 준다면, 해당 격자는 사진을 생성할 때 남성을 여성처럼 보이게 하는 역할을 갖고 있다고 추측할 수 있다.
    • 생성 경계를 고려한 돋보기 방식(G. Jeon et. al., 2020)
    • 장점 : 각 격자가 어떤 특징을 가졌는지를 알고, 이를 의도적으로 제어할 수 있다. 만약 의도하지 않은 이미지, 텍스트를 생성하면 샘플을 토대로 어느 격자의 문제인지를 확인하고 관련 노드를 비활성화하는 방법 등을 적용할 수 있다.
    • 단점 : 예제 기반 설명의 공통적인 단점으로 분석가가 여러 샘플을 보고 판단하는 과정에서 샘플 간의 변화와 이를 나누는 경계를 언어로 표현하기 어렵거나 편견이 개입할 수 있다.
    • Rule Extraction(규칙 추출) : 신경망의 구조로부터 IF-THEN과 같은 형태의 의사결정 나무와 같은 형태의 규칙을 추출하는 접근법이다. 신경망을 이루는 노드는 결국 활성함수의 다른 말이다. 이를 별도의 알고리즘에 따라 중요한 노드를 고른 후, 특정 수치의 경계를 토대로 나눈다. 이를 넘으면 TRUE, FALSE로 나누고 결과에 맞게 다음 층의 노드로 이동하고 이를 반복한다. 딥러닝에는 DeepRED 방법론이 대표적이며, 이외에도 여러 변형이 있다. 예를 들어 Sigmoid 활성함수로 구성된 노드가 있다면, 규 칙 추출 방법론마다 고유의 알고리즘에 따라 임계값을 0.22로 도출한다. 조건문 ‘IF 0.22>=input1 THEN output 1.00 ELSE output 0.00’과 같은 식으로 표기할 수 있는데, 선정된 노드마다 규칙을 추출하여 최대한 신경망을 논리적인 형태로 축약한 것을 보일 수 있다.
    • 규칙 추출 예시 도식(L. G. Kabari et al., 2012)
    • 장점 : 신경망 모델을 단순화시켜 가독성이 높고, 유지보수가 쉬움
    • 단점 : 은닉층 1개만을 대상으로 한 연구가 대부분이다. 모델이 복잡해져 가지가 너무 많아지면, 아무리 간략화해도 결국 블랙박스와 같이 이해가 어렵다. 최대한 블랙박스의 결과와 비슷하게 하려고 여러 방법론이 도입되었으나, 추출한 규칙은 블랙박스의 모델의 매커니즘과 같을 수 없어 완전 무결성을 충족시키기 어렵다.
    • Zero shot learning : 전이학습 기반해 한 번도 처리한 적 없는 데이터를 분류할 수 있도록 학습하는 방법론. 크게 두 가지 발상에 기반한다. 첫 번째, 이미지들은 신경망 모델로 학습된 단어의 의미적 공간(e.g. 지식 그래프 : 서울-한국, 도쿄-일본 같은 식으로 단어와 단어 간의 거리를 의미적인 맥락을 갖도록 다차원 공간에 위치시킨 네트워크)에 매칭한다. 두 번째로, 분류기는 이미 태그가 존재하는 데이터로 분류하는 것을 선호하기 때문에 모델은 새로운 이미지에 기존의 태그에 해당하는지 아닌지를 결정하는 특이치 탐지(novelty detection)를 포함한다. 새로운 이미지를 분류할 때 특이치가 일정 수준을 넘으면 지식 그래프를 참조해 새로운 태그에 맞게 분류한다. 이미 기존에 학습한 모델을 활용하기 때문에 전이학습(Transfer Learning)으로 분류할 수 있다. 이외에도 비슷한 접근법을 Meta Learning, Hybrid Learning으로 칭하기도 한다. 예를 들어 호랑이, 사자, 오랑우탄 이미지를 분류 모델이 학습 못 한 고양이 이미지를 입력받았다고 가정한다. 특이치가 임계점을 넘으면 모델은 새로운 이미지라 보고 기존 분류 체계 밖에 있는 단어를 찾기 위해 지식 그래프를 참고한다. 이때 해당 이미지가 기존 이미지와 얼마나 차이가 나는지 확인하고, 이를 기반으로 지식 그래프의 경로를 따라간다. ‘호랑이-호피 무늬-없다-작다-고양이’와 같은 경로 탐색이 완료되면 최종적으로 새로운 이미지를 고양이라고 분류한다.
    • 제로샷 러닝(Zero shot learning) 모델 도식(Song, J. et al., 2018)
    • 장점 : 사전에 학습된 지식 그래프를 기반하므로, 비교적 맥락에 기반한 설명이 가능하다. QA(Question Answering), 지식 그래프 경로 탐색 관련 기술을 활용해 자연어로 된 설명을 생성할 수 있다(Geng, Y. et al., 2020).
    • 단점 : 문맥을 갖춘 지식 그래프에 기반한 설명을 하는 것이지만, 사전 학습을 통해 구축된 지식 그래프가 문맥적 깊이를 가진다는 보장은 없다. 이는 크롤링으로 무수한 문서를 학습한 텍스트 생성 모델 GPT-3도 지적받는 사항이다. 그리고 더 깊은 설명이 필요할 경우 지식 그래프를 만드는 데 쓰인 모델을 설명해야 한다는 문제가 남는다.
  • 설명 가능한 인공지능 R&D 관련 시사점
    • 첫째로, 서문에서 언급한 해석가능성과 완전무결성의 상충관계를 의식하고 약간의 해석가능성을 대가로 완전무결한 묘사를 할 수 있어야 한다는 것이다(Gilpin, L et al., 2018). 완전무결한 설명이 어렵다는 것은 규칙 추출, LIME 방법론만의 단점이 아닌 대부분의 방법론이 지닌 단점이기도 하다. 그리고 이외에도 설명에 필요한 사항, 주의해야 할 이슈 등을 구체화하고 미진한 부분의 연구를 지원할 필요가 있다. 2023년 혁신성장동력프로젝트사업이 끝나고 ‘설명 가능한 인간 수준의 딥 기계학습 추론 프레임워크 개발’, ‘의사결정 이유를 설명할 수 있는 인간 수준의 학습·추론 프레임워크 개발’ 등 XAI 관련 프레임워크 연구 과제 결과물(한국과학기술평가원, 2021)을 종합해 요건을 정리하고, 차후 중장기 지원 계획에 활용해야 할 것이다.
    • 둘째로, 설명을 자동화할 필요성이다. 해석 결과를 토대로 인간 분석가가 맥락을 스스로 생각해내는데, 구태여 설명 방법론이 필요할지 의문을 가질 수도 있다. 그러나 분석가의 통찰이 담긴 설명을 만들어 내는 데엔 많은 시간이 요구된다. 더불어 이 과정에서 분석가의 편견이 개입될 여지가 존재한다. 예를 들어 미군 채용 면접 AI의 판단을 알기 위해 LRP와 같이 기여도를 히트맵으로 확인하는 방법론 사용했다고 가정한다. 특정 인종적 특징을 띄는 사람이 탈락했다는 결론이 나왔을 때, 분석가의 눈에는 미국 중서부 인종적 특성에 따른 차별을 했다고 보일 수 있다. 그러나 진실은 중서부 시골 출신이 통계적으로 유의한 수준으로 집단생활 적응력이 부족해서일 수 있다. 또한 설명에 대한 강한 입법적 제재와 그로 인한 수요가 매우 증가하면, 결국 모델 설계 단계에서 설명에 쓰이는 비용을 줄이려는 방향으로 갈 것이다. 기업들은 처음부터 적은 비용으로 설명이 가능한 모델을 도입하거나, 범용적으로 자연어로 된 설명으로 만들어내는 추가적인 설명 생성 모델을 도입할 것이다. Zero shot learning과 같은 지식 그래프에 기반한 전이학습 접근법이 가진 장점이 그런 의미에서 가장 두드러질 것으로 보인다. 이러한 사항을 고려해 설명 자동화 연구지원 계획이 필요할 것이다.
    • 셋째로, XAI를 구현할 방법론들을 택할 때 기준이 될 설명과 이해의 과정에 대해, XAI에 맞춘 모델과 설명의 품질을 측정할 척도를 정리하고 지속해서 개량하는 정책이 필요하다. [표 1]을 보완해 모든 XAI 방법론의 장단점을 알아내도, 당장 도입해야 할 실무자 처지에선 어떤 방법론이 최고의 선택인지 평가할 기준으로는 부족함을 느낄 것이다. 물론 생각과 이해는 철학과 뇌과학의 영역에 속하고, 명쾌한 설명과 측정이 어려운 부분이다. 극단적으로는 언어의 한계 때문에 인간은 서로 온전히 이해할 수 없다는 견해도 있다. 그러나 달리 생각해보면 현시점에서 AI는 재화/서비스를 제공하기 위한 도구일 뿐이며, 고객을 만족시키는 것이 최종 목적이다. 예를 들어 대표성 있는 다수의 고객이 이해할 설명이면 충분할 것이라는 합의도 생각해볼 수 있다. 비슷한 선례로 질문과 답변을 통해 인간과 기계를 구분하는 튜링 테스트가 있다. 논란의 여지는 있지만, 철학적인 논쟁에서 벗어나 현실적인 측정 방법을 마련하는 방안을 세우기 위한 실용적 접근 중의 하나가 될 수 있을 것이다. 비슷한 아이디어로 ‘초등학생 대상 설명 가능성 품질 만족도(FGI)’ 연구 사업이 진행 중이다. 이외에도 대화의 자연스러움(Sensibleness and Specificity Average) 대화 인게이지먼트(Conversation-turns Per Session)와 같은 기존 자연어 모델의 평가지표 등의 적용이 연구 중이다(한국과학기술평가원, 2021). 이것이 XAI에 적합하며 한국어 사용자의 수요에 부합할지에 대한 추가적인 논의가 필요할 것으로 본다.
  • 참고문헌
    • Alexander Binder(2017). Explaining Decisions of Neural Networks by LRP. Deep Learning: Theory, Algorithms, and Applications.
    • Geng, Y., Chen, J., Ye, Z., Yuan, Z., Zhang, W., & Chen, H. (2020). Explainable zero-shot learning via attentive graph convolutional network and knowledge graphs.
    • Gilpin, L. H., Bau, D., Yuan, B. Z., Bajwa, A., Specter, M., & Kagal, L. (2018). Explaining explanations: An overview of interpretability of machine learning.
    • L. G. Kabari and E. O. Nwachukwu (2012). Neural Networks and Decision Trees For Eye Diseases Diagnosis, Advances in Expert Systems, Petrica Vizureanu
    • Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). Local Interpretable Model-Agnostic Explanations (LIME): An Introduction
    • Richard Gall, Packt (2018). Machine Learning Explainability vs Interpretability: Two concepts that could help restore trust in AI
    • Samek, W., Wiegand, T., & Muller, K. R.(2017). Explainable Artificial Intelligence: Understanding, Visualizing and Interpreting Deep Learning Models
    • 안재현(2020). XAI 설명 가능한 인공지능, 인공지능을 해부하다
    • 고학수, 김용대, 윤성로, 김정훈, 이선구, 박도현, 김시원 (2020). 인공지능 원론 : 설명가능성을 중심으로
    • 한국과학기술기획평가원(2021). 2020년도 예비타당성조사 보고서 사람 중심 AI 강국 실현을 위한 차세대 인공지능 핵심원천기술개발사업