DEVIEW 2014 - Deep Learning at Naver

NAVER LABS·DEVIEW 2014 2014·2015년

AI 요약

네이버랩스 발표자가 딥러닝의 본질과 부활 배경을 풀어낸다. 딥러닝은 '뇌를 본뜬 AI'라기보다 뉴럴 네트워크를 쓴 기계학습이며, 학습 방법인 역전파는 1980년대에 이미 확립된 오래된 기술이라는 점에서 출발한다. 그런데도 지금 주목받는 이유는 단순하다 — 엄청나게 잘 되기 때문이다.

핵심 포인트

부활의 세 요인은 오버피팅을 막는 새 알고리즘, 인터넷 시대의 빅데이터, GPU 같은 하드웨어이며, 음성인식·이미지넷에서 극적인 성능 개선으로 입증됐다
깊게 쌓으면 역전파의 에러가 폭발·소실해 학습이 안 되므로 LSTM 같은 알고리즘이 필요하고, 표현 학습으로 특징 추출기까지 기계가 학습하며, 전이학습으로 소량 데이터만으로 다국어 음성인식을 만든다
약 5,800만 개 가중치를 차원 축소로 36%만 쓰고도 성능을 유지해 실시간성을 확보했지만, 분류 오류율이 여전히 높고 뉴런 수도 미미해 '이제 막 시작'인 분야임을 강조한다

왜 읽나딥러닝의 원리와 한계를 과장 없이 정확히 이해하고 싶은 엔지니어·연구자에게 입문과 통찰을 함께 준다.

챕터별 상세

010:00 – 10:29

딥러닝이란 무엇인가 — 머신러닝과 역전파의 부활

네이버랩스 발표자가 작년에 이어 올해도 딥러닝을 주제로 무대에 오른다. '흥행한 영화의 속편은 부족하기 마련'이라는 농담으로 부담을 털어놓으면서도, 청중이 도움이 될 만한 것을 하나라도 가져가기를 바란다는 인사로 발표를 연다. 그는 먼저 딥러닝이 흔히 '뇌를 본뜬 인공지능'으로 이야기되지만 본질은 뉴럴 네트워크를 사용한 기계학습이라고 정리한다. 머신러닝은 데이터를 많이 모아 그 안에서 우리가 원하는 정보를 뽑아내는 규칙을 모델링하는 것으로, 음성 파형을 모델링하면 음성인식이, 두 언어의 상관관계를 모델링하면 번역이, 이미지를 카테고리로 학습하면 이미지 분류가 된다. LDA, 가우시안 혼합 모델, 협업 필터링의 행렬 분해 등이 모두 머신러닝의 한 갈래이며, 그중 뉴럴 네트워크를 이용한 것이 딥러닝이다.

뉴럴 네트워크를 학습시키는 방법은 역전파(backpropagation)인데, 이는 1980년대에 이미 확립된 전혀 새롭지 않은 방법이다. 그렇다면 왜 갑자기 요즘 와서 '딥러닝'이라는 이름으로 주목받느냐는 질문의 답은 단순하다. 엄청나게 잘 되기 때문이다. 실제로 네이버 음성인식은 오류율이 약 20% 개선됐고, 2012년 이미지넷 대회에서 딥러닝을 쓴 방법이 약 10%대 오류율로 26%대의 2등을 압도했다. 정체돼 있던 마이크로소프트 음성인식 오류율도 딥러닝 등장과 함께 극적으로 떨어졌다. 발표자는 1980년대에 끝난 듯했던 딥러닝을 부활시킨 세 가지 요인으로 오버피팅을 막는 새 알고리즘(힌튼·르쿤·벤지오), 인터넷 시대의 빅데이터, 그리고 약 300만 원대 GPU로 대표되는 하드웨어를 든다. 이 세 요인을 얼마나 잘 다루느냐가 결과를 가르며, 네이버는 이 구조로 N드라이브 사진을 내용만 보고 분류해 '동물 사진만 찾아 줘'를 처리하는 서비스를 출시했다고 소개한다.

딥러닝 부활의 첫 번째 요인인 알고리즘을 깊이 파고든다. 그해 이미지넷 대회에서 구글은 무려 22개 레이어로 약 7%대 오류율을 내며 2012년의 16%대를 두 배가량 앞섰다. 발표자는 2012년 연구자들이 몰라서 8개 레이어만 쓴 것도, 구글이 데이터가 많아 무턱대고 쌓은 것도 아니라고 선을 긋는다. 핵심은 레이어를 깊게 쌓으려면 그 안에 또 다른 알고리즘이 필요하다는 것이다. 그냥 깊게 쌓으면 학습 자체가 되지 않기 때문이다.

왜 무턱대고 쌓으면 안 되는지는 역전파의 성질에서 드러난다. 역전파는 에러의 미분 값을 거꾸로 전파하는데, 레이어가 깊어질수록 작은 변화만으로도 에러가 폭발하거나 사라져 훈련이 안 된다. 발표자는 이를 카오스 이론의 나비효과에 빗댄다. 아주 작은 초기 조건의 변화가 결과를 크게 바꾸듯, 딥러닝도 깊어질수록 학습이 어려워진다. 학습이 어려운 깊은 네트워크의 대표 사례가 순환신경망(RNN)이다. RNN은 시계열·시퀀셜 데이터를 다루며 비디오, 로보틱스 행동 제어, 다음 단어를 예측하는 언어 모델 등에 쓰이는데, 시간 축으로 펼쳐 쌓다 보니 여기서도 에러 폭발·소실 문제가 생긴다. 이를 풀기 위해 독일의 한 교수가 제안한 것이 LSTM(Long Short-Term Memory)으로, 노드마다 반도체 트랜지스터가 전류를 가뒀다 내보내듯 메모리를 두고 게이트로 제어하는 방식이다. 발표자 팀도 LSTM으로 언어 모델을 훈련시켜 예측 정확도를 약 20% 끌어올렸다. 이런 새로운 알고리즘 연구가 더 깊은 네트워크 훈련을 가능하게 한다.

두 번째 요인인 빅데이터를 깊게 다룬다. 아무리 좋은 알고리즘도 데이터가 충분치 않으면 제 성능을 낼 수 없고, 데이터는 빈익빈 부익부라 서비스를 내보내면 그 서비스로 다시 데이터가 쌓여 한번 앞선 쪽이 계속 앞서간다. 뉴럴 네트워크는 사전 지식 없이 데이터만으로 훈련하는 데이터 드리븐 방식이라 학습 데이터의 비본질적 부분에 과적합할 위험이 있다. 특정 고양이만 학습하면 토끼를 고양이로 답할 수 있는 식이다. 그래서 본질이 유지되는 방식으로 노이즈를 섞으면 비본질적인 부분이 가려지고 본질이 떠올라 오버피팅을 막는다. 빅데이터 이전에는 전문가가 음성의 가우시안 모델, 이미지의 가버 필터처럼 사전 지식을 넣었지만, 이제는 특징 추출기 필터까지 기계가 직접 학습한다. 실제로 학습된 필터를 이미지화하면 사람이 디자인하던 필터와 매우 유사하게 나오는데, 이를 표현 학습(representation learning)이라 부른다.

다만 데이터가 많다고 끝이 아니다. 뉴럴 네트워크는 정답이 필요한 지도학습이라 누가 정답을 달아 주느냐가 문제다. 그래서 업체들은 크라우드소싱을 쓰는데, 회원가입 때의 CAPTCHA가 사실은 사용자의 노동력으로 OCR 정답을 모으는 장치다. 발표자는 정답 없는 데이터까지 활용하는 준지도학습으로 가야 한다고 본다. 아기가 고양이 그림을 비슷한 것끼리 묶어 두었다가 엄마가 한 번 알려 주면 학습되듯, 비지도학습과 지도학습을 결합하면 정답이 적어도 효율적으로 학습된다. 데이터가 부족한 상황을 위한 또 다른 방법은 전이학습(transfer learning)이다. 영어를 잘하면 독일어를 빨리 배우듯, 잘 훈련된 이미지 분류 네트워크는 좋은 특징을 뽑는 '눈'을 가진 셈이라 위쪽 분류기만 떼고 새 과제를 주면 더 쉽게 처리한다. 음성인식도 한국어를 잘 듣는 '귀'에 일본어·영어를 조금 더 가르치는 식이다. 발표자 팀은 이 방식으로 소량의 데이터만으로 한국어와 거의 같은 정확도의 일본어·영어 음성인식 엔진을 만들어 품질 저하 없이 다국어 서비스를 출시할 수 있었다.

세 번째 요인인 하드웨어, 곧 속도 문제를 다룬다. 얼마나 빨리 훈련시키고 결과를 내보내느냐인데, 예컨대 입력 500개·중간 3000개·출력 7000개 클래스 네트워크의 가중치는 약 5,800만 개에 달해 그대로 계산하면 실시간 서비스가 어렵다. 특히 음성인식은 실시간 반응이 필요하다. 그래서 가중치를 들여다보니 모두가 의미 있는 값은 아니었고, 인간의 뉴런도 시냅스가 전부 연결돼 있지 않듯 모든 가중치가 필요하진 않았다. 해법은 차원 축소(dimension reduction)로, 큰 행렬을 작은 차원을 거치는 두 행렬로 분할해 계산량을 크게 줄인다. 네이버는 이 방식으로 가중치의 64%를 날리고 36%만 쓰고도 성능 감소가 없었다. GPU와 행렬 연산 라이브러리, 엔비디아의 cuDNN처럼 딥러닝용 라이브러리가 잘 갖춰져 복잡한 네트워크도 함수 조합으로 만들 수 있게 됐지만, 이런 툴에만 의존해 새 네트워크를 직접 개발할 생각을 안 하게 되는 점은 아쉽다고 덧붙인다.

마지막으로 '딥러닝이 끝인가, 이걸로 모든 게 해결되는가'를 묻는다. 발표자는 이미지넷 오류율이 좋아졌다 해도 아직 60%대에 머무는 분류 과제가 있을 만큼 갈 길이 멀다고 강조한다. 언론은 당장 영화 속 인공지능이나 터미네이터가 나올 것처럼 부풀리지만 그것은 먼 미래의 이야기이고, 지금 확실한 것은 뉴럴 네트워크의 성능이 좋다는 사실뿐이다. 뉴런 개수로 보면 당시 모델은 개미·개구리보다도 적어 인간과는 비교가 안 되고, 하드웨어로도 알고리즘으로도 갈 길이 멀다. 그래서 오히려 이제 막 시작이고 가능성이 많이 남아 있는 분야라 좋다는 격려로 발표를 맺는다.