Korgnet : 인지과학-심리학 문화공동체
 
 
이 홈에서는 인지과학, 심리학 또는 이와 관련된 생각 또는 학술 정보를 올리며 서로 의견을 교환합니다.
다룰 수 있는 정보의 형식, 주제 들을 카테고리별로 나누어 놓았습니다.


음성 인식 개인 에이전트 소개: 애플의 시리 서비스를 중심으로

  • 이신영 2011-10-20 15:33:27 조회 10,195 추천 958
음성 인식 개인 에이전트 소개: 애플의 시리 서비스를 중심으로


애플사의 아이폰4s에 탑재된 음성 인식 개인 에이전트(personal agent)인 시리(Siri) 서비스가 화제가 됨에 따라 음성 인식 개인 에이전트에 대해서 설명하고 시리를 중심으로 분석하고자 한다. 그러나 시리는 공개된 정보가 한정적이기 때문에 그 정확한 구조를 알 수는 없고, 다만 이전에도 시리 서비스와 같은 음성 인식 기능을 가진 개인 에이전트는 여러 곳에서 계속 만들어 왔기 때문에 음성 인식 개인 에이전트를 중심으로 설명을 하고 시리에서 특징적으로 추가된 것으로 추정되는 기능에 대해서 설명하고자 한다.



그림1.  음성 인식 개인 에이전트의 구조


일반적인 음성 인식 개인 에이전트의 구조는 그림1과 같다. 크게 보면 사용자의 음성을 인식하여 텍스트로 변환하고, 규칙 기반 시스템(rule-based system)에서 구축된 규칙에 의해 사용자의 음성 입력에 적절한 답을 이미 구축된 지식 베이스(knowledge base)에서 찾은 다음, 음성 합성(TTS: Text-To-Speech)을 하여 사용자에게 다시 전달하는 구조이다. 이와 같은 구조는 1960년대에 만들어진 ELIZA라는 대화 시스템(Chat Bot)1)과 기본 구조가 유사하며, ELIZA를 시작으로 지금까지 다양한 변종의 대화 시스템이 만들어지고 있고 국내에는 심심이2)같은 대표적인 서비스가 있다.
대화 시스템의 구조는 규칙 기반 시스템을 기초로 한 것으로 자연어로 입력된 문장을 분석해서 특정 단어나 단어의 조합을 입력으로 받았을 때 그에 해당하는 출력 문장을 정의해 놓은 규칙들로 구성된다. 예를 들면, “오늘 날씨가 어때?”를 입력했을 때, ‘날씨’와 ‘어때?’가 입력되면 “참 좋은 날씨예요”를 출력하라고 규칙을 정의할 수 있다. 즉, if X then Y와 같은 형태의 규칙을 많이 정의할수록 사용자의 다양한 물음에 다양한 대답을 할 수 있다. 인공지능 분야 중 자연언어처리(natural language processing)분야에서 사람의 언어를 이해하려는 연구가 오랫동안 지속되었지만 아직까지 대화 시스템과 같은 서비스는 ELIZA가 했던 방식과 유사한 단순한 형태의 규칙을 기반으로 하고 있다.
대화 시스템의 역사는 사실 인공지능의 역사라고 할 정도로 오래되었는데, 기계가 지능을 가졌는지 판별하는 튜링 테스트(Turing test)에서부터 시작됐다고 볼 수 있다. 1990년에는 허프 뢰브너(Hugh Loebner)와 케임브리지 행동 연구 센터에서 뢰브너 상(Loebner prize)을 만들어서 운영하고 있는데, 튜링 테스트와 같이 인간과 기계를 구별할 수 없는 대화 시스템을 만들면 10만 달러의 상금을 지급하는 상이다. 그러나 아직 우승한 시스템은 없고 대신 매년 가장 인간과 가까운 대화를 하는 대화 시스템에게 2천 달러의 상금을 지급하고 있다3).
이러한 규칙 기반의 대화 시스템에서는 모든 가능한 형태의 입력 조합에 대한 출력 대답을 미리 정의해 놓을 수 없기 때문에 사용자가 엉뚱한 질문을 하면 적절하지 않은 답변을 할 수 밖에 없다. 시리에 관한 유투브 동영상을 봐도 사용자가 계속 엉뚱한 질문을 하니까 적절하지 않은 대답을 하였고4,5), 이를 근거로 시리 또한 기존의 대화 시스템과 같은 규칙 기반으로 이루어졌음을 짐작할 수 있다.
그러나 시리가 사용자의 인기를 끄는 요인 중의 하나는 높은 음성 인식률과 음성 합성 엔진의 자연스러운 음성 합성에 있다. 기존의 음성 인식 엔진은 인식률이 높지 않았고 잡음에 대해 오류가 많이 발생했었다. 예를 들어 아우디에 탑재된 음성 인식 인터페이스는 음성 인식률이 높지 않아서 사용자에게 스트레스를 주고 외면당했는데, Nuance Communications사의 음성인식 엔진을 사용한 시리6)의 음성 인식은 만족할 만한 수준인 것 같다5). 또한 음성 합성 또한 기존의 약간 딱딱한 기계음의 느낌보다는 훨씬 자연스러워진 부분도 있는데, 사용자로 하여금 사람과 대화하고 있는 듯 한 느낌을 들게하는 부분이 사용자의 인기를 끌고 있는 것 같다.
그림 1의 b에서 규칙 기반 시스템은 학습(learning), 추론(inference), 지식 베이스(knowledge base), 문맥 인식(context awareness)의 하위 모듈로 나눌 수 있다. 먼저 지식 베이스 모듈은 입력 문장에 대한 출력 문장의 규칙을 정의해 놓은 데이터베이스로서 위에서 설명한 바와 같이 가능한 많은 규칙을 정의해 놓을수록 시스템이 더 똑똑한 것처럼 보인다. 여기서 또한 중요한 것은 예측 불가능성으로, 사용자가 같거나 유사한 질문을 계속 할 경우 정의해 놓은 규칙이 적으면 시스템은 반복적인 대답만 하게 된다. 그러면 사용자는 시스템이 단순한 기계임을 느끼게 되는데, 만약 시스템이 의외의 대답이나 농담을 하면 사용자는 시스템의 답변을 예측하지 못함으로 인해서 시스템이 마치 사람과 같다는 느낌을 받고 즐거워한다.
추론 모듈은 지식 베이스 내의 지식에 대해 삼단논법과 같은 단순한 형태의 추론을 수행한다. 예를 들어, “김연아는 스케이트를 잘 타나요?”라는 질문에 대해서 지식 베이스에 저장된 지식이 “김연아-->피겨 스케이팅 선수”, “피켜 스케이팅 선수-->스케이트를 잘탄다”와 같을 때, 결론으로 “김연아는 스케이트를 잘 탄다”라는 결론을 추론하게 되고 대답으로 “예, 김연아는 스케이트를 잘 탑니다”와 같은 대답을 할 수 있다. 그러나 규칙 기반 시스템에서 복잡한 추론은 오류를 발생할 확률은 높이므로 단순한 추론만 수행하는 것이 시스템의 오류를 줄일 수 있다.
학습 모듈은 지식 베이스에 없던 새로운 지식이 들어왔을 때 이를 지식 베이스에 추가하는 기능을 하는데, 시리의 경우 사용자의 목소리나 억양을 학습해서 음성 인식이 더 좋게 한다는 내용은 있지만 새로운 지식을 학습하는 기능이 있는지는 확실하지 않다7). 다만 시리는 울프람 알파(Wolfram Alpha)라는 QA(질문-답변) 시스템을 사용하는데, 이 시스템이 서버에서 동작하면서 새로운 지식을 계속 학습할 수 있고, 시리는 이 서버에 질의하고 답변을 받아서 사용할 수 있다.
문맥 인식 모듈은 사용자와 전에 대화했던 내용을 기억하고 있다가 현재의 대답에 반영하는 기능을 한다. 예를 들면, “서울의 날씨가 어때?”라는 질문에 대해 대답을 하고, 이후에 다시 “부산의 날씨는 어때?”라고 질문했다면, 이전의 질문을 고려하여 “서울보다는 따뜻하다”라는 답변을 할 수 있다. 문맥 인식 모듈은 추론 모듈과 유사하지만 추론 모듈이 주로 지식 베이스에 저장된 장기 기억(long-term memory)과 같은 공간에서 추론한다면, 문맥 인식 모듈은 지식 베이스에 저장되지 않은 사용자와의 실시간의 대화 내용을 임시적으로 저장하고 있는 작업 기억(working memory)과 같은 공간에서 추론하여 답변한다는 차이점이 있다. 6)에서 시리에 문맥 인식 기능이 있다고 설명하고 있지만 동영상 등으로 직접 확인하지는 못했다.
시리가 기존의 대화 시스템과 구별되는 가장 큰 특징이라면 개인 비서와 같은 역할을 하는 개인 에이전트로서의 역할을 하기 때문이다. 대화 시스템은 사용자와 말 그대로 대화만 할 뿐이지 어떤 기능을 수행하지는 않는다. 그러나 시리는 사용자의 음성 명령에 대해 문자 메시지를 보내거나, 자료를 검색하거나, 앱을 실행하는 기능을 한다. 이것은 사용자가 기존에 키보드 입력이나 터치 입력으로 사용하던 인터페이스를 음성 인터페이스로 바꾼 것이다. 그러나 이러한 기능은 음성 인식만 충분히 잘된다면 음성 인식만으로 명령 실행, 검색, 앱 실행 등을 하는 기능은 기술적으로 어려운 것이 아니다. 실제로 코그니티브 코드(Cognitive Code)사에서는 2007년 SILVIA라는 음성 인식 개인 에이전트 플랫폼을 개발했는데, SILVIA는 시리처럼 사용자와 대화할 수 있으며 음성 명령만으로 필요한 자료를 웹에서 검색해서 보여주는 기능을 수행할 수 있다8). 그래서 처음에 필자는 시리가 SILVIA와 매우 유사하기 때문에 애플에서 코그니티브 코드사를 인수한 것이 아닌가 생각했으나, 자료를 찾아본 결과 아닌 것 같았다.
마지막으로 시리의 큰 특징은 울프람 알파9)라는 QA시스템을 사용하는데, 사용자의 질문에 대해서 시리에 내장된 답변이나 웹에서 검색한 결과 외에 울프람 알파에 저장된 구조화 된 대량의 데이터베이스를 검색해서 답변을 할 수 있다. 예를 들어 5)의 동영상 중에서 “목성이 얼마나 멀리 있냐?”라는 질문에 대해 “확인하게 잠시 기다려 달라”는 답변과 함께 약 10초가 지난 후에 거리 정보를 화면에 출력해 주는 모습을 볼 수 있다. 이와 같은 시리의 지식 베이스에 저장되지 않은 정보는 울프람 알파 서버에 질의한 후 답변을 가져와서 사용자에게 제공한다. 울프람 알파는 이미 마이크로소프트사의 Bing 검색 엔진에도 검색 결과를 제공하고 있으며 1만개의 CPU를 통해 구조화된 대량의 지식을 처리한다9).

결론적으로 말하면, 애플의 시리는 기존에 이미 충분히 존재하던 기술을 이용하여 만든 것으로서 기술적으로는 새로울 것이 없었지만 단지 스마트폰의 전성기에 따라 스마트 폰에 탑재되어서 사람들에게 더 친숙하게, 더 대중적으로 쓸 수 있게 했다는 점에서 사람들의 관심을 충분히 끌만했다. 시리로 인해서 앞으로 자동차, 가전 제품, 로봇 등 여러 분야에서 음성 인식 인터페이스가 탑재될 것으로 예상되며, 결과적으로 사람들의 생활에 더욱 도움을 줄 것이다. 그러나 아직 음성 인식기의 성능이 완벽하지는 않으며 잡음이 심할수록 성능이 떨어져서 사람이 인식하는 것보다는 인식률이 떨어지기 때문에 음성 인식기의 오작동으로 인한 사람들의 스트레스나 사고가 있을 수 있다는 점에서 음성 인식 기술의 더 많은 노력과 지원이 요구될 것이다.

[이신영, 숭실대학교 미디어학과 박사과정]

[참고문헌]
1) http://en.wikipedia.org/wiki/ELIZA
2) http://www.simsimi.com/
3) http://www.loebner.net/Prizef/loebner-prize.html
4) http://www.businessinsider.com/interview-with-siri-2011-10
5) http://video.nytimes.com/video/2011/10/12/technology/100000001108778/siri-can-you-hear-me-.html
6) http://en.wikipedia.org/wiki/Siri_(software)
7) http://www.apple.com/iphone/features/siri-faq.html
8) http://www.cognitivecode.com/
9) http://en.wikipedia.org/wiki/Wolfram_Alpha
10) http://www.wolframalpha.com/

번호 제목 작성자 작성일 조회 추천
 [기타 학술글] 음성 인식 개인 에이전트 소개: 애플의 시리 서...  이신영 2011/10/20 10195 958
53  [기타사이트] The Faces and Minds of Psychol...  danchu 2011/04/04 7339 1158
52  [도서, 학술지] Can the Brain Explain Your Min...  danchu 2011/04/02 6877 1079
51  [기타사이트] 우리의 견해가 틀렸음을 어떻게 입증할 것인가? ...  danchu 2011/04/02 5317 947
50  [기타 학술글] Sense of Touch Colors Our View...  danchu 2011/01/18 5129 945
49  [기타 학술글] Big Babies Helped Shape Early ...  danchu 2011/01/11 5051 973
48  [기타 학술글] The U-bend of life (by The Eco...  danchu 2011/01/11 5021 976
47  [기타 학술글] [nature]News:Amygdala at the c...[1]  김세영 2010/12/27 4915 910
46  [기타사이트] 21세기 융합 테크놀로지를 여는 인지과학; 한겨...  이정모 2010/12/25 5368 942
45  [동영상(음성)] No Fear -- SM  윤홍옥 2010/12/18 4799 908
Copyright 1999-2017 Zeroboard / skin by vozzang.net