본문 바로가기

IT/Software & UX

[CES 2013] 이제 좀 자리잡아가는 TV의 음성인식 (삼성 S-RECOMMENDATION)

 

 

 

음성으로 작동되는 TV... 어떤 생각이 드시나요?

사실 그런 시도는 어제오늘 일이 아니기 때문에 그리 신기해할 일도 아닙니다. 그렇다고 무작정 기대할만한 것도 아닌 것이, 그동안 제조사들이 보여준 음성 인식 컨트롤이 그다지 쓸만하진 않았기 때문이죠. 특히 영어도 아닌 한국어 기준으로 TV를 비롯한 전자기기를 음성으로 제어한다는 것은 꽤 성공률이 낮은 시도로 그치는 경우가 대부분이었죠

 

사람들의 기대는 높고 또한 눈길을 혹할 정도의 기술인 것은 분명하지만 아직 갈길이 멀어보이는 것은 사실입니다.

본격적인 CES 2013 이 열리기 하루 전, 삼성전자의 프레스 컨퍼런스에서는 이 음성인식을 이용한 사용자 경험 (UX) 에 대해 구체적인 사용씬을 보여주면서 이전보다 진화된 음성 인식 기술을 선보였는데요

 

 

S-RECOMMENDATION 이라는 이름이 그 주인공이었죠

나중에 한국어 이름으로는 어떻게 지어질 지 모르겠습니다만 쉽게 말해 '자연어 음성을 알아듣는 기술' 이라 보면 되겠습니다. 글자 그대로 하면 'S추천'의 의미일텐데요 그냥 편하게 원하는 걸 얘기하면 그에 맞는 컨텐츠를 추천해준다는 것이겠죠

 

'자연어'라는데 그 핵심이 있습니다. 

음성인식 이라는 기술은 단순히 말하는 글자를 '인식'하는 것만이 중요한 것이 아니고 그 사람이 말하는 뜻을 알아들어야 하죠. 문제는 사람마다 말하는 스타일이나 단어가 조금씩 다르기 때문에 이걸 다 알아듣게 해야 한다는 겁니다. 예를 들어 싸이의 강남스타일 뮤직비디오를 찾는다고 할때 음성을 인식한다는 TV에 대고 뭐라고 말하시겠습니까?

 

'싸이 찾아줘'

 

'싸이의 강남 스타일' 

 

'싸이가 나온 뮤직비디오'

 

등등 사람마다 말하는 표현은 다 다를 것입니다. 습관이 다르고 자주 쓰는 단어가 다르기 때문이죠. 

그래서 음성 인식에 있어 가장 중요한 것이 바로 '데이터베이스'를 확보하는 것이죠. 수많은 사람들이 수많은 스타일과 단어로 말하는 의미와 패턴을 다 가지고 있어야 정확히 대응할 확률이 그만큼 높아지는 것이죠. 음성 인식의 핵심은 여기에 있습니다. 

 

 

 

그렇게 사람마다 말하는 표현이 다 다른데 그걸 무시하고 '문법'을 정해서 음성인식을 구현하는 것이야말로 극도로 공급자적인 생각이죠. 꼭 정해진 표현대로 말해야 작동이 되는 기술이 얼마나 불편한지는 최근 모바일에서 많이 보이는 몇몇 음성 인식 기술들에서 이미 체험하고 있습니다. 그 문법대로 말하지 않고 한두번 좀 다른 문장을 써서 못알아듣는 경험을 하고 나면 금새 안써버리는 기술이 되죠

 

그런 이유로 지금까지 외면당하고 또 앞으로도 그럴 확률이 없지 않아 있는 것입니다.

 

특히 '뭔가를 찾는' 행위에 있어 사람의 말을 알아듣는다면, 제대로 알아듣는다면 그야말로 엄청나게 편한 부분이 됩니다. 사실 볼륨의 줄이거나 키우기, 채널을 돌리기 등과 같은 단순 컨트롤은 음성보다도 손가락 조작이 더 편하고 빠를 수 있기에 그런 단순 컨트롤 분야에서는 음성인식의 니즈가 별로 없습니다. 오히려 그렇게 자주 사용하는 기능을 음성으로 요구하면 처음이야 신기하지만 금새 지겹고 지치게 되죠. (말하는 게 얼마나 귀찮은데요 ㅎㅎ)

 

그런 단순 컨트롤보다는, 말로 하지 않고 메뉴를 찾아들어가면 상당히 많은 단계를 거쳐야 하는 것에 음성인식의 가치가 비로소 생깁니다. ARS로만 되어있는 전화 상담같은 경우가 그 예죠. 상담원에게 몇마디만 물어보면 땡인데 그걸 ARS 로 메뉴화 해놓으면 아주 돌아버릴 정도로 짜증이 날 경우가 생기죠. 시간도 많이 걸리구요

 

TV 에 있어 '컨텐츠 검색' 이 딱 그런 경우입니다.

내가 어떤 걸 찾아야 하는데 리모콘으로 상하좌우 눌러가며 뭔가를 찾아 헤매는게 아주 비효율적이죠. 그냥 내 말 한마디를 알아듣고 바로 찾아주면 그야말로 최고이기에 음성인식 기술이 필요한 니즈와 제대로 맞아떨어집니다.

 

 

 

S-RECOMMENDATION 은 바로 여기에 집중했고 그 결과를 이번 CES 2013에서 공개했는데요. 저 또한 음성인식이 필요한 부분이 바로 그런 곳이라고 지금까지 생각해왔기에 귀가 쫑긋 세워지더군요. 과연 이번에는 좀더 나아졌을까, 제대로 만들었을까 하는 기대를 가지고 그 부분을 저 또한 직접 사용해봤습니다.

 

삼성전자 부스내에 밀폐된 공간을 만들어놓고 이 S-RECOMMENDATION 을 체험하도록 하고 있었습니다. 음성 인식을 위해서는 외부 소리가 유입되버리면 안되니까요

 

체험방(?) 안에는 스마트TV 와 데모를 담당한 외국인, 그리고 이녀석이 전부였죠

 

 

리모콘

 

이 리모콘에 음성인식 버튼과 함께 마이크가 달려있어서 그 버튼을 누르고 리모콘에다 원하는 컨텐츠를 말하면 됩니다.

 

데몬스트레이터가 직접 자신이 원하는 영화나 드라마를 음성 한번에 서치되는 것을 보여줬는데요 뭐 당연히 데모하는 사람이 했으니 단 한번의 오류 없이 잘 되더군요 ^^ 언어는 영어로 세팅되어 있었고 데모자 말로는 현재 주요 외국어들과 한국어까지 준비되어 있다고 하는데 여기서는 한국어 세팅을 안해놔서 안된다고 하더군요. 암튼 한국어 언급을 하는 것 보면 한국어에 대한 준비도 거의 다 되어있는 듯 합니다.

 

데모자가 하는 것만으로는 성능을 못믿기에 제가 리모콘을 뺏어서 직접 해봤는데요

저같은 된장 발음으로도 잘 알아듣는지 컨텐츠를 검색해봤습니다. 대충 작동하는 시나리오는 이렇습니다.

 

나: '탐 크루즈 나온 영화좀 보여줘봐'

 

TV: '탐 크루즈 나온 영화좀 보여줘봐' (라고 내 말을 따라한 후) '여기 그 결과야. 뭐 고를래?'

 

역시 TV도 말로 대답을 간단히 해준 후에 (상단에 음성인식하는 결과가 텍스트로도 표현됩니다) 아래와 같이 컨텐츠 검색 결과를 보여주더군요   

 

  

 

나: '넘버 3'

 

그렇게 선택하고 나면 그 영화 컨텐츠의 상세 화면으로 넘어가더군요 (선택을 번호로 말하지 않고 그 영화 제목도 한번 알아듣나 봤더니 그렇지는 않더군요. 선택시에는 숫자로 알아듣게 되어있습니다)

 

그처럼 단 두마디로 내가 원하는 영화로 진입할 수 있었죠. 한 10초 걸렸을까요? 꽤 고무적이었습니다.

그리고 자연어였죠. 특정 문법대로만 해야 되는게 아니라 그냥 제가 평소에 쓰는 자연스러운 표현을 썼으니까요.

아마 리모콘으로 이 결과를 얻기까지는 여러번 내비게이션을 해 대면서 아마 30초 정도 걸렸을것 같은데요. 쿼티 리모콘이 있어서 검색 텍스트를 입력한다고 해도 마찬가지로 꽤 걸리게 되죠. 그 단계를 이렇게 줄여줄 수 있는 것이 음성인식의 가치가 되겠습니다.

 

 

상단에 작은 글씨로 음성을 확인할 수 있는 부분도 잘 만든 것 같더군요

 

대충 하는 제 발음도 알아듣는 걸 보니 꽤 지능이 되는 듯 합니다만 ㅎㅎ 시간이 많지 않아서 좀 틀린 표현이나 콩글리쉬를 주입해보지 못한게 좀 아쉽군요. 빠른 시간안에 한국어를 테스트할 수 있었으면 합니다. 

 

그리고 이처럼 특정 컨텐츠를 검색하는 것 뿐만 아니라

 

'오늘 뭐 재밌는거 없어?' 이런 표현도 알아듣고 추천 컨텐츠를 보여줍니다. 그동안 이 사람이 보던 컨텐츠들의 장르와 취향을 분석해서 추천 컨텐츠를 만든다고 하더군요. 그런 개인화를 위해 각 개인의 계정을 만들수도 있구요

 

짧은 경험이었지만 '제법 만들었는데!' 하는 생각이 들었습니다. 음성 인식을 어디다 써야 하는지 이제 제대로 방향을 잡은 것처럼 보였구요 사실 '스마트 TV'라는게 이래야 스마트 하다고 할 수 있겠죠. 리모콘도 어렵고 잔뜩 늘어서있는 메뉴만 봐도 어지러운 어르신들은 물론 아무 생각없이 쉽게 쓸 수 있어야 그게 스마트한 것일 겁니다. 나까지 똑똑해야 쓸 수 있는 TV는 스마트한게 아니죠

 

그런 의미에서 이런 음성 인식과 인공 지능이 결합된 기술들은 빨리 발전될 필요가 있고 이번에 보여진 S-RECOMMENDATION 은 분명 시장에 의미있는 레퍼런스를 제시하지 않을까 하네요

 

이런 기술이 계속 축적되서 TV처럼 게으른 환경에서 사용하는 거실 기기들에 하루 빨리 적용되었으면 하는 바램입니다.