스켈티가 님께 “당신이 일상에서 느끼는 인공지능이란 무엇일까요?”라고 묻는다면, 어떤 대답을 가장 먼저 듣게 될까요? AI라는 단어를 실생활에서 쉽게 접하게 된 첫 계기를 아마도 “AI 스피커" 혹은 스마트폰에 탑재된 음성 어시스턴트라 답하는 사람들이 많지 않을까 싶어요. 여러분도 일상 속에서 음성으로 명령하고, 명령에 따른 역할을 수행하는 디바이스를 사용해보신 적이 있을 거에요. 손을 사용할 수 없는 상황에서 음성으로 문자메시지를 보내거나, 음악이 흘러나오는 스피커의 볼륨을 낮추고, 리모컨 대신 TV 채널을 바꾸는 행위가 모두 AI 기반의 음성인식(Speech Recognition) 혹은 STT(Speech-to-Text)라 불리는 기술로 가능하죠. 오늘만 해도, 아침에 일어나자마자 AI 스피커에게 샤워하면서 들을 음악을 틀어달라고 하고 날씨와 미세먼지 농도를 물어보며 하루를 시작한 스켈티입니다.
오늘은 이처럼 우리가 가장 먼저, 쉽게, 접하는 AI, 음성인식을 기술적 관점으로 살펴보려고 해요. 어떻게 AI는 사람의 목소리를 신호로 인식해, 텍스트로 변환할까요? 여성과 남성의 각기 다른 톤의 목소리, 소음이 많은 환경이나 전화 통화 상의 목소리, 이미 녹음된 목소리 등 다양한 종류의 음성을 정확하게 인식하는 AI 모델은 어떤 식으로 구현될까요?
스켈터랩스의 음성인식 엔진은 단독으로도, 혹은 보이스봇 같은 패키지된 서비스로도 다양하게 쓰일 수 있고, 계속해서 최신 AI 기법을 도입하며 성능 고도화를 진행하고 있어요. 워낙 여러 곳에, 다채로운 형태로 쓰일 수 있는 기술인만큼 이번 레터뿐 아니라 앞으로도 자주 관련 내용을 소개드릴 것 같아요. 기대해 주실 거죠?
재밌게 읽어주시길 바라며, 내용이 좋으셨다면 주변에도 뉴스레터 구독을 추천해 주세요.😉