Conceito de Reconhecimento de Voz
A expressão Reconhecimento de Voz designa uma tecnologia biométrica (ver biometria) utilizada para a autenticação de um indivíduo perante um sistema de informação de uma determinada entidade ou organização. Embora a informação capturável relativa à voz pareça não possuir informações suficientes para a identificação em larga escala, esta tecnologia, baseada no facto de as características físicas de cada indivíduo, associadas a hábitos comportamentais, proporcionarem à sua voz características únicas, pode ser bastante competitiva no que respeita aos protocolos de autenticação.
A voz é, antes de mais, um som. Os sons são vibrações do ar, normalmente representados pela adição de curvas sinusoidais que representam os componentes de um som que têm uma determinada frequência – medida em Hertz, número de ciclos por segundo – e amplitude. Uma sequência de discurso humano é uma sequência de sons criados pelo corpo humano, começando pelas cordas vocais (excitadas pela injecção de ar enviado pelos pulmões) e moldados pela língua, pelos dentes e por outros factores da fisionomia do orador. Esta sequência, sendo a soma de diversas componentes, tem características muito irregulares. A abordagem tradicional no uso da voz é a modelação dos sons produzidos. Prova disso é o facto de encontrarmos os Gaussian Mixture Models (Modelos de Misturas Gaussianas) e os Hidden Markov Models (Cadeias de Markov com Estados Latentes) em vários contextos de autenticação.