Métodos de Codificação de Voz
Author: José de Ribamar Smolka Ramos - Engenheiro Eletrecista
Uma Introdução
Este artigo vai explicar as principais técnicas utilizadas para a codificação digital de voz. Ao
longo do texto vamos procurar relacionar as técnicas apresentadas com os padrões utilizados
nos diversos sistemas de telefonia (fixa e celular).
Como não sou especialista no assunto vou, logo de início, pedir desculpas por eventuais
incorreções ou omissões. Sugestões para a melhoria e/ou ampliação do texto (dentro do espírito
do objetivo) serão sempre bem-vindas. O público-alvo deste artigo são pessoas sem background
técnico extenso, portanto peço paciência aos leitores que já tenham um conhecimento mais
profundo deste tema.
A apresentação vai ficar, sempre que possível, no limite do conceitual. Vamos recorrer à
matemática apenas onde isto for imprescindível. Para acompanhar o texto basta um bom
conhecimento da matemática e física do ensino médio (funções e eletromagnetismo).
Na elaboração deste artigo usei apenas referências disponíveis na Internet – ver lista no final,
mais algumas coisa que ainda me lembro do tempo da faculdade de engenharia elétrica.
Aqueles que desejarem se aprofundar mais no assunto podem, a partir das referências citadas,
encontrar indicações de outros sites e livros sobre o tema.
Porque codificar?
Codificação digital de sinais de voz é um dos tópicos de uma categoria mais geral de problemas:
digital signal processing (processamento digital de sinais). Nesta categoria existem inúmeras
aplicações, entre elas:
Comerciais – áudio e vídeo de alta fidelidade, TV, rádio, telefonia;
Médicas – Radiografia, ultrassonografia, tomografia computadorizada, tomografia por
emissão de pósitrons, ressonância magnética nuclear;
Militares – RADAR, SONAR.
O problema comum a todas estas aplicações é que a capacidade dos meios de transmissão e/ou
armazenamento dos dados é finita, e precisamos encontrar um meio termo entre duas
necessidades antagônicas: diminuir a quantidade de bits necessária para a representação da
informação (encoding), e manter a capacidade de recuperar a informação original (decoding)
com um nível de distorção aceitável.
Na Teoria da Informação encontramos a Lei de Shannon, que nos diz que a capacidade máxima
de transmissão C (em bps) de um canal de comunicação, na presença de ruído, é dada pela
expressão:
C = B.log (1+ S N) 2
Onde B representa a banda de passagem do canal (em Hz), e S/N é a relação sinal-ruído, obtida
pela divisão da potência média do sinal S pela potência média do ruído N no canal. Uma vez
escolhido o canal de comunicação (que define a banda de passagem), para melhorar a
capacidade de transmissão temos que brincar com a relação sinal-ruído.
Next Page > |