RSS Facebook Twitter Blog
Revista Luz & Cena
Profissão
Lendas Urbanas - Parte 2
Qual a Melhor Taxa de Amostragem?
Fábio Henriques
Publicado em 01/12/2005 - 00h00
Neste mês, seguimos em nossa cruzada na busca da quebra dos mitos, agora adentrando caminhos um tanto delicados. Vamos lá.

Lenda 3: "Usar 48.000 é melhor que 44.100".

Bem, antes de iniciarem o apedrejamento deste herege, por favor, um pouco de paciência para conhecer os fundamentos históricos desses valores e por que os usamos.

Antes de mais nada, é curioso ver que os caminhos do progresso tecnológico do áudio nos levaram das antigas discussões sobre analógico x digital para a discussão da melhor taxa de amostragem! Mas, para quem até aqui não sabe do que estamos falando, vale a explicação: taxa de amostragem é a razão com que as amostras são realizadas por segundo em seu equipamento digital de gravação.

Esse valor está intimamente relacionado à resposta em freqüência do sinal digitalizado; quanto maior ele é, maior a faixa de freqüências que seremos capazes de registrar. Segundo um princípio básico da gravação digital*, a freqüência de amostragem deve ser pelo menos o dobro da maior freqüência que queremos registrar. Assim, ao usar uma taxa de, digamos, 40.000 Hz (a medida é em Hertz, que no fundo significa "vezes por segundo"), seremos teoricamente capazes de registrar freqüências de até 20.000 Hz e, se admitirmos que o ser humano só ouve até aí, teremos um sistema capaz de registrar tudo o que em tese ouviríamos. Se usarmos taxas mais elevadas, melhor ainda, porque estaremos registrando freqüências com uma certa folga.

Quando o áudio digital começou, por volta de 1978, os equipamentos suavam um bocado para conseguir realizar amostras na taxa necessária. Os projetistas se viram obrigados a trabalhar com a mínima taxa aceitável para que os produtos fossem viáveis e, portanto, ficaram mesmo por volta do tal limite de 40.000 Hz. Só que, por outro princípio básico do áudio digital, se assumimos que nossa máxima freqüência registrada será 20.000 Hz, devemos impedir a todo custo que freqüências acima desse valor entrem em nosso conversor, sob pena de obtermos distorções indesejáveis (o famoso e incompreendido aliasing - pronuncia-se "êilieisin").

Assim, antes do conversor propriamente dito, todo equipamento digital possui na entrada um filtro responsável por impedir que estas freqüências indesejáveis entrem e sejam convertidas. Lá no início dos tempos, então, a galera percebeu que, trabalhando com uma taxa de amostragem próxima de 40.000 Hz, ia ter que usar como filtro anti-aliasing um circuito muito sofisticado e conseqüentemente caro. E de fato esses filtros eram problemáticos.

Os projetistas então forçaram um pouquinho seus limites e passaram a usar uma taxa de 44.100 Hz (este valor quebrado foi escolhido para que fosse possível encaixar um número inteiro de amostras em um quadro de vídeo, que era a única máquina capaz de gravar em fita os dados digitais da conversão). Com esse valor, o problema de aliasing só apareceria para freqüências acima de 22.050 Hz, o que dava uma certa folga para o filtro posicionado em 20.000 Hz.

Aí o problema de onde armazenar a informação apareceu. Os dados digitais gerados pela conversão podem chegar à casa dos MHz (megahertz - milhões de Hertz) e o único gravador então existente capaz de registrar esse tipo de sinal era o de vídeo. Assim, uma das mídias desenvolvidas para o uso em áudio digital foi o DAT (Digital Audio Tape), que era uma cópia do sistema VHS de vídeo, só que usando uma fita bem menor, com 4 mm de largura. Para os projetistas essa seria uma revolução no mercado e a intenção deles era construir a máquina que substituiria o cassete, já que teria um som bem melhor e sem o malfadado chiado analógico.

Levantou-se então uma questão que hoje para nós é bem corriqueira. Ora, se o público em geral pudesse ter acesso à gravação de fitas DAT, com sua capacidade de gerar várias cópias sem perda apreciável de qualidade, certamente haveria muita pirataria, com gente fazendo gravadoras domésticas (!?). Uns visionários, não? Foi aí que alguém teve uma brilhante idéia. Por que não ter dois padrões, um profissional, que seria usado para gerar as fitas que se transformariam nos CDs, e outro exclusivamente para uso doméstico, com taxa de amostragem diferente? Assim, o usuário doméstico não conseguiria fazer cópias digitais de CDs para seus DATs e portanto não abasteceria os camelôs de fitas piratas.

Foi escolhida então uma taxa de amostragem para o áudio digital doméstico de 48.000 Hz, o que traria uma vantagem adicional. O tal filtro anti-aliasing podia ser um pouquinho pior, já que o problema agora estava transferido para a região de 24.000 Hz. Só que os conversores não trabalhavam tão bem em 48.000 quanto em 44.100, mas tudo bem, já que era áudio doméstico mesmo.


Por isso, meus amigos, a taxa de 48.000 Hz não foi criada para gerar "som melhor", mas pelo contrário, para baratear os equipamentos com uma degradação sonora aceitável.

É claro que as coisas evoluíram bastante e hoje, com o uso do que se chama oversampling, o problema dos filtros anti-aliasing já não é muito sério. De fato, ao se gravar em 48.000 Hz em um gravador digital moderno, obtém-se efetivamente uma resposta em freqüência maior do que em 44.100 Hz. Mas o problema agora passou a outro ambiente. Ainda é importante que nos preocupemos com que taxa de amostragem usar, mas o objetivo deve ser a compatibilidade com o produto final.

Antes de mais nada, vejamos o que se ganha ao aumentar a taxa de amostragem. O primeiro pressuposto é "O ser humano não ouve acima de 20.000 Hz". Essa questão já é polêmica o bastante para ocupar muitas e muitas rodas de chope. Quem já fez um teste desse valor percebeu que por volta de 18.000 Hz, uma senóide já é praticamente inaudível (principalmente pra quem mora em cidade grande e barulhenta).  Podem-se conseguir alguns resultados interessantes usando formas de onda mais complexas com freqüências mais baixas e verificando se seus harmônicos altos são audíveis ou não. Usando ruído rosa a coisa não funciona muito porque esses superagudos são mascarados por freqüências mais baixas.

Além disso, raramente você encontrará um sistema de alto-falantes para áudio que fale acima de 20.000 Hz, e isso para mim é o mais importante. Estamos aqui discutindo algo que provavelmente ninguém ouve e que provavelmente quase nenhuma caixa fala, mas tudo bem, vamos lá.

Digamos que é significativo aumentar a resposta em freqüência de 22.050 para 24.000 Hz. O que se ganha com isso? Para os que disseram "1950 Hz", muito bem a princípio, mas vejamos em termos auditivos o que isso representa. Admitindo, para fins de exemplo, que 22.050 Hz seja uma nota musical, o valor dos semitons acima seria 22.050 x 1,0595 x 1,0595+ = 2.4750 Hz. Ou seja, gravando em 48.000 Hz, estamos ganhando menos de 1 tom em termos de música (em vez de irmos até um hipotético "dó" iríamos até um hipotético "ré"), o que, convenhamos, não justifica muito o gasto de espaço em disco de mais 10% resultante.

Mas, para aqueles que muito justificadamente podem estar dizendo que vale a pena gastar mais memória, até porque espaço em HD está cada vez mais barato, uso meu mais contundente argumento: a compatibilidade com a mídia final.

Compatibilidade

Vamos abrir um pequeno parêntese para falar sobre a profundidade de bits. No áudio digital a qualidade da conversão está associada a dois fatores fundamentais: a taxa de amostragem, que como já vimos é a responsável pela resposta em freqüência, e a profundidade da palavra digital (quantos bits são usados para registrar cada uma das amostras), que será a responsável pela faixa dinâmica (relação sinal/ruído) do sistema. Em um CD, a cada segundo são lidos efetivamente 44.100 números de 16 bits de comprimento, e é com esses valores que se constrói a forma de onda que é o áudio que ouvimos. Quanto mais bits de tamanho possuírem esses números, maior  a precisão com que a forma de onda inicial será reconstruída. Assim, quanto mais bits melhor.

Por força de pressões comerciais e limitações técnicas, o CD foi padronizado nesses 16 bits, mas certamente teria sido bem mais interessante se esse valor fosse maior (pelo menos 20). Hoje os sistemas de gravação de 24 bits se tornaram totalmente viáveis mesmo em equipamentos mais simples, e como norma todo bom profissional deve trabalhar com o maior valor possível para, só no final, na última etapa, baixar para 16 bits para que haja a compatibilização com o CD. Isso porque, na verdade, todo processamento que você está fazendo dentro de um software de gravação se resume a processos matemáticos (um nome elegante pra se dizer "fazer contas"). E nessas contas quanto maior o número de dígitos melhor. Tomemos como exemplo um caso clássico: pegue uma calculadora simples e faça a conta "um terço mais um terço mais um terço" e você obterá como resultado 0,999999... Ora, como qualquer um com dois irmãos sabe, um terço de pizza mais um terço de pizza mais um terço de pizza dá uma pizza inteira e não 0,9999 pizza. O problema está no erro de arredondamento. Por isso, quanto mais dígitos nossas contas tiverem, mais próximo do real será o resultado.

Então, se em todo o processo de gravação e mixagem usamos 24 bits, deixando só para a última etapa a descida para 16 bits, estaremos provocando o mínimo de erros possível, e isso é muito bom.

Mas voltando à taxa de amostragem, infelizmente não se aplica o mesmo princípio. Quando pegamos um áudio digital gravado em 48.000 Hz (com 24, 20 ou 16 bits, tanto faz) e desejamos gravar um CD, estamos pedindo para o software de gravação que a cada segundo, das 48.000 amostras originais, só mande para o CD 44.100. Ou seja, a cada segundo o software tem de escolher 3900 valores para jogar fora!!! Ele poderá fazer isso de uma maneira rápida e burra ou lenta e esperta e isso vai depender de sua paciência ou pressa. Rápido ou lento, porém, o resultado obtido é um áudio diferente do original, muitas vezes de maneira perceptível. E tudo pra se ganhar dois semitons em torno de uma freqüência que praticamente ninguém nunca vai ouvir!

Por isso, minha recomendação é: se o resultado de seu trabalho será um CD, trabalhe desde sempre com a taxa de 44.100 Hz, o que vai ajudar até a fazer aquelas copiazinhas de monitor mais rápido.

No caso do áudio de DVDs, por exemplo, a taxa padrão é 48.000 Hz, e portanto, para o áudio de DVD é melhor gravar a 48.000 Hz.

Bem simples, não é? Bem, mais ou menos. Existem alguns argumentos que devo levar em conta para ser justo. Um grande amigo meu argumenta que grava em 48.000 Hz porque a transferência para o equipamento que fará a masterização no caso dele é analógica. Nesse caso, faz sentido. Se antes de fazer a masterização do CD - cujo resultado SEMPRE será em 16 bits - o áudio será passado analogicamente, então é uma boa prática usar a maior taxa de amostragem possível, até para melhorar essa etapa digital-analógica-digital.

Isso também se justifica por um argumento muito defendido que é o fato de que por volta de 20000Hz, onde começa a banda de rejeição do filtro anti-aliasing, há uma região de uma certa bagunça de desvios de fase e amplitude, sendo conveniente para evitá-la usar 48.000Hz. É um argumento e tanto, mas as conseqüências nesse caso são bem menos audíveis do que a violência de uma conversão digital 48.000 x 44.100, e hoje em dia o oversampling também dá uma diminuída nesses problemas.

"Usar 96.000 dá um som melhor que 48.000 ou 44.100"

Para sermos exatos, não podemos dizer que isso a princípio é uma lenda, já que por tudo o que vimos até agora, ao dobrarmos a taxa de amostragem estaremos também dobrando a resposta em freqüência do sistema. Realmente, se analisarmos em termos meramente teóricos, o som será melhor. Mas a questão se divide em várias: será essa melhoria audível? O que se compromete para se obter essa taxa? Afinal, vale o sacrifício e o gasto extra de espaço em disco?

Antes de mais nada, temos de tomar cuidado porque existem conversores e conversores. Só porque um equipamento diz que trabalha em 96.000 ou 192.000 não quer dizer que ele o faz com qualidade. Em áudio não existe almoço grátis. Tomlinson Holman, um dos criadores do 5.1, afirma em seu livro Surround Sound: Up and Running que, embora o uso de altas taxas de amostragem possa ser justificável, normalmente existe um comprometimento significativo do hardware.

São poucos os conversores que conseguem atender a todas as especificações quando trabalham em 96.000/24 bits. Além disso você vai gastar o dobro de espaço em disco e só vai conseguir gravar metade dos canais. Os primeiros DATs em 96.000 Hz tinham que rodar no dobro da velocidade, por exemplo. E em termos práticos, todos esses compromissos são só para conseguir registrar freqüências entre 24.000 e 48.000 Hz, teoricamente inaudíveis. Ou seja, não adianta achar que com taxas altas  os graves vão melhorar, por exemplo. A única coisa que teoricamente se obtém ao gravar em 96.000 Hz é uma oitava a mais de superagudos. Os golfinhos, que ouvem até 50.000 Hz, vão adorar. Mas tudo bem, quanto mais, melhor, se a qualidade justificar.

Então por que será que quem já comparou o som de alguma coisa gravada por um conversor capaz de trabalhar em 96.000 Hz e até em 192.000 Hz afirma categoricamente, e na grande maioria das vezes com razão, que o som fica melhor que em 48000 Hz? Por tudo o que vimos até aqui, só o fato de aumentar a taxa de amostragem não implica em qualquer melhoria além de estender a resposta em freqüência, e provavelmente essa melhoria que todos notam se deve a efeitos colaterais.

Para atender a essas taxas de amostragem mais altas, todo o hardware dos conversores tem que melhorar, inclusive sua parte analógica e aí então o som se beneficia indiretamente. E não podemos esquecer que os probleminhas de fase e amplitude que ocorriam na região em torno de 20000 Hz agora migram para regiões do espectro que na verdade não somos capazes de ouvir. O aliasing também diminui drasticamente e, portanto, há realmente vantagens.

Assim, por uma questão de princípios, se a gente pode se dar ao luxo de gastar toneladas de espaço em disco, se o sistema agüenta o número de canais necessários e se o conversor tem boa qualidade (como vimos nem todos os conversores que se proclamam capazes de trabalhar a 96000 Hz conseguem fazê-lo decentemente), então trabalhar em altas taxas de amostragem compensa. Só que eu defendo com veemência a mesma adequação à mídia que usamos no caso 48.000 x 44.100 Hz: se o destino é CD, é bem mais conveniente usar 88.200 Hz e, para DVD, 96.000 Hz, senão iremos novamente ter o problema de conversão complicada.
* O Teorema de Nyquist.
O valor de 1 semitom no sistema temperado é dado pela raiz décima-segunda de dois.

Fábio Henriques
 
Conteúdo aberto a todos os leitores.