Áudio Música & Tecnologia: Comparando Áudios

Caçando Mitos

Comparando Áudios

Fábio Henriques

Publicado em 01/02/2014 - 00h00

Ou isto ou aquilo: ou isto ou aquilo...
e vivo escolhendo o dia inteiro![...]
Mas não consegui entender ainda
qual é melhor: se é isto ou aquilo.
Cecília Meireles

De todos os aspectos que envolvem o áudio e o nosso trabalho, o que considero de longe o mais complicado é a comparação. Pode parecer fácil, mas o ato de se simplesmente escolher a melhor de duas opções em áudio envolve uma quantidade enorme de fatores, e o mais problemático é que a coisa parece simples. A internet está cheia de exemplos de pessoas, até cheias de boa intenção, tirando conclusões absurdas porque as baseiam em comparações totalmente equivocadas. Vamos aqui, primeiramente, mostrar o problema, desmascarando sua aparente simplicidade, e depois apontar os métodos corretos de comparação e tomada de decisões.

Já dissemos algumas vezes que um quesito muito importante para alguém que lide com áudio é sua capacidade de elaborar conceitos e, a partir de informações recebidas, chegar a uma conclusão. Em outras palavras, quando a gente pega um som de bumbo e mexe num equalizador até que finalmente fica feliz com o resultado, nem percebemos a operação extremamente complexa que nosso cérebro efetuou. Usamos comparações instantâneas, usamos nossa memória auditiva para estabelecer conexões com sons que já ouvimos, fazemos julgamentos conceituais baseados em nossa expectativa perto de outros sons de outras pessoas que já ouvimos etc. Um mundo de tarefas são executadas por nossa "CPU" interna, até que finalmente conseguimos o veredito : "está bom assim". Ok, tem gente que nunca consegue chegar a um resultado que considera 100% satisfatório, mas creio que isso seja mais um problema psicológico, o que foge de nosso escopo aqui.

O fato é que comparar é um processo intimamente ligado a qualquer tarefa do áudio. Vejamos, então, alguns pontos importantes e característicos que tornam a comparação de áudios tão importante e delicada.

PARTICULARIDADES DO ÁUDIO

Quem já jogou um Jogo dos Sete Erros, em que dois desenhos muito parecidos são apresentados, mesmo sem perceber, estava exercitando sua capacidade de comparação. O que diferencia este jogo de qualquer situação em áudio é o fato de que as imagens estão ali, lado a lado, prontas para uma comparação simultânea. Em áudio, não dá pra ouvirmos duas informações ao mesmo tempo. Temos que ouvir primeiro uma e depois a outra. O fluxo de informação é serial. Não há como eliminarmos o fator tempo de nossas comparações. Assim, sempre que a gente termina de ouvir a primeira informação e começa a ouvir a segunda, o próprio fato de a primeira informação já ter terminado afeta sensivelmente o julgamento da segunda. Então, os fator a seguir deve ser considerado...

A comparação de áudio não é simultânea

Além disso, a resposta em frequência de nossos ouvidos é mais plana quanto mais alto o volume de audição. E existe uma tendência natural de acharmos que soa melhor o que tiver mais volume. Várias vezes recebi comentários de que a voz de uma mix está "sem peso", "sem energia", "sem vida", "sem cor", e depois de muitas tentativas de descobrir qual seria de fato o problema (equalização?, compressão?, reverb?), descobri que em 100% destes casos basta aumentar um pouco o volume da voz para receber como resposta um "agora sim!". Todo profissional de áudio sabe que se há o desejo de que a sua opção de equalização seja escolhida, basta colocar o canal equalizado um pouco mais alto na hora de mostrar ao cliente. Assim, o segundo fator importante é o que você verá a seguir...

Todo profissional de áudio sabe que se há o desejo de que a sua opção de equalização seja escolhida, basta colocar o canal equalizado um pouco mais alto na hora de mostrar ao cliente

O que está mais alto soa "melhor"

Faço um desafio agora ao leitor: pense em um adjetivo, um só, usado em áudio, que seja específico dele, que não tenha tomado emprestado de outro sentido. A gente diz o tempo todo que o som está brilhante, fosco, opaco, escuro (visão); pesado, leve, gordo, magro, fofo, duro, áspero, suave, seco, molhado, quente (tato). E como o som está intimamente associado a nossos centros emocionais, podemos até associar com sentimentos, como alegre, triste etc. Se formos radicais, até mesmo coisas que parecem totalmente típicas do áudio, como alto, baixo, comprimido, equalizado (tornado igual) têm suas origens em outros campos.

Tudo bem que não dizemos que um som está "salgado", mas o que dizer da flauta "doce"? Mas estes empréstimos não são causados por um defeito de nossos cérebros. Agora, entrando no perigoso terreno das opiniões, tenho uma teoria particular a este respeito. A audição é um sentido especial, na medida em que a gente não precisa dar atenção exclusiva a ele.

O termo "fundo musical" é totalmente adequado, pois representa esta característica muito importante da sensação auditiva. Somos imersos em áudio mesmo quando nos concentramos em outro sentido. Dá pra dirigir ouvindo música, mas não dá pra dirigir vendo um filme. Quantas e quantas vezes uma cena de ação em um filme nos envolveu completamente e a gente nem se deu conta de que havia uma trilha sonora o tempo todo acontecendo! Pois é - o áudio muitas vezes é sutil, e por isso faltam adjetivos para defini-lo. Já trabalhei com um produtor que pedia "brilho" quando queria mais reverb, enquanto a maioria considera brilho uma forma de equalização. Isso nos leva ao terceiro fator...

Não existem definições universais para uma opinião auditiva

Se até agora vimos questões subjetivas, vindas da pessoa que ouve, existem ainda as questões objetivas, que dificultam as comparações, mas são oriundas do próprio método. Por exemplo, suponhamos que queremos comparar o som de dois microfones. A partir do fator (a), tendemos a descartar a possibilidade de usar um microfone e depois o outro, comparando depois. Se estamos usando uma voz, fatalmente a performance do cantor será ligeiramente diferente nas duas vezes, comprometendo a comparação. Então podemos optar por colocar os dois microfones bem juntos um do outro, mas, neste caso, os dois não estarão exatamente na mesma posição, e isto pode afetar o resultado, sem contar que somente a presença de outro microfone ao lado pode provocar reflexões e difrações sonoras, o que também prejudica. E mais: cada microfone terá de ser ligado a seu próprio pré, o que também ajuda a atrapalhar o resultado. Ou seja...

O método da medição pode afetar o resultado

Sobre este último, alguém pode argumentar que são variações muito pequenas e que podem ser desprezadas, e, realmente, se a gente não aprendesse a trabalhar com este tipo de incertezas, não haveria nenhuma obra de engenharia (de qualquer tipo) no mundo, mas o nível de detalhe que os nossos ouvidos são capazes de perceber é extremamente alto, e os objetos de comparação hoje em dia são tão sutis em suas diferenças que este tipo de coisa merece especial atenção.

A LEI DE HENRIQUES E O CONCEITO DE MELHOR

Essa minha busca constante de esclarecer as coisas não é de hoje. Me persegue desde o primeiro dia em que me aventurei em áudio. Sempre me deixou surpreso como certos conceitos são amplamente difundidos e ao mesmo tempo não têm um pingo de veracidade. Hoje em dia, com os vídeos de internet, então, a coisa chegou a um nível sem precedentes. Por isso eu elaborei uma "lei", para a qual, sem a menor modéstia, dei o meu nome. Ela estabelece o seguinte:

A credibilidade de uma afirmação em áudio é diretamente proporcional à sua exoticidade e à reputação de quem afirma, e inversamente proporcional à sua veracidade e objetividade.

Se um cara "famoso" afirma um absurdo, as pessoas acreditam muito mais nisto do que na matemática e física que demonstram que é mentira

Ou seja, se um cara "famoso" afirma um absurdo, as pessoas acreditam muito mais nisto do que na matemática e física que demonstram que é mentira. Além disso, muita gente bem intencionada se dedica a fazer comparações e, diante do resultado, acaba com conclusões equivocadas. A minha preferida hoje em dia é a da pessoa que me afirma que ouve diferença entre áudio amostrado em 96 kHz em relação a 44.1 kHz. Ora, eu até acredito que seja ouvida a diferença, mas quem disse que "diferente" quer dizer "melhor"? Na maioria das vezes, o som em 96 kHz é realmente um pouco diferente, porque as não linearidades dos equipamentos e as distorções por intermodulação o tornam "menos fiel" ao áudio original. Ou seja, em tese, o fato de se usar 96 kHz pode "piorar" o som.

E, para concluir, temos até mesmo que avaliar o conceito de "melhor". Segundo Ethan Winer, com quem concordo totalmente, existem situações em que as pessoas preferem um som com um certo nível de distorção, que acaba enriquecendo a resposta de harmônicos altos, o que é o caso do vinil e do aural exciter, por exemplo. Ou seja, é bem possível que "melhor" queira dizer "mais agradável", e não "mais fiel".

COMO COMPARAR

Dito isto tudo vamos ver dois exemplos de como se efetuar comparações de maneira decente.

Null Test

O primeiro método é o que se chama Null Test. Por exemplo, queremos saber de verdade o que muda quando se converte um arquivo WAV para MP3. Em vez de ficarmos dizendo apenas que MP3 é ruim e coisas do gênero, façamos um null test. Tomamos o arquivo original e o arquivo convertido. Colocamos em duas pistas diferentes de um Pro Tools da vida, alinhamos exatamente os dois áudios, de forma que fiquem exatamente superpostos, e aí invertemos a fase de um dos canais. Se os dois áudios forem exatamente iguais, o resultado é silêncio absoluto (no limite do ruído de fundo do conversor usado). O processo precisa ser extremamente cuidadoso, porque só o fato de se superpor exatamente os áudios já envolve muita perícia. Mas, fazendo as coisas corretamente, temos uma ferramenta poderosíssima para julgar e comparar.

No link http://tinyurl.com/null-test disponibilizo uma sessão de Pro Tools com um null test que compara diferentes bit rates de MP3 e dois algoritmos, Lame e Fraunhoffer. A partir dessa comparação, o leitor poderá avaliar realmente o que muda na conversão, e que taxa e qual algoritmo mexe em quê.

Existe, porém, um problema sério com o null test: uma vez que a subtração é feita, perdemos a informação de quem gerou qual diferença. Ou seja, se pegar dois arquivos em MP3 e fizer um null test, não tem como eu saber qual dos dois provocou qual alteração. Isso não invalida o teste acima, em que cada algoritmo foi comparado com a informação original.

ABX

"Fazer um AB" em áudio não tem nenhuma conotação perigosa. Significa apenas "comparar". É aquela situação tipo consulta de oftalmologista: "é melhor assim ou assim?", "este ou este?". Ou seja, a gente coloca os áudios em dois canais, sola um, ouve, depois sola o outro e ouve, fazendo a comparação. Podemos fazer a mudança mais rápida ou mais lentamente, para simular uma simultaneidade, e como já vimos antes, precisamos deixar os volumes dos dois canais exatamente iguais (na medida do possível) para que a comparação seja honesta. Isso minimiza uma parte dos efeitos, mas este método não é válido, pois o ouvinte e o testador sabem quem é A e quem é B, e suas opiniões particulares acabam afetando.

Um teste ABX pleno é um teste duplo-cego, em que nem quem está ouvindo, nem quem está testando sabe qual áudio é qual. É o teste recomendado para o pessoal que gosta de dizer que 96 kHz soa "melhor". O desafio não é identificar se há diferença, mas tentar identificar qual dos dois, X ou Y, é A e qual dos dois é B. Existem dois softwares que recomendo para este tipo de teste: o Foobar2000, para PC, e o ABX Tester, para Mac. Uma coisa importante é fazer o teste várias vezes, pois existe uma chance de 50% de se acertar com apenas um teste feito. Se são feitos 20 testes, e se você acertou, digamos, 14 vezes, ainda sim há uma chance de 6% de que você tenha apenas "chutado" a resposta. Mas, em 20 testes, se você acertou 18 vezes, a probabilidade de chute é menor que 0,1%. Porém, se foram feitos só dez testes, mesmo acertando todos, ainda há uma chance de 0,1% de ter sido apenas coincidência (David Carlstrom). Pra piorar as coisas, se a gente passa de uns 20 testes, a fadiga auditiva e psicológica começa a afetar os resultados. Assim, dá pra ver que comparar decentemente é muito delicado e exige muito apuro técnico.

Existe um famoso trabalho, já citado aqui, feito com todo rigor científico, em que testes ABX que compararam áudios de CD com áudios de "alta definição", a probabilidade de acerto obtida foi de aproximadamente 49%, levando à conclusão de que as pessoas não conseguem identificar qual é qual. Aos mais céticos, ou, no caso, aos mais crédulos, sugiro o excelente desafio de Justin Coletti, que pode ser encontrado em http://tinyurl.com/the-scientist-challenge. Eu coloquei uma tradução deste texto na página do Guia de Mixagem no Facebook (www.facebook.com/GuiaDeMixagem). Recomendo a todos a leitura.

CONCLUSÕES

Talvez mais importante do que dominar ou tentar aplicar as técnicas de comparação aqui descritas seja o leitor passar a desenvolver um espírito crítico a respeito do que lê e escuta por aí. Se ouviu uma afirmação e ela parece fantástica ou exótica demais, desconfie. Procure saber o método usado para emiti-la. Francamente, mesmo que um "multi-grammy-winner" me diga que isso é melhor do que aquilo, se ele não me mostrar exatamente como chegou a esta conclusão, para mim não passa de mera opinião, e não deve ser necessariamente desprezada, mas apenas considerada como tal.

_{Fábio Henriques é engenheiro eletrônico e de gravação e autor dos Guias de Mixagem 1,2 e 3, lançados pela editora Música & Tecnologia. É responsável pelos produtos da gravadora canção Nova, onde atua como engenheiro de gravação e mixagem e produtor musical.}

Índice da Edição # 269

Sobre a empresa Quem somos Anuncie seu serviço ou produto conosco Fale conosco Endereço SQN 219 Bl A Apto 423 Asa Norte - Brasília - DF CEP: 70862-010 55 61 3254-0174	Serviços Agenda Anuncie Áudio Teste Classificados Cursos Downloads Expediente Hot links Loja Politica de privacidade	Tweets de @musitec
Copyright © 2025 - Todos os direitos reservados