|
|
 |
 |
 |
|
segunda-feira, 1 de março de 2004
|
 |
tecnologia de áudio |
voltar |
 |
|
Convolução, o processamento do século 21
|
por Fábio Henriques
|
|
Captando o comportamento de reverbs
|
Já começam a aparecer no mercado processadores que recriam ambientes e equipamentos através do processo chamado convolução. Tudo indica que este novo ramo de equipamentos será o grande atrativo dos próximos anos em áudio. Vamos então conhecer um pouco mais deste assunto.
Áudio digital
Vamos recordar rapidamente como se obtém áudio digital a partir de uma fonte analógica. Para convertermos um sinal analógico, fazemos periodicamente uma medida de sua amplitude e anotamos seu valor. Esta medição é chamada de amostra (sample) e é feita de acordo com a taxa de amostragem (sampling rate). Se usamos a taxa de amostragem de 44.100Hz, a cada segundo são lidas 44.100 amostras do sinal. Cada amostra é convertida para um número binário (representado por uma série de zeros e uns) e armazenada ou transmitida, de acordo com o caso. Para converter-se de volta ao analógico, lemos cada um destes valores, convertendo-os para amplitudes na mesma taxa em que foram escritos (44.100 vezes por segundo). Passamos então o sinal por um filtro passa-baixas e obtemos a forma de onda original.

A precisão de cada medida de amplitude amostrada depende do número de bits usados para escrever o valor binário resultante. Em um CD, cada amostra é representada por um número de 16 bits, podendo ser qualquer valor entre 0 e 65.535 (ou -32.768 e 32.767). Em sistemas de 24 bits, os valores podem ir de 0 a 16.777.215 (ou -8.388.608 e 8.388.607), o que já nos indica que quanto maior o número de bits usados, maior a precisão com que estas medidas serão feitas e, conseqüentemente, maior a fidelidade do sinal armazenado. De fato, o número de bits acaba determinando a faixa dinâmica do sistema (relação sinal/ruído). Para cada bit temos aproximadamente 6dB de ganho na faixa dinâmica. Em um CD, portanto, temos uma faixa teórica de 96dB; para 24 bits temos espantosos 144dB (maior que a faixa dinâmica do ouvido humano!).
Os reverbs e sua complexidade
Vamos usar os reverbs para demonstrar o mecanismo da convolução, já que eles são um exemplo típico na aplicação desse processo.
Antes de mais nada, vejamos o que é exatamente reverb. Quando estamos em uma sala na presença de uma fonte sonora, o som chega a nossos ouvidos por três caminhos: primeiro chega o som direto, que vem diretamente da fonte; a seguir as primeiras reflexões (early reflections), resultantes da reflexão do som em uma ou poucas superfícies; depois, resultando de muitas reflexões e de reflexões das reflexões, começam a chegar uma série de sons, que se superpõem de tal forma que não conseguimos mais distingui-los.

Assim, passamos a percebê-los como um som contínuo - um prolongamento do som original. Este é chamado de reverberação (para encurtar: reverb). As características do comportamento de um som dentro da sala vão depender da distribuição desse espaço, dos materiais de que são feitas as paredes e de outras superfícies refletoras existentes. Geralmente, a duração da reverberação e sua característica de freqüência dependem da sala.

Vale a pena lembrar que delay é diferente de eco, que é diferente de reverb. Chamamos de eco uma repetição nítida de um som e de delay o tempo entre o som original e esta repetição ou entre ecos sucessivos. No reverb, as repetições não são nítidas e são percebidas como um som contínuo. Para completar, chamamos ainda de pre-delay o tempo entre o som original e a primeira reflexão integrante da reverberação ocorrida, fator fortemente influenciado pelo tamanho da sala e pela posição da fonte dentro dela. Podemos admitir que as primeiras reflexões em uma sala são como ecos com delays muito curtos entre si e que a reverberação é a combinação de ecos tão densos e delays tão confusamente espaçados, que acabamos entendendo-os como um som contínuo.
Pelo que vimos até aqui, embora gerar ecos com equipamentos seja mais ou menos simples, recriar reverbs parece ser uma tarefa bem complicada, já que devemos gerar muitas repetições randomicamente (quase aleatoriamente) espaçadas no tempo.
Reverbs analógicos
A recriação de reverbs era uma das tarefas mais ingratas para os sistemas analógicos. Se por um lado os ecos eram relativamente simples (a própria máquina analógica já fornecia o famoso tape echo), a complexidade envolvida na simulação de reverberações nos obrigava a processos curiosos.
Antes dos reverbs digitais, a única chance era usar um transdutor elétrico'acústico excitando um meio reverberante. O resultado era captado por um transdutor acústico 'elétrico. O caso mais simples é o das câmaras de eco - salas especialmente projetadas para receber alto-falantes cujo som era captado por microfones. Para obter reverb, o engenheiro mandava o som para o falante e recebia o som vindo dos microfones. É claro que ajustar os parâmetros deste reverb significava mexer na posição dos microfones na câmara ou nas superfícies das paredes, cobrindo-as ou descobrindo-as conforme a necessidade.
Outro caso interessante era o dos plates, cujo elemento reverberante era uma placa metálica colocada em vibração por um transdutor. O reverb era captado por outro transdutor, colocado a uma certa distância ao longo da placa. Esta placa poderia ter grandes dimensões, sendo instalada muitas vezes sobre o teto dos estúdios. Podiam também ser usadas molas como elementos reverberantes, tais como nos reverbs de amplificadores de guitarra.
Os sons obtidos com os equipamentos acima, embora definitivamente pouco realistas, acabaram sendo incorporados à sonoridade das gravações, caindo no gosto dos engenheiros, dos músicos e do público. Os plates particularmente são até hoje simulados pelos processadores digitais, pela beleza do efeito que fornecem. Fidelidade a ambientes verdadeiros, porém, é um outro assunto.
Reverbs digitais
A partir de 1978, aparecem os reverbs digitais, que na verdade empregam um processo mais ou menos simples para criá-los. Basicamente usam uma boa quantidade de delays e realimentações para criar uma densa série de ecos que vão diminuindo de intensidade no tempo. A qualidade dos reverbs está intimamente relacionada aos algoritmos (software) que vão estabelecer os diferentes delays e realimentações, além da própria topologia (o modo como são conectados os componentes) do equipamento.

Hoje em dia, os reverbs digitais utilizam os Processadores de Sinais Digitais - DSPs (Digital Signal Processors) - para criar os reverbs. Para tal, eles utilizam geradores de ecos. O caso mais simples é um atraso (delay) que sofre realimentação e é re-atrasado, gerando um eco que se repete e vai diminuindo de intensidade ao longo do tempo.
Sofisticando mais o projeto, combinam-se unidades de ecos em série e paralelo com tempos tais que acabam simulando uma reverberação.
É claro que estes bloquinhos das figuras 5 e 6 representam trechos de algoritmos (software) aplicados aos DSPs. É da qualidade destes algoritmos que vai depender diretamente a qualidade do reverb obtido.

Ao longo dos anos, o grau de sofisticação destes reverbs digitais tem permitido a criação de sonoridades excepcionais, simulando os mais variados tipos de ambientes, além da recriação de reverberadores analógicos antigos (plates, molas e câmaras) com precisão. Porém, quando se trata de uma emulação perfeita de ambientes existentes, os reverbs digitais ainda não apresentam a fidelidade necessária.
Convolução e reverb
Para recriarmos o som de uma sala exatamente como ele é, precisamos modelar o comportamento desta sala, obtendo sua resposta para todas as freqüências possíveis durante um certo tempo. Será que existe um processo que permita justamente isto - saber como uma sala responde a todas as freqüências durante um certo tempo? É aí que entra a convolução.
Resposta ao impulso (Impulse Response-IR)
Quem já teve oportunidade de ver um técnico de som entrando em uma sala desconhecida pôde observar que ele imediatamente começa rodar pela sala a bater palmas de tempos em tempos, intercalando com gritos de "Ah!" e "Êh!" . Não, não é uma cerimônia religiosa para convocar bons espíritos para a gravação. O que ele está fazendo é (mesmo sem saber) obter uma resposta ao impulso da sala (aproximadamente).
Um impulso é um sinal de duração extremamente curto e amplitude elevada. No caso ideal, o impulso é chamado Função Delta ( ) e apresenta amplitude infinita para × = 0 e zero para qualquer outro valor de x, sendo que a área sob ela é igual a 1. Conforme a figura 7.

Figura 7
Confuso, não? Mas já vamos desvendar este mistério. Pode-se imaginar o impulso acima como um estalo de alto volume e curtíssima duração (na verdade, duração infinitesimal). Pode-se provar que este impulso carrega dentro dele todas as freqüências e todas com a mesma energia. Quando submetemos uma sala a um som que é um impulso ideal, estamos banhando a sala com todas as freqüências - todas com a mesma energia. Se registrarmos o comportamento do som na sala a partir do impulso, teremos o que se chama de Resposta ao Impulso (Impulse Response - IR), que descreve o comportamento da sala ao longo do tempo para qualquer freqüência. Assim, temos toda a informação sobre a sala. Para que isto aconteça, a resposta da sala deve ter uma característica linear e deve ser invariável no tempo. Como o reverb de uma sala é sempre o mesmo, independentemente da hora em que se toca (desde que as paredes permaneçam em seu lugar) a condição de invariância é atendida; quanto à linearidade, vamos por hora admitir que também é satisfeita.
Figura 8 - Resposta ao impulso de uma sala
As más notícias
O que acabamos de ver é que, se formos capazes de produzir um som com as características do impulso ideal em uma sala, e se conseguirmos registrar o que acontece logo depois disso dentro da sala, teremos definido completa e perfeitamente suas características de resposta. Em outras palavras, sua ambiência, seu reverb. O problema é sempre o "se". Primeiro, não se consegue produzir um impulso ideal, mas só aproximações. Segundo, o impulso ideal possui todas as freqüências dentro dele com igual energia, só que esta energia é infinitesimalmente pequena, e na prática nosso gráfico da resposta teria valores baixos demais. Mais adiante veremos como os engenheiros contornam estes dois obstáculos.
Pode-se, por enquanto, admitir que o nosso impulso, na prática, é uma batida de palma, uma descarga de centelha elétrica ou, quem sabe, uma bombinha de festa junina. De fato, mede-se a característica acústica de uma sala desta forma. A aproximação é suficiente para estimarmos seu RT60 (tempo que o som na sala leva para cair 60dB depois do impulso) e de que modo este decaimento ocorre. Mas, se queremos recriar fielmente um ambiente através de um equipamento de reverb, esta aproximação é insuficiente. Precisamos ser mais precisos.
Entra em cena o digital
Vamos imaginar que conseguimos as condições ideais e obtivemos uma gravação da resposta ao impulso de uma sala. Depois, a convertemos para digital. Teremos então registrado a IR através de uma série de amostras consecutivas. Este será o nosso modelo digital da sala, a sua Resposta ao Impulso. Temos então registrada uma série de informações que nos permitem recriar digitalmente a sala.
Para que entremos com o sinal de um instrumento neste recriador de salas, e saiamos com o som do instrumento e mais a sala, devemos efetuar entre eles a operação que chamamos convolução. Dizemos que o sinal de saída é a convolução do sinal de entrada com a resposta ao impulso da sala. Nos sistemas digitais, podemos obter a convolução da seguinte forma: lembre que a IR da sala está representada pela série de amostras resultantes de sua digitalização. Se agora pegarmos cada amostra do som do instrumento, multiplicamos por cada amostra da IR da sala e depois somarmos todos os valores obtidos, teremos então efetuado a convolução.
Figura 9
Simples, não?
Simples, mas trabalhoso. Suponhamos que a IR de uma sala tem três segundos de duração. Se vamos tocar uma nota com duração de um segundo, teremos:
N = número de samples da IR = 3 × 44100 = 132.300 samples
M = número de samples do sinal de entrada = 1 × 44100 = 44100 samples
Cada sample do sinal de entrada será multiplicado por 132.300 samples da IR. Portanto, teremos:
132.300 × 44100 = 5.834.430.000 de multiplicações
Depois, temos que somar todos os resultados obtidos, o que nos dá mais 5.834.430.000 somas para fazer.
Em resumo, tudo se resume a contas simples, mas são bilhões e bilhões delas, e muito poder de processamento é necessário. Por isso, os equipamentos digitais evitaram usar convoluções como forma de processar os sinais porque não tinham velocidade e capacidade suficiente. Depois partiram para o outro método já visto, que usa múltiplos delays para criar ecos complexos, simulando reverberações.
Finalmente a convolução
Em 1999 já começava a haver tecnologia para produzir chips de DSP com a capacidade de realizar o número necessário de operações em tempo hábil de produzir equipamentos viáveis, mas ainda com certa dificuldade. No início deste ano, a sempre pioneira Sony anuncia sua primeira unidade de reverb usando convolução, o DRE-S777.

O DRE-S777 chegou ao mercado no final de 1999 custando uns US$ 6.500,00, oferecendo reverbs capturados a partir de salas reais. Os dados destas salas vêm em CD-ROM, e precisam ser carregados no equipamento, que possui drive próprio. As saídas podem ser em estéreo ou em quatro canais. Usando super-DSPs com quase dez vezes a capacidade dos usados na época, o equipamento permite a convolução de 256 mil pontos, fornecendo decays de até 5.5 segundos.
Capturando salas
Lembram lá atrás, quando falamos sobre a dificuldade de se obter as condições ideais para a captura da IR de uma sala? Vejamos como foram ultrapassadas essas dificuldades.
Gravar um reverb não parece ser muito difícil, a não ser que se queira usar o resultado para a convolução. Como já vimos, apesar do impulso ideal conter todas as freqüências, suas amplitudes são infinitesimais e, na prática, impossíveis de registrar. Aumentar a largura do impulso para que ele contenha mais energia faz com que ele deixe de ter uma resposta em freqüência uniforme.
Outro aspecto é a respeito da faixa dinâmica (e conseqüentemente da relação sinal/ruído), que deve ser maior que a do sistema de reprodução do som então capturado.
A solução dada pelos engenheiros da Sony foi a seguinte: em vez de usar um impulso, eles usam uma varredura de freqüências (sinal senoidal que começa no extremo mais grave e vai subindo até o mais agudo do espectro) gerada por computador e reproduzida em um enorme PA de extrema fidelidade, colocado no ambiente a ser capturado. O reverb resultante é capturado por quatro microfones colocados em lugares estratégicos da sala. As distâncias e os ângulos entre eles são rigidamente determinados para, posteriormente, serem reproduzidos em surround de quatro canais. A varredura de freqüências é então executada e gravada 16 vezes.
As informações destas 16 gravações recebem um intenso tratamento posterior em computador, que consiste primeiro em alinhá-las quanto à fase. Como todas as medições têm coerência de fase, os valores se somam, melhorando o nível final em 24dB. O ruído de fundo, como é aleatório, só sobe, no geral, 12dB (na média, há cancelamentos e reforços no ruído), melhorando a relação sinal/ruído da gravação em uns 12dB (dois bits), ou seja, é como se o sinal tivesse sido gravado em 26 bits, mesmo usando um sistema de 24.
Neste ponto entra o pulo do gato. O som que temos não é a resposta ao impulso, mas a resposta à varredura. O sinal registrado contém resposta a todas as freqüências, mas o fato gerador foi evoluindo ao longo do tempo e não estava concentrado em t=0, como no caso do impulso. Assim, processa-se o sinal gravado de forma a concentrar as freqüências no tempo inicial, transformando a resposta resultante naquela que seria obtida pelo impulso, tornando-se então finalmente a Resposta ao Impulso.
IR Doméstico
O próximo passo na evolução tecnológica é óbvio. No início de 2001, a Sony lançava a segunda versão do S777, permitindo agora (por aproximadamente US$ 10 mil) ao usuário capturar suas próprias salas. O processo de captura é praticamente o mesmo descrito acima, e está ao alcance do usuário. As aplicações, principalmente para som de cinema e TV são então bastante ampliadas.
Chega a concorrência
Inevitavelmente a concorrência chegou para desafiar a Sony, e fez bonito. Ainda em 2001, a Yamaha lançava o SREV1 Sampling Reverberator, usando 32 DSPs e conseguindo 520 mil cálculos por sample!!! Como o S777, o SREV1 também permite que o usuário amostre suas próprias salas, usando o mesmo princípio de sinal de varredura, chamado TSP (time-stretched pulse - pulso estendido no tempo).
A este produto vieram se juntar os plug-ins de reverbs via convolução, tais como o Tascam Giga Studio, o Altiverb e mais recentemente o Emagic Space Designer, dos quais falaremos no próximo mês.
Só reverbs?
Mas será que só os reverbs podem ser objeto da convolução? Porque não podemos usar o mesmo processo para capturar o comportamento de equalizadores, compressores, prés e microfones?
A principal dificuldade é que para capturarmos fielmente estes equipamentos não podemos nos basear naqueles dois princípios básicos - linearidade e invariância no tempo. Alterar o nível do sinal de entrada muda a resposta ao impulso em função da não-linearidade de seus componentes. No caso do compressor, por exemplo, cada posição do controle de ratio, por exemplo, muda a sala em questão, tornando necessária a captura de nova IR. Mas como não poderia deixar de ser, alguém conseguiu um jeito de aplicar a convolução nestes casos - o engenheiro Mark Kemp, cujo trabalho levou ao artigo do próximo mês, quando falaremos também da convolução aplicada a compressores, equalizadores e prés - o Sintefex e seu derivado Liquid Channel, da Focusrite.
Fábio Henriques (www.fabiohenriques.kit.net) é engenheiro eletrônico e engenheiro de gravação. Contato: fabio.henriques@globo.com.

Tascam GigaStudio
O plug-in Altiverb

O Space Designer, da Emagic
|
|
 |
ARTIGOS RELACIONADOS - TECNOLOGIA DE ÁUDIO |

|
|
|
 |
 |
|