P. 1
Compresion2

Compresion2

|Views: 4|Likes:
Publicado porpapirruki25

More info:

Published by: papirruki25 on Oct 29, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

11/10/2013

pdf

text

original

Pag.

2-1

2. CODIFICACIÓN Y COMPRESIÓN DEL AUDIO
2.1. La Naturaleza del Sonido
El sonido es una vibración que se propaga a través del aire, gracias a que las moléculas del aire transmiten la vibración hasta que llega a nuestros oídos. Los mismos principios de cuando se lanza una piedra a un estanque se aplican al sonido: la perturbación de la piedra provoca que el agua se agite en todas las direcciones hasta que la amplitud (o altura) de las ondas es tan pequeña, que deja de percibirse. El diapasón es un buen ejemplo de fuente de sonido por dos razones: la primera es que puede observarse el movimiento de vaivén de sus brazos mientras se escuchan los resultados de esta vibración; la segunda es que el diapasón vibra a una frecuencia (vibraciones por segundo) constante hasta que toda su energía se ha disipado en forma de sonido. Caracteristicas de una onda sencilla Una perturbación que viaja a través del aire se denomina onda y el aspecto de la onda se denomina forma de onda. La forma de onda del diapasón es la más sencilla de las formas de onda, denominada onda sinusoidal. Pueden verse formas de onda como ésta en la pantalla de un osciloscopio. Estas ondas sencillas se caracterizan por una frecuencia y una amplitud, o cantidad máxima de perturbación producida, representada en los picos de la onda. El oído y un micrófono son muy similares. Ambos transforman pequeñas variaciones en la presión del aire en señal eléctrica que puede ser comprendida y almacenada por sus respectivos "cerebros" (ya sea el humano o la CPU de la computadora). Una señal es el término utilizado para describir la información que, como el sonido, sufre una transformación de su forma original -- moléculas que chocan en el aire con una forma eléctrica que puede guardarse, manipularse y reproducirse. Diferencias entre tono y frecuencia Existe una sutil, pero importante, distinción entre frecuencia y tono. La frecuencia se refiere a la medida objetiva del número de vibraciones por segundo. El tono se refiere a nuestra percepción de esas vibraciones. Hablamos normalmente del tono caracterizándolo como "bajo" o "alto". Por ejemplo, un triángulo o timbal tiene un tono alto, mientras que un violón o un bombo tienen un tono bajo. En la terminología del audio, tal como la grabación y la reproducción, las gamas de frecuencias comprendidas entre 300 Hz y 5.000 Hz se denominan frecuencias medias. Las comprendidas entre 20 Hz y 300 Hz se denominan bajas, mientras que las superiores a 5.000 Hz se denominan altas. Amplitud La medida de la amplitud de una onda es importante porque informa de la fuerza, o cantidad de energía, de una onda, que se traduce en la intensidad de lo que oímos. El decibel, abreviado como dB, es una unidad de medida de la fuerza de la señal y es útil en la comparación de la intensidad de dos sonidos. La sensibilidad del oído humano es extraordinaria, con una gama dinámica o variación en intensidad muy amplia. La mayoría de los oídos humanos pueden capturar el sonido del murmullo de una hoja y, después de haberse sometido a ruidos explosivos como los de un avión, siguen funcionando y lo que es sorprendente es que la fuerza de la explosión en un avión es al menos 10 millones de veces mayor que el murmullo que una hoja produce con el viento. El oído necesita un porcentaje elevado de variaciones en la fuerza de un sonido para detectar un cambio en la intensidad percibida, lo que significa que la sensibilidad del oído a la fuerza del sonido es logaritmica. El oído trabaja como un dispositivo logarítmico, de manera que el decibel, unidad de medida logarítmica, es la elección más adecuada para medir la fuerza del sonido. E1 aspecto práctico de la amplitud es que un incremento de sólo 3 dB duplica la intensidad de un sonido. Por ejemplo, un sonido con 86 dB tiene el doble de fuerza que un sonido con 83 dB y cuatro veces más que un sonido con 80 dB. Desde la perspectiva de nuestra percepción de la intensidad, un incremento de 3 dB, que da lugar a que se duplique la fuerza, provoca que el sonido se perciba sólo ligeramente más alto. Es necesario un aumento en 10 dB para que nuestros oídos perciban un sonido con el doble de intensidad. La Tabla 1 muestra una gama de sonidos y su comparación en fuerza, medida en el sistema logarítmico de decibel. Sonido Intensidad (dB) Frente a un cañón de 12" 220 Cohete 190 Avión 150 Umbral de dolor 140 Pista de aeropuerto 130 Umbral de percepción 120 Clímax de una orquesta 110 Banda de rock 100 Tráfico pesado 90 Gritos 80 Ruido de oficina/calle concurrida 70 Conversación normal 60 Oficina en silencio 50 Hogar silencioso 40 Estudio de grabación 20 Susurro 10 Umbral de escucha 0 Tabla 1. Comparación de niveles de sonido Gama dinámica La calidad de los sonidos musicales grabados no es demasiado importante, ya que nunca son comparables a los reales. La razón principal es que el equipo estéreo no puede duplicar la gama dinámica completo de una orquesta o de un concierto de

rock. Una orquesta puede alcanzar los 110 dB en su clímax y en el punto más suave bajar hasta los 30 dB, dando lugar a una gama dinámica de 80 dB. Esta gama es superior a la gama dinámica de un sistema estéreo típico y, de hecho, superior a la capacidad de grabación de medios tales como un disco de vinilo y una cinta de audio. Ancho de banda Profundizamos ahora en aspectos prácticos, como la gama de frecuencia de un reproductor CD y el de nuestra voz. La Tabla 2 muestra el ancho de banda, la gama de frecuencias en el que sistemas electrónicos como tarjetas de sonido para PC y los instrumentos musicales -- así como nuestro oído y nuestra voz - son capaces de captar y de producir sonido. El ancho de banda es muy importante para disfrutar de la música (como manifiestan las quejas de sonido "de lata" de una radio de bolsillo) y es un criterio básico a la hora de seleccionar un equipo de audio. Lo que realmente es decisivo no son los números, que variarán dependiendo de quién tome la medida y de otros factores externos, sino de la magnitud de su diferencia. Por ejemplo, el ancho de banda teórico de la radio FM es aproximadamente tres veces el ancho de banda de la radio AM. Fuente de sonido o detector Radio AM (máximo teórico) Radio FM (máximo teórico) Reproductor CD Tarjeta de sonido para PC Micrófono barato Trompeta Teléfono Oídos infantiles Jóvenes asiduos de conciertos de rock Oídos adultos Voz masculina Voz femenina Ancho de banda 80 Hz a 5 kHz 50 Hz a 15 kHz 20 Hz a 20 kHz 30 Hz a 20 kHz 80 Hz a 12 kHz 180 Hz a 8 kHz 300 Hz a 3 kHz 20 Hz a 20 kHz 50 Hz a 10 kHz 50 Hz a 10 kHz 120 Hz a 7 kHz 200 Hz a 9 kHz

Pag. 2-2 o los micrófonos, hay que asegurarse de que se comparan manzanas con manzanas tras observar la definición del ancho de banda. Estas medidas pueden tomarse utilizando diferentes métodos ofrecidos por los fabricantes, de modo que la comparación es harto complicada. Afortunadamente existe una medida estándar para definir el ancho de banda: el gama de frecuencias sobre el que la amplitud de la señal no difere del promedio en más de 3 dB. La frecuencia en la que se produce una caída de 3 dB es conocida como la frecuencia de corte o envolvente. Se utiliza como punto envolvente un valor de 3 dB, ya que éste es el mínimo cambio en la fuerza de la señal que puede ser percibido como un cambio real en la intensidad por la mayoría de los oídos. Ruido y distorsión Del mismo modo que perturban los ruidos y ecos en una habitación, también puede generarse ruido y distorsión en la tarjeta de sonido, en los altavoces y en el micrófono. El ruido -sonidos aleatorios que subrepticiamente transforman y enmascaran el sonido deseado -- se mide en decibel. Dado que es tan poco probable disponer de un entorno de audio digital en perfecto silencio, como lo es encontrar una biblioteca silenciosa, lo que interesa realmente es saber la cantidad de ruido en relación con la señal que se introduce en el equipo de sonido, especialmente en la tarjeta de sonido de un PC. La fuerza de la música, del habla o de cualquier otro sonido, comparada con la fuerza promedio del ruido, se conoce como relación señal-a-ruido (S/N). A medida que aumenta la relación S/N, es mejor el trabajo realizado en grabación. Por ejemplo, una buena tarjeta de sonido para PC (que graba y reproduce audio digital) posee una relación S/N de más de 85 dB. Esto significa que la fuerza de la señal es 85 dB mayor que la fuerza del ruido. Una relación de 70 dB se considera válida para propósitos musicales y una relación de 65 dB está en el límite de aceptación. Además del ruido, hay otro elemento contaminante del sonido de alta fidelidad y que es la distorsión, un cambio tenue en la frecuencia de las componentes de una señal a medida que ésta pasa a través de los diferentes componentes de audio. La distorsión se mide en forma de porcentaje y una medida popular de la misma se denomina distorsión armónica total (THD). Al contrario que en la relación S/N, un menor valor de THD produce un sonido mejor. Hablando en términos generales, se considera adecuado un THD de un 0.5% o menor y un valor de un 0.1% satisfaría a los entusiastas más exigentes del sonido. Los circuitos de reproducción de audio digital típicamente poseen un valor THD mejor al 0.07%. Características de la voz La voz humana es un clase de sonido cuyas frecuencias están comprendidas en una gama de aproximadamente 4 kHz. A continuación se incluye un extracto del libro de Henry Beker y Fred Piper, Cipher Systems, Northwood Books (London), 1982, donde se describen algunas propiedades de la voz. In a “typical” speech spectrum, frequency components higher than 3 to 4 kHz, fall rapidly. Consequently very high frequency components make a much smaller contribution to the signal than, for example, frequencies in the range 500-3000 Hz. Also

Tabla 2. Gama de frecuencias audibles (ancho de banda)

Nota: A menudo el ancho de banda se simboliza mediante un único número cuando la frecuencia baja está bastante próxima a cero. Por ejemplo, el ancho de banda de una voz femenina se sitúa en torno a los 9 kHz, aunque realmente puede estar en el gama que va desde los 200 Hz hasta los 9 kHz. Un hecho a considerar es que el ancho de banda de nuestro oído es superior al de la mayoría de los sistemas electrónicos. De la Tabla 2.2 puede extraerse una de las razones por la que las estaciones de radio FM son más agradables de escuchar que los canales de amplia difusión de AM: las estaciones de FM transmiten más componentes musicales de alta frecuencia que las estaciones de AM. También puede explicarse, comparando los anchos de banda del teléfono y de la voz humana, por qué a veces confundimos la voz de una persona al teléfono: es que sencillamente no tenemos toda la información necesaria para reconocer la voz. Cuando se compara el ancho de banda de dos equipamientos similares, como pueden ser las tarjetas de sonido

g. This results in modifying the frequency spectrum in a way which is rather similar to the effect that a series of bandpass filters has on a rectangular pulse train. Phonemes and pitch frequency In order to analyze speech we break it down into its individual component sounds. mouth and throat. e. form two classes called plosives and fricatives. The important fact to realize is that various different letters or sounds give rise to completely different waveforms. This shows the spectrum obtained when a particular sound is made. Figure 3 shows typical cavity shapes and amplitude spectra for two vowel sounds. How frequency components change with time Fig.g. However an understanding of the details is not necessary. 2-3 frequencies of less than about 300 Hz contribute very little to the overall signal. These formants are produced as a result of the way in which speech is formed and Figure 2 illustrates how these frequency components change with time. Speech frequency spectrum The diagram shows clearly that there are a number of peaks. ch. called phonemes. the vowels forming one complete family while the consonants and some other single syllable phonetic sounds. (One obvious example of a speech signal is that obtained from a microphone when someone speaks into it. 3.) Phonemes vary considerably from language to language and we will restrict our attention to English. A vowel sound builds up gradually and. called formants.Pag. One obvious example of a plosive produced by blocking . F3. The airstream then passes into a number of cavities of which the most dominant are the nose. (We will now give a very brief discussion of different phonemes for the English language and how they arise. tongue or lips.) If we restrict ourselves to frequencies of up to 3 kHz and use a very sensitive analyzer we should obtain a jagged curve like the one shown in Figure 1. (In Figure 1 the three formants are marked F1. In the English language there are about forty phonemes which fall into three classes. st. the palate. By “typical” we mean that the power density at each part of the spectrum is that obtained by averaging a relatively large number of conversations over a relatively long time. Fig. 1. There are various points at which the airstream may be blocked. e. Clearly the sound which emerges depends on the shape and size of these cavities. It should be noted that the change is fairly slow. F2. but it is usually characterized by a large low-frequency content. to enable comparison with figure 2) . typically. Vowels are produced by movements of the vocal chords which convert the stream of air passing through the larynx into a series of pulses. Fig. takes about 100 milliseconds to reach its peak amplitude. 2. The amplitude spectra for two vowel sounds Plosives are produced by shutting off the airstream and then releasing it with an explosive effect.

This sound is then filtered by the vocal tract cavities. and that the difference in these operations is reflected in various distinguishing properties of the resulting signal. i. There are essentially two different ways to encipher a speech signal. should not have any significant effect on the bandwidth of the signal. if the pitch frequency is f. Por consiguiente las componentes de muy alta frecuencia contribuyen a la señal en una proporción mucho menor que. this information is largely redundant but does of course contain information relating to the “personality” of the speaker.4 kHz bandwidth. How much of this information is lost would depend on the precise parameters employed in the formation of our new signal. This is achieved by using vocoder techniques but. if carefully engineered.e.. most of the information in a speech signal has a frequency between roughly 300 Hz and 4 kHz. possibly even greater than 10 kHz. A fricative sound typically reaches its peak amplitude in 20-50 ms and most of its power density is concentrated between 1 and 3 kHz. although a bandwidth of 3. In this situation the speech signal may be restricted to about a 2. As far as the message itself is concerned.e. the bandwidth limitations imposed on the speech signals enable a channel to carry several thousand telephone calls simultaneously. One example of a fricative is “sss. and each particular speaker then has a range of about an octave above and below this central frequency (i.) This produces a considerable reduction in the transmission costs. The recipient deciphers the cryptogram in its digital form and then the analogue signal is recovered from these digits. It is often possible to hear sounds at up to 20 kHz and. Before we discuss the various ways of achieving this objective. This is done by changing the relationships between time. at present. the content of the message and the personality of the speaker. the range will be about f/2 to 2f). Thus. __________________________________________ Traducción: En un espectro vocal "típico". As well as conveying the spoken message. (This process is called frequency division multiplexing. (It is interesting to note that.3 GHz wider bandwidths are permissible. the human ear can recognize sound at much higher frequencies. Fricatives are produced by partially shutting off the airstream to produce a sound like “white” noise. for instance.30 MHz is extremely overcrowded and liable to a great deal of interference. to form another signal to convey the same spoken message.300 MHz and the ultra high frequency (UHF) wave-band of 300 MHz . It is absolutely crucial that the cryptographer is aware that there are limitations such as these permissible bandwidths for the various forms of transmission. For the second method the analogue signal is converted into a digital one. From the last paragraph it should now be clear that this might mean we can no longer use the same transmission channel. it is worth discussing briefly the various ways in which speech signals are transmitted. We realize that the above discussion is extremely brief and is probably insufficient tn enable the reader to distinguish between some of the plosives and fricatives. a ciphered message should conceal both types of information from an interceptor. telephone speech signals are normally bandlimited to the range 300-3400 Hz. However. For the moment we merely emphasize that a voice message contains two types of information. It is. (Un ejemplo obvio de una señal vocal es aquella que se obtiene a partir de un micrófono cuando alguien habla en él). The reason should be clear after the following discussion. formants. we could use the pitch. by taking the signals for Pag.) There are similar restrictions on the bandwidth when speech signals are transmitted by radio waves. amplitude and frequency. For a typical male the pitch frequency is about 130 Hz while the average female is about twice as high. This principle of reproduction is the basic idea behind vocoders and we shall discuss them a little later. (By the personality of the speaker we merely mean those slight variations of frequency. A further characteristic of human speech which needs mentioning is the pitch frequency. 2-4 individual telephone calls and ‘frequency shifting’ them.1 kHz is sufficient for speech recognition. i. The middle value of this frequency varies from individual to individual. However a transmission link can carry signals with a much wider bandwidth than 3100 Hz. a speech signal also contains considerable information abnut the vocal characteristics of the speaker. This reproduction might sound rather unnatural and some of the “personality” of the speaker would almost certainly be lost. the devices needed are expensive and destroy many important properties of the signal. For instance the high frequency (HF band of 3 MHz . for high quality transmissions a bandwidth of at least 15 kHz is considered necessary. Another significant point should be emerging from this discussion.. i. The problem with this method is that most digitization techniques increase the bandwidth of the signal. las componentes de frecuencia mayores a 3-4 kHz disminuyen rápidamente. the range may be taken to be even smaller and. Voice Message Transmission As we saw earlier. For any given speech signal. This is the frequency of the vibration of the vocal chords. Si nos restringimos a frecuencias encima de 3 kHz y . We will not give a list of plosives but merely note that they tend to be characterized by their high frequency components and typically reach 90% of their peak amplitude in less than 5 ms. They may also be very susceptible to errors incurred during transmission. pitch etc. which enable us to identify him). in fact. This method. Once this has been achieved the signal may be enciphered easily.”. the speech signal is represented as a series of digits. timing and so on.the airstream with the lips is a “p”. ideally. Con "típico" queremos decir que la densidad de potencia en cada porción del espectro se obtiene mediante un promedio de un número relativamente grande de conversaciones a lo largo de un tiempo relativamente largo. For most practical purposes. The first is to scramble the signal in some way. indeed. We stress that. hopefully it will make the reader realize that his vocal system performs different operations to produce various ditferent sounds.e. In the very high frequency (VHF) wave-band of 30 . por ejemplo. las frecuencias en el rango de 500-3000 Hz. to a bandwidth of 3100 Hz. Asimismo las frecuencias menores a 300 Hz contribuyen muy poco a la señal total.e. possible to digitize speech signals without increasing the bandwidth.

toma cerca de 100 ms para alcanzar su amplitud pico. vocales. Los fonemas fricativos se producen por una aislamiento parcial de la corriente de aire para producir un sonido como . Fig. llamados fonemas (Ahora daremos una muy breve discusión de diferentes fonemas del lenguaje Inglés y de donde surgen. st. pero está usualmente caracterizado por un contenido alto de bajas frecuencias. Sin embargo un entendimiento de los detalles no es necesario.2). Pag. La figura 3. Los fonemas varían considerablemente de lenguaje en lenguaje pero restringiremos nuestra atención al Inglés. la boca y la garganta. Estos formantes se producen como el resultado de la manera en la cual se forma la voz.3. F2. ch. La corriente de aire pasa a un número de cavidades de las que las más importantes son la nariz. 1. Un sonido vocal se forma gradualmente y. La figura 2 ilustra como estas componentes de frecuencia cambian con el tiempo. F3 para compararlos con la figura.usamos un analizador muy sensible podríamos obtener una curva aserrada como la mostrada en la figura 1 Esta curva muestra el espectro que se obtiene cuando se hace un sonido en particular. el paladar. Fig. Espectro de frecuencia vocal El diagrama muestra claramente que hay un número de picos. 2. No daremos una lista de fonemas explosivos pero simplemente note que ellos tienden a estar caracterizados por sus componentes de frecuencias altas y típicamente alcanzan el 90% de su amplitud pico en menos de 5 ms. El espectro de amplitud para dos sonidos vocales Fig. 2-5 diferentes letras o sonidos ocasionan formas de onda completamente diferentes). que forman una familia completa mientras que las consonantes y otros sonidos fonéticos de sílabas simple.. llamados formantes. típicamente. por ejemplo. El hecho importante de comprender es que Los fonemas explosivos se producen al aislar la corriente de aire y luego soltarla con un efecto explosivo. por ejemplo. Claramente el sonido que emerge depende de la forma y tamaño de estas cavidades.1 los tres formantes están marcados con F1. Cómo las componentes de frecuencia cambian con el tiempo Fonemas y frecuencia de tono A fin de analizar la voz la dividiremos en sonidos componentes individuales. valga la redundancia.3 muestra las formas típicas de las cavidades y el espectro de amplitud para dos sonidos vocales. Los fonemas vocales se producen por movimientos de las cuerdas vocales las cuales convierten la corriente de aire que pasa a través de la laringe en una serie de vibraciones. lengua y labios. Esto modifica el espectro en frecuencia de una manera similar al que una serie de filtros pasabanda afectan a un tren de pulsos rectangulares. forman las otras dos clases llamados explosivos y fricativos. Un ejemplo obvio de un fonema explosivo producido por el bloqueo de la corriente de aire con los labios es una "p". Nótese que el cambio es suavemente lento (En la figura. Hay varios puntos en los cuales la corriente de aire puede ser bloqueado. En el lenguaje inglés hay cerca de cuarenta (40) fonemas los cuales se dividen en tres clases.

El problema con este método es que la mayoría de las técnicas de digitalización incrementan el ancho de banda de la señal. De esta manera. si es realizado cuidadosamente. i. y que la diferencia en estas operaciones se refleja en varias propiedades características de la señal resultante. Sin embargo un enlace de transmisión puede transportar señales con un ancho de banda mucho mayor que 3100 Hz. Comprendemos que la discusión anterior es extremadamente breve y es probablemente insuficiente para que el lector sea capaz de distinguir entre los fonemas explosivos y los fonemas fricativos. Esto produce una reducción considerable en los costos de transmisión. Para un hombre común la frecuencia de tono es cerca de 130 Hz mientras que el promedio femenino es casi dos veces más alto. Para propósitos prácticos el rango se puede tomar más pequeño y. es posible digitalizar señales de voz sin incrementar el ancho de banda.e.300 MHz y las banda de ondas de ultra alta frecuencia (UHF) de 300 MHz . podría no tener un efecto significativo sobre el ancho de banda de la señal. (Por personalidad del que habla simplemente nos referimos a aquellas ligeras variaciones de frecuencia.."ruido" blanco. posiblemente mayores que 10 kHz. En la banda de ondas de muy altas frecuencias (VHF) de 30 . los formantes.1 kHz es suficiente para reconocer la voz. Esta reproducción puede sonar algo artificial y un poco de la "personalidad" del que habla podría ciertamente perderse. tomando las señales de llamadas telefónicas individuales y 'desplazándolas en frecuencia'. el rango será entre f/2 y 2f).. Tecnologías de Audio para PC En los últimos años han emergido novedosos sistemas de procesamiento digital de señales que han mejorado significativamente no sólo la reproducción de la música y el almacenamiento de mensajes hablados. idealmente. para formar otra señal para transmitir el mismo mensaje hablado. esta información es altamente redundante pero por supuesto contiene información rela-cionada con la "personalidad" del que habla. Antes discutimos las diferentes maneras de lograr este objetivo por lo que vale la pena discutir brevemente las diferentes formas en las que las señales vocales se transmiten. las señales vocales telefónicas están normalmente limitadas en la banda de 300 3400 Hz.e. Estos sistemas permiten que el sonido digitalizado pueda ser representado por medio de muy pocos . En lo que respecta al mensaje en si mismo. hasta el momento. si la frecuencia de tono es f. A menudo es posible oir sonidos por encima de 20 kHz y. (Es interesante notar que. Hay restricciones similares sobre el ancho de banda cuando se transmiten señales de voz mediante ondas de radio Por ejemplo la banda de frecuencias altas (HF) de 3 MHz-30 MHz está extremadamente repleta y expuesta a una gran cantidad de interferencia.4 kHz de ancho de banda. La razón quedará clara después de la siguiente discusión. i. Así como también se está transmitiendo el mensaje hablado. Un sonido fricativo típicamente alcanza su amplitud pico en 20-50 ms y la mayo parte de su densidad de potencia está concentrado entre 1 y 3 kHz Un ejemplo de un fonema fricativo es "sss. tono. i. El receptor decifra la clave a su forma digital y entonces la señal analógica es recuperada a partir de estos dígitos. Este sonido es luego filtrado por las cavidades del sistema vocal. Otro punto importante debería surgir de esta discusión. por ejemplo. Del último párrafo debería estar claro ahora que esto quiere decir que no podemos dar un uso más largo al mismo canal de transmisión. Para cualquier señal vocal dada. la mayor parte de la información en una señal vocal tiene una frecuencia aproximadamente entre Pag. los dispositivos son muy caros y destruyen muchas propiedades importantes de la señal. Esto se hace cambiando las relaciones entre tiempo. El valor medio de esta frecuencia varía de individuo a individuo. la señal vocal se representa como una serie de dígitos. una señal vocal también contiene información considerable sobre las características vocales del que habla. Una vez que esto se ha alcanzado la señal puede ser encriptada fácilmente. Por el momento simplemente enfatizamos que el mensaje vocal contiene dos tipos de información.e. efectivamente. Realmente. Esta es la frecuencia de vibración de las cuerdas vocales. amplitud y frecuencia. Este método.3 GHz se permiten anchos de banda mayores. Acentuamos que. Una característica adicional de la voz humana que es necesario mencionar es la frecuencia de tono. las limitaciones de ancho de banda impuestas a las señales vocales permiten a un canal transportar miles de llamadas telefónicas simultáneamente (Este proceso se conoce como multiplexión por división en frecuencia). el ritmo y así sucesivamente. el contenido del mensaje y la personalidad del que habla. a un ancho de banda de 3100 Hz.". Sin embargo. etc que nos permiten identificarlo). Cuanta de esta información que está perdida dependería de los parámetros precisos empleados en la formación de nuestra nueva señal. Este principio de reproducción es la idea básica detrás de los vocoders que los discutiremos un más adelante. el oido humano capta sonidos con frecuencias mucho más altas. aunque un ancho de banda de 3. sino también la comunicación en vivo. Es absolutamente crucial que el criptógrafo esté informado que hay limitaciones tales como estos anchos permisibles para varias maneras de transmisión. y cada persona que habla tiene entonces un rango de cerca de una octava por encima y por debajo de esta frecuencia central (es decir. con optimismo esto hará que el lector comprenda que su sistema vocal efectúa operaciones diferentes para producir sonidos diferentes. Hay esencialmente dos maneras diferentes de encriptar una señal vocal. podríamos usar el tono. 2. para transmisiones de alta calidad se considera necesario un ancho de banda de al menos 15 kHz). un mensaje cifrado esconde ambos tipos de información de un intruso. En esta situación la señal vocal se debe restringir a cerca de 2. Transmisión del mensaje vocal Como vimos anteriormente.2. También son muy susceptibles a los errores que ocurren durante la transmisión. Esto se logra mediante el uso de técnicas vocoder pero. 2-6 300 Hz y 4 kHz. Con el segundo método la señal analógica se convierte a una digital. La primera es mezclar desordenadamente la señal de alguna forma.

Todas las tarjetas de sonido de Creative Labs tienen un sintetizador FM que trabaja del mismo modo que lo hace un sintetizador de teclado de Yamaha. Si se dispone de un reproductor CD-ROM. 2-7 audífonos o de los altavoces. de manera que el software musical tiene un control limitado sobre ellos. La tarjeta de sonido transforma el sonido recogido del micrófono en una señal eléctrica que. La calidad del sonido producido por la computadora refleja el esfuerzo de muchas componentes. El sintetizador FM es la tecnología electrónica más popular para crear sonidos musicales. incluyendo un tam-tam o tamborcito. Allí se pueden ver las nuevas realizaciones de los fabricantes. a menos que los altavoces adquiridos sean muy buenos. Los sonidos de percusión se programan en el interior del chip cuandó se confecciona en la fábrica. Signetics. En el caso del sistema de sonido de la computadora. La tarjeta de sonido tiene un ancho de banda sorprendentemente amplio. El sintetizador FM crea música sintetizada y. la tecnología más común para crear sonido musical en tarjetas de sonido para PC. el sintetizador FM puede generar hasta 16 sonidos melódicos y seis sonidos de percusión. Síntesis FM La conocida técnica de modulación en frecuencia simple (FM) para síntesis musical fue inventada por John Chowning. tales como Siemens. La modulación en frecuencia indica la leve variación de frecuencia que produce una onda en otra. Las tecnologías clave son la síntesis FM. Estos armónicos. que cubre efectivamente el gama completo de escucha humana. éste es el ancho de banda necesario para reproducir audio digital. se pueden usar velocidades de transmisión digital de apenas 16 kb/s. el ancho de banda de la tarjeta de sonido Sound Blaster 16 se extiende desde los 20 Hz hasta los 20 kHz. A continuación se introducen las tecnologías de audio para crear sonidos musicales instrumentales: síntesis FM y síntesis de onda muestreada. Northern Telecom. 1994. El ancho de banda efectivo del sistema de sonido está limitado por el dispositivo con el ancho de banda más estrecho de todos los dispositivos que procesan el sonido. algunas de las cuales solapan sus capacidades. que tiene probablemente una envolvente en respuesta de 3 dB a aproximadamente 12 kHz. Los sonidos melódicos son sonidos instrumentales generados por software. el cual consiste de una familia de tarjetas de sonido para PC. que produce sonido sintetizado FM en estéreo utilizando síntesis de dos o de cuatro operadores. posteriormente. que se trata posteriormente. en el caso de la Sound Blaster 16 con Wave Blaster opcional. Osborne McGraw-Hill. Este abismo se cubre con el lenguaje musical MIDI. Cuando se trata de reproducción. El audio digital del disco es transformado de nuevo en una señal eléctrica y reproducido a través de los . A continuación se incluye información relativa al popular sistema Sound Blaster. la Sound Blaster Pro 2 (modelo CT1600) y la Sound Blaster 16 se han construido con el chip más reciente de síntesis FM de Yamaha YMF262 (OPL3). NEC. NTT. Lo más probable es que la música electrónica que se escuchó proveniente del PC se genere en el sintetizador de FM. Hitachi. rica en timbre musical (complejidad musical o riqueza). el sintetizador FM puede soportar hasta seis sonidos melódicos y cinco sonidos de percusión.dígitos binarios. En los últimos años. Fijitsu. AMD. voz y otros sonidos. su suma y diferencia y sus armónicos. E1 primer modelo de la Sound Blaster Pro (modelo CT1330) se diseñó Peter Ridge y otros.711 del UITT). proporcionado por un disco de audio CD o por un disco CD-ROM. una tecnología que produce mejores sonidos pero que es más compleja. también podrá añadirse al conjunto de fuentes de audio disponibles sonido CD. dan a todos los tipos de sonido (incluyendo los instrumentos sintetizados FM) un timbre único. Los progresos relacionados con codificación del sonido se discuten en conferencias tales como la ICASS (IEEE International Conference on Acoustic. que normalmente no es la tarjeta de sonido Sound Blaster. y la síntesis de onda muestreada. muy por debajo de los 64 kb/s del PCM normalmente utilizado (según la Recomedación G. en 1971. Speech and Signal Processing). y la salida no será mejor que la interpretación del miembro menos capacitado de un grupo. 8 kb/s y hasta 4 kb/s. También se incluye un artículo sobre las formas de almacenamiento del sonido bajo Windows. de la Universidad de Stanford. Chowning descubrió que el uso de una onda sinusoidal para modular otra podía crear una tercera onda. En el modo de cuatro operadores. etc. "Guía oficial de Sound Blaster" (extracto). Philips. En el modo de dos operadores. Al usarlos para la voz. probablemente por un controlador software. Texas Intruments. estos sonidos pueden cambiarse mediante programas musicales de software que envían nuevas instrucciones al chip sintetizador FM. El audio digital puede utilizarse para grabar y reproducir música. Sintetizador FM de la tarjeta de sonido: La Sound Blaster Pro Deluxe. ondas cuya frecuencia es múltiplo de las dos ondas originales. Hablando estrictamente. De particular importancia para aplicaciones multimedios son las técnologías de procesamiento del sonido utilizadas en estaciones de trabajo y computadores personales. Yamaha ha reducido la tecnología de síntesis FM a un solo chip más pequeño que la uña de un dedo. Por ejemplo. Es importante tener en cuenta que el ancho de banda de un equipo de sonido depende del enlace más débil del canal. E1 sintetizador FM (que los músicos abrevian como "sint") produce una amplia gama de sonidos que incluye música y efectos especiales. el enlace más débil se encuentra en los altavoces del PC. Pag. La tercera onda contenía las dos ondas originales. consideremos el sonido grabado mediante un micrófono y que luego es reproducido. Existe una diferencia notable entre tocar una nota instrumental y tocar una composición musical. AT&T. El enlace más débil en grabación suele ser el micrófono. se transforma en audio digital y se almacena en disco. Las tarjetas de sonido Sound Blaster de Creative Labs poseen una gran cantidad de características y tecnologías. una señal debe pasar por muchas fases de transformación de audio y por diferentes dispositivos. también puede crearla un sintetizador de onda muestreada.

los chips de síntesis en FM monoaurales Yamaha 3812 (OPL2) capaces de crear 22 sonidos estéreo.antes de que el YMF262 estuviera disponible y. La síntesis de onda muestreada. la música MIDI ha Ilegado a ser una parte esencial de un estudio de grabación. la fuerza con la que hay que hacerlo. está preparada para ponerse por delante siempre y cuando se abaraten sus costos. con tiempo. Del mismo modo. La Sound Blaster Deluxe y las anteriores tarjetas Sound Blaster. Véase el Apéndice A para una explicación más detallada de la forma en la que la síntesis en modo de dos y de cuatro operadores produce una amplia gama de sonidos instrumentales y de efectos especiales. sino en que puede recrear una interpretación musical. un archivo MIDI almacenado en la computadora puede reproducirse en el sintetizador propio de la tarjeta de sonido. Esta secuencia de instrucciones MIDI especifica el instrumento a tocar. Es el estándar mediante el que se comunican los sintetizadores. Las muestras instrumentales de la tabla de ondas son de 16 bits. Cualquier composición que se toque con un teclado u otro instrumento MIDI puede grabarse y almacenarse en la computadora como un archivo MIDI. dando lugar a un timbre más rico que el generado con el modo de dos operadores.MID o. en un sintetizador de teclado MIDI externo o en un instrumento con entrada MIDI. La mayoría de estos prodigios electrónicos dispone de interruptores. teclados. conocida también como síntesis de tablas de onda. de modo que incluso un niño de cinco años podría pensar "¿Se trata de una flauta mágica?" El segundo inconveniente es que es difícil recrear fielmente el sonido de instrumentos familiares. Por esta razón. la tecla a pulsar y. es posible cambiar los instrumentos y la propia melodía. El más serio es que la música suena. frases musicales y otros elementos. La célula transportadora determina la frecuencia base del tono. Esto se debe a que la física del sintetizador FM guarda poca relación con la física de producción de sonido de la mayoría de los instrumentos musicales. Una característica particularmente valiosa del chip de síntesis FM Yamaha (su capacidad para gestionar el trabajo involucrado en la creación de sonido musical. La Sound Blaster 16 con la Wave Blaster es la primera tarjeta de sonido de Creative Labs en la que se aplica esta nueva tecnología. que son monaurales. en el mejor de los casos. Síntesis de onda muestreada La síntesis FM ha sido la técnica utilizada usualmente para sintetizar el sonido de instrumentos musicales. módulos de sonido (sintetizadores sin teclado). Es posible reconocer el sonido de una flauta como el sonido producido por un instrumento de viento. contienen un solo chip Yamaha 3812 (OPL2). La programación cuidadosa de los parámetros del sintetizador de FM permite crear una amplia variedad de sonidos instrumentales musicales y sonidos de efectos especiales. liberando así a la CPU de tal carga) ha conducido a su implantación en la mayoría de las tarjetas de sonido. hace uso de dos modelos anteriores a éste. de modo que fijando un interruptor y cerrando los ojos. por tanto. Los . así como para incrementar la velocidad del teclado o rebajar la intensidad y otros efectos de la interpretación como el trémolo (una lenta y sutil variación en la fuerza con la que se toca una nota). llamada célula transportadora. se puede estar tocando un clavicordio o un piano. MIDI es la tecnología que toca una composición musical que abarca cientos de notas además de otros detalles de la interpretación musical. ya conoce la tecnología de síntesis de Pag. otra tecnología. Si ha tocado algún piano electrónico de los que suenan de modo similar a los reales. E1 teclado derivado de tablas de onda contiene 4MB de memoria de sólo lectura (ROM) que incluye muestras digitales de instrumentos originales. En otras palabras. Los archivos MIDI son significativamente diferentes de los archivos de audio digital como los archivos VOC y WAV. de modo que crear sonidos que se parezcan a instrumentos familiares es un proceso de prueba y error. Una Sound Blaster 16 con la placa auxiliar Wave Blaster (una pequeña tarjeta que se introduce en la tarjeta de sonido) convierte al PC en un estudio musical de categoría profesional. La figura siguiente (no mostrada) ilustra la síntesis en FM para dos operadores y el modo en el que la célula moduladora de Yamaha modula la segunda célula. cuando se pulsa. Estas notas se procesan digitalmente para ajustar su tono. hoy se ha convertido en un estándar para la música electrónica extendido por todo el mundo.MFF) contiene la misma información que puede verse en una partitura: una lista de notas de duración y tono variables. sólo bien. Inconvenientes de la Síntesis FM: La síntesis FM presenta dos inconvenientes. Un archivo MIDI (que normalmente tiene la extensión . sirviendo como una banda de copias inagotable. Estas muestras proporcionan un sonido instrumental mucho más real que el obtenido a partir de la síntesis FM con cuatro operadores (o incluso ocho operadores). Reproducción de composiciones musicales con MIDI La Interfaz Digital para Instrumentos Musicales (MIDI) ha reformado completamente el mundo musical proporcionando la posibilidad de que músicos aficionados graben e interpreten música sofisticada. Sin embargo. Desde que MIDI surgió hace 10 años. 2-8 onda muestreada. En el modo de cuatro operadores se conectan en serie dos pares de células. Mientras que la síntesis FM y la síntesis de tablas de onda son tecnologías para tocar sonidos instrumentales. La belleza del software de un secuenciador está no sólo en reproducir una grabación de una interpretación pasada. que son muestras audio de calidad CD. A diferencia de una grabación. computadoras y otros dispositivos MIDI. mientras que la célula moduladora determina los armónicos que dan al tono su singular timbre. la síntesis FM es más un arte misterioso que una ciencia. manipula digitalmente una muestra representativa de sonido para crear la gama completa de notas. Datos musicales MIDI Un paquete de software secuenciador dirige a los instrumentos MIDI para reproducir música tocando una secuencia de notas y otras instrucciones musicales que están almacenadas como un archivo MIDI. que se denomina síntesis de onda muestreada.

Un archivo MIDI. manipular y reproducir sonido. Grabación y reproducción de audio: Bases del audio digital Antes de que la computadora pueda grabar. el proceso ADC puede realizar un buen trabajo de aproximación a la onda de sonido analógica. ya que acepta datos MIDI provenientes de un teclado MIDI u otros controladores (dispositivos que controlan sintetizadores y módulos de sonido) y transmite datos MIDI a instrumentos MIDI exteriores. Conversión analógica-digital (ADC): El proceso ADC convierte la señal analógica continua en series de valores digitales discretos muestreando. es como un archivo de procesamiento de texto: puede modificarse sin limitación alguna. mediante un proceso denominado conversión analógica-digital (ADC). El fax puede leerse y el archivo de audio digitalizado se puede reproducir. que suele ser un sintetizador de teclado. casi comparables a los de los reproductores CD. Con el software adecuado -probablemente un programa secuenciador MIDI -. es posible crear una réplica superior del sonido. Los archivos de audio digital pueden necesitar millones de bytes de datos para tocar tan sólo unos minutos de música. Esta señal se denomina señal analógica porque es una señal continua. Cuando se instala una tarjeta de sonido de Creative Labs. pero no puede hacerse más modificación que la de cortar y pegar para cambiar zonas del mismo. de Twelve Tone Systems. Paquetes de ampliación MIDI Creative Labs ofrece varios paquetes de ampliación MIDI. como un "no" en una frase grabada. de Voyetra Technologies.archivos de audio digital contienen sonido real. Velocidad y tamaño de muestra La fidelidad -. el sintetizador de FM que se encuentra en todas las tarjetas de sonido de Creative Labs o el sintetizador de onda muestreada Wave Blaster que está disponible para la Sound Blaster 16. Estos paquetes incluyen en la actualidad un programa secuenciador para Windows de Microsoft denominado Cakewalk Apprentice para Windows. Esta interfaz es bidireccional. Pueden eliminarse trozos de voz. El cable de la interfaz MIDI que viene con el equipo opcional de ampliación MIDI de Creative Labs tiene un conector en un extremo que se conecta al puerto de juegos MIDI de la tarjeta de sonido. cuando se está dispuesto a escuchar la obra maestra. como el programa secuenciador Cakewalk Apprentice y los reproductores MIDI. La figura siguiente (no mostrada) ilustra cómo funciona la conversión analógica-digital. de modo que la forma de onda de la señal no varíe demasiado entre las muestras. el paquete MIDI incluía un programa secuenciador para DOS denominado Sequencer Plus Pro (SP Pro). Si las medidas se toman a una frecuencia de muestreo alta. Con el software adecuado es posible. tomando medidas instantáneas de la amplitud de la señal a una velocidad constante. el proceso de conversión digital-analógica (DAC) transforma de nuevo los bytes de sonido a una señal eléctrica analógica que emiten los altavoces. E1 hardware es un sintetizador en la tarjeta de sonido. entre la computadora y el equipo MIDI a través de la interfaz MIDI de las tarjetas de sonido. por el contrario. Pag.del sonido audio digital depende de la selección de la correcta frecuencia de muestreo y del correcto tamaño de . Una analogía apropiada para estos dos tipos de archivo podría ser la de un documento fax y un archivo de procesamiento de texto. grabado de forma digital a partir de la captura de miles de muestras por segundo.terminología empleada por los entusiastas del audio para expresar la exactitud en la réplica de la música original -. como Creative JukeBox y Media Player de Microsoft. Finalmente. añadir reverberación o eco a la música o a la voz. análoga al sonido original. 2-9 alternativamente. Una vez que los datos de sonido se han almacenado como bytes en la computadora. se incorpora automáticamente a la computadora una interfaz MIDI. incluyendo el siempre presente sintetizador de teclado. Un archivo MIDI no sólo es más compacto que un archivo de audio digitalizado.puede utilizarse la computadora para controlar completamente una red de dispositivos MIDI. Anteriormente. sino que también es completamente editable. mientras que con unos pocos miles de bytes de datos MIDI es posible tocar música durante horas. Utilizando un tamaño mayor de muestra. por ejemplo. debe transformarse el sonido de una forma analógica audible a una forma digital aceptable por la computadora. Conversión digital-analógica (DAC): El proceso DAC convierte los valores digitales discretos que representan al sonido en una señal analógica continua utilizando un filtro que suaviza los picos más bruscos. Los circuitos de modulación de código pulso (PCM) de la tarjeta de sonido que gestionan la ADC y la DAC son excelentes. ajustarse el tono de la voz de manera que no pueda reconocerse y muchas cosas más. Interfaz MIDI Muchos teclados y pianos electrónicos tienen incorporada en la actualidad una interfaz MIDI. de 16 bits. el movimiento mecánico se traduce en una señal eléctrica. contiene sólo instrucciones sobre la manera de tocar un instrumento. por otro lado. Cuando las ondas de sonido llegan al micrófono. El paquete MIDI más frecuentemente adquirido incluye software de secuenciador MIDI y un cable para la interfaz. de modo que el único límite está en la imaginación del usuario y no en la capacidad de interpretación de la tarjeta de sonido. Los datos MIDI pueden pasar. variando estos valores desde +128 hasta -127. Pueden mezclarse archivos de sonido. Obsérvese que la onda continua se aproxima mediante series de valores de 8 bits. puede hacerse uso de la potencia de la CPU de la computadora para transformar este sonido de miles de modos. El otro extremo se conecta a un dispositivo MIDI. MIDI y controladores software Los controladores software son el puente entre el hardware que crea el sonido de las notas y los programas que tocan música MIDI. es decir. que se almacenarán como bytes en un archivo del disco. Muestreo: Conversión analógica-digital y viceversa Comenzaremos con la captura del sonido haciendo uso del micrófono. La música MIDI.

2-10 Para la mayoría de los amantes del sonido. A medida que aumenta la frecuencia de muestreo. pero no lo es para una voz femenina típica. Por ejemplo. La frecuencia más alta que puede percibir el oído humano está cercana a los 20 kHz. los equipos de grabación de los que disponen los estudios comerciales utilizan por esta razón una frecuencia de muestreo de alrededor de 48 kHz. una muestra de sonido de un minuto necesita un espacio para almacenarse de 10. a 44. grabando hasta 44. el audio CD carece de cierta riqueza en el sonido. cada medida consume 1 byte de almacenamiento de la memoria de la computadora o del disco. Por el contrario. Existen varias razones para no utilizar las frecuencias de muestreo más altas. Por ejemplo.58 MB.x y 2.200 muestras por segundo). como el sonido del cristal de una copa de vino o el del arqueo de un violín. en una realización práctica el ancho de banda está cerca de los 20 kHz. A una frecuencia de muestreo de 6.050. El problema se encuentra en que el filtro de entrada. Por ejemplo.536 pasos (gama de 90 dB) -. la especificación MPC de Nivel 2 obliga a que las muestras sean de 16 bits. sin embargo. Las tarjetas de sonido de 16 bits de Sound Blaster ofrecen la posibilidad de elegir entre un tamaño de muestra de audio digital de 8 bits (1 byte) o de 16 bits (2 bytes). en el máximo de frecuencia de muestreo. Los oídos humanos.100 Hz (en realidad en estéreo es de 88. las frecuencias de muestreo altas necesitan gran capacidad de almacenamiento. Ambas tarjetas. que se suma a la envolvente de los circuitos digitales.100 muestras por segundo. Mientras que un muestreo a una frecuencia de 44. es posible repetir con exactitud una forma de onda si la frecuencia de muestreo es como mínimo el doble de la frecuencia de la componente de mayor frecuencia. frecuencias de onda del orden de 22. Compromisos en el muestreo: Basándonos en la literatura existente.000 Hz. no es un dispositivo perfecto. que escasamente coincide con el ancho de banda del oído humano. Esto hasta cierto punto es debido a que la frecuencia de muestreo es demasiado baja para reconstruir con precisión las componentes de mayor frecuencia de onda. Estas restricciones se discuten en detalle para cada programa de utilidad. Pag. Si se graba en estéreo. Este valor es el utilizado hoy en los reproductores de audio CD. La Sound Blaster y la Sound Blaster Pro manejan muestras de 8 bits. las muestras de 8 bits limitan el gama dinámica a 256 pasos (gama de 50 dB). EI único problema que aparece -. que posee componentes con una frecuencia más alta.000 Hz (6. Debido a que el filtro de entrada tiene su propia envolvente. un minuto de grabación rellenará un disco de 360K. aumenta la calidad. La Sound Blaster 16 puede grabar en estéreo. La Sound Blaster 16.1 kHz con muestras de 16 bits (2 bytes). La Sound Blaster 16 maneja muestras de 16 bits (2 bytes).muestra.asumiendo que se dispone de una Sound Blaster 16 capaz de afrontar esto -.1 kHz puede grabar.05 kHz.050 Hz antes de ocupar completamente la memoria. ¡consumirá cerca de 10MB de memoria en sólo un minuto! La limitación será aún mayor si se graba en memoria y no en disco. tomando muestras simultáneamente en los canales izquierdo y derecho a 44.000 muestras por segundo) una voz masculina típica. conjunto de circuitos utilizados para bloquear el ruido de alta frecuencia que se infiltra en la grabación. Las tarjetas Sound Blaster Pro y la Sound Blaster 16 son capaces también de trabajar en estéreo con una velocidad máxima de reproducción de 22. perciben el sonido de 8 bits en un tono apagado o desafinado si se compara con el sonido de audio digital de 16 bits.000 Hz proporciona una grabación de la voz femenina de mayor calidad. no puede bloquear todas la frecuencias que están por encima de una determinada y. toman muestras de sonido de 8 bits (1 byte). de modo que la frecuencia de muestreo de 44. que están acostumbrados a detectar sonidos con variaciones de varios órdenes de magnitud en la fuerza. Los archivos de audio digital pueden grabarse seleccionando la frecuencia de muestreo. La restricción principal es que no puede utilizarse una frecuencia de muestreo demasiado elevada si se piensa empaquetar (comprimir) los archivos. una muestra de 16 bits tiene un gama dinámica de 65. Si se dispone de un sistema con 16 MB de memoria RAM es posible almacenar cerca de dos minutos de audio digital en la memoria RAM del sistema antes de que la computadora lance al usuario un mensaje de salida para comer. Cada muestra de 8 bits (Sound Blaster y Sound Blaster Pro) consume 1 byte de memoria o de espacio en el disco. Mientras que la especificación MPC (Multimedia PC) de Nivel 1 requiere muestras de 8 bits. Frecuencia de muestra: La frecuencia de muestra (también denominada frecuencia de muestreo) debe ser lo suficientemente alta para que los sonidos de alta frecuencia. en teoría. pero son aún más sensibles a la fuerza del sonido. puedan recogerse con precisión. En primer lugar. con un canal izquierdo y otro derecho que producen una frecuencia de muestreo combinada de 88. La Sound Blaster 16 constituye el sueño hecho realidad de un distribuidor de unidades de disco. Una frecuencia de muestreo de 8. cuando se utiliza VEDIT2 (el grabador y editor de sonido para DOS de la Sound Blaster Pro) en un PC con 640K.1 kHz.es el costo en espacio en el disco. El hardware de las tarjetas Sound Blaster 1. El oído humano percibe todo un mundo de diferencias entre estos dos tamaños de muestra. una velocidad de 6. Tamaño de muestra: El tamaño de muestra es la otra componente de mayor influencia en la fidelidad del audio digital. el ancho de banda efectivo de las tarjetas de sonido queda ligeramente por debajo del máximo teórico.una mejora sustancial. El resto no tiene otra elección más que la de enviar los datos directamente . sólo pueden grabarse 6 segundos de estéreo a 22. emitiendo voz y música con una fidelidad equivalente a los reproductores CD actuales. pueden pasar todas las frecuencias que están por debajo de ella. la Sound Blaster y la Sound Blaster Pro. se podría asumir que todo lo que hay que hacer para obtener buen sonido es grabar a la velocidad límite de 44.1 kHz de la Sound Blaster de la Sound Blaster Pro es más que suficiente. Según el teorema de Nyquist.200 muestras por segundo.0 impone restricciones adicionales en la frecuencia de muestreo. Los oídos son más sensibles a la detección de diferencias en el tono que en la intensidad. De hecho. El tamaño de muestra controla el gama dinámica que puede grabarse. siendo este último el número de bytes utilizados para almacenar cada muestra.

utilizado para sintetizar música en FM. después de haber realizado la grabación con el programa Voice Edit del DOS de la Sound Blaster (VEDIT2) que viene con la Sound Blaster Pro. la reproducción iterativa de un bloque o de un grupo de bloques. Por ejemplo. Commodore Amiga también utiliza este tipo de formato. de manera que son buenos candidatos para utilizar muestras de 8 bits y una frecuencia de muestreo baja. Aunque lo deseado para una buena reproducción musical es disponer de muestras de 16 bits. no existe ningún problema en la grabación de audio digital a 44. también hay que considerar el ancho de banda de todo el sistema. o técnicas matemáticas. se debe intentar grabar el sonido con muestras de 8 bits. El ancho de banda de un teléfono es de sólo 3 kHz. en la mayoría de los casos. de modo que es posible que no se ahorre demasiado si se utilizan programas de utilidad de compresión como PKZIP o una utilidad de duplicación de disco. texto y muestras de sonido. es posible lograrla. utilizar muestras de 8 bits para obtener efectos de sonido y de voz. que contiene los parámetros para programar con los sonidos instrumentales deseados el sintetizador FM de la tarjeta de sonido. ruidosos. pero teniendo en cuenta la relación de 10 MB por minuto es posible que el disco se ocupe antes de que se haya preparado un sandwich. La compresión se lleva a cabo para ahorrar espacio de disco. de modo que es necesario tener un mínimo conocimiento sobre el formato que utiliza cada uno antes de pagar una factura telefónica enorme a CompuServe o comprar una pila de discos que contengan programas inútiles. Cada programa software sólo puede leer un número pequeño de formatos de archivos. almacena los parámetros para crear sonidos instrumentales. La lista se ha ordenado por el nombre del formato de archivo (la extensión usada aparece entre paréntesis) e incluye una breve descripción sobre la utilización de cada formato de archivo. que se ejecuta bajo Windows de Microsoft y que ahora se incluye en todas las tarjetas de sonido de Creative Labs. la grabación será acertada si la frecuencia de muestreo es de 6 kHz o mayor. Cuando se elige la frecuencia de muestreo. Creative Soundo'LE. 2-11 al disco. Un método seguro para ahorrar espacio en el disco es el de grabar sonido en mono en lugar de en estéreo. que se añade al Formato de Archivo MIDI Estándar. dando lugar a diferentes formatos de archivos de sonido. mientras que en estéreo se toman dos muestras. La corriente más actual en audio digital aconseja seguir las directrices dadas a continuación con el fin de conservar el espacio de almacenamiento: • Grabar en mono en vez de en estéreo. Las aplicaciones de sonido en los IBM PC normalmente no hacen uso de este formato de archivo. a partir de muestras de 8 bits para efectos especiales y para la voz. • Siempre que sea posible. Cada bloque de información contiene datos del mísmo tipo. Admite varias frecuencias de muestreo y tamaños de muestra de hasta 32 bits por muestra. no hay posibilidad de elegir. El término bloque se utiliza a veces para describir la arquitectura interna de un formato de archivo. Los archivos de audio necesitan utilidades de compresión que contengan algoritmos en software. incluso en la Sound Blaster 16. Una característica interesante de este formato de archivo es que admite lazos. a diferentes formas de almacenar el sonido en disco y a diferentes extensiones de archivos para distinguir entre los formatos. Este formato de archivo procede de Electronic Arts. Sólo si el software entiende el formato del sonido es posible realizar un trabajo aceptable de compresión sin pérdida de excesiva fidelidad. Si se graba del micrófono. En el caso de la voz. es decir. Compresión de audio digital Los archivos de sonido tienen ciertas particularidades por lo que respecta a la compresión de los mismos. Con la llegada de Windows de Microsoft el sonido de computadora en el PC se ha ampliado con formatos de archivo adicionales. puede comprimir opcionalmente mientras graba si la tarjeta sobre la que se está ejecutando es una Sound Blaster 16.1 kHz si el micrófono utilizado funciona a 12 kHz y la fuente de sonido es una voz masculina grave que no supera los 7 kHz. Las técnicas de compresión utilizadas por Soundo'LE y VEDIT2 se describen en el Apéndice A. Apple Macintosh y el IBM PC original.Pag. ya que la entrada a éste es mono. Formatos de archivos de sonido El sonido de la computadora compatible IBM PC ha surgido desde muchos frentes. Los efectos especiales son. Por ejemplo. FORMATO DE ARCHIVO DE INTERCAMBIO DE AUDIO (IFF): Apple Macintosh utiliza el Formato de Archivo de Intercambio de Audio (IFF) para almacenar muestras de sonido audio digitalizado. En mono se toma una muestra en cada instante de tiempo. Lo aconsejable es usar la frecuencia de muestreo más baja posible. como puede ser audio digital de 16 bits o audio digital de 8 bits o música MIDI. Las plataformas caracterizadas por una marca de sonido y archivos de sonido exclusivos incluyen el Commodore Amiga. se habrá conseguido ahorrar un 50 por 100 del espacio de almacenamiento. • Utilizar la menor frecuencia de muestreo. Los formatos de archivo de mayor uso en computadoras personales se describen en la siguiente lista. Las notas musicales se almacenan en un bloque musical. sin embargo. al igual que el bloque instrumental del archivo CMF. De acuerdo con el teorema de Nyquist. El archivo CMF se ha diseñado para trabajar con el chip estándar industrial Yamaha. Pueden almacenarse juntos hasta 128 parámetros de voces ins trumentales en el archivo de banco . una por el canal derecho y otra por el canal izquierdo. Un formato de archivo relacionado es el Formato Instrumental de la Sound Blaster de Creative Labs. Un bloque es una subdivisión de un archivo análogo a un bloque en una ciudad. FORMATO MUSICAL CREATIVE (CMF): El Formato Musical Creative (CMF) es uno de los dos formatos de archivo promovidos por Creative Labs para almacenar música. que. que hace años intentó desarrollar formatos de archivo industriales estándar para gráficos. supongamos que planeamos grabar una conversación telefónica. Un archivo CMF incluye un bloque instrumental. si suena bien. que entiendan el "aspecto" del sonido.

una lenta vibración en amplitud. el lenguaje universal del mundo musical MIDI.AU de Sun pueden leerse y transformarse en cualquier otro tipo de archivo gracias a un grupo de editores de audio digital. Las muestras de audio digital del archivo Voice pueden grabarse con una amplia gama de frecuencias de muestreo. L.10 del formato de archivo). que protege fielmente una composición como una partitura multitraza. y para emplear en aplicaciones Macintosh. También se puede repetir un sonido instrumental indefinidamente con el fin de obtener un efecto de eco o reverberación. los archivos ROL pueden tocarse. MIDI (MID O MFF): Si necesita compartir un archivo MIDI con un amigo. AUDIO (AU): Las estaciones de trabajo de Sun Microsystems utilizan archivos de audio comprimido de 16 bits A-law y µlaw. Aunque esto pueda parecer una desventaja. 2. Véase la descripción de los archivos Wave (WAV) (un tipo de archivo que también puede ser un bloque RIFF). Todas estas características se combinan para producir música que suena muy bien. el archivo ROL contiene una lista de notas. Lo original de RIFF es que puede albergar bloques que aún no se han inventado. VOICE (VOC): Creative Labs popularizó el formato de archivo Voice (VOC) para audio digital. La característica más significativa de los archivos MOD es la de contener muestras de audio digitalizadas de instrumentos musicales actuales. Los datos pueden almacenarse como muestras sin comprimir o en una forma comprimida. proporcionan la calidad y la flexibilidad del audio digital sin el consumo asociado a una grabación digital completa. Pueden contener hasta 31 voces instrumentales (sólo 4 u 8 se tocan a la vez). ScreamTracker NST (cuatro canales). Por ello RIFF ha Ilegado a ser muy popular.. Los archivos MOD tienen varias ventajas e inconvenientes. Las muestras de 8 bits pueden comprimirse en uno de estos tres formatos: 2-. si se dispone un programa de utilidad musical. Este tipo de archivos de sonido es común en Internet. El estándar MIDI Tipo 1 es la variante más moderna de MIDI. Los archivos . gráficos y vídeo. 2-12 instrumental de una Sound Blaster (IBK). ScreamTracker S3M (hasta 10 canales) y 669 (ocho canales). 3:1 y 2:1. tiempos y cambios intrumentales. para el que es el formato de archivo musical probablemente más popular. CMF y ROL. aunque la eficiencia en la organización es menor que la de los archivos CMF. Son más grandes que los archivos MIDI. Hasta hace poco los archivos VOC tenían sólo 8 bits (versión 1. está preparada para ser compatible con secuenciadores previos. tanto para un aficionado como para un profesional. y marcadores de silencio que reemplazan zonas de silencio con un pequeño marcador. disponible en Internet. y una curva de tono. como el sonido de alarma del altavoz incorporado en el Macintosh.es que los archivos MOD pueden presentarse de muchas maneras. en la tarjeta de sonido Sound Blaster. El Tipo 0 no está recomendado porque admite solamente una traza. capaz de incluir "chunks" (término de Microsoft para designar bloques) con formatos de los datos muy diferentes. En este momento el formato de archivo Wave de Miccosoft es el formato .20 del formato de archivo). Los archivos MOD presentan varias características excelentes. ScreamTracker (cuatro canales). de forma que no todos los archivos MOD sonarán igual en los reproductores MOD. proporcionando una compresión de 4:1. pero hay una tendencia hacia reproductores MOD y música de ocho canales. Se utiliza para expresar sonidos cortos. Con la introducción de la Sound Blaster 16. el formato Tipo 0.os archivos Voice son nuevos para el entorno Windows. ROLL (ROL): Los archivos Roll nacen con Visual Composer. que producen una compresión 4:1 y 8 bits. un programa de software proporcionado por AdLib. La versión anterior. Un inconveniente mayor -.6. unos marcadores de sincronización que los programas de presentación multimedios pueden utilizar para sincronizar la reproducción de archivos VOC con sonido.o 4 bits por muestras de 8 bits. cada una de las cuales puede tener fijado su propio volumen. como HyperCard. Se pueden asignar a cada nota efectos especiales como el vibrato. MOD (MOD): El formato de archivo MOD proviene del Commodore Amiga. como se pone de manifiesto en la aparición de editores de sonido y servicios que permiten este formato. RIFF (RMI): El Formato de Archivo de Intercambio de Recursos de Microsoft (RIFF) se ha diseñado como el último formato de archivo para multimedia Windows. Puesto que todas las tarjetas de sonido Sound Blaster contienen el mismo chip Yamaha. para usar con la tarjeta de sonido de AdLib.MOD y contienen cuatro canales de música. Al igual que el archivo CMF. Estos formatos incluyen audio digital Wave (WAV) y bloques MIDI. Cuando se reproducen los archivos MOD. cuando los requisitos de sonido son sencillos. un deslizamiento ascendente o descendente del tono. como Goldware (un editor de libre circulación) y Sound Forge de Sonic Foundry. Las muestras de 16 bits pueden comprimirse sólo en dos formatos: 4 bits.con el que hay que ser cauteloso -. Otros formatos disponibles son NoiseTracker (cuatro canales). El formato de archivo ROL se diseñó para poder generar música en el chip sintetizador de FM Yamaha de las tarjetas AdLib.Pag. Inc. y puede transformarse mediante programas de utilidad como SOX. Los archivos MOD contienen generalmente cuatro canales de música y cada canal se dedica a un solo sonido instrumental. cada nota se toca tomando la muestra de sonido instrumental para esa nota y tocándola rápida o lentamente para darla el tono musical adecuado.admitido por Apple.sólo 8 bits por muestra -. La mayoría de los archivos tienen la extensión . respectivamente. almacénelo en MIDI Estándar. que da lugar. a una compresión 2:1. Estos archivos VOC de 16 bits pueden crearse y reproducirse con programas de utilidad de voz incluidos en la Sound Blaster 16. el formato de archivo Voice se amplió para permitir muestras de 16 bits (versión 1. pero comenzando a ser considerados. como unos marcadores especiales que repiten un bloque. Existen dos variaciones del MIDI "estándar" en el software MIDI. El formato de archivo Voice incluye características especiales. SOUND (SND): El Formato de Archivo de Recursos de Sonido (SND) de archivo de audio digital compacto -.

un micrófono barato puede distorsionar excesivamente la señal a 10 kHz. cada onda compleja periódica es una serie (familia) de ondas sinusoidales simples e incluye muchos armónicos. así que. gestiona datos en mono o en estéreo y admite tres frecuencias de muestreo: 11. Hay efectos especiales que sólo se consiguen manipulando el sonido que cae dentro de una estrecha gama de frecuencias. Voz Se ha dicho que de todos los instrumentos musicales la voz humana es la más versátil y expresiva y la que tiene el timbre más rico. Mediante la técnica denominada ecualización. así como efectos especiales tales como cambiar la velocidad de reproducción una voz sin cambiar el tono de la persona.dominante en entornos Windows para audio digital. probablemente. Fast Fourier Transform). es decir. Son pocos los productos comerciales que incorporan archivos de sonido VOC comprimidos porque el esquema de compresión no es compatible con tarjetas de sonido que no sean Sound Blaster. El teorema de Fourier predice que una onda compleja puede reducirse a una serie de ondas simples. es posible reducir la intensidad de las frecuencias en torno a 10 kHz para crear una señal que suena como si se hubiera grabado con un micrófono mucho mejor y con un ancho de banda más bajo. Estos bloques de construcción son relativamente un pequeño conjunto de los muchos posibles sonidos que Ios humanos somos capaces de pronunciar. la melodía. mediante un algoritmo (un conjunto sencillo de instrucciones) conocido como la transformada rápida de Fourier (FFT. ecualizaciones más cnplejas. del tipo de un PC. pero en cambio funcionar razonablemente bien con un ancho de banda más bajo. donde la onda tiene frecuencias que son múltiplos de las llamadas frecuencias fundamentales. Pag. En el canturreo de una partitura musical. Usted atestigua esto cada vez que reconoce la risa de un amigo en el teléfono o la voz de su cantante favorito en la radio. son idénticas al audio digital encontrado en los discos CD-ROM. Las ristras de datos de sonido eliminadas de las cabeceras y otra información descriptiva. .025 kHz. no son fáciles de Ilevar a cabo con circuitos analógicos. 2-13 La música que se describe como rica en textura o timbre tiene una onda compleja asociada. los fenómenos de muestreo y aliasing del sonido digital y la técnica de compresión de sonido que emplea la modulación adaptativa diferencial código-pulso. Este apéndice le conducirá a través de algunos de los aspectos más esotéricos y técnicos del sonido. Formas de onda complejas Esta sección tiene la misión de describir las formas de onda complejas que son el fundamento de la música y la voz. La técnica FFT también es la base de la mayoría de los programas de reconocimiento de la voz y un lugar común en las aplicaciones tanto comerciales como militares. le fascinará una vez que haya aprendido los principios básicos. Entre ellas se cuenta el chip DSP EMU8000. 22. las frases y la reinterpretación de fragmentos previos. Se pueden ver más detalles acerca de estos bloques fundamentales de construcción y de las características de la voz en el Apartado "Tecnología de voz de DECtalk" que se encuentra más adelante. es el hecho de que se componen de ondas simples. Este ejemplo específico de ecualización también se puede realizar mediante un sistema analógico de circuitería de audio con un costo de tan sólo unos pocos dólares. Para un físico o ingeniero que observa las ondas de sonido cruzando la pantalla del osciloscopio. son múltiplos de la onda dominante (la amplitud más fuerte). que manipula la forma de la respuesta en frecuencia de una señal. la repetición se traduce en que la misma forma de onda aparece cientos o miles de veces. Aprenderá lo que es una forma de onda compleja y verá cómo reducir sonidos maravillosos a los componentes simples que la computadora puede manejar fácilmente. los mecanismos de la síntesis FM. El apéndice concluye con un estudio en profundidad del sistema de voz DECtaIk. Sin embargo. que ituye el alma de la familia de los productos de síntesis (síntesis de voz a partir de texto) TextAssist. que está llamado a ser se de la próxima generación de tarjetas de sonido de gama alta de Creative Labs. La ulterior discusión sobre el procesamiento de señales digitales le introducirá en el conocimiento de las últimas tecnologías sobre el sonido que Creative Labs está planeando al mercado. ya sea su fuente un instrumento musical. Describe las forma de onda complejas. El término armónico describe las relaciones entre las ondas.05 kHz y 44. la repetición se produce en el ritmo. Por ejemplo. Almacena muestras de audio digital de 8 o de 16 bits. La otra característica esencial del sonido es su complejidad. Instrumentos musicales Tanto la repetición como la complejidad son elementos esenciales de la música. La cualidad de la repetición de la voz se hace presente en los bloques fonéticos con los que se construye el discurso. Lo contrario también es cierto: una serie de ondas simples puede combinarse para dar una onda compleja.1 kHz. Cómo se reducen las formas de onda complejas a sus componentes simples: El análisis de Fourier Un factor intrigante de las formas de onda complejas. APENDICE A: CUESTIONES AVANZADAS SOBRE EL SONIDO El propósito de este apéndice es reforzar y ampliar las nociones que se presentaron anteriormente. una voz humana o la vibración de una máquina. Este formato de archivo es admitido por casi todas las aplicaciones multimedios basadas en Windows y por todas las tarjetas de sonido. Esta manipulación se puede llevar a cabo en una computadora digital. E1 segundo armónico tiene dos veces la frecuencia de la onda fundamental y el tercer armónico tiene tres veces la frecuencia de la fundamental. Un inconveniente de Wave es que no permite los lazos de bloques de sonido. De acuerdo con el teorema de Fourier. con lo que se prolonga lo bastante como para dar a nuestros oídos la sensación de un tono. Es difícil encontrar archivos VOC comprimidos a menos que los cree uno mismo. Esta es la utilidad práctica del teorema de Fourier. WAVE (WAV): Microsoft adoptó el Formato de Archivo Wave (WAV) para emplearlo con las extensiones multimedios de Windows.

Chowning descubrió que podía crearse una gran variedad de sonidos usicales mediante la modulación de la frecuencia de una onda sinusoidal con una segunda onda sinusoidal (simple) con el fin de crear una tercera onda de frecuencia odulada (FM) (compleja). Si la radio está bien sintonizada. casi compatible quiere decir que nunca es lo bastante compatible. selección de la forma de onda (sinusoidal o no sinusoidal). Antes del descubrimiento de la síntesis de sonido FM. Sonido estéreo La tarjeta Sound Blaster Pro (anterior a la Pro 2) tiene dos chips 3812. "teorema de Fourier" y "algoritmo". uno de los resultados es una onda que es exactamente la diferencia entre ambas señales. La Sound Blaster Pro 2 tiene integrado el último chip de Yamaha.0 y Sound Blaster Pro. usted oirá la voz y la música que se enviaron mezcladas con la onda de radio de muy alta frecuencia. relájese y trate de imaginar un arco iris. una onda electromagnética FM modulada. tiempos de subida/bajada/estabilización/relajación (ADSR. que produce sonido sintetizado FM mediante la síntesis de dos operadores. La Sound Blaster 16 también contiene este chip OPL3. la señal de radio recibida se combina con otra que se produce directamente en su aparato y que tiene la misma alta frecuencia que la usada por la estación de radio -. E1 chip 3812 tiene 12 celdillas operadoras que se pueden combinar para dar lugar a seis pares que crean seis sonidos distintos FM sintetizados. la componente audible de la señal de radio. Como resultado le ello puede producir hasta ll voces estéreo o 22 voces monoaurales. que es la que se propaga a través del aire. la música electrónica sólo se podía crear mediante la utilización de equipos muy complejos y caros. En total. con el fin de crear una señal más compleja. en 1971. puede realizar la síntesis FM de dos o de cuatro operadores. y que también produce numerosos armónicos. ya que es de muy alta frecuencia. frente a la de cuatro operadores. El sintetizador FM puede producir una amplia gama de sonidos. Después de que su radio FM selecciona y amplifica esta señal. tantán. Attack/Decay/Sustain/Release). Y con la ayuda de las minúsculas gotas de lluvia se ha producido la descomposición de la luz blanca en sus componentes simples: los colores puros que a simple vista todos abarcamos a observar en el arco iris. amplitud de la envoltura. El chip YMF262 que se usa en la tarjeta Pro 2 es casi compatible con el más antiguo 3812. La ventaja de la síntesis de dos operadores es que asegura la . El papel de su radio FM es capturar esta señal y extraer las componentes de baja frecuencia -. de la Universidad de Stanford. Sintesis FM de dos operadores Las tarjetas Sound Blaster l. címbalo superior y címbalo de copa. se usan cuatro operadores para la síntesis de un único instrumento. La limitación a 20 voces no tiene importancia práctica. la nueva Sound Blaster Pro 2 con el chip YMF262 tiene sólo 20 voces. Esta sección es una introducción a la teoría de la síntesis FM.audibles a los humanos. Dado que la síntesis FM de sonido proporciona una técnica para la modulación de sonido de forma controlada. es decir. el chip ha sido programado para la simulación de 5 instrumentos de percusión: tambor con tirantes de cuerda. Aunque el 3812 tiene 11 voces. Cada uno de los siguientes parámetros de las celdillas operadoras puede ser controlado desde el chip Yamaha para crear un inico sonido: Frecuencia. En la síntesis con cuatro operadores. Cuando se han combinado la señal difundida y la señal local. e información sobre el sintetizador FM de la tarjeta de sonido. El timbre del sonido es sólo en parte función de la frecuencia de las celdillas operadoras. ya que 20 sonidos monoaurales o 10 estéreos son suficientes normalmente -. 99.Si se siente aturdido al leer términos como "teoría de as ondas". que es capaz de realizar la síntesis de dos y cuatro operadores. Esta señal se llama señal de radio. que en los últimos años se ha reducido a un circuito integrado más pequeño que uña de un dedo.7 MHz. el 3812 es capaz de crear 11 voces (sonidos de instrumentos) simultáneamente. Hay una amplia gama de parámetros de estos operadores que puede controlarse. Síntesis FM de cuatro operadores La Sound Blaster Pro 2. Como sabe todo el que haya trabajado con computadoras. La síntesis FM de sonido se consigue mediante la Pag. Además. seis son instrumentos y cinco son percusión. Técnicas de síntesis FM Todas las tarjetas de sonido de Creative Labs producen música gracias al sintetizador FM que está integrado en ellas. Teoría de la síntesis FM Los términos FM y AM son familiares a cualquiera que escuche la radio. utilizan el circuito integrado (chip) Yamaha 3812 OPL2. bombo. de muy alta frecuencia. 2-14 modulación de dos ondas simples de baja frecuencia. utilizando un mecanismo inventado por John Chowning. tipo de envoltura (percusiva o no percusiva).x/2. con lo que se consigue crear otras ondas. profundidad del trémolo. Este proceso puede Ilevarse a cabo con un equipo muy barato. De las 11 voces estéreo. y las primeras Sound Blaster Pro tienen dos chips 3812 con lo que consiguen 22 voces. con lo que se crea un sonido de textura muy rica. valor de la clave de la escala. de las cuales 15 son instrumentos melódicos y cinco son de percusión.por ejemplo. el YMF262 OPL3. tanto música como efectos especiales. La técnica que subyace bajo la síntesis FM de música es exactamente la misma que se emplea para producir señales de radio FM: se usan voces y música de bajas frecuencias (audibles por el oído humano) para variar la frecuencia de una onda electromagnética.poca gente necesita componer música para más de 20 instrumentos a la vez. con una explicación específica de la síntesis de sonido con dos operadores. que usa el último chip de Yamaha. En las secciones anteriores se dió una breve introducción a los sintetidores FM y a los chips que se emplean para implementarlos en las tarjetas de sonido. anteriores a la Pro 2. El sonido resultante es muy complejo y contiene componentes con las dos frecuencias originales y muchos de sus armónicos. olvídese por un momento de lo que ha leído. Aquí tenemos un ejemplo de onda compleja que nos proporciona la naturaleza. es capaz de crear una amplia gama de sonidos. Esta sección proporciona más detalles sobre los orígenes y las técnicas que emplean los sintetizadores FM de las tarjetas de sonido. profundidad del vibrato.

uno que esté diseñado para que aproveche las características del sonido. los procesadores de textos y el resto de los archivos que consten únicamente de texto y números. pero la mayoría de los formatos de archivo de sonido no lo admiten. tras la descompresión. A menos que se haya seleccionado un método de compresión.025 kHz.5MB por minuto. Dado que es imposible crear el filtro perfecto. contienen muchos caracteres repetidos. se observa una pérdida de la fidelidad. y se consigue reducirlos hasta la quinta parte de su tamaño original. es necesario un método de compresión más sofisticado. esta frecuencia es adecuada para grabar sonidos cuya frecuencia más alta sea como iucho de 5. Modulación adaptable y diferencial código-pulso Existe una variación muy sofisticada del sistema PCM. el circuito PCM que realiza el muestreo creará un sonido falso con una frecuencia que es la diferencia entre las dos anteriores. las hojas de cálculo. De acuerdo con el teorema de Nyquist. Este esquema trabaja relativamente bien. Cómo se llega a dominar el muestreo de sonido digital Los últimos programas de Creative Labs para la grabación de sonido digital le separan del filtro de la tarjeta de sonido. EI inconveniente es que la Pro 2 está limitada a seis voces sintetizadas. El formato de archivo VOC usa el concepto de bloques de silencio. con lo que se evita que usted cometa algún error. El truco en el que se basa el método ADPCM es captar la diferencia entre una muestra y la siguiente.1 kHz ocupa el mismo espacio que un archivo mono de 22. así que se emplea frecuentemente para la audiocompresión.a su intensidad.05 kHz. En particular. si la frecuencia de grabación es de 44. en la frecuencia de corte (roll-off) correcta. porque se usan dos pares de operadores para cada voz. es decir. Incluso los períodos de "silencio" raramente están exentos de sonido. Por ejemplo. pero que eliminase las superiores.compatibilidad con los controladores existentes y soporta hasta 12 voces sintetizadas. Puede que observe esto cuando utilice juegos que incluyan sonido digital. un tipo de distorsión de la señal que provoca que aparezcan en la grabación sonidos falsos. hasta alcanzar incluso la cuarta parte del tamaño oriinal. el límite de Nyquist es 22.05 kHz que no esté comprimido. pero que bloquea las señales por encima de dicha frecuencia. gracias a los circuitos de modulación código-pulso. en lugar de un par. pero no para rabar la voz chillona de un niño). Esta técnica recuerda a la grabación de una partida de ajedrez. Por ejemplo. se guarda con el formato LPCM. Estos programas seleccionan automáticamente los filtros de entrada y de salida adecuados para la frecuencia de muestreo que se ha elegido. con lo que. el formato Microsoft Wave no admite bloques de silencio. Por ejemplo. Afortuadamente existen sistemas de compresión bastante sofisticados que reducen los archivos de audio a tamaños más manejables. Los fallos en el funcionamiento del filtro provocan un tipo de distorsión denominado aliasing. en la que sólo se anotan los cambios .5 kHz (suficiente para grabar la voz profunda de un adulto. Se puede reconstruir la forma de la onda comenzando en un punto inicial y dibujando cada cambio. mediante la circuitería de la tarjeta de sonido. Consecuentemente. EI teorema de Nyquist establece que la máxima frecuencia que puede ser muestreada con seguridad es la mitad de la frecuencia de muestreo que se usa al grabar. Si hay una componente en frecuencia que exceda el límite de Nyquist -. Los requisitos de la compresión de audio Los archivos de sonido son fundamentalmente diferentes del resto de los archivos de datos con los que usted pueda trabajar. cuando se usa una tarjeta de sonido de Creative Labs y se graba en disco sonido digital. La Sound Blaster contiene un filtro de entrada y otro de salida. en consecuencia requieren un método de compresión distinto. conocida como modulación adaptable y diferencial códigopulso (ADPCM. Estos archivos se pueden comprimir sin más que usar un compresor de propósito general. para poder asegurar que se muestrean las componentes de alta frecuencia del sonido que se está grabando. sonidos que nunca existieron. Modulación lineal El sonido se transforma. los ingenieros se han visto forzados a seleccionar una frecuencia de corte por debajo del límite de Nyquist. La compresión de audio Se ha mencionado varias veces el hecho de que los archivos digitales de sonido ocupan mucho espacio en el disco duro -- Pag. Puede producirse este fenómeno si la frecuencia de muestreo es demasiado baja. y la frecuencia de corte debería estar por debajo de ese valor. de analógico en digital y otra vez en analógico. El correcto funcionamiento del filtro de entrada previene el fenómeno del aliasing. La ventaja de la síntesis FM de cuatro operadores es que el sintetizador FM puede crear sonidos más ricos mediante el uso de dos veces el número de operadores del caso anterior. del tipo PKZIP. suponga que usted selecciona para grabar voz una frecuencia de 11. tales como los espacios y los finales de línea. E1 sonido digital almacenado en un CD de audio es sonido digital de 16 bits LPCM. es importante que comprenda el propósito de dichos filtros para que su conocimiento sobre el sonido digital sea completo. Aunque no pueda configurar el filtro durante la grabación. Esto implica que un archivo estéreo comprimido de 44. en tomo a los 20 kHz. 2-15 hasta 10. este proceso se denomina PCM lineal (LPCM). que es la frecuencia por encima de la cual se reduce la intensidad de la señal. Adaptative Differential Pulse-Code Modulation) y que almacena el sonido usando menos bits por cada muestra que el LPCM. El filtro de entrada (llamado a veces filtro de grabación) es esencial para el correcto funcionamiento de los circuitos PCM que graban sonido digital. Este tipo de programas compresores no realiza un buen trabajo con los archivos de audio. un período extenso de silencio se reemplaza en el archivo audio con una marca y un valor de la duración temporal.como por ejemplo un chillido --. El método ADPCM comprime estrechamente el sonido digital. uno que dejase pasar todas las frecuencias por debajo de la de corte.1 kHz. A cada muestra se le asigna un valor de 8 o 16 bits que es proporcional -. ya que lo natural es ve el sonido (al igual que el vídeo) cambie continuamente. y expresarla como una fracción del valor actual de cada muestra. Este filtro es un filtro digital pasa-bajos que permite el paso libre de las señales por debajo de una cierta frecuencia.linealmente -. E1 filtro se configura internamente.

sobre Microsoft Windows y DOS) que vienen con la Sound Blaster 16 ofrecen la posibilidad de elegir entre tres técnicas distintas para comprimir muestras de 16 bits: ADPCM. A-law y µ-law. dado que la grabación de los movimientos permite reconstruir la partida paso a paso sin más que consultar la lista de los movimientos que se han hecho con cada pieza. mientras que µ-law se emplea más en Estados Unidos y Japón. Mientras que el ADPCM de Creative Labs puede comprimir muestras audio de 8 y de 16 bits.de 16 a 8 bits -. en teoría.x. Estos dos últimos son algoritmos estándar CCITT (ahora UIT-T) para la compresión de voz. no pueden revisar archivos comprimidos. esto es. los ingenieros de Creative Labs pusieron un empeño considerable en desarrollar el archivo de voz de sonido digital (VOC). El valor no es la amplitud de la onda en ese punto del tiempo. empaquételo y luego escuche los resultados. Un archivo VOC consta de una cabecera que identifica el archivo como de este tipo. Este algoritmo ofrece la posibilidad de configurar la compresión como 4:1. Creative Labs emplea dos variedades distintas de ADPCM. Técnicas de compresión para archivos VOC Cuando Creative Labs lanzó su primera tarjeta Sound Blaster 1. Alaw se usa sobre todo en Europa. es una elección mejor que la regla lineal en lo que se refiere a la grabación del gama dinámica del sonido.0 y Sound Blaster Pro de 8 bits. Con los archivos de voz se pueden emplear dos técnicas diferentes para el empaquetamiento (que es la compresión específica para los archivos de sonido digital VOC de los Creative Labs): reemplazamiento de los períodos de silencio con bloques de silencio y compresión de los datos almacenados en bloques de datos. se puede comprobar que este tipo de medida no es demasiado adecuado para la voz y el sonido. el Creative WaveStudio o el programa Sound Blaster VOXKIT. Para comprobarlo puede usar un editor de sonido digital del tipo de la Sound Blaster Deluxe. y si se emplearan 8 bits se tendrían hasta 256 factores de escala. Con LPCM se graba la amplitud de la onda.0 y la Sound Blaster Pro). respectivamente. los archivos pueden reducirse a sólo una cuarta parte del tamaño original. Si se observan las ondas de sonido en la pantalla de un osciloscopio. Por esta razón se toma como base para los algoritmos A-law y µ-law. No es necesario almacenar el estado del tablero antes de cada movimiento. es decir con 16 valores distintos. que es el factor de escala de una muestra. Una regla logarítmica.pero lo hace conservando una fidelidad relativamente buena. sino que es el factor de escala. La tarjeta Sound Blaster 16 usa estos dos métodos de modo diferente. con lo cual hay un control más preciso sobre la forma de la onda. No puede hacerse el empaquetamiento si los archivos VOC han sido grabados con una frecuencia de muestreo alta (esto sólo es válido para la Sound Blaster 1. Cada bloque contiene un tipo específico de información o un marcador. el costo por byte del espacio del disco duro era considerablemente mayor al de hoy en día. La tarjeta Sound Blaster 16 de 16 bits usa una variante distinta de ADPCM que permite sólo la compresión 4:1 y 2:1. ciertamente mejor que la que proporciona la compresión equivalente 2:1 hecha con ADPCM. Antes de empaquetar se debe usar un programa del tipo de VEDIT2 para reducir la frecuencia de muestreo. La técnica ADPCM consigue esto mediante la asignación de un valor de 4 bits. los circuitos de sonido digital de 8 bits que utilizan uno de estos algoritmos pueden archivar una señal proporcional al ruido y un gama dinámica equivalente al del circuito LPCM de 12 bits. Las tarjetas Sound Blaster 1. Este tipo de música se toca a un volumen relativamente bajo.(próximo movimiento) y no el estado total del tablero. Algo así como que si una cosa es dos veces más larga que otra. se le asigna un número doble del anterior. Debido a esto. Ambos difieren sólo en algunos detalles de su implementación. seguido de un tren de bloques de datos. Con miras a garantizar la fidelidad del sonido. los otros dos algoritmos sólo pueden actuar sobre muestras de 16 bits. ambas conocidas como CT ADPCM (tecnología ADPCM de la compañía Creative Labs). Una regla lineal no hará justicia ni al periodo tranquilo en que se interpreta un solo de flauta ni al súbito estruendo de los címbalos y los tambores. 2-16 música. además de ser una buena aproximación al modo en que el oído responde a la Pag. dado un tamaño fijo de muestreo de 8 o 16 bits. usando para ello las medidas obtenidas con una regla lineal. El efecto neto de estos dos algoritmos es que. Este hecho se hace aún más notorio si nos fijamos en la música orquestal. el VEDIT2 de la Sound Blaster Pro. como Microsoft Wave (WAV). tales como Creative WaveStudio (Windows) o VEDIT2 de la Sound Blaster (DOS). Es fácil apreciar cómo el empaquetamiento de datos degrada la calidad de la grabación. Sin embargo este sistema tiene algunos inconvenientes: • Se producen pérdidas en la calidad del sonido. que se describen en la si guiente sección. pero ocasionalmente está salpicado por chorros de energía.x/2. en las que la distancia viene dada por marcas repartidas uniformemente.x. Esta técnica de empaquetamiento elimina los . • Los editores de sonido digital. A-law y µ-law. se puede realizar un buen trabajo a la hora de replicar una onda compleja. cantidad más que suficiente. Empaquetamiento de bloques de silencio Los bloques de silencio son marcadores que contienen un valor de duración temporal que representa un lapso de silencio o de casi silencio. Con los 4 bits que suele emplear ADPCM se tienen 16 factores de escala. Con estas técnicas de empaquetamiento. Los algoritmos A-law y µ-law son muy parecidos al PCM lineal. usan el algoritmo Creative ADPCM desarrollado originalmente para la Sound Blaster 1. comprime el sonido a un número menor de bits -. Cargue repetidamente un archivo de sonido digital. la cantidad por la que hay que multiplicar a la muestra anterior para obtener la amplitud de la muestra actual. Los poseedores de la tarjeta Sound Blaster 16 deberían intentar grabar música usando las tres técnicas de compresión y escuchar las diferencias entre ellas. Técnicas alternativas para la compresión de 16 bits Los programas Soundo'LE y WREC (que funcionan. Hoy en día.x/2. 3:1 o 2:1. Con sólo 4 bits. • Los archivos empaquetados no pueden convertirse a otro formato. como las de dibujo. La elección de comprimir 3:1 ha desaparecido de la Sound Blaster 16 para dejar paso a dos esquemas distintos de compresión 2:1.

no es un chip de procesamiento de señales digitales. como la Sound Blaster 1. Si la . aunque en este proceso se pierde fidelidad. Primero: se comprime el archivo VOC de sonido digital. E1 programa debe examinar la cabecera para comprobar que es un archivo VOC y ver si ha sido comprimido. Un archivo VOC empaquetado y otro sin empaquetar tienen superficialmente el mismo aspecto: la extensión . Cuando se lanzó la Sound Blaster 16 se la dotó del chip DSP.que probablemente estarán separados por bloques de silencio -.x/2. hay que tener en cuenta varios factores antes de seleccionar la cantidad de la compresión. ya que es difícil preservar una cantidad significativa de información cuando se estrujan 8 bits para que den lugar a 2. suspenderá la salida de sonido digital durante el tiempo indicado por el bloque de silencio. después de que se haya grabado el archivo. Limitaciones a la compresión de archivos de voz Si usted tiene una tarjeta Sound Blaster de 8 bits o una Sound Blaster Pro y quiere almacenar sonido en archivos VOC de 8 bits con datos empaquetados. tanto el editor VEDIT2 como VOXKIT de la Sound Blaster 1. puede realizar la compresión y la descompresión. unidad central de proceso del PC). el formato de a Microsoft WAV no dispone de estos bloques. o 16 bits para que resulten 4. Segundo: se descomprime a medida que se interpreta. 2-17 Para que la compresión sea la mejor posible. Empaquetamiento de bloques de datos Los bloques de datos constituyen la parte principal de los archivos. Hardware de descompresión Las tarjetas de sonido de 8 bits. en consecuencia. causará demasiada distorsión para que resulte práctico emplearla con la música o la voz. Cuando un programa encuentre uno de estos bloques al interpretar un archivo VOC. debería evitar exceder la máxima frecuencia de muestreo permitida (las SB16 de 16 bits soportan hasta 44 kHz sin problemas). y la de la CPU de la computadora y el tiempo de acceso al disco por otro. Creative Iabs se refiere a este chip como el chip de procesamiento de sonido digital. Los bloques de datos -. En ningún caso se recomienda comprimir las grabaciones de música.0 realizan esta compresión. Esta compresión sólo es eficaz para los efectos de sonido. 4:1. procesamiento de sonido Q-sound y cualquier otra tarea que se programe en el chip. La información de la cabecera también indica si es un archivo VOC de 8 o de 16 bits y da las instrucciones necesarias para reproducirlo. descompresión. La compresión se realiza mediante software. La extrema. de parte de la fidelidad del sonido. La descompresión de un archivo coloca una carga adicional sobre el circuito de la tarjeta de sonido.VOC. aun cuando si el disco tiene suficiente espacio se recomienda usar la compresión 2:1. la basada en la velocidad del circuito PCM de la tarjeta por un lado. En esta sección se trata acerca de esta última limitación. Un elemento importante del esquema de empaquetamiento de datos es que la cabecera del archivo no se comprime. La mayor pérdida de fidelidad se produce con la mayor compresión. tales como la pausa entre dos frases o palabras. incluida información del tipo de la frecuencia de muestreo y si es un archivo estéreo o monoaural. La técnica de compresión ADPCM de Creative Labs es simple y rápida -. incluyen un chip de control especial que permite realizar la descompresión ADPCM (la compresión se hace sin necesidad de que haya un chip dedicado a ello -. Aunque se pueden empaquetar los datos incluso con la compresión 4:1. los bytes de sonido son restaurados y pueden reproducirse mediante los circuitos de sonido digital de la tarjeta. Mientras que un chip de proceso de señales digitales puede programarse para diferentes tareas (véase la sección siguiente que trata de la tecnología DSP). Una SBl6 que no tenga el chip DSP para el procesamiento avanzado de señales. A pesar de que la técnica de compresión que se emplea hace que la descompresión sea simple y rápida. de modo que es capaz de realizar la compresión. ya que debe usar el chip UCP para estas tareas.cualidades que se hacen necesarias si la voz o la música se van a comprimir sobre la marcha (a medida que se escucha el sonido). La 3:1 (sólo permitida para muestras de 8 bits) es apropiada para la voz. La cantidad de esta pérdida depende del grado en que se comprima el archivo. incluso en una computadora relativamente lenta. que tenía como CPU un 8088. Actualmente. es decir. Cuando se descomprime un archivo. por parte de la computadora. de la potencia necesaria para realizar la compresión y descompresión lo suficientemente rápida como para que se mantenga el flujo normal de sonido. La ventaja de usar este chip es que la tarjeta Sound Blaster es capaz de reproducir archivos de sonido digital. con lo que el nombre no es una elección demasiado afortunada. no se pueden reproducir archivos empaquetados a la misma velocidad que los que no lo están. y los reemplaza con bloques de silencio. En particular.se realiza por software. se debe hacer el empaquetamiento de los silencios antes que el de los datos (una vez que se hayan empaquetado los datos será demasiado tarde para hacer lo mismo con los silencios). también produce la pérdida de parte de la información y. pero a base de robar vitalidad al PC.0 y la Sound Blaster Pro. ya que el trabajo de descompresión lo realiza la tarjeta de sonido. Como resultado. EI empaquetamiento de datos se realiza mediante la compresión ADPCM que estruja los bloques de datos hasta reducirlos a una cuarta parte del tamaño original. este chip de proceso de sonido digital sólo actúa como un auxiliar de la descompresión y se ocupa de algunas otras tareas menores. la 4:1. Aunque el chip se denomina "DSP". lo que quiere decir que lo hace la CPU. Limitaciones técnicas de la compresión Hay dos factores que acotan el trabajo realizable con archivos comprimidos: la pérdida de fidelidad y la carencia. La frecuencia de muestreo máxima varía de acuerdo con la compresión seleccionada (véase la siguiente tabla). Pag. La descompresión la hace el hardware de la Sound Blaster mediante un circuito dedicado específicamente a ello a medida que reproduce el archivo.se comprimen uno a uno.x/2. del tipo de los PC originales de IBM. El empaquetamiento de datos se realiza en dos pasos.períodos de silencio. son el equivalente a los bytes para el sonido digital actual. y consigue además ahorrar una considerable cantidad de espacio de almacenamiento. Los bloques de silencio son parte del formato de archivo VOC de Creative pero no existen en la mayoría de los demás formatos.

1 kHz (Sound Blaster Pro) 15 kHz (Sound Blaster 2. los efectos especiales de sonido se llevaban a cabo mediante hardware analógico. la Sound Blaster 16 con procesamiento avanzado de señales. es procesamiento de señales digitales. es decir. del sonido en línea o del sonido procedente de la salida del CD-ROM. pero una versión que no es capaz de realizar la compresión. necesita al menos un 386 DX/33 MHz o un 486 SX/25 MHz. Una Sound Blaster 16 sin el DSP tiene que emplear la CPU de la computadora para la compresión. si la frecuencia de muestreo es alta. Procesamiento de señales digitales: Tecnologías de punta Todas las tarjetas de sonido de Creative Labs graban y reproducen sonido digital LPCM (no comprimido). Nota: La mayoría de las computadoras personales que se venden hoy en día tienen un tiempo de acceso al disco rígido por debajo de los 30 milisegundos. números en la computadora. la tarjeta de sonido reproducirá el archivo. Opciones para la compresión de datos de 8 bits Sin comprimir Compresión 2:1 (4 bits) Compresión 3:1 (2.1 kHz (Sound Blaster Pro y Sound Blaster 16) es que la tarjeta de sonido tiene un circuito PCM . muchos PC no tienen la potencia computacional suficiente para hacer la compresión en tiempo real.0 y la Sound Blaster Pro también tienen cargado el Soundo'LE. Este programa puede comprimir y descomprimir. su implementación varía. VEDIT2 de la Sound Blaster Pro y Sound Recorder.5 y MCV) 12 kHz 13 kHz 11 kHz Pag.0) 13 kHz (Sound Blaster 1. ya que cada vez que se realiza una de estas operaciones se pierde una pequeña parte de la información. ya que se irá acumulando este tipo de error.tienen limitaciones a la hora de realizar la compresión en tiempo real. VEDIT2 de la Soundblaster Pro puede comprimir. La segunda razón para que no se haga la compresión en tiempo real mediante software es que la industria de las tarjetas de sonido todavía carece de un único estándar para la compresión de sonido. archivos de sonido digital de 16 bits mediante las técnicas ADPCM. Con las técnicas de compresión sin pérdidas (como las realizadas por PKZIP) se pueden comprimir sonidos. Mientras que se acepta generalmente la técnica ADPCM. Por ejemplo. Como ejemplos de programas que realizan sólo una cantidad limitada de procesamiento de señales digitales. y luego pueden expandirse y usarse sin ninguna degradación en la calidad. Gracias a este chip.53 unidades. la tarjeta más novedosa de Creative Labs. Se debe evitar comprimir y descomprimir repetidamente un archivo de sonido digital. la Sound Blaster 16 es capaz de El programa VEDIT2 de la Sound Blaster Pro puede comprimir sonido digital de 8 bits. así que necesita aún más potencia. si una onda tiene una altura de 8. más que adecuado para la transferencia de sonido digital. puede ser fácilmente procesado (transformado). Esta compresión es factible ya que VEDIT2 almacena en el disco a su propio ritmo.6 bits) o la compresión 2:1 (los 8 bits se transforman en 4).x/2. Por ejemplo.6 bits) Compresión 4:1 (2 bits) Máxima frecuencia de muestreo 44.frecuencia de muestreo sobrepasa la máxima mostrada en la tabla. Las sucesivas compresiones y descompresiones estropearán rápidamente la calidad del sonido. pero la salida será sonido "lento". Una vez que el sonido se haya almacenado de forma digital. pero sólo son admisibles los valores enteros entre son 1 y 10. Cuando se desee almacenar en disco se puede seleccionar la compresión 4:1 (8 bits se guardan como 2). Como los archivos de sonido no tienen redundancias. cuando están en forma digitalizada. pero no en tiempo real. los archivos de sonido se comprimen generalmente con las técnicas de compresión con pérdidas ADPCM y similares. A-law y µ-law. podemos señalar Creative WaveStudio. no del disco fijo). para almacenarlos o para su transmisión telefónica. y frecuentemente se acompañaban con una base restringida de software. pero sólo cuando se ejecutan con la potente Sound Blaster 16. con lo que se veían limitados al tener que usar la CPU del PC. 2-18 dedicado a manejar esta carga de trabajo adicional. La primera razón es que sin un chip dedicado a la compresión (como el chip de procesamiento avanzado de señales). Por lo tanto. como cuando se usa una unidad eco para añadir un eco. Esta degradación se produce de la siguiente manera: Cuando se redondea el valor de una muestra. así que un archivo de sonido que se haya comprimido usando un determinado paquete de programas no podrá leerse con un paquete proporcionado por otra compañía. debe redondearse a 9. En este caso el error de cuantificación es de casi el 5%. La Sound Blaster 16 con procesamiento avanzado de señales. Tradicionalmente. ya que usan la CPU. rápidamente desde nuestro punto de vista. La forma común de denominar al trabajo con sonido e imágenes. imágenes u otro tipo de archivos. el ahorro que se produce en el tamaño del archivo al comprimirlo es muy pequeño cuando se usan estas técnicas sin pérdidas. Probablemente tendrá que usar al menos una 386 DX/40 MHz o 486 SX/33 MHz. en tiempo real. Limitaciones a la compresión de los archivos Wave Creative Soundo'LE es un producto para Microsoft Windows -un programa de grabación y edición compatible que acompaña a todas las tarjetas Sound Blaster hoy en día. la 3:1 (los 8 bits ocupan aproximadamente 2. Hay dos razones por las que las tarjetas de Creative Labs -salvo la Sound Blaster 16 con procesamiento avanzado de señales -. se generan errores de cuantificación. para manipular la compresión lo bastante rápido. La razón de que la frecuencia máxima a la que se puede grabar o reproducir sonido digital en crudo (sin comprimir) sea de 44. pero despacio si se compara con la velocidad a la que se graba el sonido que llega del micrófono. tiene integrado un chip para el procesamiento de señales digitales (DSP). Peligros de la compresión y descompresión repetitivas El esquema de compresión puede ser con o sin pérdidas. Las tarjetas de 8 bits Sound Blaster 1. pero sólo después de haberlo capturado en forma no comprimida de la memoria (de la RAM de la computadora. un accesorio de Microsoft Windows.

Cuando baje el coste de los DSP. la panorámica. pero es especial. pero no es la que uno consideraría como ideal para escuchársela al PC todos los días. la ecualización digital. que ha sido optimizado para la síntesis de voz. éstos harán su aparición en todas las tarjetas de sonido y se dotará inmediatamente a las aplicaciones audio de una nueva potencia y flexibilidad. conversión de la frecuencia de muestreo. estaba considerado como uno de los mejores científicos de la voz en el mundo. E-Mu. TextAssist no sólo suena más natural que Monologue para Windows. descomposición en frecuencias (FFT para el tratamiento de voz) y efectos musicales. la duración de los fonemas. investigador del Instituto Tecnológico de Massachusetts (MIT) y consultor de DEC hasta su fallecimiento en 1988. La relación que se establece entre la CPU y el DSP es la misma que la que existe entre la CPU y su coprocesador matemático. Por esta razón. llamado TextAssist y construido alrededor del dispositivo DECtalk. Esta tecnología apareció por primera vez en 1983 como el componente software de un dispositivo hardware construido a medida. Además. han creado un chip DSP de alta calidad y bajo costo que Pag. el único procesamiento del que se encarga el DSP es la compresión. mezcla de sonido. Creative ha reescrito DECtalk para que trabaje con la Sound Blaster 16 con procesamiento avanzado de señales. DECtalk PC estuvo disponible de forma práctica por primera vez en 1991 como . al menos es comparable a la velocidad de trabajo de un Pentium. con una sólida formación en ingeniería eléctrica y muy interesado por la psicología de la percepción. Este chip es un tipo especial de microprocesador diseñado específicamente para que ejcute las operaciones más básicas del procesamiento de señales digitales: adición. ecualización (cambio de la longitud relativa de las componentes en frecuencia). masculinas y femeninas. del tamaño de un maletín. Típicamente se escucha una sola voz con un timbre monótono como en las películas de ciencia ficción de los años setenta. soporte MIDI completo. tales como tratamiento de sonido Q-Sound. incluyendo nueve voces predefinidas. la conversión de la frecuencia de muestreo y los cambios en el tono (sin cambiar la velocidad de reproducción). así como las características físicas de las voces. En la industria de la voz. 2-19 combina las funciones más importantes de las tarjetas de sonido: sonido digital de 16 bits. Creative Labs ha desarrollado un nuevo software para la síntesis de voz. polifonías de 32 voces. multiplicación y retardo. La mayor parte de los programas de texto a voz son inteligibles pero limitados. filtro de sonido integrado y efectos especiales del tipo de la reverberación. de los creados hasta la fecha. dado que se ha optimizado el DSP para que realice el procesamiento de señales digitales. encubrimiento de los errores (enmascaramiento de los defectos). los instrumentos musicales y la posproducción de archivos/video. E-Mu está considerado como un líder en las industrias de la grabación. pudieron vislumbrar lo que será la base de la siguiente generación de tecnología del sonido: el chip EMU8000 para el procesamiento de señales digitales de sonido. Klatt. así que el sonido puede procesarse a medida que se graba o se interpreta. Usted puede añadir sus propias voces para que se adapten a su gusto personal. para el procesamiento de señales digitales. en lugar de la CPU de la computadora. sino que además ofrece muchas facilidades adicionales. mezcla. y que hoy en día es una empresa subsidiaria de Creative Labs. síntesis de ondas muestreadas. Creative Labs ofrece tanto la Sound Blaster 16 como la más cara Sound Blaster 16 con procesamiento avanzado de señales. descompresión y sonido QSound. todas con excelente calidad. La mayor de las ventajas que surgen del uso del DSP. ya que forma parte de un subsistema de sonido completo que reúne el conjunto de características adecuado para llegar a ser un estándar industrial. Su logro capital fue la creación de un sintetizador de voz cuidadosamente desarrollado para imitar el acento del inglés americano. las tarjetas de las computadoras. de niño y de adulto. El trabajo de su vida fue la creación de una computadora que "modelaba" la forma en que se produce la voz humana. En base a su extensa experiencia con equipos profesionales. compresión y descompresión. La síntesis de voz DECtalk la inventó Dennis Klatt.procesar señales más rápidamente y mejor que las tarjetas de sonido de 8 bits. El chip EMU8000 no es el primero ni el único chip DSP que surge en el mundo del sonido (como ejemplo podemos señalar el potente chip de IBM M-Wave). los equipos profesionales de sonido y que incluso puede integrarse en algunas aplicaciones. los coros. Tecnología de voz de DECtalk Creative Labs dio un salto cuantitativo en la síntesis de voz (conversión de texto en voz) con la adquisición de la licencia exclusiva del dispositivo de voz DECtalk de Digital Equipment Corporation (DEC). (E-Mu). Los melómanos apreciarán los efectos especiales del tipo de la reverberación (el eco débil que se escucha dentro de un auditorio o un edificio) y el efecto coro (los pequeños retardos que se producen al comienzo del sonido de un instrumento y que hacen que el sonido sintetizado de un único instrumento se escuche como si tocasen juntos un grupo de instrumentos idénticos al anterior) y pueden hacerse en tiempo real. la configuración de la velocidad y del volumen. está a la cabeza de la fabricación de instrumentos digitales. El procesamiento de señales digitales se aplica en numerosos campos. EMU8000: la siguiente generación de sonido DSP Los visitantes que acudieron a Las Vegas en noviembre de 1993 para ver la exposición de computadoras. ya que tiene un chip dedicado exclusivamente a esta tarea. Así. es que el DSP toma para sí el prosaico pero muy intensivo trabajo de procesar las señales digitales. Hoy en día. E-Mu proporcionará pronto una solución integrada de hardware y software preparada para su incorporación a las tarjetas de sonido de Creative Labs. fundada en 1972. de los laboratorios E-Mu Systems. Inc. lo emprende a su propio ritmo furioso. el dispositivo DECtalk está considerado como el que produce el sonido más natural. un módulo de programas cuidadosamente escritos. a partir de texto. la CPU de la computadora queda libre para interactuar con usted y ocuparse de otras tareas. mediante el ajuste de parámetros como el tono. Los chips DSP son todavía demasiado caros para que se haya extendido su uso en las tarjetas de sonido. más rápidamente que un procesador de propósito general como el 80386 o el 80486.

y en el caso je los sintetizadores de voz basados en difonos. en ruso. el ritmo (velocidad) y el tono. tiene alrededor de 40 fonemas. Es sencillo modificar las voces. para obtener una voz más grave se modifican los parámetros que especifican el tamaño de la laringe y el grosor de las cuerdas vocales. Los sintetizadores de constituyentes son mucho más flexibles que los sintetizadores de fonemas debido a que no están basados en un conjunto de sonidos pregrabados para cada voz. la duración y otros factores que contribuyen a la generación de voz. El inglés americano. /b/ y /k/ son claramente dos fonemas diferentes porque si se sustituye la /k/ por la /b/ en la palabra "cat" (/k//a//t/). coinciden en el primero y último pasos. por ejemplo. la tecnología subyacente bajo la síntesis de voz a partir de texto en el PC. del tipo del sintetizador Klatt de constituyentes (desarrollado por Dennis Klatt). gat. Debido al reducido número de parámetros necesarios para definir una voz.la parte patentada en los sistemas de síntesis de voz a partir de fonemas -. donde se crea la forma de onda de la voz. es posible personalizar las voces de la computadora (como la voz de Talking Scheduler). el sonido "el" de la palabra "leaf' difiere de ese mismo sonido en la palabra "pool". La secuencia así obtenida se envía al hardware de generación de la voz que será el encargado de crear la forma de onda del sonido. 2-20 marcas especiales dentro de la secuencia de fonemas o difonos que mejoran a entonación (timbre). La creación espontánea de nuevas voces es impensable. Durante la producción de voz. A rontinuación se aplican reglas y diccionarios -. una explosión de sonido. pero difieren en la manera en que se manipula la secuencia de fonemas. es un ejemplo de sintetizador de fonemas. Por el contrario. el dispositivo DECtalk convierte la secuencia de fonemas en valores de control del sintetizador. cada una de las cuales se denomina difono. estos dos alófonos son fonemas distintos. ya que constituyen bloques de lenguaje. como el dispositivo DECtalk incluido en Creative TextAssist. Un sintetizador de fonemas contiene muestras pregrabadas de cada fonema o difono. Monologue para Windows. que es característica de muchos fonemas) es un enfoque de la síntesis de voz radicalmente disitinto de la síntesis de fonemas. Para cada voz (tal como la de una mujer adulta o la de una adolescente). Evidentemente. que es el método que se utiliza en los sintetizadores de fonemas. aunque estos sonidos (llamados alófonos) pueden intercambiarse sin cambiar el significado de las palabras. la amplitud. Con el propósito de aumentar la calidad de la síntesis de voz. pero en la oficina del siglo XXI podría ser habitual que en los mensajes electrónicos se incluyera un fragmento con la voz del . implementado como un programa de computadora. un sintetizador de constituyentes utiliza un modelo matemático del tracto vocal humano. Por ejemplo. jat. En lugar de concatenar una secuencia de muestras pregrabadas de voz. Con un sintetizador de fonemas. Los fonemas son los sonidos que cuando se sustituyen hacen que cambie el significado de una palabra. Pocos de nosotros toleraríamos escuchar a una computadora imitando perfectamente nuestra propia voz.una tarjeta EISA/ISA para PC con un precio de venta al público de 1. con un sintetizador de constituyentes es posible crear voces nuevas o modificar las ya existentes (como la conversión de una voz hablada en la misma voz cantada) sin más que asignar valores diferentes a los parámetros del dispositivo de voz. a pesar de que la pronunciación difiera en un acento.195 dólares. ésta se transforma en la palabra "bat" (/b//a//t). Se ha adaptado esta misma tecnología para que trabaje con el chip DSP de procesamiento avanzado de señales de la Sound Blaster 16. y así sucesiva mente. En cambio. No hay más que ver lo fácil que es crear nuevas palabras sin sentido en inglés para darse cuenta de que éste es un idioma muy rico en fonemas: dat. La síntesis de constituyentes o formants. En DECtalk PC se incluye un sintetizador de constituyentes. que se envían al modelo computacional del tracto vocal. los sonidos se reducirán a difonos. lat. cada fonema puede dividirse en dos mitades. El enfoque más común a la síntesis de voz consiste en utilizar un sintetizador de fonemas o difonemas (la mitad de un fonema). Los sintetizadores de fonemas y los sintetizadores de constituyentes. dado que si se intercambian cambia el significado de la palabra. Es posible modelar el tracto vocal mediante algunos artefactos físicos muy familiares. Con este método. según el tamaño y el ritmo de la muestra. se basa normalmente en la síntesis de fonemas. Mediante la aplicación de reglas y el uso de diccionarios.de 350 a 750K. que está instalado en cientos de miles de tarjetas de sonido de Creative Labs. todas las nuestras deben provenir del mismo hablante nativo. tales como una tubería (a modo de garganta) y una cuerda tensa (a modo de cuerdas vocales -. mediante la inclusión de Pag. Con la notable excepción de DECtalk PC. ve la palabra "cat" como tres fonemas: /k/ /AE/ t/ donde /AE/ es el código fonético de Monologue para la "a" cuando suena como en a palabra "cat". Por ejemplo. en inglés (un constituyente es un estallido de energía acústica. Siguiendo un ejemplo tomado de la Cambridge Encyclopedia of Science. el texto que llega se transforma en una cadena de fonemas. que no necesitan más que 56 bytes para ser almacenados.para optimizar la secuencia difónica (conjunto de códigos de difonos) y conseguir un discurso que suene de manera natural. la palabra "cat" se representaría como cuatro difonos: Difono 1 2 3 4 Sonido Silencio + primera mitad de la "c" segunda mitad de "c" + primera mitad de la "a" segunda mitad de "a" + primera mitad de la "t" segunda mitad de "t" + silencio Monologue para Windows. la creación de una nueva voz requiere un laborioso proceso de grabación además de necesitar mucho espacio de almacenamiento -. que sintetiza voz mediante el análisis de palabras :omo fonemas más que como difonos. hay muchos más de 40 sonidos en inglés.los físicos han creado modelos que describen su comportamiento vibratorio). Los fonemas son los sonidos más importantes del discurso. En el futuro es posible que se desarrollen programas capaces de extraer e imitar las características de la voz de cualquier persona. que es capaz de generar voz con un sonido natural mediante un modelo matemático donde se definen parámetros para especificar el tono.

Los programas de MCI que he discutido antes también crean archivos.remitente.WAV con un editor hexadecimal. "Almacenando sonido: una mirada a los archivos de sonido con formas de onda". se usan funciones que comienzan con el prefijo wave (onda). Desplazamiento 0000 0000 0008 000C 0010 0014 0016 0018 001C 0020 0022 0024 0028 002C Charles Petzold. EL FORMATO DE SONIDO POR FORMA DE ONDA El Windows con Multimedios viene con varios archivos de sonido por forma de onda que se guardan en el subdirectorio MMDATA de su directorio de Windows. El campo nSamplesPerSec es el número de muestras . Un archivo de sonido por forma de onda comienza con la cadena de texto "RIFF"'. es capaz de hablar esa lengua. Quizá nos encontremos ante un caso de tecnología que corre desbocada. La voz no se limita a la voz humana.wf. por ejemplo.nSamplesPerSec 4 pcm·wf·nAvgBytePerSec 4 pcm·wf. El mismo dispositivo. MCI está disponible bien a través de una interfaz de mensaje y estructura o de cadenas de comandos. pero con las futuras versiones de TextAssist debería ser posible generar una voz por computadora que cantase en cualquier idioma y con cualquier acento. Cubriremos los archivos en forma de onda y dos funciones más de alto nivel que pueden reproducir el sonido por forma de onda. PC Magazine en español. una vez se le añadan los analizadores adecuados para convertir en fonemas texto de otro idioma. A la cadena "fmt" la sigue el tamaño de la información de formato. que lo identifica como un archivo RIFF. Pag. El bloque de información comienza con la cadena de texto "WAVE". lo que indica modulación de código de pulso. El campo nChannel es bien 1 ó 2. creadas muchas de ellas de manera dinámica. Se puede crear archivos de sonido por forma de onda usando el programa Grabadora de Sonido (sound recorder) que se incluye en el Windows con Multimedios.wFormatTag = WAVE_FORMAT_PCM = 1 4 pcm. Si echa un vistazo a estos archivos .wBitsPerSample 4 "data" 4 tamaño de los datos de forma de onda datos de forma de onda Figura 1. estando en un abarrotado mercado tunecino decidimos preguntarle una dirección a un tendero. o sea.WAV. En ambos casos. 2-21 general para los archivos de datos de Windows con Multimedios. verá que tienen un formato como el que se muestra en la Figura 1.WAV. los archivos con la extensión WAV se reconocen como archivos de sonido por forma de onda. Las versiones futuras de Windows con Multimedios pueden definir otros formatos para el sonido por forma de onda. Los programadores pueden usar las facilidades de sonido por forma de onda de las Extensiones de Multimedios para Windows bien con una interfaz de programación de bajo o alto nivel. el maullido de un gato y el sonido de cualquier otro animal cuyo tracto vocal sea lo bastante parecido al de los seres humanos. el tipo de formato de la información. La información de formato es una estructura PCMWAVEFORMAT. A continuación hay un bloque de 32 bits que es el tamaño del resto del archivo. no es demasiado arriesgado pensar en futuros sistemas multimedios basados en TextAssist de Creative Labs que incluyan cientos. para sonido mono o estéreo. el tamaño del archivo menos 8 bytes. que es el formato Bytes Datos 4 "RIFF" 4 tamaño del bloque de forma de onda (tamaño del archivo . La interfaz de alto nivel se llama MCI (Interfaz de Control de Medios) y emplea archivos en lugar de bloques de memoria para grabar y reproducir el sonido por forma de onda. o los programas MCITEST y WAVEEDIT que vienen con el Kit para Programadores de Multimedios (MDK). PCMWAVEFORMAT comienza con unaestructura WAVEFORMAT. que lo identifica como un bloque de sonido por forma de onda. a un turista o a un policía. como si. EI valor del tamaño del bloque no incluye los 8 bytes que se requieren para el nombre y tamaño del bloque. que es el formato general para los archivos de datos de Windows con Multimedios. que se define en la actualidad como WAVE_FORMAT PCM (igual a 1). en respuesta a diferentes situaciones. en este caso 16 bytes.wf.8) 4 "WAVE" 4 "fmt " 4 tamaño del bloque de formato (16 bytes) 4 pcm. Toda la información para los multimedios puede (y debe) guardatse en el formato RIFF. El sonido se graba en bloques de memoria global y se reproduce desde estos bloques.nBlockAlign 4 pcm. si no miles. con archivos que consisten de bloques de información identificados por un nombre de 4 caracteres ASCII y de un tamaño de 4 bytes (32 bits). RIFF es un formato de archivo marcado (tagged). de voces diferentes. Dado que es posible definir de manera concisa las características de la voz. Ejemplo de archivo . El dispositivo de voz DECtalk tiene la posibilidad de crear el ladrido de un perro.wf. Es parte de un formato más general conocido como Formato de Archivo para Intercambio de Recursos (RIFF).nChannels 4 pcm. Este formato es un ejemplo de un formato más extenso conocido como RIFF (Formato de Archivo para Intercambio de Recursos). lo que lo identifica con un bloque secundario que contiene el formato de los datos de sonido por forma de onda. mayo 1992. E1 primer campo de WAVEFORMAT es wFormat Tag. Otra cadena de texto "fmt" (note el espacio en blanco para hacerla una cadena de 4 bytes) viene a continuación. Con la de bajo nivel.

e "ICRD" (fecha de creación). 22. entre el bloque secundario de formato y el bloque secundario de datos. Este bloque secundario puede aparecer antes del bloque secundario de formato. el byte de muestra se interpreta como un valor sin signo. cada muestra consiste de 1 byte (para mono) o 2 bytes (para estéreo). Y también pudiera haber otros. el nombre del bloque es "RIFF" y el tamaño de los datos son los próximos 4 bytes del archivo. en una versión instalada de Windows con Multimedios. seguidos por el bloque de datos. cada muestra es de 2 bytes (mono) o 4 bytes (estéreo). Esto es fácil porque el tamaño del bloque secundario sigue al identificador del bloque. o después del bloque secundario de datos. (Por ejemplo. Notará que no está seguida por un tamaño del bloque. En cambio. NOMBRES DE SONIDO Los archivos de forma de onda pueden asociarse con "nombres de sonidos". Pag.por segundo. para un tamaño de muestra de 8 bits un silencio es equivalente a una cadena de 0x80 bytes). El bloque de datos comienza con la palabra "WAVE" pero "WAVE" no introduce un nuevo bloque. También encontrará las siguientes entradas: SystemDafault= SystemAstarisk= SystemExclamation= SystemHand= SystemQuestion= .050 y 44. dividido entre 8 y redondeado. Esta información no está comprimida y consiste simplemente de las muestras consecutivas. Un archivo RIFF consiste de uno o más bloques que se identifican por un nombre en mayúsculas de 4 caracteres y un tamaño de datos de 4 bytes. los valores estándares son 11. se interpreta la muestra como un valor con signo. Así que si necesita sacar datos de un archivo de sonido por forma de onda. el identificador "WAVE" está seguido por dos bloques secundarios. En el caso de un archivo de sonido por forma de onda. Si el tamaño de la muestra es de 8 bits o menos. Bytes 4 4 4 4 12 4 4 32 4 4 12 Datos "INFO" 80 "INAM" 12 "Audio Logo\0\0" "ICOP" 32 "Copyright 1991. Para los tamaños de muestra de 8 bits o menos. Un trozo secundario de información como este pudiera aparecer en cualquier archivo de sonido por forma de onda. Si el tamaño de muestra es de 9 bits o más. El primero de estos usa el identificador "fmt " y el segundo usa un identificador de bloque "data". El campo nAvgBytesPerSec es la razón de muestreo en muestras por segundo multiplicado por el número de canales y por el tamaño de cada muestra en bits.INI. Después de ambos vienen tamaños de bloques de datos de 4 bytes. y el silencio es equivalente a una cadena de 0 valores. Aunque un archivo de sonido por forma de onda requiere bloques secundarios "fmt" y "data" (en ese orden). (En seguida lo explicaré en detalle). En particular. que es el número de canales multiplicado por el tamaño de la muestra en bits. Si el tamaño de la muestra está entre 9 y 16 bits. Los datos están en el mismo formato que se usa en las facilidades de sonido por forma de onda de bajo nivel. salte todo bloque secundario que no reconozca o con el que no pueda lidiar. un archivo de sonido por forma de onda puede incluir un bloque secundario marcado como "INFO" y sub-bloques secundarios dentro del secundario que pro veen información del archivo de sonido por forma de onda. Finalmente la estructura PCMWAVEFORMAT concluye con un campo nBitsPerSample. EI campo nBlockAlign es el número de canales multiplicado por el tamaño de la muestra en bits.INI tienen el formato: SoundName=FileName Por ejemplo. EL FORMATO DE ARCHIVO PARA INTERCAMBIO DE RECURSOS (RIFF) Una discusión completa del RIFF aparece en la Referencia para el Kit para Programadores de Multimedios [MDK) de Windows. a lo que sigue la propia información de la forma de onda. puede contener también otros bloques secundarios. Los tamaños estándares para las muestras son de 8 y 16 bits. Para los datos de forma de onda en estéreo cada muestra consiste del valor izquierdo seguido del derecho. El tamaño de 4 bytes no incluye los 8 bytes que se requieren para los bytes del nombre y el tamaño. "ICOP" (derecho reservado). Después de la información de formato viene la cadena de texto "data" seguida por un tamaño de información de 32 bits.wav Estos son los archivos de sonido que se tocan cuando comienza y termina Windows con Multimedios. Este bloque secundario contiene tres subbloques secundarios con las etiquetas "INAM" (nombre). Estos nombres de sonidos pueden usarse con MCI y con la función sndPlay Sound. Tales bloques secundarios de información pueden aparecer en otros archivos RIFF. dividido entre 8 y redondeado. Los tamaños de datos deben aproximarse al siguiente múltiplo de 2.wav SystemExit=c:\mmwin\mmdata\bella. 2-22 La tabla de la Figura 2 muestra un posible bloque secundario INFO que pudiera aparecer en un archivo de sonido por forma de onda. que son entradas en la sección "[sounds]" del archivo WIN.025. encontrará dos entradas que parecen así: SystemStart=c:\mmwin\mmdata\water. Las entradas en la sección "[sounds]" de WIN. Una de las reglas más importantes para leer los archivos marcados es ignorar los bloques con los que no quiere lidiar.100. Charkles Petzold\0" "ICRD" 12 "1991-10-30\0\0" Figura 2.

el parámetro wType se ignora así que puede fijarlo a lo que quiera). pero si usa el indicador SND_MEMORY. Si quiere detener un sonido que sndPlay Sound esté tocando. Pueden especificarse seis indicadores (flags) en el segundo parámetro.WAV en los recursos definidos por el programador para su programa. lo que significa que la función no regresa hasta que se termine de tocar el sonido.0. Usa LoadResource y LockResource para tomar un puntero al bloque de memoria que contiene el archivo y simplemente pasa el puntero a sndPlay Sound con el indicador SND_MEMORY. Puede añadir los nuevos nombres de sonido. sndPlaySound toca un archivo de sonido por forma de onda. Note que los valores de wType co mienzan con el prefijo MB que son las constantes que se usan en la función Mes sageBox para especificar el tipo de icono que se muestra. Se asume que el primer parámetro es un nombre de sonido listado en la sección "[sounds]" de WIN. invocando la opción de Sound en el Panel de Control de Windows con Multimedios.WAV que el programa usa para imitar los sonidos de un reloj y sonar una alarma. Si no puede encontrarse allí un nombre de sonido. Puede detener la repetición llamando a sndPlaySound con un primer parámetro que sea NULL. puede especificar que SND_ASYNC toque el sonido de forma asincrónica. El indicador SND_NOSTOP hace que la función retorne FALSE si se está tocando otro sonido. porque MessageBox no regresa hasta que el usuario termine de mostrar la caja de mensaje. Estas se usan junto con la función MessageBeep que explicaré en los párrafos siguientes. El uso de la función MessageBeep es la forma más conveniente de hacer que sus programas de Windows "conozcan" el multimedios sin tener que añadir llamadas a funciones específicas de multimedios. el archivo de sonido por forma de onda debe caber en la memoria disponible.INI para guardar los nombres de archivos. Cuando se instalan las extensiones de Multimedios. de acuerdo con la Referencia para el Programador de Windows de Microsoft (Realmente. LA FUNCION ANDPLAYSOUND La función más simple que puede usarse para tocar archivos de sonido por forma de ondaes probablemente la función sndPlaySound. MessageBeep simplemente hace sonar al altavoz de la PC sin importar el parámetro. Sólo tiene que pasar el mismo parámetro a MessageBeep que usa para especificar el icono en MessageBox. La función sndPlaySound retorna FALSE si no hay una entrada en SystemDefault o si no puede encontrarse el archivo asociado con SystemDefault.INI. Si usa el indicador SND_ASYNC también puede incluir el indicador SND_LOOP para tocar el sonido sin cesar. Aquí se muestra cómo es usado en Multimedios de Windows. Asegúrese de llamar a MessageBeep antes de MessageBox. el parámetro wType no es usado. Bajo las versiones de Windows que no son de multimedios. La sintaxis es: void MessageBeep (wType).0). Si no puede encontrar el archivo. Un programa puede tener acceso al nombre de archivo asociado con un nombre de sonido o añadir nuevas enaadas usando las funciones GetProfileString y WriteProfileString. o cambiar los nombres de archivo asociados con los nombres de sonidos existentes. Como existen muchos programas que sencillamente llaman a MessageBeep con un parámetro de cero. como se muestra en la Figura 3. El prefijado es SND_SYNC (igual a 0). MessageBeep toca un archivo de sonido definido por el usuario. NULL.con otros archivos. puede llamar: andPlaySound(null. "File Not Found!". MB_OK | MB_ICONATERISK). En Windows con Multimedios el parámetro wType tiene un nuevo significado. En este caso la función retorna inmediatamente y el sonido se toca en segundo plano. De forma alterna. Normalmente. que tiene la siguiente sintaxis: BOOL andPlaySound (lpzsSound. el primer parámetro de sndPlaySound se asume que sea un puntero a un bloque de memoria que contiene una imagen en memoria de un archivo de forma de onda. wFlags) Esta es la única función en las extensiones de multimedios que tiene el prefijo "snd". En las versiones normales de Windows el parárnetro wType no se usa y "debe fijarse a cero". la función toca el archivo de sonido por forma de onda asociado con el nombre de sonido asociado con la variable SystemDefault. Esto simplifica la inclusión de archivos de forma de onda. puede que quiera definir su sonido de SystemDefault para . En cualquier caso. En una versión que no sea de multimedios de Windows. El programa Reloj de Multimedios (multimedia clock) usa la sección "[sounds]" de WIN. MEssage8ox (hwnd. LA NUEVA FUNCION MESSAGEBEEP La función MessageBeep ha estado en Windows desde la versión 1.WAV que siguen a los signos de igual. 2-23 Los dos indicadores adicionales son SND_NODEFAULT y SND_NOSTOP. Generalmente. use MessageBeep antes de llamar a MessageBox. de esta forma: MessageBeep(MB_ICONASTERISK). entonces se asume que es un nombre de archivo de sonido por forma de onda. Pag. pero siempre se ha definido de una forma algo peculiar. wType -1 0 MB_ICONASTERISK MB_ICONEXLAMATION MB_ICONHAND MB_ICONQUESTION Sonido El sonido de la PC Sonido "SystemDefault" Sonido "SystemAsterisk" Sonido "SystemExlamation" Sonido "SystemHand" Sonido "SystemQuestion" Figura 3. SND_NODEFAULT evita que la función toque los sonidos prefijados si no puede encontrar el sonido pedido.

Las velocidades bajas pueden adaptar más fácilmente los mensajes de voz para la conmutación por paquetes (como Frame Relay). tal como el V. Se podría afirmar que en las telecomunicaciones hay 2 tendencias claras de evolución: mientras los expertos en codificación tratan de bajar la velocidad binaria para un dado nivel de calidad. Como se sabe. el nivel de recepción se vuelve independiente de la distancia y se puede conversar más fácilmente con manos libres. Puede divertirse con estos nombres de sonidos. a medida que se trata de reducir la velocidad binaria. Algunos opinan que se puede realizar la codificación del habla con alta calidad a velocidadades tan bajas como 2 kb/s. pero en el futuro se van a usar canales digitales con quizás 8 kb/s para codificar la voz con ancho de banda de 10 kHz. De hecho muy pocas personas pueden decir si la voz en el otro extremo de la línea telefónica se está transmitiendo digitalmente. donde todas las formas de comunicación se reducen al formato digital). complejidad y retardo. También se explota una característica de la audición humana y es que las amplitudes altas logran enmascar. por supuesto. así que la capacidad de dispositivos de grabación. en PCM la forma de onda de la voz es muestrada. Actualmente en telefonía celular se usa canales analógicos FM con ancho de banda de 30 KHz. 2. pronto puede ser práctico el enviar señales digitales de voz de alta calidad a unos 8 kb/s sobre una amplia gama de canales. no es un problema serio en aplicaciones como el correo de voz. Un chip de memoria de 16 Mb podría guardar 1 hora de habla a 4 kb/s. Los investigadores han ensayado una gran variedad de esquemas de codificación y aparecen continuamente nuevos conceptos de codificación que se añaden a los existentes. A medida que la .34bis trasmiten a 33. la codificación del habla a bajas velocidades tiene su importancia. Los investigadores se sienten optimistas ya que en el compromiso entre calidad de voz y velocidad binaria. Así que los enlaces de voz analógicos ahora utilizados para transmitir voz analógica de alta calidad serán entonces capaces de llevar voz digital de alta calidad con beneficios adicionales tal como seguridad y privacidad. La función principal de estas técnicas es analizar la señal de habla más cuidadosamente. Una razón de ello es la creciente necesidad de transmitir mensajes hablados con alto nivel de seguridad sobre canales de baja velocidad. también se pierde la calidad del sonido. el ruido de cuantificación. Los expertos en codificación digital tratan de optimizar la interacción de 4 parámetros: velocidad binaria. calidad. donde se utiliza un cuantificador no lineal (ley A en Europa y ley µ en Estados Unidos y Japón). Codificación de la Voz a Baja Velocidad En nuestro mundo que tiende cada vez a redes de banda ancha para altas velocidades. es decir buzones electrónicos donde se almacenan mensajes hablados. Algoritmos de codificación robustos y de alta calidad están reduciendo la velocidad de transmisión y nuevos modems. la calidad de la voz no es un problema. las interferencias quedan prácticamente eliminadas. Más bien.que sea algo breve y simple. "uhhhh". Con la vista puesta en aplicaciones como las mencionadas. cuantificada y codificada digitalmente. 2-24 que contienen el sonido de las palabras "hey". puede aumentar significativamente. "pare!" y "cómo?". en el cual el paso de cuantificación aumenta a medida que la amplitud aumenta. De esta forma la relación señal a ruido de cuantificación se mantiene constante sobre una amplia gama de niveles. tales como enlaces militares vía radio. han aparecido numerosos productos y componentes. El cifrado de mensajes secretos o importantes puede llegar a ser más facilmente disponible para el sector comercial o militar. Si bien la tecnología no está completamente madura. se requieren técnicas mucho más elaboradas. Se puede usar 56 o 48 kb/s para la voz y 8 o 16 kb/s para datos. a los cuales estamos obligados actualmente. La modulación por pulsos codificados convencional (PCM) es de una calidad altamente aceptable. para así eliminar la redundancia presente de una forma más profunda y usar los bits disponibles para codificar las partes no redundantes de una manera eficiente. A velocidades bajas. los entes de estandarización y los laboratorios de procesamiento digital de señales han estado muy activos en los últimos años. A la relativamente alta velocidad de 64 kb/s. tales como máquinas contestadoras. en vez de los canales digitales de mayor ancho de banda. La complejidad incrementa los costos y a menudo aumenta el tiempo de procesamiento. como resultado de la transmisión digital.3. En el extermo receptor se efectúa el proceso inverso por medio de un decodificador. a menos que se aumente la complejidad del esquema de codificación (y de los circuitos integrados que realizan el proceso). Esta no linealidad favorece las bajas amplitudes. También es crucial para acomodar más usuarios sobre canales comerciales que tienen limitaciones inherentes de ancho de banda o potencia. existe la ventaja de la mejor calidad de la voz. los expertos en transmisión digital tratan de subir la velocidad de transmisión que un canal puede acomodar.600 b/s sobre canales con ancho de banda de apenas 3 KHz. El único algoritmo especial en PCM es la cuantificación. La codificación del habla a baja velocidad permite compartir entre voz y datos un canal B a 64 kb/s de la ISDN (Red Digital de Servicios Integrados. en cierta medida. Otro factor es el deseo de sistemas eficientes desde el punto de vista de memoria para el almacenamiento de voz y para lo que se conoce como el correo de voz. los límites fundamentales sugeridos por la percepción del habla y la teoría de la información son bastante bajos. Este retardo. Yo he grabado mi voz en archivos de sonido y he fijado los sonidos SystemAsterisk (asterisco). tal como la telefonía celular o en las comunicaciones por satélite. las cuales predominan en el habla. En efecto. Algo interesante es que parece que la respuesta del oído a estas frases fuera más rápida que la respuesta visual a los iconos. Por ejemplo. sin embargo. SystemHand (mano) y SystemQuestion (pregunta) a archivos Pag. SystemExclamation (admiración).

cuantificando sólo el error de predicción. Este es un modelo que trata de simular el proceso de excitación y modulación en el tracto vocal humano usando LPC. por ejemplo.velocidad binaria disponible se reduce a 32 kb/s. llamada enmascaramiento del ruido. Este principio se explota. LPC utiliza un número reducido de parámetros vocales (llamados coeficientes LPC) que tienen que ver con la configuración del tracto vocal y en consecuencia con el sonido que es emitido. Adicionalmente pueden ser combinadas con otra técnica. La calidad de los vocoders es aceptable para comunicaciones militares seguras que deben enviarse a velocidades muy bajas. en cambio. Los primeros emplean algoritmos para lograr una salida que sea una aproximación de la forma de onda de la señal de entrada. Otra técnica es usar codificación adaptable por sub-bandas. La predicción es lineal. así que la velocidad binaria es de 32 kb/s en vez de los 64 kb/s del PCM convencional. El decodificador realiza una operación inversa parecida a la integración. Un método muy utilizado es la predicción lineal. donde se utilizan 8 bits por muestra. Una aplicación prometedora para el vocoder es en el correo de voz. Se utilizan 4 bits por muestra con velocidad de muestreo de 8 kHz. no solamente la voz. especialmente si el filtro es excitado por pulsos breves pocos frecuentes. en el PCM diferencial adaptable (ADPCM). Si bien el principio del ADPCM se conoce desde hace muchos años. sin trasmitir información explicita de adaptación. el estándar LPC-10 ha sido muy utilizado en ambiente militar durante años. en donde un bloque completo de entrada se cuantifica todo de golpe. las técnicas para la reducción de la redundancia y el aprovechamiento de los bits deben ser cada vez más sofisticadas. se asume que las señales son generadas por una fuente que excita un filtro lineal y la fuente puede representar soplos periódicos de aire que pasan a través de la glotis (que es el espacio entre las cuerdas vocales) o que es el ruido producido por un estrechamiento en el tracto vocal y el filtro corresponde al tracto vocal superior. buscan una descripción compacta de la señal de entrada y digitalizan solamente los parámetros de esta descripción compacta. Las señales producidas a través del filtrado lineal de variaciones lentas son las más adecuadas para LPC. Para el habla. Bajar de 8 a 4 bits por muestra involucra una relativa simple combinación de cuantificación adaptable y predicción adaptable. La periodicidad del habla. pero ir de 4 a 2 bits por muestra (esto es. en vez que en muestra por muestra. llamada cuantificación vectorial. El número de bits puede ser reducido ulteriormente por el enmascaramento del ruido: En lo que se refiere al que escucha. por ejemplo. En el caso del habla. esto es el hecho que personas hablan con un timbre característico. basada en modelo) que permite una resolución espectral más precisa que la transformada de Fourier no parámetrica. añadiendo la señal diferencia cuantificada a su propia estimación o predicción de la muestra de voz actual. para velocidades de 8 kb/s y eventualmente de 4 kb/s. Los algoritmos Pag. 2-25 utilizados por los vocoders no son muy robustos: pueden fallar cuando hay mucho ruido de fondo o cuando varias personas hablan simultáneamente. 8 kb/s y 4 kb/s. la cual fracciona el habla en bandas de frecuencias y asigna los bits diponibles de forma que se adecuen al espectro de la voz de entrada y a las propiedades del oido. Esta descripción usualmente se basa en la noción de una señal de excitación que alimenta un filtro lineal. 4 kb/s o menos. Aquí se hace uso de la naturaleza periódica del habla y de una carácterística de la forma como las personas escuchan. 16 kb/s. Esto significa que cerca de las frecuencias de las formantes puede ser tolerado un error de . sobre todo cuando la señal es estacionaria solamente por un corto tiempo. Estos códificadores híbridos son más robustos que los vocoders y su objetivo es lograr una calidad del habla que sea suficientemente buena para el servicio comercial. Estos algoritmos son eficientes en el sentido de que ellos adaptan la cuantificación y la predicción en forma sincrónica en el codificador y en el decodificador. lograr la codificación a 16 kb/s) es mucho más difícil. Algunos de los nuevos codificadores de forma de onda a baja velocidad incluso se aprovechan de la tecnología de los vocoders. por ejemplo. LPC es una técnica muy utilizada para el análisis de muchas señales. En el ADPCM la calidad subjetiva de la voz es comparable con el PCM y no hay incremento del retardo de procesamiento. Estos coeficientes puede ser utilizados en circuitos digitales como valores multiplicadores para generar una versión sintética de la señal original o pueden ser almacenados como patrones para el reconocimiento de la voz. donde la entrada al cuantificador es la diferencia entre una muestra de voz y la predicción de la misma. una fuerte formante (esto es. permite la predicción de ese timbre y en consecuencia codificarlo con pocos bits. Esta predecibilidad hace innecesario representar la onda completa y permite que el codificador y el decodificador utilicen un algoritmo de predicción basado en las propiedades estadísticas de la onda. En los Estados Unidos. El resultado es por lo general un sonido artificial en el cual las palabras pueden ser entendidas claramente pero no se puede fácilmente identificar a la persona que habla. ya que se hace una estimación de la muestra de voz actual a partir de una combinación lineal ponderada de muestras pasadas cuantificadas. (esto es. tanto en transmisión que almacenamiento. (LPC: Linear Predictive Coding) con el cual se codifica la señal de voz haciendo una estimación de la misma como una función lineal de las muestras anteriores. no fue posible estandarizarlo en el CCITT como un código a 32 kb/s sino hasta 1984. Estas técnicas pueden ser combinadas entre ellas en forma complementaria. LPC es una forma de análisis parámetrico. con el desarrollo de algoritmos eficientes y robustos. El error de predicción tiende a contener menor energía que la voz original y en consecuencia puede ser codificado usando menos bits para un dado grado de error de reconstrucción. Los vocoders. resonancia de vocal) tiende a enmascarar el ruido que se encuentra en la banda de frecuencias de la formante. Son robustos en el sentido de que funcionan razonablemente bien aun en ambiente con tasas de errores altas. La compresión digital del sonido en general asume que una porción de la onda que empieza de cierta forma probablemente continúe de una forma conocida por un cierto tiempo más. si el ruido se encuentra a más de 15 dB por debajo de la señal. ya que la codificación puede ser efectuada sin prisa con un proceso cuidadoso que optimice la calidad de la voz. Los sistemas que usan estas técnicas son llamados codificadores de forma de onda (waveform coders) y son distintos de los llamados vocoders. El resultado es un ahorro considerable en bits para un dado nivel de calidad de la voz reconstruida. hasta cerca de 1 error por cada 100 bits.

pero con la sofisticación de la cuantificación vectorial. el ruido de cuantificación de una banda se mantiene dentro de esa banda. se requieren solamente 10 bits para transmitir la dirección del código de 40 muestras y la codificación se logra con apenas 0. se requieren apenas de 1 a 0. 2-26 con el tiempo para lograr calidad y naturalidad. la banda de voz se divide en 4 o más sub-bandas contiguas por medio de un banco de filtros pasabanda y se emplea un esquema específico de codificación para cada sub-banda. 5. Esto es. La cuantificación vectorial asegura buena calidad permitiendo que haya suficientes secuencias a escoger en las tablas de códigos de la excitación y del filtro. Al fondo de la escala se encuentra la calidad sintética típica de los vocoders: . asumiendo que la velocidad de muestreo de cada subbanda sea 1/4 de 8 KHz (esto es 2 KHz). con el fin de asegurar que estén disponibles suficientes bits para los parámetros de excitación y predicción. donde un número adecuado de pulsos se utilizan como la secuencia de excitación correspondiente a un segmento del habla (por ejemplo. Valores de MOS entre 3. resultando así una velocidad de 8 a 4 kb/s.5 y 4 representan un nivel útil de calidad del habla. 4 bueno. la asignación de bits apropiada para un segmento con un predominio de componentes de alta frecuencias podria ser 1. por ejemplo. 2. Este es un sistema híbrido que adopta mucha de la eficiencia de los vocoders tradicionales. el cuantificador busca en su memoria el conjunto que más se asemeja a la secuencia de muestras. la codificación de los parámetros de predicción puede hacerse suficientemente precisa. en vez de usar excitación rígida de 2 estados de los vocoders. 10 pulsos para un segmento de 10 ms). Para estos valores la distorsión está presente. Un MOS de 5 se considera excelente. mientras que 4 o más significa una alta calidad. así que una entrada de habla de bajo nivel no va a ser afectada por el ruido de cuantificación en otra banda. Para esto. En las bandas de bajas frecuencias. donde debe conservarse la información sobre el timbre y el formante. logrando al mismo tiempo mantener un promedio de 2 bits por muestra. el algoritmo adaptable automáticamente asigna mayor número de niveles de cuantificación para las frecuencias más altas. Sin embargo si predomina energía de alta frecuencia en un dado segmento de habla. Para la codificación a 4 kb/s se ha desarrollado la codificación con excitación estocástica.25 bits por muestra. con personas. se asignan más bits a las frecuencias percibidas como más importantes. Como ejemplo. Con las técnicas híbridas más avanzadas. La calidad se mide en forma subjetiva por medio de un puntaje promedio de opinión (MOS: Mean Opinion Score) obtenido a través de pruebas rigurosas. Utiliza los principio de codificación de forma de onda de alta calidad para optimizar la señal de excitación. 3 bits para cada muestra de subbanda. 0 bits para las 4 sub-bandas en orden creciente de frecuencias. En la cuantificación vectorial. ya que ambos tipos de parámetros deben variar Pag. En el extremo receptor. Pruebas subjetivas de sistemas experimentales a baja velocidad han demostrado que los usuarios encuentran la calidad del los codificadores de forma de onda más que adecuada. por ejemplo. Si se varía la asignación de los bits en las distintas bandas. pero es suficientemente flexible para adaptarse a las sutiles propiedades de la forma de onda del habla. pagada). 2 pobre y 1 malo. calidad de llamada de larga distancia. En este caso la asignación de bits apropiada a un segmento de habla con un espectro rico en bajas frecuencias podría ser. pero no es fácilmente distinguible y la inteligibilidad es todavía muy alta. Así que un MOS de 5 indica calidad perfecta. Ellos utilizan información acerca de las formantes de manera tal que las frecuencias del ruido de cuantificación se modifican de acuerdo a la frecuencia del formante. el número de niveles de cuantificación puede controlarse independientemente en cada banda y la forma del espectro total del ruido de cuantificación así puede ser controlado según la frecuencia.5 bits por muestra para codificar la voz. conformando el espectro de ruido. una velocidad de 64 kb/s alcanza un puntaje alto en tales pruebas. una velocidad promedio de 2 bits por muestra implica una velocidad total de 8 bits por muestra. al ser realizadas con codificadores avanzados de alta complejidad. las señales de las sub-bandas son decodificadas y sumadas para así lograr una reproducción fidedigna de la señal original. Luego escoje la dirección correspondiente a ese conjunto de secuencias y transmite esa dirección al receptor. 1024 secuencias almacenadas. 3. donde cada una es una secuencia estocástica (esto es aleatoria) de pulsos. Si la tabla de códigos contiene. han logrado puntajes sorprendentemente favorables. se usan en promedio más niveles de cuantificación.codificación (el equivalente de ruido) relativamente alto y que la velocidad binaria puede ser reducida proporcionalmente. los esquemas más complejos para codificación sub-banda adaptable y el propio ADPCM usan predicción del timbre y enmascaramiento del ruido. En cambio en la codificación adaptable por sub-bandas. Como podría esperarse. 1. en el caso de un sistema de 4 sub-bandas de igual ancho. Aquí es casi una necesidad la cuantificación vectorial en el filtro predictivo lineal. Como ejemplo. en vez de la propia secuencia de 40 muestras. lo cual no deja muchos bits para la información que proviene del filtro predictivo lineal. En el ADPCM se le da cierta forma al espectro del ruido por medio de realimentación del error o técnicas de post-filtado. esto es. Adicionalmente en un sistema de codificación por sub-bandas. Un buen candidato para la codificación a 8 kb/s es la codificación predictiva lineal por multipulsos. Valores de MOS entre 3 y 4 corresponden a calidad apta para comunicaciones. Las amplitudes y la posición de los pulsos se optimizan pulso por pulso a través de una búsqueda de lazo cerrado. Por medio de una búsqueda en lazo cerrado se selecciona la mejor secuencia. (los ingenieros telefónicos la llaman toll quality. La velocidad binaria asignada a la excitación es más de la mitad de la velocidad total de 8 kb/s. por ejemplo una secuencia de 40 muestras de largo. Se pueden lograr velocidades todavía más bajas utilizando un tipo de código que alimenta un filtro lineal predictivo con una señal de excitación cuidadosamente optimimizada. 1. la forma del espectro del ruido se modifica por asignación adaptable de los bits. el codificador tiene almacenado un repertorio de posibles excitaciones. pero velocidades substancialmente más bajas. formales. 3 regular. Un MOS mayor de 4 significa que la persona encuentra el habla tan inteligible como el original y libre de distorsión. Optimizar la excitación y los parámetros del filtro representa un gran desafío para los investigadores.

las palabras son en su mayoría inteligibles pero no siempre puede ser identificada la persona que habla. Tipo de código Modulación por pulsos codificados (PCM) PCM adaptable diferencial (ADPCM) Codificación sub-bandas adaptable LPC multipulsos LPC con excitación estocástica Vocoder LPC Velocidad (kb/s) Complejidad (MIPS) 64 0. con una complejidad de 50 a 100 MIPS. una versión ampliamente usada del vocoder LPC posee un retardo mucho más grande del que se muestra en la figura. Esto se debe a que los segmentos de habla son mucho más largo que el valor de 10 ms asumido en la figura y porque se usan subsistemas adicionales para la interpolación de parámetros y para la protección contra errores. los valores de complejidad pueden diferir substancialemnte de los ordenes de magnitud estimados en la figura. sin importar su complejidad. Los algoritmos para la codificación digital del habla usualmente se implementan en procesadores digitales de señal. la codificación pedictiva lineal multipulso de baja complejidad puede lograr codificación de alta calidad a 16 kb/s. ya que un procesador de señales de propósito general puede trabajar hasta unos 10 MIPS. Por ejemplo. Los algoritmos complejos introducen un retardo entre el momento en que la persona que habla emite un sonido y el momento en que la versión codificada de ese sonido sale del codificador. el codificador predictivo lineal excitado estocásticamente puede ser simplificado a 50 MIPS con solo una pequeña pérdida en la calidad de la voz. aun los sistemas más sistemas más sofisticados a baja velocidad se quedan a veces cortos con respecto a los sistemas PCM de 64 y 32 kb/s por lo siguiente: su calidad decrece abruptamente si la señal pasa por etapas sucesivas de codificación/decodificación. por lo que las ventajas multietapas de las velocidades altas son menos importantes. Este último problema se puede aliviar incorporando un cancelador de eco en el sistema. Los codificadores de baja velocidad están destinados a un uso masivo (por ejemplo. Con PCM todavía se logra alta calidad con hasta 8 etapas de conversión. puede ser rediseñado para que opere a 8 kb/s en vez de 4 kb/s. tales como la relación señal a ruido y. Pero en pruebas subjetivas los mejores codificadores de 16 kb/s se acercan en calidad a los codificadores PCM de alta velocidad y logran un puntaje MOS cercano a 4. Pag. requieren más tiempo para actuar. Sin embargo. Por ejemplo. a menudo son más significativas. velocidad y calidad. El retardo de codificación no es problema si la voz se almacena en forma . en vez de habla alta calidad a 32 kb/s. De hecho. la mayoría de los codificadores mostrados en la figura son actualmente prácticos. en enlaces completamente digitales de extremo a extremo (como ocurriría con la ISDN). como se ilustra en la Tabla 1. Comparación de distintos esquemas de codificación del habla Un tipo de código no está necesariamente limitado a la velocidad que se muestra en la tabla. de hecho. centrales viejas y modernas). puede ser realizado con unos cuantos chips especialmente diseñados. mientras que un codificador predictivo lineal excitado estocásticamente. las señales son codificadas y decodificadas una sola vez. El costo del hardware generalmente aumenta con la complejidad.01 32 0. Por ejemplo. Estas pruebas subjetivas de MOS complementan mediciones objetivas. el codificador PCM adaptable puede ser rediseñado para lograr habla a 16 kb/s con calidad de comunicación. Por supuesto. esto es el codificador de predicción lineal excitado estócásticamente. Aún la excepción. manteniendo aproximadamente la misma calidad del habla. sin embargo el progreso en la tacnología de procesadores de señales tiende a hacer bajar los costos para un dado nivel de complejidad y. Estos retardos pueden ser objetables en una conversación telefónica bidireccional. 2-27 los cuales son una combinación de circuitos integrados de propósito general y de propósito específico. a reducir la diferencia de costo entre las técnicas de baja complejidad y las de alta complejidad.1 16 1 8 10 4 100 2 1 Retardo (ms) 0 0 25 35 35 35 Calidad alta alta alta comunicaciones comunicaciones sintética Tabla 1. de baja complejidad. especialmente cuando se suman los retardos en la propia red de transmisión (sobre todo en enlaces vía satélite) y se combinan con ecos que no han sido neutralizados. tal como la que se encuentra en un enlace de transmisión en el cual haya numerosas conversiones analógico/digital (por ejemplo. Por supuesto. La complejidad de esos procesadores se mide por el número de operaciones tipo multiplicación-adición requeridas para codificar el habla. En casos específicos. en cada teléfono digital) así que deben ser económicos. La figura muestra valores típicos para varios sistemas de codificación de habla y muestra el compromiso entre complejidad. Por otro lado los valores de retardo están redondeados y generalmente reflejan el mínimo para los distintos códigos. En forma similar. usualmente expresada en millones de instrucciones por segundo (MIPS). a medida que los algoritmos se vuelven más complejos. Como regla práctica. mucho más importante. El costo por supuesto es también un factor de compromiso pero es difícil de cuantificar en la figura. Un algoritmo se considera generalmente práctico si se puede realizar en un solo chip. Los codificadores son por lo general mucho más complejos que los decodificadores. en base de mediciones de señal a ruido los codificadores de 16 kb/s. son bastante inferiores a los codificadores PCM de 64 kb/s. Bajo este criterio. en la gama de 64 kb/s a 8 kb/s el número de MIPS aumenta de un orden de magnitud cuando la velocidad de codificación se reduce a la mitad. por ejemplo. una versión altamente compleja puede conseguir habla de alta calidad a velocidad más baja.

2 k Tabla 2.723.3 30 7.729 8 10 5 15 20 2. el G.5 14.1.6 2.723.709 opera a 8 kb/s con un retardo de 15 ms.2 k G.5 2k G. En la Figura 1 se muestra la calidad de la voz en varios sistemas estandarizados por el ITU y por otros entes. 2-28 digital para su entrega posterior.Pag.3 y 5.723.7 k G.A es una versión del G.1 opera a 6.729 a expensas de una ligera degradación en la calidad del habla.5 37.3 30 7. La calidad en los codificadores de voz Parameter Bit rate (kb/s) Frame size (ms) Subframe size (ms) Algorithmic delay (ms) MIPS (fixed-point DSP) RAM (16 bit words) G. El G. El G. Por otro lado el G. sin embargo. Comparación entre codificadores de voz estandarizados . En la Tabla 2 se reportan los valores comparativos de los más recientes sistemas de compresión estandarizados por el ITU.723. debido a su baja complejidad.3 kb/s y fue diseñado para videoteléfonos de baja velocidad. pero es aplicable a comunicaciones de multimedia. Figura 1.729A 8 10 5 15 10.729 con complejidad reducida y fue diseñado originalmente para aplicaciones de voz y datos en comunicaciones de baja velocidad.1 6.5 37.1 5. entonces el G.1 puede no ser la solución más apropiada. La información en la Figura 1 y en la Tabla 2 se encuentra ampliada con más detalles en algunas de las lecturas que siguen a continuación. En aplicaciones donde se requieran bajos retardos. puede ser una alternativa al G. si el retardo es aceptable. Provee habla con buena calidad y fue diseñado originalmente para aplicaciones de telefonía celular.723.5 16 2.729.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->