Pag.

2-1

2. CODIFICACIÓN Y COMPRESIÓN DEL AUDIO
2.1. La Naturaleza del Sonido
El sonido es una vibración que se propaga a través del aire, gracias a que las moléculas del aire transmiten la vibración hasta que llega a nuestros oídos. Los mismos principios de cuando se lanza una piedra a un estanque se aplican al sonido: la perturbación de la piedra provoca que el agua se agite en todas las direcciones hasta que la amplitud (o altura) de las ondas es tan pequeña, que deja de percibirse. El diapasón es un buen ejemplo de fuente de sonido por dos razones: la primera es que puede observarse el movimiento de vaivén de sus brazos mientras se escuchan los resultados de esta vibración; la segunda es que el diapasón vibra a una frecuencia (vibraciones por segundo) constante hasta que toda su energía se ha disipado en forma de sonido. Caracteristicas de una onda sencilla Una perturbación que viaja a través del aire se denomina onda y el aspecto de la onda se denomina forma de onda. La forma de onda del diapasón es la más sencilla de las formas de onda, denominada onda sinusoidal. Pueden verse formas de onda como ésta en la pantalla de un osciloscopio. Estas ondas sencillas se caracterizan por una frecuencia y una amplitud, o cantidad máxima de perturbación producida, representada en los picos de la onda. El oído y un micrófono son muy similares. Ambos transforman pequeñas variaciones en la presión del aire en señal eléctrica que puede ser comprendida y almacenada por sus respectivos "cerebros" (ya sea el humano o la CPU de la computadora). Una señal es el término utilizado para describir la información que, como el sonido, sufre una transformación de su forma original -- moléculas que chocan en el aire con una forma eléctrica que puede guardarse, manipularse y reproducirse. Diferencias entre tono y frecuencia Existe una sutil, pero importante, distinción entre frecuencia y tono. La frecuencia se refiere a la medida objetiva del número de vibraciones por segundo. El tono se refiere a nuestra percepción de esas vibraciones. Hablamos normalmente del tono caracterizándolo como "bajo" o "alto". Por ejemplo, un triángulo o timbal tiene un tono alto, mientras que un violón o un bombo tienen un tono bajo. En la terminología del audio, tal como la grabación y la reproducción, las gamas de frecuencias comprendidas entre 300 Hz y 5.000 Hz se denominan frecuencias medias. Las comprendidas entre 20 Hz y 300 Hz se denominan bajas, mientras que las superiores a 5.000 Hz se denominan altas. Amplitud La medida de la amplitud de una onda es importante porque informa de la fuerza, o cantidad de energía, de una onda, que se traduce en la intensidad de lo que oímos. El decibel, abreviado como dB, es una unidad de medida de la fuerza de la señal y es útil en la comparación de la intensidad de dos sonidos. La sensibilidad del oído humano es extraordinaria, con una gama dinámica o variación en intensidad muy amplia. La mayoría de los oídos humanos pueden capturar el sonido del murmullo de una hoja y, después de haberse sometido a ruidos explosivos como los de un avión, siguen funcionando y lo que es sorprendente es que la fuerza de la explosión en un avión es al menos 10 millones de veces mayor que el murmullo que una hoja produce con el viento. El oído necesita un porcentaje elevado de variaciones en la fuerza de un sonido para detectar un cambio en la intensidad percibida, lo que significa que la sensibilidad del oído a la fuerza del sonido es logaritmica. El oído trabaja como un dispositivo logarítmico, de manera que el decibel, unidad de medida logarítmica, es la elección más adecuada para medir la fuerza del sonido. E1 aspecto práctico de la amplitud es que un incremento de sólo 3 dB duplica la intensidad de un sonido. Por ejemplo, un sonido con 86 dB tiene el doble de fuerza que un sonido con 83 dB y cuatro veces más que un sonido con 80 dB. Desde la perspectiva de nuestra percepción de la intensidad, un incremento de 3 dB, que da lugar a que se duplique la fuerza, provoca que el sonido se perciba sólo ligeramente más alto. Es necesario un aumento en 10 dB para que nuestros oídos perciban un sonido con el doble de intensidad. La Tabla 1 muestra una gama de sonidos y su comparación en fuerza, medida en el sistema logarítmico de decibel. Sonido Intensidad (dB) Frente a un cañón de 12" 220 Cohete 190 Avión 150 Umbral de dolor 140 Pista de aeropuerto 130 Umbral de percepción 120 Clímax de una orquesta 110 Banda de rock 100 Tráfico pesado 90 Gritos 80 Ruido de oficina/calle concurrida 70 Conversación normal 60 Oficina en silencio 50 Hogar silencioso 40 Estudio de grabación 20 Susurro 10 Umbral de escucha 0 Tabla 1. Comparación de niveles de sonido Gama dinámica La calidad de los sonidos musicales grabados no es demasiado importante, ya que nunca son comparables a los reales. La razón principal es que el equipo estéreo no puede duplicar la gama dinámica completo de una orquesta o de un concierto de

rock. Una orquesta puede alcanzar los 110 dB en su clímax y en el punto más suave bajar hasta los 30 dB, dando lugar a una gama dinámica de 80 dB. Esta gama es superior a la gama dinámica de un sistema estéreo típico y, de hecho, superior a la capacidad de grabación de medios tales como un disco de vinilo y una cinta de audio. Ancho de banda Profundizamos ahora en aspectos prácticos, como la gama de frecuencia de un reproductor CD y el de nuestra voz. La Tabla 2 muestra el ancho de banda, la gama de frecuencias en el que sistemas electrónicos como tarjetas de sonido para PC y los instrumentos musicales -- así como nuestro oído y nuestra voz - son capaces de captar y de producir sonido. El ancho de banda es muy importante para disfrutar de la música (como manifiestan las quejas de sonido "de lata" de una radio de bolsillo) y es un criterio básico a la hora de seleccionar un equipo de audio. Lo que realmente es decisivo no son los números, que variarán dependiendo de quién tome la medida y de otros factores externos, sino de la magnitud de su diferencia. Por ejemplo, el ancho de banda teórico de la radio FM es aproximadamente tres veces el ancho de banda de la radio AM. Fuente de sonido o detector Radio AM (máximo teórico) Radio FM (máximo teórico) Reproductor CD Tarjeta de sonido para PC Micrófono barato Trompeta Teléfono Oídos infantiles Jóvenes asiduos de conciertos de rock Oídos adultos Voz masculina Voz femenina Ancho de banda 80 Hz a 5 kHz 50 Hz a 15 kHz 20 Hz a 20 kHz 30 Hz a 20 kHz 80 Hz a 12 kHz 180 Hz a 8 kHz 300 Hz a 3 kHz 20 Hz a 20 kHz 50 Hz a 10 kHz 50 Hz a 10 kHz 120 Hz a 7 kHz 200 Hz a 9 kHz

Pag. 2-2 o los micrófonos, hay que asegurarse de que se comparan manzanas con manzanas tras observar la definición del ancho de banda. Estas medidas pueden tomarse utilizando diferentes métodos ofrecidos por los fabricantes, de modo que la comparación es harto complicada. Afortunadamente existe una medida estándar para definir el ancho de banda: el gama de frecuencias sobre el que la amplitud de la señal no difere del promedio en más de 3 dB. La frecuencia en la que se produce una caída de 3 dB es conocida como la frecuencia de corte o envolvente. Se utiliza como punto envolvente un valor de 3 dB, ya que éste es el mínimo cambio en la fuerza de la señal que puede ser percibido como un cambio real en la intensidad por la mayoría de los oídos. Ruido y distorsión Del mismo modo que perturban los ruidos y ecos en una habitación, también puede generarse ruido y distorsión en la tarjeta de sonido, en los altavoces y en el micrófono. El ruido -sonidos aleatorios que subrepticiamente transforman y enmascaran el sonido deseado -- se mide en decibel. Dado que es tan poco probable disponer de un entorno de audio digital en perfecto silencio, como lo es encontrar una biblioteca silenciosa, lo que interesa realmente es saber la cantidad de ruido en relación con la señal que se introduce en el equipo de sonido, especialmente en la tarjeta de sonido de un PC. La fuerza de la música, del habla o de cualquier otro sonido, comparada con la fuerza promedio del ruido, se conoce como relación señal-a-ruido (S/N). A medida que aumenta la relación S/N, es mejor el trabajo realizado en grabación. Por ejemplo, una buena tarjeta de sonido para PC (que graba y reproduce audio digital) posee una relación S/N de más de 85 dB. Esto significa que la fuerza de la señal es 85 dB mayor que la fuerza del ruido. Una relación de 70 dB se considera válida para propósitos musicales y una relación de 65 dB está en el límite de aceptación. Además del ruido, hay otro elemento contaminante del sonido de alta fidelidad y que es la distorsión, un cambio tenue en la frecuencia de las componentes de una señal a medida que ésta pasa a través de los diferentes componentes de audio. La distorsión se mide en forma de porcentaje y una medida popular de la misma se denomina distorsión armónica total (THD). Al contrario que en la relación S/N, un menor valor de THD produce un sonido mejor. Hablando en términos generales, se considera adecuado un THD de un 0.5% o menor y un valor de un 0.1% satisfaría a los entusiastas más exigentes del sonido. Los circuitos de reproducción de audio digital típicamente poseen un valor THD mejor al 0.07%. Características de la voz La voz humana es un clase de sonido cuyas frecuencias están comprendidas en una gama de aproximadamente 4 kHz. A continuación se incluye un extracto del libro de Henry Beker y Fred Piper, Cipher Systems, Northwood Books (London), 1982, donde se describen algunas propiedades de la voz. In a “typical” speech spectrum, frequency components higher than 3 to 4 kHz, fall rapidly. Consequently very high frequency components make a much smaller contribution to the signal than, for example, frequencies in the range 500-3000 Hz. Also

Tabla 2. Gama de frecuencias audibles (ancho de banda)

Nota: A menudo el ancho de banda se simboliza mediante un único número cuando la frecuencia baja está bastante próxima a cero. Por ejemplo, el ancho de banda de una voz femenina se sitúa en torno a los 9 kHz, aunque realmente puede estar en el gama que va desde los 200 Hz hasta los 9 kHz. Un hecho a considerar es que el ancho de banda de nuestro oído es superior al de la mayoría de los sistemas electrónicos. De la Tabla 2.2 puede extraerse una de las razones por la que las estaciones de radio FM son más agradables de escuchar que los canales de amplia difusión de AM: las estaciones de FM transmiten más componentes musicales de alta frecuencia que las estaciones de AM. También puede explicarse, comparando los anchos de banda del teléfono y de la voz humana, por qué a veces confundimos la voz de una persona al teléfono: es que sencillamente no tenemos toda la información necesaria para reconocer la voz. Cuando se compara el ancho de banda de dos equipamientos similares, como pueden ser las tarjetas de sonido

called formants. It should be noted that the change is fairly slow. By “typical” we mean that the power density at each part of the spectrum is that obtained by averaging a relatively large number of conversations over a relatively long time. (In Figure 1 the three formants are marked F1. Figure 3 shows typical cavity shapes and amplitude spectra for two vowel sounds.Pag. called phonemes. Vowels are produced by movements of the vocal chords which convert the stream of air passing through the larynx into a series of pulses. but it is usually characterized by a large low-frequency content. This results in modifying the frequency spectrum in a way which is rather similar to the effect that a series of bandpass filters has on a rectangular pulse train. F3. (One obvious example of a speech signal is that obtained from a microphone when someone speaks into it. 1.) If we restrict ourselves to frequencies of up to 3 kHz and use a very sensitive analyzer we should obtain a jagged curve like the one shown in Figure 1. typically. The amplitude spectra for two vowel sounds Plosives are produced by shutting off the airstream and then releasing it with an explosive effect.) Phonemes vary considerably from language to language and we will restrict our attention to English. (We will now give a very brief discussion of different phonemes for the English language and how they arise. Speech frequency spectrum The diagram shows clearly that there are a number of peaks. Fig. Clearly the sound which emerges depends on the shape and size of these cavities. e. How frequency components change with time Fig. Phonemes and pitch frequency In order to analyze speech we break it down into its individual component sounds. 2-3 frequencies of less than about 300 Hz contribute very little to the overall signal. A vowel sound builds up gradually and. the vowels forming one complete family while the consonants and some other single syllable phonetic sounds. The airstream then passes into a number of cavities of which the most dominant are the nose. In the English language there are about forty phonemes which fall into three classes. F2. tongue or lips. the palate. One obvious example of a plosive produced by blocking . mouth and throat. The important fact to realize is that various different letters or sounds give rise to completely different waveforms.g. However an understanding of the details is not necessary. There are various points at which the airstream may be blocked. ch. Fig. 2. e. This shows the spectrum obtained when a particular sound is made. to enable comparison with figure 2) .g. These formants are produced as a result of the way in which speech is formed and Figure 2 illustrates how these frequency components change with time. takes about 100 milliseconds to reach its peak amplitude. st. form two classes called plosives and fricatives. 3.

the devices needed are expensive and destroy many important properties of the signal. It is.1 kHz is sufficient for speech recognition.e. telephone speech signals are normally bandlimited to the range 300-3400 Hz. amplitude and frequency. For the moment we merely emphasize that a voice message contains two types of information. las componentes de frecuencia mayores a 3-4 kHz disminuyen rápidamente. As far as the message itself is concerned. (By the personality of the speaker we merely mean those slight variations of frequency. The middle value of this frequency varies from individual to individual. This reproduction might sound rather unnatural and some of the “personality” of the speaker would almost certainly be lost. It is absolutely crucial that the cryptographer is aware that there are limitations such as these permissible bandwidths for the various forms of transmission. and that the difference in these operations is reflected in various distinguishing properties of the resulting signal. i. Before we discuss the various ways of achieving this objective. las frecuencias en el rango de 500-3000 Hz. 2-4 individual telephone calls and ‘frequency shifting’ them.) There are similar restrictions on the bandwidth when speech signals are transmitted by radio waves. For most practical purposes. This method. the range will be about f/2 to 2f). hopefully it will make the reader realize that his vocal system performs different operations to produce various ditferent sounds. i. at present. The problem with this method is that most digitization techniques increase the bandwidth of the signal.300 MHz and the ultra high frequency (UHF) wave-band of 300 MHz . should not have any significant effect on the bandwidth of the signal. A further characteristic of human speech which needs mentioning is the pitch frequency. This is the frequency of the vibration of the vocal chords. From the last paragraph it should now be clear that this might mean we can no longer use the same transmission channel.4 kHz bandwidth. They may also be very susceptible to errors incurred during transmission. if carefully engineered. a ciphered message should conceal both types of information from an interceptor. Fricatives are produced by partially shutting off the airstream to produce a sound like “white” noise. For the second method the analogue signal is converted into a digital one. the content of the message and the personality of the speaker. the range may be taken to be even smaller and. we could use the pitch. For a typical male the pitch frequency is about 130 Hz while the average female is about twice as high. ideally. the speech signal is represented as a series of digits. Thus.e. Another significant point should be emerging from this discussion. pitch etc. timing and so on. Por consiguiente las componentes de muy alta frecuencia contribuyen a la señal en una proporción mucho menor que. (It is interesting to note that. if the pitch frequency is f.) This produces a considerable reduction in the transmission costs. This is done by changing the relationships between time. it is worth discussing briefly the various ways in which speech signals are transmitted. However. __________________________________________ Traducción: En un espectro vocal "típico". the bandwidth limitations imposed on the speech signals enable a channel to carry several thousand telephone calls simultaneously. A fricative sound typically reaches its peak amplitude in 20-50 ms and most of its power density is concentrated between 1 and 3 kHz. We realize that the above discussion is extremely brief and is probably insufficient tn enable the reader to distinguish between some of the plosives and fricatives.e. This sound is then filtered by the vocal tract cavities. por ejemplo. The reason should be clear after the following discussion. It is often possible to hear sounds at up to 20 kHz and. The recipient deciphers the cryptogram in its digital form and then the analogue signal is recovered from these digits. the human ear can recognize sound at much higher frequencies. which enable us to identify him). Con "típico" queremos decir que la densidad de potencia en cada porción del espectro se obtiene mediante un promedio de un número relativamente grande de conversaciones a lo largo de un tiempo relativamente largo. As well as conveying the spoken message.3 GHz wider bandwidths are permissible. for instance. The first is to scramble the signal in some way. possibly even greater than 10 kHz. by taking the signals for Pag. Voice Message Transmission As we saw earlier.”. a speech signal also contains considerable information abnut the vocal characteristics of the speaker. i. For instance the high frequency (HF band of 3 MHz .. Once this has been achieved the signal may be enciphered easily. In this situation the speech signal may be restricted to about a 2. This is achieved by using vocoder techniques but. One example of a fricative is “sss. for high quality transmissions a bandwidth of at least 15 kHz is considered necessary. indeed. How much of this information is lost would depend on the precise parameters employed in the formation of our new signal. There are essentially two different ways to encipher a speech signal. although a bandwidth of 3. possible to digitize speech signals without increasing the bandwidth.e.the airstream with the lips is a “p”. to a bandwidth of 3100 Hz. This principle of reproduction is the basic idea behind vocoders and we shall discuss them a little later. formants. However a transmission link can carry signals with a much wider bandwidth than 3100 Hz. Asimismo las frecuencias menores a 300 Hz contribuyen muy poco a la señal total..30 MHz is extremely overcrowded and liable to a great deal of interference. (Un ejemplo obvio de una señal vocal es aquella que se obtiene a partir de un micrófono cuando alguien habla en él). Si nos restringimos a frecuencias encima de 3 kHz y . this information is largely redundant but does of course contain information relating to the “personality” of the speaker. to form another signal to convey the same spoken message. In the very high frequency (VHF) wave-band of 30 . For any given speech signal. in fact. and each particular speaker then has a range of about an octave above and below this central frequency (i. most of the information in a speech signal has a frequency between roughly 300 Hz and 4 kHz. We will not give a list of plosives but merely note that they tend to be characterized by their high frequency components and typically reach 90% of their peak amplitude in less than 5 ms. We stress that. (This process is called frequency division multiplexing.

El hecho importante de comprender es que Los fonemas explosivos se producen al aislar la corriente de aire y luego soltarla con un efecto explosivo. toma cerca de 100 ms para alcanzar su amplitud pico. valga la redundancia. 2. Los fonemas fricativos se producen por una aislamiento parcial de la corriente de aire para producir un sonido como . Hay varios puntos en los cuales la corriente de aire puede ser bloqueado. típicamente. llamados formantes. st. Fig. Claramente el sonido que emerge depende de la forma y tamaño de estas cavidades. Los fonemas varían considerablemente de lenguaje en lenguaje pero restringiremos nuestra atención al Inglés. Nótese que el cambio es suavemente lento (En la figura.2). 1. Pag. La figura 2 ilustra como estas componentes de frecuencia cambian con el tiempo. La figura 3. el paladar.1 los tres formantes están marcados con F1. Fig.3 muestra las formas típicas de las cavidades y el espectro de amplitud para dos sonidos vocales.3. la boca y la garganta. Cómo las componentes de frecuencia cambian con el tiempo Fonemas y frecuencia de tono A fin de analizar la voz la dividiremos en sonidos componentes individuales. Sin embargo un entendimiento de los detalles no es necesario. F2. por ejemplo.. El espectro de amplitud para dos sonidos vocales Fig. F3 para compararlos con la figura. llamados fonemas (Ahora daremos una muy breve discusión de diferentes fonemas del lenguaje Inglés y de donde surgen. lengua y labios. 2-5 diferentes letras o sonidos ocasionan formas de onda completamente diferentes). En el lenguaje inglés hay cerca de cuarenta (40) fonemas los cuales se dividen en tres clases. vocales. pero está usualmente caracterizado por un contenido alto de bajas frecuencias. forman las otras dos clases llamados explosivos y fricativos. Esto modifica el espectro en frecuencia de una manera similar al que una serie de filtros pasabanda afectan a un tren de pulsos rectangulares. que forman una familia completa mientras que las consonantes y otros sonidos fonéticos de sílabas simple. por ejemplo. No daremos una lista de fonemas explosivos pero simplemente note que ellos tienden a estar caracterizados por sus componentes de frecuencias altas y típicamente alcanzan el 90% de su amplitud pico en menos de 5 ms. Espectro de frecuencia vocal El diagrama muestra claramente que hay un número de picos. Estos formantes se producen como el resultado de la manera en la cual se forma la voz. Un ejemplo obvio de un fonema explosivo producido por el bloqueo de la corriente de aire con los labios es una "p". ch. La corriente de aire pasa a un número de cavidades de las que las más importantes son la nariz.usamos un analizador muy sensible podríamos obtener una curva aserrada como la mostrada en la figura 1 Esta curva muestra el espectro que se obtiene cuando se hace un sonido en particular. Un sonido vocal se forma gradualmente y. Los fonemas vocales se producen por movimientos de las cuerdas vocales las cuales convierten la corriente de aire que pasa a través de la laringe en una serie de vibraciones.

posiblemente mayores que 10 kHz. esta información es altamente redundante pero por supuesto contiene información rela-cionada con la "personalidad" del que habla. También son muy susceptibles a los errores que ocurren durante la transmisión. podría no tener un efecto significativo sobre el ancho de banda de la señal. el ritmo y así sucesivamente. Otro punto importante debería surgir de esta discusión. 2-6 300 Hz y 4 kHz. Es absolutamente crucial que el criptógrafo esté informado que hay limitaciones tales como estos anchos permisibles para varias maneras de transmisión. si es realizado cuidadosamente.1 kHz es suficiente para reconocer la voz. El problema con este método es que la mayoría de las técnicas de digitalización incrementan el ancho de banda de la señal. Del último párrafo debería estar claro ahora que esto quiere decir que no podemos dar un uso más largo al mismo canal de transmisión. efectivamente."ruido" blanco. las señales vocales telefónicas están normalmente limitadas en la banda de 300 3400 Hz.300 MHz y las banda de ondas de ultra alta frecuencia (UHF) de 300 MHz . Una vez que esto se ha alcanzado la señal puede ser encriptada fácilmente. sino también la comunicación en vivo. las limitaciones de ancho de banda impuestas a las señales vocales permiten a un canal transportar miles de llamadas telefónicas simultáneamente (Este proceso se conoce como multiplexión por división en frecuencia). Una característica adicional de la voz humana que es necesario mencionar es la frecuencia de tono. etc que nos permiten identificarlo). Acentuamos que. Comprendemos que la discusión anterior es extremadamente breve y es probablemente insuficiente para que el lector sea capaz de distinguir entre los fonemas explosivos y los fonemas fricativos. el contenido del mensaje y la personalidad del que habla. el oido humano capta sonidos con frecuencias mucho más altas. los formantes. En lo que respecta al mensaje en si mismo. Estos sistemas permiten que el sonido digitalizado pueda ser representado por medio de muy pocos . la señal vocal se representa como una serie de dígitos. Este principio de reproducción es la idea básica detrás de los vocoders que los discutiremos un más adelante. una señal vocal también contiene información considerable sobre las características vocales del que habla. El receptor decifra la clave a su forma digital y entonces la señal analógica es recuperada a partir de estos dígitos.e. la mayor parte de la información en una señal vocal tiene una frecuencia aproximadamente entre Pag. (Por personalidad del que habla simplemente nos referimos a aquellas ligeras variaciones de frecuencia.2.. hasta el momento. con optimismo esto hará que el lector comprenda que su sistema vocal efectúa operaciones diferentes para producir sonidos diferentes. 2. idealmente. Tecnologías de Audio para PC En los últimos años han emergido novedosos sistemas de procesamiento digital de señales que han mejorado significativamente no sólo la reproducción de la música y el almacenamiento de mensajes hablados. Este sonido es luego filtrado por las cavidades del sistema vocal. Antes discutimos las diferentes maneras de lograr este objetivo por lo que vale la pena discutir brevemente las diferentes formas en las que las señales vocales se transmiten. los dispositivos son muy caros y destruyen muchas propiedades importantes de la señal. (Es interesante notar que. tomando las señales de llamadas telefónicas individuales y 'desplazándolas en frecuencia'.". el rango será entre f/2 y 2f). Para propósitos prácticos el rango se puede tomar más pequeño y. Un sonido fricativo típicamente alcanza su amplitud pico en 20-50 ms y la mayo parte de su densidad de potencia está concentrado entre 1 y 3 kHz Un ejemplo de un fonema fricativo es "sss. De esta manera. un mensaje cifrado esconde ambos tipos de información de un intruso. La razón quedará clara después de la siguiente discusión. Para un hombre común la frecuencia de tono es cerca de 130 Hz mientras que el promedio femenino es casi dos veces más alto. para formar otra señal para transmitir el mismo mensaje hablado. Para cualquier señal vocal dada. Esta reproducción puede sonar algo artificial y un poco de la "personalidad" del que habla podría ciertamente perderse. Transmisión del mensaje vocal Como vimos anteriormente. El valor medio de esta frecuencia varía de individuo a individuo. Sin embargo un enlace de transmisión puede transportar señales con un ancho de banda mucho mayor que 3100 Hz. a un ancho de banda de 3100 Hz. Hay restricciones similares sobre el ancho de banda cuando se transmiten señales de voz mediante ondas de radio Por ejemplo la banda de frecuencias altas (HF) de 3 MHz-30 MHz está extremadamente repleta y expuesta a una gran cantidad de interferencia. y que la diferencia en estas operaciones se refleja en varias propiedades características de la señal resultante. A menudo es posible oir sonidos por encima de 20 kHz y. i. por ejemplo. Cuanta de esta información que está perdida dependería de los parámetros precisos empleados en la formación de nuestra nueva señal. Sin embargo. si la frecuencia de tono es f. Así como también se está transmitiendo el mensaje hablado. Esto se logra mediante el uso de técnicas vocoder pero.e. aunque un ancho de banda de 3. Con el segundo método la señal analógica se convierte a una digital. Esto se hace cambiando las relaciones entre tiempo. i. podríamos usar el tono. amplitud y frecuencia. Hay esencialmente dos maneras diferentes de encriptar una señal vocal.4 kHz de ancho de banda. Por el momento simplemente enfatizamos que el mensaje vocal contiene dos tipos de información.3 GHz se permiten anchos de banda mayores. es posible digitalizar señales de voz sin incrementar el ancho de banda. tono. La primera es mezclar desordenadamente la señal de alguna forma.e. Realmente. i. Este método. Esta es la frecuencia de vibración de las cuerdas vocales. En la banda de ondas de muy altas frecuencias (VHF) de 30 .. para transmisiones de alta calidad se considera necesario un ancho de banda de al menos 15 kHz). Esto produce una reducción considerable en los costos de transmisión. y cada persona que habla tiene entonces un rango de cerca de una octava por encima y por debajo de esta frecuencia central (es decir. En esta situación la señal vocal se debe restringir a cerca de 2.

dígitos binarios. La tarjeta de sonido transforma el sonido recogido del micrófono en una señal eléctrica que. AMD. "Guía oficial de Sound Blaster" (extracto). 1994. NEC. El enlace más débil en grabación suele ser el micrófono. A continuación se incluye información relativa al popular sistema Sound Blaster. que produce sonido sintetizado FM en estéreo utilizando síntesis de dos o de cuatro operadores. Signetics. de manera que el software musical tiene un control limitado sobre ellos. Si se dispone de un reproductor CD-ROM. Al usarlos para la voz. 2-7 audífonos o de los altavoces. Philips. se transforma en audio digital y se almacena en disco. Northern Telecom. Estos armónicos. el cual consiste de una familia de tarjetas de sonido para PC. que se trata posteriormente. E1 primer modelo de la Sound Blaster Pro (modelo CT1330) se diseñó Peter Ridge y otros. y la síntesis de onda muestreada. probablemente por un controlador software. Los progresos relacionados con codificación del sonido se discuten en conferencias tales como la ICASS (IEEE International Conference on Acoustic. El sintetizador FM crea música sintetizada y. la tecnología más común para crear sonido musical en tarjetas de sonido para PC. voz y otros sonidos. Existe una diferencia notable entre tocar una nota instrumental y tocar una composición musical. La tarjeta de sonido tiene un ancho de banda sorprendentemente amplio. Las tecnologías clave son la síntesis FM. proporcionado por un disco de audio CD o por un disco CD-ROM. Fijitsu. que cubre efectivamente el gama completo de escucha humana. Cuando se trata de reproducción. El audio digital puede utilizarse para grabar y reproducir música. En el caso del sistema de sonido de la computadora. Osborne McGraw-Hill. A continuación se introducen las tecnologías de audio para crear sonidos musicales instrumentales: síntesis FM y síntesis de onda muestreada. El sintetizador FM es la tecnología electrónica más popular para crear sonidos musicales. Lo más probable es que la música electrónica que se escuchó proveniente del PC se genere en el sintetizador de FM. dan a todos los tipos de sonido (incluyendo los instrumentos sintetizados FM) un timbre único. La tercera onda contenía las dos ondas originales. Hablando estrictamente. éste es el ancho de banda necesario para reproducir audio digital. en 1971. Los sonidos melódicos son sonidos instrumentales generados por software. el sintetizador FM puede generar hasta 16 sonidos melódicos y seis sonidos de percusión. En el modo de dos operadores. E1 sintetizador FM (que los músicos abrevian como "sint") produce una amplia gama de sonidos que incluye música y efectos especiales. También se incluye un artículo sobre las formas de almacenamiento del sonido bajo Windows. Este abismo se cubre con el lenguaje musical MIDI. Por ejemplo. posteriormente. Yamaha ha reducido la tecnología de síntesis FM a un solo chip más pequeño que la uña de un dedo. Speech and Signal Processing). también podrá añadirse al conjunto de fuentes de audio disponibles sonido CD. La calidad del sonido producido por la computadora refleja el esfuerzo de muchas componentes. que tiene probablemente una envolvente en respuesta de 3 dB a aproximadamente 12 kHz. En los últimos años. De particular importancia para aplicaciones multimedios son las técnologías de procesamiento del sonido utilizadas en estaciones de trabajo y computadores personales. el sintetizador FM puede soportar hasta seis sonidos melódicos y cinco sonidos de percusión. una señal debe pasar por muchas fases de transformación de audio y por diferentes dispositivos. su suma y diferencia y sus armónicos. Síntesis FM La conocida técnica de modulación en frecuencia simple (FM) para síntesis musical fue inventada por John Chowning. Sintetizador FM de la tarjeta de sonido: La Sound Blaster Pro Deluxe. que normalmente no es la tarjeta de sonido Sound Blaster. el ancho de banda de la tarjeta de sonido Sound Blaster 16 se extiende desde los 20 Hz hasta los 20 kHz. Texas Intruments. también puede crearla un sintetizador de onda muestreada. Pag. de la Universidad de Stanford. Chowning descubrió que el uso de una onda sinusoidal para modular otra podía crear una tercera onda. consideremos el sonido grabado mediante un micrófono y que luego es reproducido. El audio digital del disco es transformado de nuevo en una señal eléctrica y reproducido a través de los . tales como Siemens. Todas las tarjetas de sonido de Creative Labs tienen un sintetizador FM que trabaja del mismo modo que lo hace un sintetizador de teclado de Yamaha. Los sonidos de percusión se programan en el interior del chip cuandó se confecciona en la fábrica. etc. estos sonidos pueden cambiarse mediante programas musicales de software que envían nuevas instrucciones al chip sintetizador FM. ondas cuya frecuencia es múltiplo de las dos ondas originales. 8 kb/s y hasta 4 kb/s. el enlace más débil se encuentra en los altavoces del PC. rica en timbre musical (complejidad musical o riqueza). AT&T. En el modo de cuatro operadores. Allí se pueden ver las nuevas realizaciones de los fabricantes.711 del UITT). Hitachi. a menos que los altavoces adquiridos sean muy buenos. la Sound Blaster Pro 2 (modelo CT1600) y la Sound Blaster 16 se han construido con el chip más reciente de síntesis FM de Yamaha YMF262 (OPL3). muy por debajo de los 64 kb/s del PCM normalmente utilizado (según la Recomedación G. La modulación en frecuencia indica la leve variación de frecuencia que produce una onda en otra. y la salida no será mejor que la interpretación del miembro menos capacitado de un grupo. en el caso de la Sound Blaster 16 con Wave Blaster opcional. una tecnología que produce mejores sonidos pero que es más compleja. El ancho de banda efectivo del sistema de sonido está limitado por el dispositivo con el ancho de banda más estrecho de todos los dispositivos que procesan el sonido. NTT. se pueden usar velocidades de transmisión digital de apenas 16 kb/s. algunas de las cuales solapan sus capacidades. Las tarjetas de sonido Sound Blaster de Creative Labs poseen una gran cantidad de características y tecnologías. Es importante tener en cuenta que el ancho de banda de un equipo de sonido depende del enlace más débil del canal. incluyendo un tam-tam o tamborcito.

A diferencia de una grabación. en un sintetizador de teclado MIDI externo o en un instrumento con entrada MIDI. Estas notas se procesan digitalmente para ajustar su tono. es posible cambiar los instrumentos y la propia melodía. Esta secuencia de instrucciones MIDI especifica el instrumento a tocar. 2-8 onda muestreada. La figura siguiente (no mostrada) ilustra la síntesis en FM para dos operadores y el modo en el que la célula moduladora de Yamaha modula la segunda célula. Cualquier composición que se toque con un teclado u otro instrumento MIDI puede grabarse y almacenarse en la computadora como un archivo MIDI. La síntesis de onda muestreada. computadoras y otros dispositivos MIDI. Esto se debe a que la física del sintetizador FM guarda poca relación con la física de producción de sonido de la mayoría de los instrumentos musicales. Las muestras instrumentales de la tabla de ondas son de 16 bits. la música MIDI ha Ilegado a ser una parte esencial de un estudio de grabación. Es el estándar mediante el que se comunican los sintetizadores. teclados. hoy se ha convertido en un estándar para la música electrónica extendido por todo el mundo. Reproducción de composiciones musicales con MIDI La Interfaz Digital para Instrumentos Musicales (MIDI) ha reformado completamente el mundo musical proporcionando la posibilidad de que músicos aficionados graben e interpreten música sofisticada. frases musicales y otros elementos. módulos de sonido (sintetizadores sin teclado). de modo que crear sonidos que se parezcan a instrumentos familiares es un proceso de prueba y error. sirviendo como una banda de copias inagotable. Síntesis de onda muestreada La síntesis FM ha sido la técnica utilizada usualmente para sintetizar el sonido de instrumentos musicales. Si ha tocado algún piano electrónico de los que suenan de modo similar a los reales. Sin embargo. MIDI es la tecnología que toca una composición musical que abarca cientos de notas además de otros detalles de la interpretación musical. En el modo de cuatro operadores se conectan en serie dos pares de células. Es posible reconocer el sonido de una flauta como el sonido producido por un instrumento de viento. que se denomina síntesis de onda muestreada. ya conoce la tecnología de síntesis de Pag. otra tecnología. los chips de síntesis en FM monoaurales Yamaha 3812 (OPL2) capaces de crear 22 sonidos estéreo. Inconvenientes de la Síntesis FM: La síntesis FM presenta dos inconvenientes. de modo que incluso un niño de cinco años podría pensar "¿Se trata de una flauta mágica?" El segundo inconveniente es que es difícil recrear fielmente el sonido de instrumentos familiares. En otras palabras. cuando se pulsa. Del mismo modo. sino en que puede recrear una interpretación musical. de modo que fijando un interruptor y cerrando los ojos. por tanto.MFF) contiene la misma información que puede verse en una partitura: una lista de notas de duración y tono variables. un archivo MIDI almacenado en la computadora puede reproducirse en el sintetizador propio de la tarjeta de sonido.MID o. que son monaurales. se puede estar tocando un clavicordio o un piano. Mientras que la síntesis FM y la síntesis de tablas de onda son tecnologías para tocar sonidos instrumentales. Desde que MIDI surgió hace 10 años. Una característica particularmente valiosa del chip de síntesis FM Yamaha (su capacidad para gestionar el trabajo involucrado en la creación de sonido musical. Véase el Apéndice A para una explicación más detallada de la forma en la que la síntesis en modo de dos y de cuatro operadores produce una amplia gama de sonidos instrumentales y de efectos especiales. Un archivo MIDI (que normalmente tiene la extensión . Estas muestras proporcionan un sonido instrumental mucho más real que el obtenido a partir de la síntesis FM con cuatro operadores (o incluso ocho operadores). Los . manipula digitalmente una muestra representativa de sonido para crear la gama completa de notas. contienen un solo chip Yamaha 3812 (OPL2). El más serio es que la música suena. llamada célula transportadora. hace uso de dos modelos anteriores a éste. La mayoría de estos prodigios electrónicos dispone de interruptores.antes de que el YMF262 estuviera disponible y. así como para incrementar la velocidad del teclado o rebajar la intensidad y otros efectos de la interpretación como el trémolo (una lenta y sutil variación en la fuerza con la que se toca una nota). con tiempo. La célula transportadora determina la frecuencia base del tono. liberando así a la CPU de tal carga) ha conducido a su implantación en la mayoría de las tarjetas de sonido. está preparada para ponerse por delante siempre y cuando se abaraten sus costos. en el mejor de los casos. la síntesis FM es más un arte misterioso que una ciencia. E1 teclado derivado de tablas de onda contiene 4MB de memoria de sólo lectura (ROM) que incluye muestras digitales de instrumentos originales. Por esta razón. La Sound Blaster Deluxe y las anteriores tarjetas Sound Blaster. Datos musicales MIDI Un paquete de software secuenciador dirige a los instrumentos MIDI para reproducir música tocando una secuencia de notas y otras instrucciones musicales que están almacenadas como un archivo MIDI. la tecla a pulsar y. la fuerza con la que hay que hacerlo. mientras que la célula moduladora determina los armónicos que dan al tono su singular timbre. que son muestras audio de calidad CD. sólo bien. Una Sound Blaster 16 con la placa auxiliar Wave Blaster (una pequeña tarjeta que se introduce en la tarjeta de sonido) convierte al PC en un estudio musical de categoría profesional. La Sound Blaster 16 con la Wave Blaster es la primera tarjeta de sonido de Creative Labs en la que se aplica esta nueva tecnología. La programación cuidadosa de los parámetros del sintetizador de FM permite crear una amplia variedad de sonidos instrumentales musicales y sonidos de efectos especiales. conocida también como síntesis de tablas de onda. La belleza del software de un secuenciador está no sólo en reproducir una grabación de una interpretación pasada. dando lugar a un timbre más rico que el generado con el modo de dos operadores. Los archivos MIDI son significativamente diferentes de los archivos de audio digital como los archivos VOC y WAV.

mientras que con unos pocos miles de bytes de datos MIDI es posible tocar música durante horas. por ejemplo. Los circuitos de modulación de código pulso (PCM) de la tarjeta de sonido que gestionan la ADC y la DAC son excelentes. Conversión analógica-digital (ADC): El proceso ADC convierte la señal analógica continua en series de valores digitales discretos muestreando. Esta interfaz es bidireccional. de 16 bits.terminología empleada por los entusiastas del audio para expresar la exactitud en la réplica de la música original -. Pag. Con el software adecuado -probablemente un programa secuenciador MIDI -. El cable de la interfaz MIDI que viene con el equipo opcional de ampliación MIDI de Creative Labs tiene un conector en un extremo que se conecta al puerto de juegos MIDI de la tarjeta de sonido. cuando se está dispuesto a escuchar la obra maestra. Un archivo MIDI no sólo es más compacto que un archivo de audio digitalizado. de Voyetra Technologies. Pueden mezclarse archivos de sonido. como un "no" en una frase grabada. puede hacerse uso de la potencia de la CPU de la computadora para transformar este sonido de miles de modos. casi comparables a los de los reproductores CD. ajustarse el tono de la voz de manera que no pueda reconocerse y muchas cosas más. Conversión digital-analógica (DAC): El proceso DAC convierte los valores digitales discretos que representan al sonido en una señal analógica continua utilizando un filtro que suaviza los picos más bruscos. Interfaz MIDI Muchos teclados y pianos electrónicos tienen incorporada en la actualidad una interfaz MIDI. Pueden eliminarse trozos de voz. entre la computadora y el equipo MIDI a través de la interfaz MIDI de las tarjetas de sonido. el proceso de conversión digital-analógica (DAC) transforma de nuevo los bytes de sonido a una señal eléctrica analógica que emiten los altavoces. El paquete MIDI más frecuentemente adquirido incluye software de secuenciador MIDI y un cable para la interfaz. Obsérvese que la onda continua se aproxima mediante series de valores de 8 bits. La figura siguiente (no mostrada) ilustra cómo funciona la conversión analógica-digital. que suele ser un sintetizador de teclado. Los datos MIDI pueden pasar. Estos paquetes incluyen en la actualidad un programa secuenciador para Windows de Microsoft denominado Cakewalk Apprentice para Windows. añadir reverberación o eco a la música o a la voz. grabado de forma digital a partir de la captura de miles de muestras por segundo. mediante un proceso denominado conversión analógica-digital (ADC). el paquete MIDI incluía un programa secuenciador para DOS denominado Sequencer Plus Pro (SP Pro). Paquetes de ampliación MIDI Creative Labs ofrece varios paquetes de ampliación MIDI. Una vez que los datos de sonido se han almacenado como bytes en la computadora. como el programa secuenciador Cakewalk Apprentice y los reproductores MIDI.archivos de audio digital contienen sonido real. análoga al sonido original. Si las medidas se toman a una frecuencia de muestreo alta. Muestreo: Conversión analógica-digital y viceversa Comenzaremos con la captura del sonido haciendo uso del micrófono. Velocidad y tamaño de muestra La fidelidad -. se incorpora automáticamente a la computadora una interfaz MIDI. El otro extremo se conecta a un dispositivo MIDI. E1 hardware es un sintetizador en la tarjeta de sonido. el sintetizador de FM que se encuentra en todas las tarjetas de sonido de Creative Labs o el sintetizador de onda muestreada Wave Blaster que está disponible para la Sound Blaster 16. Anteriormente. que se almacenarán como bytes en un archivo del disco. Esta señal se denomina señal analógica porque es una señal continua. es como un archivo de procesamiento de texto: puede modificarse sin limitación alguna. Una analogía apropiada para estos dos tipos de archivo podría ser la de un documento fax y un archivo de procesamiento de texto. tomando medidas instantáneas de la amplitud de la señal a una velocidad constante. Un archivo MIDI. Utilizando un tamaño mayor de muestra. 2-9 alternativamente. Cuando las ondas de sonido llegan al micrófono. de modo que la forma de onda de la señal no varíe demasiado entre las muestras. es decir. ya que acepta datos MIDI provenientes de un teclado MIDI u otros controladores (dispositivos que controlan sintetizadores y módulos de sonido) y transmite datos MIDI a instrumentos MIDI exteriores. manipular y reproducir sonido. contiene sólo instrucciones sobre la manera de tocar un instrumento. por otro lado.del sonido audio digital depende de la selección de la correcta frecuencia de muestreo y del correcto tamaño de . de Twelve Tone Systems. Con el software adecuado es posible. el movimiento mecánico se traduce en una señal eléctrica. el proceso ADC puede realizar un buen trabajo de aproximación a la onda de sonido analógica.puede utilizarse la computadora para controlar completamente una red de dispositivos MIDI. La música MIDI. Finalmente. debe transformarse el sonido de una forma analógica audible a una forma digital aceptable por la computadora. pero no puede hacerse más modificación que la de cortar y pegar para cambiar zonas del mismo. sino que también es completamente editable. MIDI y controladores software Los controladores software son el puente entre el hardware que crea el sonido de las notas y los programas que tocan música MIDI. por el contrario. incluyendo el siempre presente sintetizador de teclado. variando estos valores desde +128 hasta -127. como Creative JukeBox y Media Player de Microsoft. El fax puede leerse y el archivo de audio digitalizado se puede reproducir. es posible crear una réplica superior del sonido. de modo que el único límite está en la imaginación del usuario y no en la capacidad de interpretación de la tarjeta de sonido. Los archivos de audio digital pueden necesitar millones de bytes de datos para tocar tan sólo unos minutos de música. Cuando se instala una tarjeta de sonido de Creative Labs. Grabación y reproducción de audio: Bases del audio digital Antes de que la computadora pueda grabar.

1 kHz de la Sound Blaster de la Sound Blaster Pro es más que suficiente. es posible repetir con exactitud una forma de onda si la frecuencia de muestreo es como mínimo el doble de la frecuencia de la componente de mayor frecuencia. que se suma a la envolvente de los circuitos digitales. toman muestras de sonido de 8 bits (1 byte). Los oídos humanos. pero son aún más sensibles a la fuerza del sonido.muestra. en una realización práctica el ancho de banda está cerca de los 20 kHz. frecuencias de onda del orden de 22. sin embargo.asumiendo que se dispone de una Sound Blaster 16 capaz de afrontar esto -. Si se dispone de un sistema con 16 MB de memoria RAM es posible almacenar cerca de dos minutos de audio digital en la memoria RAM del sistema antes de que la computadora lance al usuario un mensaje de salida para comer.100 muestras por segundo. ¡consumirá cerca de 10MB de memoria en sólo un minuto! La limitación será aún mayor si se graba en memoria y no en disco. emitiendo voz y música con una fidelidad equivalente a los reproductores CD actuales. Según el teorema de Nyquist. cada medida consume 1 byte de almacenamiento de la memoria de la computadora o del disco. el ancho de banda efectivo de las tarjetas de sonido queda ligeramente por debajo del máximo teórico. Estas restricciones se discuten en detalle para cada programa de utilidad. no puede bloquear todas la frecuencias que están por encima de una determinada y. perciben el sonido de 8 bits en un tono apagado o desafinado si se compara con el sonido de audio digital de 16 bits. Este valor es el utilizado hoy en los reproductores de audio CD. que están acostumbrados a detectar sonidos con variaciones de varios órdenes de magnitud en la fuerza. los equipos de grabación de los que disponen los estudios comerciales utilizan por esta razón una frecuencia de muestreo de alrededor de 48 kHz. puedan recogerse con precisión. pueden pasar todas las frecuencias que están por debajo de ella. EI único problema que aparece -.58 MB.000 Hz proporciona una grabación de la voz femenina de mayor calidad. con un canal izquierdo y otro derecho que producen una frecuencia de muestreo combinada de 88.000 Hz.1 kHz con muestras de 16 bits (2 bytes).050.536 pasos (gama de 90 dB) -. en teoría. que posee componentes con una frecuencia más alta. tomando muestras simultáneamente en los canales izquierdo y derecho a 44.05 kHz. en el máximo de frecuencia de muestreo. Los oídos son más sensibles a la detección de diferencias en el tono que en la intensidad.una mejora sustancial.100 Hz (en realidad en estéreo es de 88. Los archivos de audio digital pueden grabarse seleccionando la frecuencia de muestreo. conjunto de circuitos utilizados para bloquear el ruido de alta frecuencia que se infiltra en la grabación. Por ejemplo. Por el contrario. Pag. Existen varias razones para no utilizar las frecuencias de muestreo más altas.200 muestras por segundo. un minuto de grabación rellenará un disco de 360K. A medida que aumenta la frecuencia de muestreo. Por ejemplo.1 kHz puede grabar. Por ejemplo. La Sound Blaster 16. a 44. El oído humano percibe todo un mundo de diferencias entre estos dos tamaños de muestra. De hecho. de modo que la frecuencia de muestreo de 44. se podría asumir que todo lo que hay que hacer para obtener buen sonido es grabar a la velocidad límite de 44.x y 2. El problema se encuentra en que el filtro de entrada. cuando se utiliza VEDIT2 (el grabador y editor de sonido para DOS de la Sound Blaster Pro) en un PC con 640K. sólo pueden grabarse 6 segundos de estéreo a 22. El resto no tiene otra elección más que la de enviar los datos directamente . Las tarjetas Sound Blaster Pro y la Sound Blaster 16 son capaces también de trabajar en estéreo con una velocidad máxima de reproducción de 22. La Sound Blaster y la Sound Blaster Pro manejan muestras de 8 bits. Las tarjetas de sonido de 16 bits de Sound Blaster ofrecen la posibilidad de elegir entre un tamaño de muestra de audio digital de 8 bits (1 byte) o de 16 bits (2 bytes). Mientras que un muestreo a una frecuencia de 44. las muestras de 8 bits limitan el gama dinámica a 256 pasos (gama de 50 dB). La frecuencia más alta que puede percibir el oído humano está cercana a los 20 kHz.050 Hz antes de ocupar completamente la memoria. El tamaño de muestra controla el gama dinámica que puede grabarse. Esto hasta cierto punto es debido a que la frecuencia de muestreo es demasiado baja para reconstruir con precisión las componentes de mayor frecuencia de onda. Debido a que el filtro de entrada tiene su propia envolvente. una muestra de 16 bits tiene un gama dinámica de 65.0 impone restricciones adicionales en la frecuencia de muestreo. la Sound Blaster y la Sound Blaster Pro. grabando hasta 44. como el sonido del cristal de una copa de vino o el del arqueo de un violín.200 muestras por segundo). 2-10 Para la mayoría de los amantes del sonido. Una frecuencia de muestreo de 8. La restricción principal es que no puede utilizarse una frecuencia de muestreo demasiado elevada si se piensa empaquetar (comprimir) los archivos. una velocidad de 6. el audio CD carece de cierta riqueza en el sonido. la especificación MPC de Nivel 2 obliga a que las muestras sean de 16 bits. A una frecuencia de muestreo de 6. El hardware de las tarjetas Sound Blaster 1. Cada muestra de 8 bits (Sound Blaster y Sound Blaster Pro) consume 1 byte de memoria o de espacio en el disco. siendo este último el número de bytes utilizados para almacenar cada muestra. En primer lugar. Compromisos en el muestreo: Basándonos en la literatura existente. Mientras que la especificación MPC (Multimedia PC) de Nivel 1 requiere muestras de 8 bits. las frecuencias de muestreo altas necesitan gran capacidad de almacenamiento.000 Hz (6. que escasamente coincide con el ancho de banda del oído humano. Frecuencia de muestra: La frecuencia de muestra (también denominada frecuencia de muestreo) debe ser lo suficientemente alta para que los sonidos de alta frecuencia.es el costo en espacio en el disco. una muestra de sonido de un minuto necesita un espacio para almacenarse de 10. La Sound Blaster 16 constituye el sueño hecho realidad de un distribuidor de unidades de disco. pero no lo es para una voz femenina típica. La Sound Blaster 16 puede grabar en estéreo. no es un dispositivo perfecto. Si se graba en estéreo. La Sound Blaster 16 maneja muestras de 16 bits (2 bytes). Ambas tarjetas. Tamaño de muestra: El tamaño de muestra es la otra componente de mayor influencia en la fidelidad del audio digital.000 muestras por segundo) una voz masculina típica. aumenta la calidad.1 kHz.

Lo aconsejable es usar la frecuencia de muestreo más baja posible. almacena los parámetros para crear sonidos instrumentales. después de haber realizado la grabación con el programa Voice Edit del DOS de la Sound Blaster (VEDIT2) que viene con la Sound Blaster Pro. al igual que el bloque instrumental del archivo CMF. Los formatos de archivo de mayor uso en computadoras personales se describen en la siguiente lista. una por el canal derecho y otra por el canal izquierdo. Cada programa software sólo puede leer un número pequeño de formatos de archivos. si suena bien. Por ejemplo. texto y muestras de sonido. que contiene los parámetros para programar con los sonidos instrumentales deseados el sintetizador FM de la tarjeta de sonido. incluso en la Sound Blaster 16. Las aplicaciones de sonido en los IBM PC normalmente no hacen uso de este formato de archivo. Commodore Amiga también utiliza este tipo de formato. La corriente más actual en audio digital aconseja seguir las directrices dadas a continuación con el fin de conservar el espacio de almacenamiento: • Grabar en mono en vez de en estéreo. de manera que son buenos candidatos para utilizar muestras de 8 bits y una frecuencia de muestreo baja. Un archivo CMF incluye un bloque instrumental. sin embargo. • Siempre que sea posible. El ancho de banda de un teléfono es de sólo 3 kHz. FORMATO MUSICAL CREATIVE (CMF): El Formato Musical Creative (CMF) es uno de los dos formatos de archivo promovidos por Creative Labs para almacenar música. la reproducción iterativa de un bloque o de un grupo de bloques. Las notas musicales se almacenan en un bloque musical. Las técnicas de compresión utilizadas por Soundo'LE y VEDIT2 se describen en el Apéndice A. Aunque lo deseado para una buena reproducción musical es disponer de muestras de 16 bits. Un método seguro para ahorrar espacio en el disco es el de grabar sonido en mono en lugar de en estéreo. Por ejemplo. Sólo si el software entiende el formato del sonido es posible realizar un trabajo aceptable de compresión sin pérdida de excesiva fidelidad. FORMATO DE ARCHIVO DE INTERCAMBIO DE AUDIO (IFF): Apple Macintosh utiliza el Formato de Archivo de Intercambio de Audio (IFF) para almacenar muestras de sonido audio digitalizado. que hace años intentó desarrollar formatos de archivo industriales estándar para gráficos. en la mayoría de los casos. Los archivos de audio necesitan utilidades de compresión que contengan algoritmos en software. Compresión de audio digital Los archivos de sonido tienen ciertas particularidades por lo que respecta a la compresión de los mismos. Cuando se elige la frecuencia de muestreo. De acuerdo con el teorema de Nyquist. • Utilizar la menor frecuencia de muestreo. El archivo CMF se ha diseñado para trabajar con el chip estándar industrial Yamaha. que entiendan el "aspecto" del sonido. Admite varias frecuencias de muestreo y tamaños de muestra de hasta 32 bits por muestra. que se ejecuta bajo Windows de Microsoft y que ahora se incluye en todas las tarjetas de sonido de Creative Labs. pero teniendo en cuenta la relación de 10 MB por minuto es posible que el disco se ocupe antes de que se haya preparado un sandwich. o técnicas matemáticas. La compresión se lleva a cabo para ahorrar espacio de disco. no hay posibilidad de elegir. supongamos que planeamos grabar una conversación telefónica. de modo que es necesario tener un mínimo conocimiento sobre el formato que utiliza cada uno antes de pagar una factura telefónica enorme a CompuServe o comprar una pila de discos que contengan programas inútiles. Creative Soundo'LE. La lista se ha ordenado por el nombre del formato de archivo (la extensión usada aparece entre paréntesis) e incluye una breve descripción sobre la utilización de cada formato de archivo. Este formato de archivo procede de Electronic Arts. Apple Macintosh y el IBM PC original. Los efectos especiales son. a diferentes formas de almacenar el sonido en disco y a diferentes extensiones de archivos para distinguir entre los formatos. que. Un bloque es una subdivisión de un archivo análogo a un bloque en una ciudad. a partir de muestras de 8 bits para efectos especiales y para la voz. puede comprimir opcionalmente mientras graba si la tarjeta sobre la que se está ejecutando es una Sound Blaster 16. se debe intentar grabar el sonido con muestras de 8 bits. ya que la entrada a éste es mono. es decir. En el caso de la voz.1 kHz si el micrófono utilizado funciona a 12 kHz y la fuente de sonido es una voz masculina grave que no supera los 7 kHz. que se añade al Formato de Archivo MIDI Estándar. la grabación será acertada si la frecuencia de muestreo es de 6 kHz o mayor. Las plataformas caracterizadas por una marca de sonido y archivos de sonido exclusivos incluyen el Commodore Amiga. ruidosos. es posible lograrla. se habrá conseguido ahorrar un 50 por 100 del espacio de almacenamiento. Un formato de archivo relacionado es el Formato Instrumental de la Sound Blaster de Creative Labs. El término bloque se utiliza a veces para describir la arquitectura interna de un formato de archivo. En mono se toma una muestra en cada instante de tiempo. Con la llegada de Windows de Microsoft el sonido de computadora en el PC se ha ampliado con formatos de archivo adicionales. Si se graba del micrófono. Formatos de archivos de sonido El sonido de la computadora compatible IBM PC ha surgido desde muchos frentes. dando lugar a diferentes formatos de archivos de sonido.Pag. mientras que en estéreo se toman dos muestras. 2-11 al disco. utilizar muestras de 8 bits para obtener efectos de sonido y de voz. Una característica interesante de este formato de archivo es que admite lazos. no existe ningún problema en la grabación de audio digital a 44. Cada bloque de información contiene datos del mísmo tipo. como puede ser audio digital de 16 bits o audio digital de 8 bits o música MIDI. también hay que considerar el ancho de banda de todo el sistema. utilizado para sintetizar música en FM. de modo que es posible que no se ahorre demasiado si se utilizan programas de utilidad de compresión como PKZIP o una utilidad de duplicación de disco. Pueden almacenarse juntos hasta 128 parámetros de voces ins trumentales en el archivo de banco .

ScreamTracker S3M (hasta 10 canales) y 669 (ocho canales). tanto para un aficionado como para un profesional. El Tipo 0 no está recomendado porque admite solamente una traza. Al igual que el archivo CMF. L. Por ello RIFF ha Ilegado a ser muy popular. y marcadores de silencio que reemplazan zonas de silencio con un pequeño marcador. Son más grandes que los archivos MIDI.. MOD (MOD): El formato de archivo MOD proviene del Commodore Amiga. AUDIO (AU): Las estaciones de trabajo de Sun Microsystems utilizan archivos de audio comprimido de 16 bits A-law y µlaw. Las muestras de 16 bits pueden comprimirse sólo en dos formatos: 4 bits. a una compresión 2:1. CMF y ROL. Existen dos variaciones del MIDI "estándar" en el software MIDI. proporcionan la calidad y la flexibilidad del audio digital sin el consumo asociado a una grabación digital completa. el archivo ROL contiene una lista de notas. como unos marcadores especiales que repiten un bloque. También se puede repetir un sonido instrumental indefinidamente con el fin de obtener un efecto de eco o reverberación. Las muestras de audio digital del archivo Voice pueden grabarse con una amplia gama de frecuencias de muestreo. Los archivos MOD presentan varias características excelentes. ScreamTracker (cuatro canales). que da lugar. gráficos y vídeo. unos marcadores de sincronización que los programas de presentación multimedios pueden utilizar para sincronizar la reproducción de archivos VOC con sonido.6. 3:1 y 2:1. Estos archivos VOC de 16 bits pueden crearse y reproducirse con programas de utilidad de voz incluidos en la Sound Blaster 16. pero comenzando a ser considerados. capaz de incluir "chunks" (término de Microsoft para designar bloques) con formatos de los datos muy diferentes. cada una de las cuales puede tener fijado su propio volumen.MOD y contienen cuatro canales de música.10 del formato de archivo). en la tarjeta de sonido Sound Blaster. proporcionando una compresión de 4:1. un deslizamiento ascendente o descendente del tono. Cuando se reproducen los archivos MOD. como Goldware (un editor de libre circulación) y Sound Forge de Sonic Foundry. y para emplear en aplicaciones Macintosh. como HyperCard.con el que hay que ser cauteloso -. como el sonido de alarma del altavoz incorporado en el Macintosh. La característica más significativa de los archivos MOD es la de contener muestras de audio digitalizadas de instrumentos musicales actuales. En este momento el formato de archivo Wave de Miccosoft es el formato . 2-12 instrumental de una Sound Blaster (IBK). que producen una compresión 4:1 y 8 bits. está preparada para ser compatible con secuenciadores previos.es que los archivos MOD pueden presentarse de muchas maneras. El formato de archivo Voice incluye características especiales. El estándar MIDI Tipo 1 es la variante más moderna de MIDI.20 del formato de archivo). Todas estas características se combinan para producir música que suena muy bien. Véase la descripción de los archivos Wave (WAV) (un tipo de archivo que también puede ser un bloque RIFF). RIFF (RMI): El Formato de Archivo de Intercambio de Recursos de Microsoft (RIFF) se ha diseñado como el último formato de archivo para multimedia Windows. Hasta hace poco los archivos VOC tenían sólo 8 bits (versión 1. 2. Lo original de RIFF es que puede albergar bloques que aún no se han inventado. Los archivos . que protege fielmente una composición como una partitura multitraza. y una curva de tono. para usar con la tarjeta de sonido de AdLib. una lenta vibración en amplitud. los archivos ROL pueden tocarse. La mayoría de los archivos tienen la extensión . ScreamTracker NST (cuatro canales). cuando los requisitos de sonido son sencillos. Los datos pueden almacenarse como muestras sin comprimir o en una forma comprimida. Inc. Aunque esto pueda parecer una desventaja. Estos formatos incluyen audio digital Wave (WAV) y bloques MIDI. VOICE (VOC): Creative Labs popularizó el formato de archivo Voice (VOC) para audio digital. Con la introducción de la Sound Blaster 16. de forma que no todos los archivos MOD sonarán igual en los reproductores MOD. un programa de software proporcionado por AdLib. si se dispone un programa de utilidad musical. ROLL (ROL): Los archivos Roll nacen con Visual Composer. el formato Tipo 0. Se utiliza para expresar sonidos cortos. tiempos y cambios intrumentales.admitido por Apple. El formato de archivo ROL se diseñó para poder generar música en el chip sintetizador de FM Yamaha de las tarjetas AdLib. almacénelo en MIDI Estándar. y puede transformarse mediante programas de utilidad como SOX.sólo 8 bits por muestra -. el lenguaje universal del mundo musical MIDI. Se pueden asignar a cada nota efectos especiales como el vibrato. cada nota se toca tomando la muestra de sonido instrumental para esa nota y tocándola rápida o lentamente para darla el tono musical adecuado. SOUND (SND): El Formato de Archivo de Recursos de Sonido (SND) de archivo de audio digital compacto -. Otros formatos disponibles son NoiseTracker (cuatro canales).AU de Sun pueden leerse y transformarse en cualquier otro tipo de archivo gracias a un grupo de editores de audio digital. disponible en Internet. Pueden contener hasta 31 voces instrumentales (sólo 4 u 8 se tocan a la vez).Pag. Este tipo de archivos de sonido es común en Internet. respectivamente. Los archivos MOD tienen varias ventajas e inconvenientes. pero hay una tendencia hacia reproductores MOD y música de ocho canales. para el que es el formato de archivo musical probablemente más popular.os archivos Voice son nuevos para el entorno Windows. La versión anterior. aunque la eficiencia en la organización es menor que la de los archivos CMF. MIDI (MID O MFF): Si necesita compartir un archivo MIDI con un amigo. Un inconveniente mayor -. el formato de archivo Voice se amplió para permitir muestras de 16 bits (versión 1. Los archivos MOD contienen generalmente cuatro canales de música y cada canal se dedica a un solo sonido instrumental.o 4 bits por muestras de 8 bits. Puesto que todas las tarjetas de sonido Sound Blaster contienen el mismo chip Yamaha. Las muestras de 8 bits pueden comprimirse en uno de estos tres formatos: 2-. como se pone de manifiesto en la aparición de editores de sonido y servicios que permiten este formato.

Pag. un micrófono barato puede distorsionar excesivamente la señal a 10 kHz. Este ejemplo específico de ecualización también se puede realizar mediante un sistema analógico de circuitería de audio con un costo de tan sólo unos pocos dólares. Son pocos los productos comerciales que incorporan archivos de sonido VOC comprimidos porque el esquema de compresión no es compatible con tarjetas de sonido que no sean Sound Blaster. Instrumentos musicales Tanto la repetición como la complejidad son elementos esenciales de la música. Por ejemplo. 22. Hay efectos especiales que sólo se consiguen manipulando el sonido que cae dentro de una estrecha gama de frecuencias. con lo que se prolonga lo bastante como para dar a nuestros oídos la sensación de un tono. pero en cambio funcionar razonablemente bien con un ancho de banda más bajo. Describe las forma de onda complejas. son idénticas al audio digital encontrado en los discos CD-ROM. Usted atestigua esto cada vez que reconoce la risa de un amigo en el teléfono o la voz de su cantante favorito en la radio. La cualidad de la repetición de la voz se hace presente en los bloques fonéticos con los que se construye el discurso. El apéndice concluye con un estudio en profundidad del sistema de voz DECtaIk. así que. es posible reducir la intensidad de las frecuencias en torno a 10 kHz para crear una señal que suena como si se hubiera grabado con un micrófono mucho mejor y con un ancho de banda más bajo. probablemente. WAVE (WAV): Microsoft adoptó el Formato de Archivo Wave (WAV) para emplearlo con las extensiones multimedios de Windows. la repetición se produce en el ritmo. El término armónico describe las relaciones entre las ondas. ecualizaciones más cnplejas. La ulterior discusión sobre el procesamiento de señales digitales le introducirá en el conocimiento de las últimas tecnologías sobre el sonido que Creative Labs está planeando al mercado. Esta es la utilidad práctica del teorema de Fourier. Lo contrario también es cierto: una serie de ondas simples puede combinarse para dar una onda compleja. En el canturreo de una partitura musical. que ituye el alma de la familia de los productos de síntesis (síntesis de voz a partir de texto) TextAssist. que está llamado a ser se de la próxima generación de tarjetas de sonido de gama alta de Creative Labs. Para un físico o ingeniero que observa las ondas de sonido cruzando la pantalla del osciloscopio. Mediante la técnica denominada ecualización. los mecanismos de la síntesis FM. donde la onda tiene frecuencias que son múltiplos de las llamadas frecuencias fundamentales.dominante en entornos Windows para audio digital. Un inconveniente de Wave es que no permite los lazos de bloques de sonido. Voz Se ha dicho que de todos los instrumentos musicales la voz humana es la más versátil y expresiva y la que tiene el timbre más rico. Las ristras de datos de sonido eliminadas de las cabeceras y otra información descriptiva. Se pueden ver más detalles acerca de estos bloques fundamentales de construcción y de las características de la voz en el Apartado "Tecnología de voz de DECtalk" que se encuentra más adelante. Es difícil encontrar archivos VOC comprimidos a menos que los cree uno mismo. La técnica FFT también es la base de la mayoría de los programas de reconocimiento de la voz y un lugar común en las aplicaciones tanto comerciales como militares. El teorema de Fourier predice que una onda compleja puede reducirse a una serie de ondas simples. Cómo se reducen las formas de onda complejas a sus componentes simples: El análisis de Fourier Un factor intrigante de las formas de onda complejas. la melodía. Estos bloques de construcción son relativamente un pequeño conjunto de los muchos posibles sonidos que Ios humanos somos capaces de pronunciar. gestiona datos en mono o en estéreo y admite tres frecuencias de muestreo: 11. Formas de onda complejas Esta sección tiene la misión de describir las formas de onda complejas que son el fundamento de la música y la voz. Entre ellas se cuenta el chip DSP EMU8000. así como efectos especiales tales como cambiar la velocidad de reproducción una voz sin cambiar el tono de la persona. no son fáciles de Ilevar a cabo con circuitos analógicos. le fascinará una vez que haya aprendido los principios básicos. es decir. E1 segundo armónico tiene dos veces la frecuencia de la onda fundamental y el tercer armónico tiene tres veces la frecuencia de la fundamental. Fast Fourier Transform). . la repetición se traduce en que la misma forma de onda aparece cientos o miles de veces. Este formato de archivo es admitido por casi todas las aplicaciones multimedios basadas en Windows y por todas las tarjetas de sonido. cada onda compleja periódica es una serie (familia) de ondas sinusoidales simples e incluye muchos armónicos. son múltiplos de la onda dominante (la amplitud más fuerte). La otra característica esencial del sonido es su complejidad. una voz humana o la vibración de una máquina. las frases y la reinterpretación de fragmentos previos. es el hecho de que se componen de ondas simples. Aprenderá lo que es una forma de onda compleja y verá cómo reducir sonidos maravillosos a los componentes simples que la computadora puede manejar fácilmente. que manipula la forma de la respuesta en frecuencia de una señal. del tipo de un PC.025 kHz. mediante un algoritmo (un conjunto sencillo de instrucciones) conocido como la transformada rápida de Fourier (FFT. Almacena muestras de audio digital de 8 o de 16 bits. APENDICE A: CUESTIONES AVANZADAS SOBRE EL SONIDO El propósito de este apéndice es reforzar y ampliar las nociones que se presentaron anteriormente. Este apéndice le conducirá a través de algunos de los aspectos más esotéricos y técnicos del sonido. De acuerdo con el teorema de Fourier.05 kHz y 44. ya sea su fuente un instrumento musical. 2-13 La música que se describe como rica en textura o timbre tiene una onda compleja asociada. Esta manipulación se puede llevar a cabo en una computadora digital. Sin embargo. los fenómenos de muestreo y aliasing del sonido digital y la técnica de compresión de sonido que emplea la modulación adaptativa diferencial código-pulso.1 kHz.

"teorema de Fourier" y "algoritmo".por ejemplo. Y con la ayuda de las minúsculas gotas de lluvia se ha producido la descomposición de la luz blanca en sus componentes simples: los colores puros que a simple vista todos abarcamos a observar en el arco iris. olvídese por un momento de lo que ha leído. de muy alta frecuencia. Cuando se han combinado la señal difundida y la señal local. seis son instrumentos y cinco son percusión. e información sobre el sintetizador FM de la tarjeta de sonido.Si se siente aturdido al leer términos como "teoría de as ondas". el YMF262 OPL3. La Sound Blaster 16 también contiene este chip OPL3. la componente audible de la señal de radio.0 y Sound Blaster Pro. La síntesis FM de sonido se consigue mediante la Pag. el chip ha sido programado para la simulación de 5 instrumentos de percusión: tambor con tirantes de cuerda. que usa el último chip de Yamaha. la señal de radio recibida se combina con otra que se produce directamente en su aparato y que tiene la misma alta frecuencia que la usada por la estación de radio -. Como resultado le ello puede producir hasta ll voces estéreo o 22 voces monoaurales. La técnica que subyace bajo la síntesis FM de música es exactamente la misma que se emplea para producir señales de radio FM: se usan voces y música de bajas frecuencias (audibles por el oído humano) para variar la frecuencia de una onda electromagnética. Dado que la síntesis FM de sonido proporciona una técnica para la modulación de sonido de forma controlada. El timbre del sonido es sólo en parte función de la frecuencia de las celdillas operadoras. usted oirá la voz y la música que se enviaron mezcladas con la onda de radio de muy alta frecuencia.x/2. Sonido estéreo La tarjeta Sound Blaster Pro (anterior a la Pro 2) tiene dos chips 3812. puede realizar la síntesis FM de dos o de cuatro operadores. y las primeras Sound Blaster Pro tienen dos chips 3812 con lo que consiguen 22 voces. profundidad del trémolo. que es la que se propaga a través del aire. frente a la de cuatro operadores. en 1971. Chowning descubrió que podía crearse una gran variedad de sonidos usicales mediante la modulación de la frecuencia de una onda sinusoidal con una segunda onda sinusoidal (simple) con el fin de crear una tercera onda de frecuencia odulada (FM) (compleja). valor de la clave de la escala. La Sound Blaster Pro 2 tiene integrado el último chip de Yamaha. es decir. Si la radio está bien sintonizada. con el fin de crear una señal más compleja. con lo que se consigue crear otras ondas. y que también produce numerosos armónicos. Además. En las secciones anteriores se dió una breve introducción a los sintetidores FM y a los chips que se emplean para implementarlos en las tarjetas de sonido. selección de la forma de onda (sinusoidal o no sinusoidal). uno de los resultados es una onda que es exactamente la diferencia entre ambas señales. 99. el 3812 es capaz de crear 11 voces (sonidos de instrumentos) simultáneamente. El chip YMF262 que se usa en la tarjeta Pro 2 es casi compatible con el más antiguo 3812.audibles a los humanos. La ventaja de la síntesis de dos operadores es que asegura la . En total. Antes del descubrimiento de la síntesis de sonido FM. Técnicas de síntesis FM Todas las tarjetas de sonido de Creative Labs producen música gracias al sintetizador FM que está integrado en ellas. tantán. Síntesis FM de cuatro operadores La Sound Blaster Pro 2. que produce sonido sintetizado FM mediante la síntesis de dos operadores. con una explicación específica de la síntesis de sonido con dos operadores. amplitud de la envoltura. 2-14 modulación de dos ondas simples de baja frecuencia. la nueva Sound Blaster Pro 2 con el chip YMF262 tiene sólo 20 voces. Attack/Decay/Sustain/Release). En la síntesis con cuatro operadores. Este proceso puede Ilevarse a cabo con un equipo muy barato. ya que 20 sonidos monoaurales o 10 estéreos son suficientes normalmente -. El papel de su radio FM es capturar esta señal y extraer las componentes de baja frecuencia -. Aunque el 3812 tiene 11 voces. de la Universidad de Stanford. Teoría de la síntesis FM Los términos FM y AM son familiares a cualquiera que escuche la radio. tanto música como efectos especiales. Esta sección proporciona más detalles sobre los orígenes y las técnicas que emplean los sintetizadores FM de las tarjetas de sonido. Aquí tenemos un ejemplo de onda compleja que nos proporciona la naturaleza. Como sabe todo el que haya trabajado con computadoras. se usan cuatro operadores para la síntesis de un único instrumento. profundidad del vibrato. bombo. utilizan el circuito integrado (chip) Yamaha 3812 OPL2. tipo de envoltura (percusiva o no percusiva). ya que es de muy alta frecuencia. relájese y trate de imaginar un arco iris. címbalo superior y címbalo de copa. El sintetizador FM puede producir una amplia gama de sonidos. Sintesis FM de dos operadores Las tarjetas Sound Blaster l. tiempos de subida/bajada/estabilización/relajación (ADSR. con lo que se crea un sonido de textura muy rica. La limitación a 20 voces no tiene importancia práctica. Esta sección es una introducción a la teoría de la síntesis FM. una onda electromagnética FM modulada. Cada uno de los siguientes parámetros de las celdillas operadoras puede ser controlado desde el chip Yamaha para crear un inico sonido: Frecuencia. El sonido resultante es muy complejo y contiene componentes con las dos frecuencias originales y muchos de sus armónicos. casi compatible quiere decir que nunca es lo bastante compatible. De las 11 voces estéreo. la música electrónica sólo se podía crear mediante la utilización de equipos muy complejos y caros. Hay una amplia gama de parámetros de estos operadores que puede controlarse.poca gente necesita componer música para más de 20 instrumentos a la vez. utilizando un mecanismo inventado por John Chowning. anteriores a la Pro 2.7 MHz. que es capaz de realizar la síntesis de dos y cuatro operadores. que en los últimos años se ha reducido a un circuito integrado más pequeño que uña de un dedo. de las cuales 15 son instrumentos melódicos y cinco son de percusión. Después de que su radio FM selecciona y amplifica esta señal. es capaz de crear una amplia gama de sonidos. Esta señal se llama señal de radio. E1 chip 3812 tiene 12 celdillas operadoras que se pueden combinar para dar lugar a seis pares que crean seis sonidos distintos FM sintetizados.

tales como los espacios y los finales de línea. Estos archivos se pueden comprimir sin más que usar un compresor de propósito general. es necesario un método de compresión más sofisticado. Este esquema trabaja relativamente bien. de analógico en digital y otra vez en analógico. porque se usan dos pares de operadores para cada voz. En particular. Estos programas seleccionan automáticamente los filtros de entrada y de salida adecuados para la frecuencia de muestreo que se ha elegido. Esta técnica recuerda a la grabación de una partida de ajedrez. para poder asegurar que se muestrean las componentes de alta frecuencia del sonido que se está grabando. en tomo a los 20 kHz. con lo que se evita que usted cometa algún error. uno que dejase pasar todas las frecuencias por debajo de la de corte. en la que sólo se anotan los cambios . Consecuentemente. los ingenieros se han visto forzados a seleccionar una frecuencia de corte por debajo del límite de Nyquist. cuando se usa una tarjeta de sonido de Creative Labs y se graba en disco sonido digital.05 kHz que no esté comprimido. con lo que. un período extenso de silencio se reemplaza en el archivo audio con una marca y un valor de la duración temporal. El formato de archivo VOC usa el concepto de bloques de silencio. este proceso se denomina PCM lineal (LPCM). El método ADPCM comprime estrechamente el sonido digital.1 kHz. es importante que comprenda el propósito de dichos filtros para que su conocimiento sobre el sonido digital sea completo. Modulación adaptable y diferencial código-pulso Existe una variación muy sofisticada del sistema PCM. Este filtro es un filtro digital pasa-bajos que permite el paso libre de las señales por debajo de una cierta frecuencia. pero la mayoría de los formatos de archivo de sonido no lo admiten. Modulación lineal El sonido se transforma. si la frecuencia de grabación es de 44. un tipo de distorsión de la señal que provoca que aparezcan en la grabación sonidos falsos. en consecuencia requieren un método de compresión distinto. Los fallos en el funcionamiento del filtro provocan un tipo de distorsión denominado aliasing.linealmente -. EI teorema de Nyquist establece que la máxima frecuencia que puede ser muestreada con seguridad es la mitad de la frecuencia de muestreo que se usa al grabar. pero no para rabar la voz chillona de un niño). del tipo PKZIP.05 kHz. Se puede reconstruir la forma de la onda comenzando en un punto inicial y dibujando cada cambio. conocida como modulación adaptable y diferencial códigopulso (ADPCM. A cada muestra se le asigna un valor de 8 o 16 bits que es proporcional -.compatibilidad con los controladores existentes y soporta hasta 12 voces sintetizadas. Los requisitos de la compresión de audio Los archivos de sonido son fundamentalmente diferentes del resto de los archivos de datos con los que usted pueda trabajar.1 kHz ocupa el mismo espacio que un archivo mono de 22. esta frecuencia es adecuada para grabar sonidos cuya frecuencia más alta sea como iucho de 5. Este tipo de programas compresores no realiza un buen trabajo con los archivos de audio. E1 sonido digital almacenado en un CD de audio es sonido digital de 16 bits LPCM. en la frecuencia de corte (roll-off) correcta. es decir. contienen muchos caracteres repetidos. E1 filtro se configura internamente. El correcto funcionamiento del filtro de entrada previene el fenómeno del aliasing. Puede producirse este fenómeno si la frecuencia de muestreo es demasiado baja. el límite de Nyquist es 22. en lugar de un par. A menos que se haya seleccionado un método de compresión. así que se emplea frecuentemente para la audiocompresión. La compresión de audio Se ha mencionado varias veces el hecho de que los archivos digitales de sonido ocupan mucho espacio en el disco duro -- Pag. Por ejemplo. Adaptative Differential Pulse-Code Modulation) y que almacena el sonido usando menos bits por cada muestra que el LPCM. La Sound Blaster contiene un filtro de entrada y otro de salida. Incluso los períodos de "silencio" raramente están exentos de sonido. pero que eliminase las superiores. los procesadores de textos y el resto de los archivos que consten únicamente de texto y números. Aunque no pueda configurar el filtro durante la grabación. Dado que es imposible crear el filtro perfecto. el circuito PCM que realiza el muestreo creará un sonido falso con una frecuencia que es la diferencia entre las dos anteriores.como por ejemplo un chillido --. La ventaja de la síntesis FM de cuatro operadores es que el sintetizador FM puede crear sonidos más ricos mediante el uso de dos veces el número de operadores del caso anterior. y se consigue reducirlos hasta la quinta parte de su tamaño original. se observa una pérdida de la fidelidad. pero que bloquea las señales por encima de dicha frecuencia. El truco en el que se basa el método ADPCM es captar la diferencia entre una muestra y la siguiente. tras la descompresión. Por ejemplo. Por ejemplo. Puede que observe esto cuando utilice juegos que incluyan sonido digital. y la frecuencia de corte debería estar por debajo de ese valor. mediante la circuitería de la tarjeta de sonido. sonidos que nunca existieron.a su intensidad. hasta alcanzar incluso la cuarta parte del tamaño oriinal. Si hay una componente en frecuencia que exceda el límite de Nyquist -. Esto implica que un archivo estéreo comprimido de 44. EI inconveniente es que la Pro 2 está limitada a seis voces sintetizadas. las hojas de cálculo.5MB por minuto. Afortuadamente existen sistemas de compresión bastante sofisticados que reducen los archivos de audio a tamaños más manejables. ya que lo natural es ve el sonido (al igual que el vídeo) cambie continuamente. Cómo se llega a dominar el muestreo de sonido digital Los últimos programas de Creative Labs para la grabación de sonido digital le separan del filtro de la tarjeta de sonido. uno que esté diseñado para que aproveche las características del sonido. De acuerdo con el teorema de Nyquist. el formato Microsoft Wave no admite bloques de silencio. 2-15 hasta 10.025 kHz. que es la frecuencia por encima de la cual se reduce la intensidad de la señal. suponga que usted selecciona para grabar voz una frecuencia de 11. El filtro de entrada (llamado a veces filtro de grabación) es esencial para el correcto funcionamiento de los circuitos PCM que graban sonido digital. gracias a los circuitos de modulación código-pulso. se guarda con el formato LPCM.5 kHz (suficiente para grabar la voz profunda de un adulto. y expresarla como una fracción del valor actual de cada muestra.

no pueden revisar archivos comprimidos. se puede comprobar que este tipo de medida no es demasiado adecuado para la voz y el sonido. Con los 4 bits que suele emplear ADPCM se tienen 16 factores de escala. los circuitos de sonido digital de 8 bits que utilizan uno de estos algoritmos pueden archivar una señal proporcional al ruido y un gama dinámica equivalente al del circuito LPCM de 12 bits. Este algoritmo ofrece la posibilidad de configurar la compresión como 4:1. Creative Labs emplea dos variedades distintas de ADPCM. Con sólo 4 bits. Debido a esto. usan el algoritmo Creative ADPCM desarrollado originalmente para la Sound Blaster 1. Con los archivos de voz se pueden emplear dos técnicas diferentes para el empaquetamiento (que es la compresión específica para los archivos de sonido digital VOC de los Creative Labs): reemplazamiento de los períodos de silencio con bloques de silencio y compresión de los datos almacenados en bloques de datos.x/2. que es el factor de escala de una muestra. Antes de empaquetar se debe usar un programa del tipo de VEDIT2 para reducir la frecuencia de muestreo. los archivos pueden reducirse a sólo una cuarta parte del tamaño original.0 y la Sound Blaster Pro). • Los editores de sonido digital. Un archivo VOC consta de una cabecera que identifica el archivo como de este tipo. se le asigna un número doble del anterior. como Microsoft Wave (WAV). • Los archivos empaquetados no pueden convertirse a otro formato. dado un tamaño fijo de muestreo de 8 o 16 bits. La tarjeta Sound Blaster 16 de 16 bits usa una variante distinta de ADPCM que permite sólo la compresión 4:1 y 2:1. en las que la distancia viene dada por marcas repartidas uniformemente. seguido de un tren de bloques de datos. sobre Microsoft Windows y DOS) que vienen con la Sound Blaster 16 ofrecen la posibilidad de elegir entre tres técnicas distintas para comprimir muestras de 16 bits: ADPCM. La técnica ADPCM consigue esto mediante la asignación de un valor de 4 bits. A-law y µ-law. Técnicas alternativas para la compresión de 16 bits Los programas Soundo'LE y WREC (que funcionan. Con estas técnicas de empaquetamiento. 3:1 o 2:1. el costo por byte del espacio del disco duro era considerablemente mayor al de hoy en día. tales como Creative WaveStudio (Windows) o VEDIT2 de la Sound Blaster (DOS). el VEDIT2 de la Sound Blaster Pro.pero lo hace conservando una fidelidad relativamente buena. Los algoritmos A-law y µ-law son muy parecidos al PCM lineal.0 y Sound Blaster Pro de 8 bits. empaquételo y luego escuche los resultados. además de ser una buena aproximación al modo en que el oído responde a la Pag. sino que es el factor de escala. ciertamente mejor que la que proporciona la compresión equivalente 2:1 hecha con ADPCM. El valor no es la amplitud de la onda en ese punto del tiempo. que se describen en la si guiente sección. 2-16 música. Cargue repetidamente un archivo de sonido digital. Una regla lineal no hará justicia ni al periodo tranquilo en que se interpreta un solo de flauta ni al súbito estruendo de los címbalos y los tambores. ambas conocidas como CT ADPCM (tecnología ADPCM de la compañía Creative Labs). Si se observan las ondas de sonido en la pantalla de un osciloscopio. Por esta razón se toma como base para los algoritmos A-law y µ-law. Esta técnica de empaquetamiento elimina los . Alaw se usa sobre todo en Europa. Este tipo de música se toca a un volumen relativamente bajo. respectivamente. con lo cual hay un control más preciso sobre la forma de la onda. Una regla logarítmica. comprime el sonido a un número menor de bits -. Estos dos últimos son algoritmos estándar CCITT (ahora UIT-T) para la compresión de voz. Es fácil apreciar cómo el empaquetamiento de datos degrada la calidad de la grabación. se puede realizar un buen trabajo a la hora de replicar una onda compleja. Empaquetamiento de bloques de silencio Los bloques de silencio son marcadores que contienen un valor de duración temporal que representa un lapso de silencio o de casi silencio. A-law y µ-law. dado que la grabación de los movimientos permite reconstruir la partida paso a paso sin más que consultar la lista de los movimientos que se han hecho con cada pieza. mientras que µ-law se emplea más en Estados Unidos y Japón. Los poseedores de la tarjeta Sound Blaster 16 deberían intentar grabar música usando las tres técnicas de compresión y escuchar las diferencias entre ellas. Técnicas de compresión para archivos VOC Cuando Creative Labs lanzó su primera tarjeta Sound Blaster 1. Sin embargo este sistema tiene algunos inconvenientes: • Se producen pérdidas en la calidad del sonido. Las tarjetas Sound Blaster 1. cantidad más que suficiente. los ingenieros de Creative Labs pusieron un empeño considerable en desarrollar el archivo de voz de sonido digital (VOC). El efecto neto de estos dos algoritmos es que. Este hecho se hace aún más notorio si nos fijamos en la música orquestal. Algo así como que si una cosa es dos veces más larga que otra.x/2. pero ocasionalmente está salpicado por chorros de energía. No puede hacerse el empaquetamiento si los archivos VOC han sido grabados con una frecuencia de muestreo alta (esto sólo es válido para la Sound Blaster 1. La tarjeta Sound Blaster 16 usa estos dos métodos de modo diferente. es decir con 16 valores distintos. esto es. los otros dos algoritmos sólo pueden actuar sobre muestras de 16 bits. como las de dibujo.de 16 a 8 bits -. la cantidad por la que hay que multiplicar a la muestra anterior para obtener la amplitud de la muestra actual.(próximo movimiento) y no el estado total del tablero. Con miras a garantizar la fidelidad del sonido. Cada bloque contiene un tipo específico de información o un marcador. en teoría. Hoy en día. y si se emplearan 8 bits se tendrían hasta 256 factores de escala. es una elección mejor que la regla lineal en lo que se refiere a la grabación del gama dinámica del sonido. Con LPCM se graba la amplitud de la onda. Mientras que el ADPCM de Creative Labs puede comprimir muestras audio de 8 y de 16 bits.x. Ambos difieren sólo en algunos detalles de su implementación. Para comprobarlo puede usar un editor de sonido digital del tipo de la Sound Blaster Deluxe.x. La elección de comprimir 3:1 ha desaparecido de la Sound Blaster 16 para dejar paso a dos esquemas distintos de compresión 2:1. usando para ello las medidas obtenidas con una regla lineal. el Creative WaveStudio o el programa Sound Blaster VOXKIT. No es necesario almacenar el estado del tablero antes de cada movimiento.

x/2. la 4:1. unidad central de proceso del PC). aunque en este proceso se pierde fidelidad. La extrema. en consecuencia. La cantidad de esta pérdida depende del grado en que se comprima el archivo. lo que quiere decir que lo hace la CPU. Los bloques de silencio son parte del formato de archivo VOC de Creative pero no existen en la mayoría de los demás formatos. o 16 bits para que resulten 4. Cuando se lanzó la Sound Blaster 16 se la dotó del chip DSP.se comprimen uno a uno. el formato de a Microsoft WAV no dispone de estos bloques.que probablemente estarán separados por bloques de silencio -. Un elemento importante del esquema de empaquetamiento de datos es que la cabecera del archivo no se comprime. En esta sección se trata acerca de esta última limitación. y consigue además ahorrar una considerable cantidad de espacio de almacenamiento. incluida información del tipo de la frecuencia de muestreo y si es un archivo estéreo o monoaural. Cuando un programa encuentre uno de estos bloques al interpretar un archivo VOC. este chip de proceso de sonido digital sólo actúa como un auxiliar de la descompresión y se ocupa de algunas otras tareas menores. son el equivalente a los bytes para el sonido digital actual. incluso en una computadora relativamente lenta. Actualmente. Empaquetamiento de bloques de datos Los bloques de datos constituyen la parte principal de los archivos. Si la .x/2. aun cuando si el disco tiene suficiente espacio se recomienda usar la compresión 2:1. que tenía como CPU un 8088. El empaquetamiento de datos se realiza en dos pasos. descompresión. de la potencia necesaria para realizar la compresión y descompresión lo suficientemente rápida como para que se mantenga el flujo normal de sonido. hay que tener en cuenta varios factores antes de seleccionar la cantidad de la compresión. del tipo de los PC originales de IBM. La compresión se realiza mediante software. con lo que el nombre no es una elección demasiado afortunada. pero a base de robar vitalidad al PC. también produce la pérdida de parte de la información y. Como resultado. por parte de la computadora. En ningún caso se recomienda comprimir las grabaciones de música. E1 programa debe examinar la cabecera para comprobar que es un archivo VOC y ver si ha sido comprimido. Esta compresión sólo es eficaz para los efectos de sonido. y la de la CPU de la computadora y el tiempo de acceso al disco por otro. A pesar de que la técnica de compresión que se emplea hace que la descompresión sea simple y rápida. La 3:1 (sólo permitida para muestras de 8 bits) es apropiada para la voz.períodos de silencio.0 realizan esta compresión. La información de la cabecera también indica si es un archivo VOC de 8 o de 16 bits y da las instrucciones necesarias para reproducirlo. Aunque se pueden empaquetar los datos incluso con la compresión 4:1. suspenderá la salida de sonido digital durante el tiempo indicado por el bloque de silencio.VOC. se debe hacer el empaquetamiento de los silencios antes que el de los datos (una vez que se hayan empaquetado los datos será demasiado tarde para hacer lo mismo con los silencios). Primero: se comprime el archivo VOC de sonido digital.cualidades que se hacen necesarias si la voz o la música se van a comprimir sobre la marcha (a medida que se escucha el sonido). ya que es difícil preservar una cantidad significativa de información cuando se estrujan 8 bits para que den lugar a 2. 2-17 Para que la compresión sea la mejor posible. La descompresión la hace el hardware de la Sound Blaster mediante un circuito dedicado específicamente a ello a medida que reproduce el archivo. no es un chip de procesamiento de señales digitales. es decir. incluyen un chip de control especial que permite realizar la descompresión ADPCM (la compresión se hace sin necesidad de que haya un chip dedicado a ello -. como la Sound Blaster 1. y los reemplaza con bloques de silencio. Cuando se descomprime un archivo. tales como la pausa entre dos frases o palabras. Mientras que un chip de proceso de señales digitales puede programarse para diferentes tareas (véase la sección siguiente que trata de la tecnología DSP). de modo que es capaz de realizar la compresión. procesamiento de sonido Q-sound y cualquier otra tarea que se programe en el chip. ya que el trabajo de descompresión lo realiza la tarjeta de sonido. La mayor pérdida de fidelidad se produce con la mayor compresión. de parte de la fidelidad del sonido. Aunque el chip se denomina "DSP". Una SBl6 que no tenga el chip DSP para el procesamiento avanzado de señales. Limitaciones a la compresión de archivos de voz Si usted tiene una tarjeta Sound Blaster de 8 bits o una Sound Blaster Pro y quiere almacenar sonido en archivos VOC de 8 bits con datos empaquetados. no se pueden reproducir archivos empaquetados a la misma velocidad que los que no lo están. En particular. La descompresión de un archivo coloca una carga adicional sobre el circuito de la tarjeta de sonido. Limitaciones técnicas de la compresión Hay dos factores que acotan el trabajo realizable con archivos comprimidos: la pérdida de fidelidad y la carencia. La frecuencia de muestreo máxima varía de acuerdo con la compresión seleccionada (véase la siguiente tabla). Un archivo VOC empaquetado y otro sin empaquetar tienen superficialmente el mismo aspecto: la extensión . Hardware de descompresión Las tarjetas de sonido de 8 bits. EI empaquetamiento de datos se realiza mediante la compresión ADPCM que estruja los bloques de datos hasta reducirlos a una cuarta parte del tamaño original. La ventaja de usar este chip es que la tarjeta Sound Blaster es capaz de reproducir archivos de sonido digital. causará demasiada distorsión para que resulte práctico emplearla con la música o la voz. los bytes de sonido son restaurados y pueden reproducirse mediante los circuitos de sonido digital de la tarjeta. 4:1. ya que debe usar el chip UCP para estas tareas. la basada en la velocidad del circuito PCM de la tarjeta por un lado.se realiza por software. La técnica de compresión ADPCM de Creative Labs es simple y rápida -. Los bloques de datos -.0 y la Sound Blaster Pro. después de que se haya grabado el archivo. puede realizar la compresión y la descompresión. Segundo: se descomprime a medida que se interpreta. debería evitar exceder la máxima frecuencia de muestreo permitida (las SB16 de 16 bits soportan hasta 44 kHz sin problemas). tanto el editor VEDIT2 como VOXKIT de la Sound Blaster 1. Pag. Creative Iabs se refiere a este chip como el chip de procesamiento de sonido digital.

La forma común de denominar al trabajo con sonido e imágenes. ya que se irá acumulando este tipo de error. necesita al menos un 386 DX/33 MHz o un 486 SX/25 MHz.1 kHz (Sound Blaster Pro) 15 kHz (Sound Blaster 2. Opciones para la compresión de datos de 8 bits Sin comprimir Compresión 2:1 (4 bits) Compresión 3:1 (2. podemos señalar Creative WaveStudio. En este caso el error de cuantificación es de casi el 5%. en tiempo real. Esta degradación se produce de la siguiente manera: Cuando se redondea el valor de una muestra. pero no en tiempo real. Esta compresión es factible ya que VEDIT2 almacena en el disco a su propio ritmo. Peligros de la compresión y descompresión repetitivas El esquema de compresión puede ser con o sin pérdidas. imágenes u otro tipo de archivos. pero sólo cuando se ejecutan con la potente Sound Blaster 16. archivos de sonido digital de 16 bits mediante las técnicas ADPCM. Las sucesivas compresiones y descompresiones estropearán rápidamente la calidad del sonido. como cuando se usa una unidad eco para añadir un eco. debe redondearse a 9. VEDIT2 de la Sound Blaster Pro y Sound Recorder. ya que usan la CPU.x/2. la Sound Blaster 16 es capaz de El programa VEDIT2 de la Sound Blaster Pro puede comprimir sonido digital de 8 bits. un accesorio de Microsoft Windows. pero sólo son admisibles los valores enteros entre son 1 y 10. Hay dos razones por las que las tarjetas de Creative Labs -salvo la Sound Blaster 16 con procesamiento avanzado de señales -. tiene integrado un chip para el procesamiento de señales digitales (DSP). La segunda razón para que no se haga la compresión en tiempo real mediante software es que la industria de las tarjetas de sonido todavía carece de un único estándar para la compresión de sonido. Se debe evitar comprimir y descomprimir repetidamente un archivo de sonido digital. números en la computadora. la Sound Blaster 16 con procesamiento avanzado de señales. Una Sound Blaster 16 sin el DSP tiene que emplear la CPU de la computadora para la compresión. Cuando se desee almacenar en disco se puede seleccionar la compresión 4:1 (8 bits se guardan como 2). La Sound Blaster 16 con procesamiento avanzado de señales. del sonido en línea o del sonido procedente de la salida del CD-ROM.5 y MCV) 12 kHz 13 kHz 11 kHz Pag. Mientras que se acepta generalmente la técnica ADPCM. Gracias a este chip. la tarjeta más novedosa de Creative Labs. A-law y µ-law. Procesamiento de señales digitales: Tecnologías de punta Todas las tarjetas de sonido de Creative Labs graban y reproducen sonido digital LPCM (no comprimido). La primera razón es que sin un chip dedicado a la compresión (como el chip de procesamiento avanzado de señales). Nota: La mayoría de las computadoras personales que se venden hoy en día tienen un tiempo de acceso al disco rígido por debajo de los 30 milisegundos. VEDIT2 de la Soundblaster Pro puede comprimir. La razón de que la frecuencia máxima a la que se puede grabar o reproducir sonido digital en crudo (sin comprimir) sea de 44. Por ejemplo. Como los archivos de sonido no tienen redundancias.frecuencia de muestreo sobrepasa la máxima mostrada en la tabla. ya que cada vez que se realiza una de estas operaciones se pierde una pequeña parte de la información.tienen limitaciones a la hora de realizar la compresión en tiempo real. y frecuentemente se acompañaban con una base restringida de software. su implementación varía. 2-18 dedicado a manejar esta carga de trabajo adicional. Limitaciones a la compresión de los archivos Wave Creative Soundo'LE es un producto para Microsoft Windows -un programa de grabación y edición compatible que acompaña a todas las tarjetas Sound Blaster hoy en día. la 3:1 (los 8 bits ocupan aproximadamente 2. más que adecuado para la transferencia de sonido digital. los efectos especiales de sonido se llevaban a cabo mediante hardware analógico. Una vez que el sonido se haya almacenado de forma digital. los archivos de sonido se comprimen generalmente con las técnicas de compresión con pérdidas ADPCM y similares. Por lo tanto. el ahorro que se produce en el tamaño del archivo al comprimirlo es muy pequeño cuando se usan estas técnicas sin pérdidas. para manipular la compresión lo bastante rápido. es procesamiento de señales digitales.1 kHz (Sound Blaster Pro y Sound Blaster 16) es que la tarjeta de sonido tiene un circuito PCM . no del disco fijo). Este programa puede comprimir y descomprimir. y luego pueden expandirse y usarse sin ninguna degradación en la calidad.0) 13 kHz (Sound Blaster 1. con lo que se veían limitados al tener que usar la CPU del PC. Las tarjetas de 8 bits Sound Blaster 1. Por ejemplo. así que un archivo de sonido que se haya comprimido usando un determinado paquete de programas no podrá leerse con un paquete proporcionado por otra compañía.0 y la Sound Blaster Pro también tienen cargado el Soundo'LE. es decir. Con las técnicas de compresión sin pérdidas (como las realizadas por PKZIP) se pueden comprimir sonidos. si la frecuencia de muestreo es alta.6 bits) o la compresión 2:1 (los 8 bits se transforman en 4). así que necesita aún más potencia. para almacenarlos o para su transmisión telefónica. pero despacio si se compara con la velocidad a la que se graba el sonido que llega del micrófono. se generan errores de cuantificación.53 unidades. Tradicionalmente. Probablemente tendrá que usar al menos una 386 DX/40 MHz o 486 SX/33 MHz. rápidamente desde nuestro punto de vista.6 bits) Compresión 4:1 (2 bits) Máxima frecuencia de muestreo 44. cuando están en forma digitalizada. puede ser fácilmente procesado (transformado). muchos PC no tienen la potencia computacional suficiente para hacer la compresión en tiempo real. Como ejemplos de programas que realizan sólo una cantidad limitada de procesamiento de señales digitales. pero una versión que no es capaz de realizar la compresión. pero la salida será sonido "lento". si una onda tiene una altura de 8. la tarjeta de sonido reproducirá el archivo. pero sólo después de haberlo capturado en forma no comprimida de la memoria (de la RAM de la computadora.

así como las características físicas de las voces. multiplicación y retardo. soporte MIDI completo. La mayor de las ventajas que surgen del uso del DSP. de los laboratorios E-Mu Systems. incluyendo nueve voces predefinidas. investigador del Instituto Tecnológico de Massachusetts (MIT) y consultor de DEC hasta su fallecimiento en 1988. conversión de la frecuencia de muestreo. lo emprende a su propio ritmo furioso. E-Mu. TextAssist no sólo suena más natural que Monologue para Windows. El trabajo de su vida fue la creación de una computadora que "modelaba" la forma en que se produce la voz humana. La síntesis de voz DECtalk la inventó Dennis Klatt. filtro de sonido integrado y efectos especiales del tipo de la reverberación. el dispositivo DECtalk está considerado como el que produce el sonido más natural. más rápidamente que un procesador de propósito general como el 80386 o el 80486. La relación que se establece entre la CPU y el DSP es la misma que la que existe entre la CPU y su coprocesador matemático. Tecnología de voz de DECtalk Creative Labs dio un salto cuantitativo en la síntesis de voz (conversión de texto en voz) con la adquisición de la licencia exclusiva del dispositivo de voz DECtalk de Digital Equipment Corporation (DEC). encubrimiento de los errores (enmascaramiento de los defectos). al menos es comparable a la velocidad de trabajo de un Pentium. pero es especial. Este chip es un tipo especial de microprocesador diseñado específicamente para que ejcute las operaciones más básicas del procesamiento de señales digitales: adición. ya que forma parte de un subsistema de sonido completo que reúne el conjunto de características adecuado para llegar a ser un estándar industrial. de niño y de adulto. En base a su extensa experiencia con equipos profesionales. El chip EMU8000 no es el primero ni el único chip DSP que surge en el mundo del sonido (como ejemplo podemos señalar el potente chip de IBM M-Wave). los instrumentos musicales y la posproducción de archivos/video. fundada en 1972. ecualización (cambio de la longitud relativa de las componentes en frecuencia). Los chips DSP son todavía demasiado caros para que se haya extendido su uso en las tarjetas de sonido. EMU8000: la siguiente generación de sonido DSP Los visitantes que acudieron a Las Vegas en noviembre de 1993 para ver la exposición de computadoras. la conversión de la frecuencia de muestreo y los cambios en el tono (sin cambiar la velocidad de reproducción). DECtalk PC estuvo disponible de forma práctica por primera vez en 1991 como . en lugar de la CPU de la computadora. compresión y descompresión. Además. del tamaño de un maletín. Cuando baje el coste de los DSP. pero no es la que uno consideraría como ideal para escuchársela al PC todos los días. Los melómanos apreciarán los efectos especiales del tipo de la reverberación (el eco débil que se escucha dentro de un auditorio o un edificio) y el efecto coro (los pequeños retardos que se producen al comienzo del sonido de un instrumento y que hacen que el sonido sintetizado de un único instrumento se escuche como si tocasen juntos un grupo de instrumentos idénticos al anterior) y pueden hacerse en tiempo real. 2-19 combina las funciones más importantes de las tarjetas de sonido: sonido digital de 16 bits. E-Mu está considerado como un líder en las industrias de la grabación. de los creados hasta la fecha. ya que tiene un chip dedicado exclusivamente a esta tarea. Creative Labs ha desarrollado un nuevo software para la síntesis de voz. que ha sido optimizado para la síntesis de voz. mezcla. sino que además ofrece muchas facilidades adicionales. llamado TextAssist y construido alrededor del dispositivo DECtalk. dado que se ha optimizado el DSP para que realice el procesamiento de señales digitales. tales como tratamiento de sonido Q-Sound. un módulo de programas cuidadosamente escritos. Usted puede añadir sus propias voces para que se adapten a su gusto personal. síntesis de ondas muestreadas. éstos harán su aparición en todas las tarjetas de sonido y se dotará inmediatamente a las aplicaciones audio de una nueva potencia y flexibilidad. Inc. Creative ha reescrito DECtalk para que trabaje con la Sound Blaster 16 con procesamiento avanzado de señales. masculinas y femeninas. Así. el único procesamiento del que se encarga el DSP es la compresión. Hoy en día. la duración de los fonemas. polifonías de 32 voces. los coros. Klatt. la ecualización digital. Esta tecnología apareció por primera vez en 1983 como el componente software de un dispositivo hardware construido a medida. pudieron vislumbrar lo que será la base de la siguiente generación de tecnología del sonido: el chip EMU8000 para el procesamiento de señales digitales de sonido. mediante el ajuste de parámetros como el tono. Su logro capital fue la creación de un sintetizador de voz cuidadosamente desarrollado para imitar el acento del inglés americano. El procesamiento de señales digitales se aplica en numerosos campos. la panorámica. y que hoy en día es una empresa subsidiaria de Creative Labs. así que el sonido puede procesarse a medida que se graba o se interpreta. para el procesamiento de señales digitales. E-Mu proporcionará pronto una solución integrada de hardware y software preparada para su incorporación a las tarjetas de sonido de Creative Labs. En la industria de la voz. la CPU de la computadora queda libre para interactuar con usted y ocuparse de otras tareas. Por esta razón. a partir de texto. Típicamente se escucha una sola voz con un timbre monótono como en las películas de ciencia ficción de los años setenta. está a la cabeza de la fabricación de instrumentos digitales. Creative Labs ofrece tanto la Sound Blaster 16 como la más cara Sound Blaster 16 con procesamiento avanzado de señales. descomposición en frecuencias (FFT para el tratamiento de voz) y efectos musicales. con una sólida formación en ingeniería eléctrica y muy interesado por la psicología de la percepción. es que el DSP toma para sí el prosaico pero muy intensivo trabajo de procesar las señales digitales. (E-Mu). descompresión y sonido QSound. han creado un chip DSP de alta calidad y bajo costo que Pag. La mayor parte de los programas de texto a voz son inteligibles pero limitados. las tarjetas de las computadoras. la configuración de la velocidad y del volumen.procesar señales más rápidamente y mejor que las tarjetas de sonido de 8 bits. mezcla de sonido. los equipos profesionales de sonido y que incluso puede integrarse en algunas aplicaciones. todas con excelente calidad. estaba considerado como uno de los mejores científicos de la voz en el mundo.

el ritmo (velocidad) y el tono. los sonidos se reducirán a difonos. el dispositivo DECtalk convierte la secuencia de fonemas en valores de control del sintetizador. pero en la oficina del siglo XXI podría ser habitual que en los mensajes electrónicos se incluyera un fragmento con la voz del . Un sintetizador de fonemas contiene muestras pregrabadas de cada fonema o difono. Con el propósito de aumentar la calidad de la síntesis de voz. cada fonema puede dividirse en dos mitades. El inglés americano. En lugar de concatenar una secuencia de muestras pregrabadas de voz. ésta se transforma en la palabra "bat" (/b//a//t). estos dos alófonos son fonemas distintos. todas las nuestras deben provenir del mismo hablante nativo. que se envían al modelo computacional del tracto vocal. tiene alrededor de 40 fonemas. La creación espontánea de nuevas voces es impensable. a pesar de que la pronunciación difiera en un acento. Los fonemas son los sonidos que cuando se sustituyen hacen que cambie el significado de una palabra. que es capaz de generar voz con un sonido natural mediante un modelo matemático donde se definen parámetros para especificar el tono. en inglés (un constituyente es un estallido de energía acústica.la parte patentada en los sistemas de síntesis de voz a partir de fonemas -. Siguiendo un ejemplo tomado de la Cambridge Encyclopedia of Science. gat. Para cada voz (tal como la de una mujer adulta o la de una adolescente). tales como una tubería (a modo de garganta) y una cuerda tensa (a modo de cuerdas vocales -. aunque estos sonidos (llamados alófonos) pueden intercambiarse sin cambiar el significado de las palabras. es un ejemplo de sintetizador de fonemas. No hay más que ver lo fácil que es crear nuevas palabras sin sentido en inglés para darse cuenta de que éste es un idioma muy rico en fonemas: dat. en ruso. En el futuro es posible que se desarrollen programas capaces de extraer e imitar las características de la voz de cualquier persona. Los sintetizadores de fonemas y los sintetizadores de constituyentes. ya que constituyen bloques de lenguaje. Se ha adaptado esta misma tecnología para que trabaje con el chip DSP de procesamiento avanzado de señales de la Sound Blaster 16. Evidentemente. con un sintetizador de constituyentes es posible crear voces nuevas o modificar las ya existentes (como la conversión de una voz hablada en la misma voz cantada) sin más que asignar valores diferentes a los parámetros del dispositivo de voz.una tarjeta EISA/ISA para PC con un precio de venta al público de 1. ve la palabra "cat" como tres fonemas: /k/ /AE/ t/ donde /AE/ es el código fonético de Monologue para la "a" cuando suena como en a palabra "cat". A rontinuación se aplican reglas y diccionarios -. la amplitud. se basa normalmente en la síntesis de fonemas. 2-20 marcas especiales dentro de la secuencia de fonemas o difonos que mejoran a entonación (timbre).para optimizar la secuencia difónica (conjunto de códigos de difonos) y conseguir un discurso que suene de manera natural. y en el caso je los sintetizadores de voz basados en difonos.de 350 a 750K. Debido al reducido número de parámetros necesarios para definir una voz. Pocos de nosotros toleraríamos escuchar a una computadora imitando perfectamente nuestra propia voz. coinciden en el primero y último pasos. la tecnología subyacente bajo la síntesis de voz a partir de texto en el PC. el sonido "el" de la palabra "leaf' difiere de ese mismo sonido en la palabra "pool". implementado como un programa de computadora. que es característica de muchos fonemas) es un enfoque de la síntesis de voz radicalmente disitinto de la síntesis de fonemas. Por ejemplo. Monologue para Windows. la duración y otros factores que contribuyen a la generación de voz. Los sintetizadores de constituyentes son mucho más flexibles que los sintetizadores de fonemas debido a que no están basados en un conjunto de sonidos pregrabados para cada voz. que está instalado en cientos de miles de tarjetas de sonido de Creative Labs. es posible personalizar las voces de la computadora (como la voz de Talking Scheduler).195 dólares. que no necesitan más que 56 bytes para ser almacenados. para obtener una voz más grave se modifican los parámetros que especifican el tamaño de la laringe y el grosor de las cuerdas vocales. La secuencia así obtenida se envía al hardware de generación de la voz que será el encargado de crear la forma de onda del sonido. como el dispositivo DECtalk incluido en Creative TextAssist. dado que si se intercambian cambia el significado de la palabra. la palabra "cat" se representaría como cuatro difonos: Difono 1 2 3 4 Sonido Silencio + primera mitad de la "c" segunda mitad de "c" + primera mitad de la "a" segunda mitad de "a" + primera mitad de la "t" segunda mitad de "t" + silencio Monologue para Windows. Con este método. la creación de una nueva voz requiere un laborioso proceso de grabación además de necesitar mucho espacio de almacenamiento -. hay muchos más de 40 sonidos en inglés. una explosión de sonido. El enfoque más común a la síntesis de voz consiste en utilizar un sintetizador de fonemas o difonemas (la mitad de un fonema). del tipo del sintetizador Klatt de constituyentes (desarrollado por Dennis Klatt). Por el contrario. Mediante la aplicación de reglas y el uso de diccionarios. Durante la producción de voz. /b/ y /k/ son claramente dos fonemas diferentes porque si se sustituye la /k/ por la /b/ en la palabra "cat" (/k//a//t/). La síntesis de constituyentes o formants. que es el método que se utiliza en los sintetizadores de fonemas.los físicos han creado modelos que describen su comportamiento vibratorio). Los fonemas son los sonidos más importantes del discurso. según el tamaño y el ritmo de la muestra. Es posible modelar el tracto vocal mediante algunos artefactos físicos muy familiares. Por ejemplo. que sintetiza voz mediante el análisis de palabras :omo fonemas más que como difonos. jat. Con la notable excepción de DECtalk PC. mediante la inclusión de Pag. lat. donde se crea la forma de onda de la voz. un sintetizador de constituyentes utiliza un modelo matemático del tracto vocal humano. por ejemplo. cada una de las cuales se denomina difono. En cambio. En DECtalk PC se incluye un sintetizador de constituyentes. y así sucesiva mente. el texto que llega se transforma en una cadena de fonemas. Es sencillo modificar las voces. Con un sintetizador de fonemas. pero difieren en la manera en que se manipula la secuencia de fonemas.

Las versiones futuras de Windows con Multimedios pueden definir otros formatos para el sonido por forma de onda.wf. El campo nChannel es bien 1 ó 2. una vez se le añadan los analizadores adecuados para convertir en fonemas texto de otro idioma. PC Magazine en español.wf. La interfaz de alto nivel se llama MCI (Interfaz de Control de Medios) y emplea archivos en lugar de bloques de memoria para grabar y reproducir el sonido por forma de onda. lo que lo identifica con un bloque secundario que contiene el formato de los datos de sonido por forma de onda. El mismo dispositivo.WAV con un editor hexadecimal. PCMWAVEFORMAT comienza con unaestructura WAVEFORMAT. con archivos que consisten de bloques de información identificados por un nombre de 4 caracteres ASCII y de un tamaño de 4 bytes (32 bits). por ejemplo. que lo identifica como un archivo RIFF. no es demasiado arriesgado pensar en futuros sistemas multimedios basados en TextAssist de Creative Labs que incluyan cientos. E1 primer campo de WAVEFORMAT es wFormat Tag.nChannels 4 pcm. Los programas de MCI que he discutido antes también crean archivos.wBitsPerSample 4 "data" 4 tamaño de los datos de forma de onda datos de forma de onda Figura 1. EI valor del tamaño del bloque no incluye los 8 bytes que se requieren para el nombre y tamaño del bloque. Desplazamiento 0000 0000 0008 000C 0010 0014 0016 0018 001C 0020 0022 0024 0028 002C Charles Petzold. estando en un abarrotado mercado tunecino decidimos preguntarle una dirección a un tendero. si no miles. Se puede crear archivos de sonido por forma de onda usando el programa Grabadora de Sonido (sound recorder) que se incluye en el Windows con Multimedios. en respuesta a diferentes situaciones. que es el formato Bytes Datos 4 "RIFF" 4 tamaño del bloque de forma de onda (tamaño del archivo . que lo identifica como un bloque de sonido por forma de onda. es capaz de hablar esa lengua. Cubriremos los archivos en forma de onda y dos funciones más de alto nivel que pueden reproducir el sonido por forma de onda. se usan funciones que comienzan con el prefijo wave (onda). A la cadena "fmt" la sigue el tamaño de la información de formato. Con la de bajo nivel. RIFF es un formato de archivo marcado (tagged). MCI está disponible bien a través de una interfaz de mensaje y estructura o de cadenas de comandos.nSamplesPerSec 4 pcm·wf·nAvgBytePerSec 4 pcm·wf. Un archivo de sonido por forma de onda comienza con la cadena de texto "RIFF"'. EL FORMATO DE SONIDO POR FORMA DE ONDA El Windows con Multimedios viene con varios archivos de sonido por forma de onda que se guardan en el subdirectorio MMDATA de su directorio de Windows. Pag. el maullido de un gato y el sonido de cualquier otro animal cuyo tracto vocal sea lo bastante parecido al de los seres humanos. el tipo de formato de la información.8) 4 "WAVE" 4 "fmt " 4 tamaño del bloque de formato (16 bytes) 4 pcm.WAV. verá que tienen un formato como el que se muestra en la Figura 1. o los programas MCITEST y WAVEEDIT que vienen con el Kit para Programadores de Multimedios (MDK). creadas muchas de ellas de manera dinámica. en este caso 16 bytes. Otra cadena de texto "fmt" (note el espacio en blanco para hacerla una cadena de 4 bytes) viene a continuación. Toda la información para los multimedios puede (y debe) guardatse en el formato RIFF. Ejemplo de archivo . El dispositivo de voz DECtalk tiene la posibilidad de crear el ladrido de un perro. lo que indica modulación de código de pulso. "Almacenando sonido: una mirada a los archivos de sonido con formas de onda". 2-21 general para los archivos de datos de Windows con Multimedios. los archivos con la extensión WAV se reconocen como archivos de sonido por forma de onda. En ambos casos. que es el formato general para los archivos de datos de Windows con Multimedios. o sea. a un turista o a un policía. Este formato es un ejemplo de un formato más extenso conocido como RIFF (Formato de Archivo para Intercambio de Recursos). Es parte de un formato más general conocido como Formato de Archivo para Intercambio de Recursos (RIFF). El bloque de información comienza con la cadena de texto "WAVE".remitente. La información de formato es una estructura PCMWAVEFORMAT. El campo nSamplesPerSec es el número de muestras . A continuación hay un bloque de 32 bits que es el tamaño del resto del archivo.wFormatTag = WAVE_FORMAT_PCM = 1 4 pcm.nBlockAlign 4 pcm. mayo 1992.WAV. para sonido mono o estéreo. Quizá nos encontremos ante un caso de tecnología que corre desbocada. que se define en la actualidad como WAVE_FORMAT PCM (igual a 1). Dado que es posible definir de manera concisa las características de la voz. Los programadores pueden usar las facilidades de sonido por forma de onda de las Extensiones de Multimedios para Windows bien con una interfaz de programación de bajo o alto nivel. como si.wf. El sonido se graba en bloques de memoria global y se reproduce desde estos bloques. pero con las futuras versiones de TextAssist debería ser posible generar una voz por computadora que cantase en cualquier idioma y con cualquier acento. de voces diferentes. La voz no se limita a la voz humana. Si echa un vistazo a estos archivos . el tamaño del archivo menos 8 bytes.

Las entradas en la sección "[sounds]" de WIN. Tales bloques secundarios de información pueden aparecer en otros archivos RIFF. Esta información no está comprimida y consiste simplemente de las muestras consecutivas.025. Si el tamaño de la muestra está entre 9 y 16 bits. entre el bloque secundario de formato y el bloque secundario de datos. Para los datos de forma de onda en estéreo cada muestra consiste del valor izquierdo seguido del derecho. Este bloque secundario puede aparecer antes del bloque secundario de formato. encontrará dos entradas que parecen así: SystemStart=c:\mmwin\mmdata\water. Los datos están en el mismo formato que se usa en las facilidades de sonido por forma de onda de bajo nivel. También encontrará las siguientes entradas: SystemDafault= SystemAstarisk= SystemExclamation= SystemHand= SystemQuestion= .100.INI tienen el formato: SoundName=FileName Por ejemplo. Los tamaños estándares para las muestras son de 8 y 16 bits. Así que si necesita sacar datos de un archivo de sonido por forma de onda. Charkles Petzold\0" "ICRD" 12 "1991-10-30\0\0" Figura 2. dividido entre 8 y redondeado. cada muestra es de 2 bytes (mono) o 4 bytes (estéreo). EL FORMATO DE ARCHIVO PARA INTERCAMBIO DE RECURSOS (RIFF) Una discusión completa del RIFF aparece en la Referencia para el Kit para Programadores de Multimedios [MDK) de Windows. El bloque de datos comienza con la palabra "WAVE" pero "WAVE" no introduce un nuevo bloque. en una versión instalada de Windows con Multimedios. En particular. Un archivo RIFF consiste de uno o más bloques que se identifican por un nombre en mayúsculas de 4 caracteres y un tamaño de datos de 4 bytes. que es el número de canales multiplicado por el tamaño de la muestra en bits. Los tamaños de datos deben aproximarse al siguiente múltiplo de 2. los valores estándares son 11. Una de las reglas más importantes para leer los archivos marcados es ignorar los bloques con los que no quiere lidiar. el identificador "WAVE" está seguido por dos bloques secundarios. Un trozo secundario de información como este pudiera aparecer en cualquier archivo de sonido por forma de onda. NOMBRES DE SONIDO Los archivos de forma de onda pueden asociarse con "nombres de sonidos". El primero de estos usa el identificador "fmt " y el segundo usa un identificador de bloque "data". 2-22 La tabla de la Figura 2 muestra un posible bloque secundario INFO que pudiera aparecer en un archivo de sonido por forma de onda. En cambio. Esto es fácil porque el tamaño del bloque secundario sigue al identificador del bloque. el nombre del bloque es "RIFF" y el tamaño de los datos son los próximos 4 bytes del archivo. dividido entre 8 y redondeado. cada muestra consiste de 1 byte (para mono) o 2 bytes (para estéreo). Finalmente la estructura PCMWAVEFORMAT concluye con un campo nBitsPerSample. y el silencio es equivalente a una cadena de 0 valores. se interpreta la muestra como un valor con signo. o después del bloque secundario de datos. el byte de muestra se interpreta como un valor sin signo. "ICOP" (derecho reservado). 22. Notará que no está seguida por un tamaño del bloque. salte todo bloque secundario que no reconozca o con el que no pueda lidiar. El tamaño de 4 bytes no incluye los 8 bytes que se requieren para los bytes del nombre y el tamaño.050 y 44. En el caso de un archivo de sonido por forma de onda. Para los tamaños de muestra de 8 bits o menos. El campo nAvgBytesPerSec es la razón de muestreo en muestras por segundo multiplicado por el número de canales y por el tamaño de cada muestra en bits. Y también pudiera haber otros.wav Estos son los archivos de sonido que se tocan cuando comienza y termina Windows con Multimedios. e "ICRD" (fecha de creación).wav SystemExit=c:\mmwin\mmdata\bella. puede contener también otros bloques secundarios. Después de la información de formato viene la cadena de texto "data" seguida por un tamaño de información de 32 bits.por segundo. Bytes 4 4 4 4 12 4 4 32 4 4 12 Datos "INFO" 80 "INAM" 12 "Audio Logo\0\0" "ICOP" 32 "Copyright 1991. Estos nombres de sonidos pueden usarse con MCI y con la función sndPlay Sound. Si el tamaño de la muestra es de 8 bits o menos. para un tamaño de muestra de 8 bits un silencio es equivalente a una cadena de 0x80 bytes). Después de ambos vienen tamaños de bloques de datos de 4 bytes. seguidos por el bloque de datos. a lo que sigue la propia información de la forma de onda. EI campo nBlockAlign es el número de canales multiplicado por el tamaño de la muestra en bits. Este bloque secundario contiene tres subbloques secundarios con las etiquetas "INAM" (nombre). (Por ejemplo. un archivo de sonido por forma de onda puede incluir un bloque secundario marcado como "INFO" y sub-bloques secundarios dentro del secundario que pro veen información del archivo de sonido por forma de onda. (En seguida lo explicaré en detalle). Pag. Aunque un archivo de sonido por forma de onda requiere bloques secundarios "fmt" y "data" (en ese orden). que son entradas en la sección "[sounds]" del archivo WIN.INI. Si el tamaño de muestra es de 9 bits o más.

porque MessageBox no regresa hasta que el usuario termine de mostrar la caja de mensaje. La función sndPlaySound retorna FALSE si no hay una entrada en SystemDefault o si no puede encontrarse el archivo asociado con SystemDefault. SND_NODEFAULT evita que la función toque los sonidos prefijados si no puede encontrar el sonido pedido.WAV en los recursos definidos por el programador para su programa. pero si usa el indicador SND_MEMORY. lo que significa que la función no regresa hasta que se termine de tocar el sonido. Estas se usan junto con la función MessageBeep que explicaré en los párrafos siguientes. Puede detener la repetición llamando a sndPlaySound con un primer parámetro que sea NULL. En cualquier caso. MEssage8ox (hwnd. de esta forma: MessageBeep(MB_ICONASTERISK). de acuerdo con la Referencia para el Programador de Windows de Microsoft (Realmente. El prefijado es SND_SYNC (igual a 0). el parámetro wType se ignora así que puede fijarlo a lo que quiera). o cambiar los nombres de archivo asociados con los nombres de sonidos existentes. MessageBeep simplemente hace sonar al altavoz de la PC sin importar el parámetro. puede que quiera definir su sonido de SystemDefault para . Cuando se instalan las extensiones de Multimedios. Esto simplifica la inclusión de archivos de forma de onda. Sólo tiene que pasar el mismo parámetro a MessageBeep que usa para especificar el icono en MessageBox. como se muestra en la Figura 3.con otros archivos.INI.INI para guardar los nombres de archivos. Normalmente.0. Se asume que el primer parámetro es un nombre de sonido listado en la sección "[sounds]" de WIN. use MessageBeep antes de llamar a MessageBox. MB_OK | MB_ICONATERISK). El indicador SND_NOSTOP hace que la función retorne FALSE si se está tocando otro sonido. sndPlaySound toca un archivo de sonido por forma de onda. que tiene la siguiente sintaxis: BOOL andPlaySound (lpzsSound. Si quiere detener un sonido que sndPlay Sound esté tocando. invocando la opción de Sound en el Panel de Control de Windows con Multimedios. Asegúrese de llamar a MessageBeep antes de MessageBox. De forma alterna. entonces se asume que es un nombre de archivo de sonido por forma de onda. En este caso la función retorna inmediatamente y el sonido se toca en segundo plano. Como existen muchos programas que sencillamente llaman a MessageBeep con un parámetro de cero. LA FUNCION ANDPLAYSOUND La función más simple que puede usarse para tocar archivos de sonido por forma de ondaes probablemente la función sndPlaySound. El uso de la función MessageBeep es la forma más conveniente de hacer que sus programas de Windows "conozcan" el multimedios sin tener que añadir llamadas a funciones específicas de multimedios. Si usa el indicador SND_ASYNC también puede incluir el indicador SND_LOOP para tocar el sonido sin cesar. Aquí se muestra cómo es usado en Multimedios de Windows. la función toca el archivo de sonido por forma de onda asociado con el nombre de sonido asociado con la variable SystemDefault. pero siempre se ha definido de una forma algo peculiar. Si no puede encontrar el archivo.WAV que siguen a los signos de igual. En Windows con Multimedios el parámetro wType tiene un nuevo significado. MessageBeep toca un archivo de sonido definido por el usuario. "File Not Found!". puede llamar: andPlaySound(null. wFlags) Esta es la única función en las extensiones de multimedios que tiene el prefijo "snd". el archivo de sonido por forma de onda debe caber en la memoria disponible. Un programa puede tener acceso al nombre de archivo asociado con un nombre de sonido o añadir nuevas enaadas usando las funciones GetProfileString y WriteProfileString. puede especificar que SND_ASYNC toque el sonido de forma asincrónica. NULL. 2-23 Los dos indicadores adicionales son SND_NODEFAULT y SND_NOSTOP. Note que los valores de wType co mienzan con el prefijo MB que son las constantes que se usan en la función Mes sageBox para especificar el tipo de icono que se muestra. En las versiones normales de Windows el parárnetro wType no se usa y "debe fijarse a cero". Pag. LA NUEVA FUNCION MESSAGEBEEP La función MessageBeep ha estado en Windows desde la versión 1. La sintaxis es: void MessageBeep (wType).WAV que el programa usa para imitar los sonidos de un reloj y sonar una alarma. wType -1 0 MB_ICONASTERISK MB_ICONEXLAMATION MB_ICONHAND MB_ICONQUESTION Sonido El sonido de la PC Sonido "SystemDefault" Sonido "SystemAsterisk" Sonido "SystemExlamation" Sonido "SystemHand" Sonido "SystemQuestion" Figura 3. Pueden especificarse seis indicadores (flags) en el segundo parámetro. Puede añadir los nuevos nombres de sonido. En una versión que no sea de multimedios de Windows. El programa Reloj de Multimedios (multimedia clock) usa la sección "[sounds]" de WIN.0). el primer parámetro de sndPlaySound se asume que sea un puntero a un bloque de memoria que contiene una imagen en memoria de un archivo de forma de onda. Bajo las versiones de Windows que no son de multimedios. Generalmente. Usa LoadResource y LockResource para tomar un puntero al bloque de memoria que contiene el archivo y simplemente pasa el puntero a sndPlay Sound con el indicador SND_MEMORY. el parámetro wType no es usado. Si no puede encontrarse allí un nombre de sonido.

A la relativamente alta velocidad de 64 kb/s. como resultado de la transmisión digital. De esta forma la relación señal a ruido de cuantificación se mantiene constante sobre una amplia gama de niveles. La modulación por pulsos codificados convencional (PCM) es de una calidad altamente aceptable. a los cuales estamos obligados actualmente. La codificación del habla a baja velocidad permite compartir entre voz y datos un canal B a 64 kb/s de la ISDN (Red Digital de Servicios Integrados. "pare!" y "cómo?". Esta no linealidad favorece las bajas amplitudes.34bis trasmiten a 33. Así que los enlaces de voz analógicos ahora utilizados para transmitir voz analógica de alta calidad serán entonces capaces de llevar voz digital de alta calidad con beneficios adicionales tal como seguridad y privacidad. La función principal de estas técnicas es analizar la señal de habla más cuidadosamente. De hecho muy pocas personas pueden decir si la voz en el otro extremo de la línea telefónica se está transmitiendo digitalmente. es decir buzones electrónicos donde se almacenan mensajes hablados.3. existe la ventaja de la mejor calidad de la voz. en vez de los canales digitales de mayor ancho de banda. tal como el V. complejidad y retardo. Con la vista puesta en aplicaciones como las mencionadas. en cierta medida. Yo he grabado mi voz en archivos de sonido y he fijado los sonidos SystemAsterisk (asterisco). no es un problema serio en aplicaciones como el correo de voz. pero en el futuro se van a usar canales digitales con quizás 8 kb/s para codificar la voz con ancho de banda de 10 kHz. Actualmente en telefonía celular se usa canales analógicos FM con ancho de banda de 30 KHz. Como se sabe. así que la capacidad de dispositivos de grabación. por supuesto. Una razón de ello es la creciente necesidad de transmitir mensajes hablados con alto nivel de seguridad sobre canales de baja velocidad. la codificación del habla a bajas velocidades tiene su importancia. los límites fundamentales sugeridos por la percepción del habla y la teoría de la información son bastante bajos. también se pierde la calidad del sonido. Más bien. Se podría afirmar que en las telecomunicaciones hay 2 tendencias claras de evolución: mientras los expertos en codificación tratan de bajar la velocidad binaria para un dado nivel de calidad. pronto puede ser práctico el enviar señales digitales de voz de alta calidad a unos 8 kb/s sobre una amplia gama de canales. El único algoritmo especial en PCM es la cuantificación. Este retardo. 2-24 que contienen el sonido de las palabras "hey". También se explota una característica de la audición humana y es que las amplitudes altas logran enmascar. Las velocidades bajas pueden adaptar más fácilmente los mensajes de voz para la conmutación por paquetes (como Frame Relay). tal como la telefonía celular o en las comunicaciones por satélite. Algunos opinan que se puede realizar la codificación del habla con alta calidad a velocidadades tan bajas como 2 kb/s. Algo interesante es que parece que la respuesta del oído a estas frases fuera más rápida que la respuesta visual a los iconos. a menos que se aumente la complejidad del esquema de codificación (y de los circuitos integrados que realizan el proceso). el ruido de cuantificación. a medida que se trata de reducir la velocidad binaria. Algoritmos de codificación robustos y de alta calidad están reduciendo la velocidad de transmisión y nuevos modems. las interferencias quedan prácticamente eliminadas. Si bien la tecnología no está completamente madura. A velocidades bajas. se requieren técnicas mucho más elaboradas.600 b/s sobre canales con ancho de banda de apenas 3 KHz.que sea algo breve y simple. Un chip de memoria de 16 Mb podría guardar 1 hora de habla a 4 kb/s. en el cual el paso de cuantificación aumenta a medida que la amplitud aumenta. Los investigadores han ensayado una gran variedad de esquemas de codificación y aparecen continuamente nuevos conceptos de codificación que se añaden a los existentes. tales como máquinas contestadoras. Puede divertirse con estos nombres de sonidos. Codificación de la Voz a Baja Velocidad En nuestro mundo que tiende cada vez a redes de banda ancha para altas velocidades. el nivel de recepción se vuelve independiente de la distancia y se puede conversar más fácilmente con manos libres. Se puede usar 56 o 48 kb/s para la voz y 8 o 16 kb/s para datos. Los investigadores se sienten optimistas ya que en el compromiso entre calidad de voz y velocidad binaria. en PCM la forma de onda de la voz es muestrada. También es crucial para acomodar más usuarios sobre canales comerciales que tienen limitaciones inherentes de ancho de banda o potencia. Por ejemplo. donde se utiliza un cuantificador no lineal (ley A en Europa y ley µ en Estados Unidos y Japón). las cuales predominan en el habla. SystemExclamation (admiración). La complejidad incrementa los costos y a menudo aumenta el tiempo de procesamiento. para así eliminar la redundancia presente de una forma más profunda y usar los bits disponibles para codificar las partes no redundantes de una manera eficiente. A medida que la . calidad. Los expertos en codificación digital tratan de optimizar la interacción de 4 parámetros: velocidad binaria. los expertos en transmisión digital tratan de subir la velocidad de transmisión que un canal puede acomodar. SystemHand (mano) y SystemQuestion (pregunta) a archivos Pag. Otro factor es el deseo de sistemas eficientes desde el punto de vista de memoria para el almacenamiento de voz y para lo que se conoce como el correo de voz. los entes de estandarización y los laboratorios de procesamiento digital de señales han estado muy activos en los últimos años. En efecto. 2. sin embargo. cuantificada y codificada digitalmente. puede aumentar significativamente. En el extermo receptor se efectúa el proceso inverso por medio de un decodificador. "uhhhh". donde todas las formas de comunicación se reducen al formato digital). la calidad de la voz no es un problema. El cifrado de mensajes secretos o importantes puede llegar a ser más facilmente disponible para el sector comercial o militar. tales como enlaces militares vía radio. han aparecido numerosos productos y componentes.

El resultado es por lo general un sonido artificial en el cual las palabras pueden ser entendidas claramente pero no se puede fácilmente identificar a la persona que habla. basada en modelo) que permite una resolución espectral más precisa que la transformada de Fourier no parámetrica. Una aplicación prometedora para el vocoder es en el correo de voz. Bajar de 8 a 4 bits por muestra involucra una relativa simple combinación de cuantificación adaptable y predicción adaptable. Estas técnicas pueden ser combinadas entre ellas en forma complementaria. LPC utiliza un número reducido de parámetros vocales (llamados coeficientes LPC) que tienen que ver con la configuración del tracto vocal y en consecuencia con el sonido que es emitido. El resultado es un ahorro considerable en bits para un dado nivel de calidad de la voz reconstruida. Estos códificadores híbridos son más robustos que los vocoders y su objetivo es lograr una calidad del habla que sea suficientemente buena para el servicio comercial. así que la velocidad binaria es de 32 kb/s en vez de los 64 kb/s del PCM convencional. permite la predicción de ese timbre y en consecuencia codificarlo con pocos bits. se asume que las señales son generadas por una fuente que excita un filtro lineal y la fuente puede representar soplos periódicos de aire que pasan a través de la glotis (que es el espacio entre las cuerdas vocales) o que es el ruido producido por un estrechamiento en el tracto vocal y el filtro corresponde al tracto vocal superior. hasta cerca de 1 error por cada 100 bits. Son robustos en el sentido de que funcionan razonablemente bien aun en ambiente con tasas de errores altas. Adicionalmente pueden ser combinadas con otra técnica. llamada enmascaramiento del ruido. sin trasmitir información explicita de adaptación. 8 kb/s y 4 kb/s. (esto es. Los primeros emplean algoritmos para lograr una salida que sea una aproximación de la forma de onda de la señal de entrada. el estándar LPC-10 ha sido muy utilizado en ambiente militar durante años. no solamente la voz. (LPC: Linear Predictive Coding) con el cual se codifica la señal de voz haciendo una estimación de la misma como una función lineal de las muestras anteriores. en cambio. Se utilizan 4 bits por muestra con velocidad de muestreo de 8 kHz. lograr la codificación a 16 kb/s) es mucho más difícil. Si bien el principio del ADPCM se conoce desde hace muchos años. LPC es una técnica muy utilizada para el análisis de muchas señales. Este principio se explota. por ejemplo. si el ruido se encuentra a más de 15 dB por debajo de la señal. En los Estados Unidos. Algunos de los nuevos codificadores de forma de onda a baja velocidad incluso se aprovechan de la tecnología de los vocoders. especialmente si el filtro es excitado por pulsos breves pocos frecuentes. Este es un modelo que trata de simular el proceso de excitación y modulación en el tracto vocal humano usando LPC. ya que se hace una estimación de la muestra de voz actual a partir de una combinación lineal ponderada de muestras pasadas cuantificadas. buscan una descripción compacta de la señal de entrada y digitalizan solamente los parámetros de esta descripción compacta. La compresión digital del sonido en general asume que una porción de la onda que empieza de cierta forma probablemente continúe de una forma conocida por un cierto tiempo más. Estos coeficientes puede ser utilizados en circuitos digitales como valores multiplicadores para generar una versión sintética de la señal original o pueden ser almacenados como patrones para el reconocimiento de la voz. resonancia de vocal) tiende a enmascarar el ruido que se encuentra en la banda de frecuencias de la formante. Esta predecibilidad hace innecesario representar la onda completa y permite que el codificador y el decodificador utilicen un algoritmo de predicción basado en las propiedades estadísticas de la onda. Esto significa que cerca de las frecuencias de las formantes puede ser tolerado un error de . Estos algoritmos son eficientes en el sentido de que ellos adaptan la cuantificación y la predicción en forma sincrónica en el codificador y en el decodificador. El error de predicción tiende a contener menor energía que la voz original y en consecuencia puede ser codificado usando menos bits para un dado grado de error de reconstrucción. La calidad de los vocoders es aceptable para comunicaciones militares seguras que deben enviarse a velocidades muy bajas. las técnicas para la reducción de la redundancia y el aprovechamiento de los bits deben ser cada vez más sofisticadas. Aquí se hace uso de la naturaleza periódica del habla y de una carácterística de la forma como las personas escuchan. para velocidades de 8 kb/s y eventualmente de 4 kb/s. con el desarrollo de algoritmos eficientes y robustos. 2-25 utilizados por los vocoders no son muy robustos: pueden fallar cuando hay mucho ruido de fondo o cuando varias personas hablan simultáneamente. La predicción es lineal. ya que la codificación puede ser efectuada sin prisa con un proceso cuidadoso que optimice la calidad de la voz. por ejemplo. donde se utilizan 8 bits por muestra. en el PCM diferencial adaptable (ADPCM). añadiendo la señal diferencia cuantificada a su propia estimación o predicción de la muestra de voz actual. no fue posible estandarizarlo en el CCITT como un código a 32 kb/s sino hasta 1984. 16 kb/s. por ejemplo. Los sistemas que usan estas técnicas son llamados codificadores de forma de onda (waveform coders) y son distintos de los llamados vocoders. pero ir de 4 a 2 bits por muestra (esto es. en vez que en muestra por muestra. la cual fracciona el habla en bandas de frecuencias y asigna los bits diponibles de forma que se adecuen al espectro de la voz de entrada y a las propiedades del oido. El decodificador realiza una operación inversa parecida a la integración. 4 kb/s o menos. En el caso del habla. en donde un bloque completo de entrada se cuantifica todo de golpe. Las señales producidas a través del filtrado lineal de variaciones lentas son las más adecuadas para LPC. tanto en transmisión que almacenamiento. esto es el hecho que personas hablan con un timbre característico. En el ADPCM la calidad subjetiva de la voz es comparable con el PCM y no hay incremento del retardo de procesamiento.velocidad binaria disponible se reduce a 32 kb/s. Esta descripción usualmente se basa en la noción de una señal de excitación que alimenta un filtro lineal. Los algoritmos Pag. una fuerte formante (esto es. donde la entrada al cuantificador es la diferencia entre una muestra de voz y la predicción de la misma. llamada cuantificación vectorial. Un método muy utilizado es la predicción lineal. Para el habla. La periodicidad del habla. Otra técnica es usar codificación adaptable por sub-bandas. El número de bits puede ser reducido ulteriormente por el enmascaramento del ruido: En lo que se refiere al que escucha. sobre todo cuando la señal es estacionaria solamente por un corto tiempo. Los vocoders. cuantificando sólo el error de predicción. LPC es una forma de análisis parámetrico.

calidad de llamada de larga distancia. Un MOS mayor de 4 significa que la persona encuentra el habla tan inteligible como el original y libre de distorsión. En las bandas de bajas frecuencias. Por medio de una búsqueda en lazo cerrado se selecciona la mejor secuencia. con personas. los esquemas más complejos para codificación sub-banda adaptable y el propio ADPCM usan predicción del timbre y enmascaramiento del ruido. En el extremo receptor. Como ejemplo. mientras que 4 o más significa una alta calidad. 3 regular. el número de niveles de cuantificación puede controlarse independientemente en cada banda y la forma del espectro total del ruido de cuantificación así puede ser controlado según la frecuencia. Para la codificación a 4 kb/s se ha desarrollado la codificación con excitación estocástica. En este caso la asignación de bits apropiada a un segmento de habla con un espectro rico en bajas frecuencias podría ser. 2-26 con el tiempo para lograr calidad y naturalidad. La velocidad binaria asignada a la excitación es más de la mitad de la velocidad total de 8 kb/s. 3.codificación (el equivalente de ruido) relativamente alto y que la velocidad binaria puede ser reducida proporcionalmente. conformando el espectro de ruido. Pruebas subjetivas de sistemas experimentales a baja velocidad han demostrado que los usuarios encuentran la calidad del los codificadores de forma de onda más que adecuada. asumiendo que la velocidad de muestreo de cada subbanda sea 1/4 de 8 KHz (esto es 2 KHz).5 bits por muestra para codificar la voz. por ejemplo. 10 pulsos para un segmento de 10 ms). la forma del espectro del ruido se modifica por asignación adaptable de los bits. Ellos utilizan información acerca de las formantes de manera tal que las frecuencias del ruido de cuantificación se modifican de acuerdo a la frecuencia del formante. Sin embargo si predomina energía de alta frecuencia en un dado segmento de habla. Como ejemplo. 0 bits para las 4 sub-bandas en orden creciente de frecuencias. en el caso de un sistema de 4 sub-bandas de igual ancho. Un buen candidato para la codificación a 8 kb/s es la codificación predictiva lineal por multipulsos. Valores de MOS entre 3 y 4 corresponden a calidad apta para comunicaciones. 4 bueno. lo cual no deja muchos bits para la información que proviene del filtro predictivo lineal. Un MOS de 5 se considera excelente. con el fin de asegurar que estén disponibles suficientes bits para los parámetros de excitación y predicción. pagada). el algoritmo adaptable automáticamente asigna mayor número de niveles de cuantificación para las frecuencias más altas. se requieren solamente 10 bits para transmitir la dirección del código de 40 muestras y la codificación se logra con apenas 0. Utiliza los principio de codificación de forma de onda de alta calidad para optimizar la señal de excitación. logrando al mismo tiempo mantener un promedio de 2 bits por muestra. se asignan más bits a las frecuencias percibidas como más importantes. Las amplitudes y la posición de los pulsos se optimizan pulso por pulso a través de una búsqueda de lazo cerrado. 2. Valores de MOS entre 3. Como podría esperarse. se usan en promedio más niveles de cuantificación. 5. donde un número adecuado de pulsos se utilizan como la secuencia de excitación correspondiente a un segmento del habla (por ejemplo. por ejemplo. 3 bits para cada muestra de subbanda. donde debe conservarse la información sobre el timbre y el formante.25 bits por muestra. una velocidad promedio de 2 bits por muestra implica una velocidad total de 8 bits por muestra. Si la tabla de códigos contiene. Para esto. la banda de voz se divide en 4 o más sub-bandas contiguas por medio de un banco de filtros pasabanda y se emplea un esquema específico de codificación para cada sub-banda. En cambio en la codificación adaptable por sub-bandas.5 y 4 representan un nivel útil de calidad del habla. pero no es fácilmente distinguible y la inteligibilidad es todavía muy alta. así que una entrada de habla de bajo nivel no va a ser afectada por el ruido de cuantificación en otra banda. Esto es. Para estos valores la distorsión está presente. han logrado puntajes sorprendentemente favorables. En el ADPCM se le da cierta forma al espectro del ruido por medio de realimentación del error o técnicas de post-filtado. pero es suficientemente flexible para adaptarse a las sutiles propiedades de la forma de onda del habla. La calidad se mide en forma subjetiva por medio de un puntaje promedio de opinión (MOS: Mean Opinion Score) obtenido a través de pruebas rigurosas. 1. Luego escoje la dirección correspondiente a ese conjunto de secuencias y transmite esa dirección al receptor. Al fondo de la escala se encuentra la calidad sintética típica de los vocoders: . donde cada una es una secuencia estocástica (esto es aleatoria) de pulsos. pero velocidades substancialmente más bajas. 2 pobre y 1 malo. la asignación de bits apropiada para un segmento con un predominio de componentes de alta frecuencias podria ser 1. Optimizar la excitación y los parámetros del filtro representa un gran desafío para los investigadores. 1. una velocidad de 64 kb/s alcanza un puntaje alto en tales pruebas. Con las técnicas híbridas más avanzadas. se requieren apenas de 1 a 0. por ejemplo una secuencia de 40 muestras de largo. el ruido de cuantificación de una banda se mantiene dentro de esa banda. en vez de la propia secuencia de 40 muestras. las señales de las sub-bandas son decodificadas y sumadas para así lograr una reproducción fidedigna de la señal original. el codificador tiene almacenado un repertorio de posibles excitaciones. Si se varía la asignación de los bits en las distintas bandas. formales. Adicionalmente en un sistema de codificación por sub-bandas. esto es. el cuantificador busca en su memoria el conjunto que más se asemeja a la secuencia de muestras. La cuantificación vectorial asegura buena calidad permitiendo que haya suficientes secuencias a escoger en las tablas de códigos de la excitación y del filtro. al ser realizadas con codificadores avanzados de alta complejidad. Aquí es casi una necesidad la cuantificación vectorial en el filtro predictivo lineal. En la cuantificación vectorial. en vez de usar excitación rígida de 2 estados de los vocoders. resultando así una velocidad de 8 a 4 kb/s. la codificación de los parámetros de predicción puede hacerse suficientemente precisa. Así que un MOS de 5 indica calidad perfecta. (los ingenieros telefónicos la llaman toll quality. pero con la sofisticación de la cuantificación vectorial. Se pueden lograr velocidades todavía más bajas utilizando un tipo de código que alimenta un filtro lineal predictivo con una señal de excitación cuidadosamente optimimizada. ya que ambos tipos de parámetros deben variar Pag. Este es un sistema híbrido que adopta mucha de la eficiencia de los vocoders tradicionales. 1024 secuencias almacenadas.

puede ser rediseñado para que opere a 8 kb/s en vez de 4 kb/s. sin embargo el progreso en la tacnología de procesadores de señales tiende a hacer bajar los costos para un dado nivel de complejidad y. la codificación pedictiva lineal multipulso de baja complejidad puede lograr codificación de alta calidad a 16 kb/s. centrales viejas y modernas). como se ilustra en la Tabla 1. en base de mediciones de señal a ruido los codificadores de 16 kb/s. El costo por supuesto es también un factor de compromiso pero es difícil de cuantificar en la figura. una versión ampliamente usada del vocoder LPC posee un retardo mucho más grande del que se muestra en la figura. La figura muestra valores típicos para varios sistemas de codificación de habla y muestra el compromiso entre complejidad. por ejemplo. El costo del hardware generalmente aumenta con la complejidad. usualmente expresada en millones de instrucciones por segundo (MIPS). En casos específicos. Los codificadores de baja velocidad están destinados a un uso masivo (por ejemplo. puede ser realizado con unos cuantos chips especialmente diseñados. Por ejemplo. Por supuesto. aun los sistemas más sistemas más sofisticados a baja velocidad se quedan a veces cortos con respecto a los sistemas PCM de 64 y 32 kb/s por lo siguiente: su calidad decrece abruptamente si la señal pasa por etapas sucesivas de codificación/decodificación. De hecho. tal como la que se encuentra en un enlace de transmisión en el cual haya numerosas conversiones analógico/digital (por ejemplo. son bastante inferiores a los codificadores PCM de 64 kb/s. Un algoritmo se considera generalmente práctico si se puede realizar en un solo chip. en cada teléfono digital) así que deben ser económicos. manteniendo aproximadamente la misma calidad del habla. mientras que un codificador predictivo lineal excitado estocásticamente. requieren más tiempo para actuar. Comparación de distintos esquemas de codificación del habla Un tipo de código no está necesariamente limitado a la velocidad que se muestra en la tabla. la mayoría de los codificadores mostrados en la figura son actualmente prácticos.1 16 1 8 10 4 100 2 1 Retardo (ms) 0 0 25 35 35 35 Calidad alta alta alta comunicaciones comunicaciones sintética Tabla 1. los valores de complejidad pueden diferir substancialemnte de los ordenes de magnitud estimados en la figura. Estas pruebas subjetivas de MOS complementan mediciones objetivas. Tipo de código Modulación por pulsos codificados (PCM) PCM adaptable diferencial (ADPCM) Codificación sub-bandas adaptable LPC multipulsos LPC con excitación estocástica Vocoder LPC Velocidad (kb/s) Complejidad (MIPS) 64 0. a menudo son más significativas. sin importar su complejidad. Por ejemplo. las señales son codificadas y decodificadas una sola vez. de baja complejidad. esto es el codificador de predicción lineal excitado estócásticamente. Los algoritmos para la codificación digital del habla usualmente se implementan en procesadores digitales de señal. en la gama de 64 kb/s a 8 kb/s el número de MIPS aumenta de un orden de magnitud cuando la velocidad de codificación se reduce a la mitad.01 32 0. con una complejidad de 50 a 100 MIPS. velocidad y calidad. Pero en pruebas subjetivas los mejores codificadores de 16 kb/s se acercan en calidad a los codificadores PCM de alta velocidad y logran un puntaje MOS cercano a 4. Los algoritmos complejos introducen un retardo entre el momento en que la persona que habla emite un sonido y el momento en que la versión codificada de ese sonido sale del codificador. Estos retardos pueden ser objetables en una conversación telefónica bidireccional. Por supuesto. 2-27 los cuales son una combinación de circuitos integrados de propósito general y de propósito específico. mucho más importante. Por ejemplo. a reducir la diferencia de costo entre las técnicas de baja complejidad y las de alta complejidad. En forma similar. Aún la excepción. a medida que los algoritmos se vuelven más complejos. de hecho. en vez de habla alta calidad a 32 kb/s.las palabras son en su mayoría inteligibles pero no siempre puede ser identificada la persona que habla. ya que un procesador de señales de propósito general puede trabajar hasta unos 10 MIPS. El retardo de codificación no es problema si la voz se almacena en forma . Con PCM todavía se logra alta calidad con hasta 8 etapas de conversión. el codificador PCM adaptable puede ser rediseñado para lograr habla a 16 kb/s con calidad de comunicación. Los codificadores son por lo general mucho más complejos que los decodificadores. Sin embargo. Esto se debe a que los segmentos de habla son mucho más largo que el valor de 10 ms asumido en la figura y porque se usan subsistemas adicionales para la interpolación de parámetros y para la protección contra errores. Como regla práctica. una versión altamente compleja puede conseguir habla de alta calidad a velocidad más baja. tales como la relación señal a ruido y. por lo que las ventajas multietapas de las velocidades altas son menos importantes. Pag. La complejidad de esos procesadores se mide por el número de operaciones tipo multiplicación-adición requeridas para codificar el habla. Por otro lado los valores de retardo están redondeados y generalmente reflejan el mínimo para los distintos códigos. Este último problema se puede aliviar incorporando un cancelador de eco en el sistema. Bajo este criterio. el codificador predictivo lineal excitado estocásticamente puede ser simplificado a 50 MIPS con solo una pequeña pérdida en la calidad de la voz. en enlaces completamente digitales de extremo a extremo (como ocurriría con la ISDN). especialmente cuando se suman los retardos en la propia red de transmisión (sobre todo en enlaces vía satélite) y se combinan con ecos que no han sido neutralizados.

1 5. puede ser una alternativa al G. En la Tabla 2 se reportan los valores comparativos de los más recientes sistemas de compresión estandarizados por el ITU. En aplicaciones donde se requieran bajos retardos. Figura 1.5 37.709 opera a 8 kb/s con un retardo de 15 ms. Comparación entre codificadores de voz estandarizados . El G.7 k G. En la Figura 1 se muestra la calidad de la voz en varios sistemas estandarizados por el ITU y por otros entes. El G.729.729A 8 10 5 15 10.1 6. La información en la Figura 1 y en la Tabla 2 se encuentra ampliada con más detalles en algunas de las lecturas que siguen a continuación. sin embargo.Pag. 2-28 digital para su entrega posterior.A es una versión del G.723.723. pero es aplicable a comunicaciones de multimedia. si el retardo es aceptable.5 14. el G.3 y 5. Por otro lado el G.3 30 7. Provee habla con buena calidad y fue diseñado originalmente para aplicaciones de telefonía celular.1 opera a 6. entonces el G.1 puede no ser la solución más apropiada.3 30 7.729 8 10 5 15 20 2.723.2 k G.729 con complejidad reducida y fue diseñado originalmente para aplicaciones de voz y datos en comunicaciones de baja velocidad.1.5 16 2.3 kb/s y fue diseñado para videoteléfonos de baja velocidad.729 a expensas de una ligera degradación en la calidad del habla. debido a su baja complejidad.2 k Tabla 2.6 2.723.5 2k G. La calidad en los codificadores de voz Parameter Bit rate (kb/s) Frame size (ms) Subframe size (ms) Algorithmic delay (ms) MIPS (fixed-point DSP) RAM (16 bit words) G.723.5 37.

Sign up to vote on this title
UsefulNot useful