Pag.

2-1

2. CODIFICACIÓN Y COMPRESIÓN DEL AUDIO
2.1. La Naturaleza del Sonido
El sonido es una vibración que se propaga a través del aire, gracias a que las moléculas del aire transmiten la vibración hasta que llega a nuestros oídos. Los mismos principios de cuando se lanza una piedra a un estanque se aplican al sonido: la perturbación de la piedra provoca que el agua se agite en todas las direcciones hasta que la amplitud (o altura) de las ondas es tan pequeña, que deja de percibirse. El diapasón es un buen ejemplo de fuente de sonido por dos razones: la primera es que puede observarse el movimiento de vaivén de sus brazos mientras se escuchan los resultados de esta vibración; la segunda es que el diapasón vibra a una frecuencia (vibraciones por segundo) constante hasta que toda su energía se ha disipado en forma de sonido. Caracteristicas de una onda sencilla Una perturbación que viaja a través del aire se denomina onda y el aspecto de la onda se denomina forma de onda. La forma de onda del diapasón es la más sencilla de las formas de onda, denominada onda sinusoidal. Pueden verse formas de onda como ésta en la pantalla de un osciloscopio. Estas ondas sencillas se caracterizan por una frecuencia y una amplitud, o cantidad máxima de perturbación producida, representada en los picos de la onda. El oído y un micrófono son muy similares. Ambos transforman pequeñas variaciones en la presión del aire en señal eléctrica que puede ser comprendida y almacenada por sus respectivos "cerebros" (ya sea el humano o la CPU de la computadora). Una señal es el término utilizado para describir la información que, como el sonido, sufre una transformación de su forma original -- moléculas que chocan en el aire con una forma eléctrica que puede guardarse, manipularse y reproducirse. Diferencias entre tono y frecuencia Existe una sutil, pero importante, distinción entre frecuencia y tono. La frecuencia se refiere a la medida objetiva del número de vibraciones por segundo. El tono se refiere a nuestra percepción de esas vibraciones. Hablamos normalmente del tono caracterizándolo como "bajo" o "alto". Por ejemplo, un triángulo o timbal tiene un tono alto, mientras que un violón o un bombo tienen un tono bajo. En la terminología del audio, tal como la grabación y la reproducción, las gamas de frecuencias comprendidas entre 300 Hz y 5.000 Hz se denominan frecuencias medias. Las comprendidas entre 20 Hz y 300 Hz se denominan bajas, mientras que las superiores a 5.000 Hz se denominan altas. Amplitud La medida de la amplitud de una onda es importante porque informa de la fuerza, o cantidad de energía, de una onda, que se traduce en la intensidad de lo que oímos. El decibel, abreviado como dB, es una unidad de medida de la fuerza de la señal y es útil en la comparación de la intensidad de dos sonidos. La sensibilidad del oído humano es extraordinaria, con una gama dinámica o variación en intensidad muy amplia. La mayoría de los oídos humanos pueden capturar el sonido del murmullo de una hoja y, después de haberse sometido a ruidos explosivos como los de un avión, siguen funcionando y lo que es sorprendente es que la fuerza de la explosión en un avión es al menos 10 millones de veces mayor que el murmullo que una hoja produce con el viento. El oído necesita un porcentaje elevado de variaciones en la fuerza de un sonido para detectar un cambio en la intensidad percibida, lo que significa que la sensibilidad del oído a la fuerza del sonido es logaritmica. El oído trabaja como un dispositivo logarítmico, de manera que el decibel, unidad de medida logarítmica, es la elección más adecuada para medir la fuerza del sonido. E1 aspecto práctico de la amplitud es que un incremento de sólo 3 dB duplica la intensidad de un sonido. Por ejemplo, un sonido con 86 dB tiene el doble de fuerza que un sonido con 83 dB y cuatro veces más que un sonido con 80 dB. Desde la perspectiva de nuestra percepción de la intensidad, un incremento de 3 dB, que da lugar a que se duplique la fuerza, provoca que el sonido se perciba sólo ligeramente más alto. Es necesario un aumento en 10 dB para que nuestros oídos perciban un sonido con el doble de intensidad. La Tabla 1 muestra una gama de sonidos y su comparación en fuerza, medida en el sistema logarítmico de decibel. Sonido Intensidad (dB) Frente a un cañón de 12" 220 Cohete 190 Avión 150 Umbral de dolor 140 Pista de aeropuerto 130 Umbral de percepción 120 Clímax de una orquesta 110 Banda de rock 100 Tráfico pesado 90 Gritos 80 Ruido de oficina/calle concurrida 70 Conversación normal 60 Oficina en silencio 50 Hogar silencioso 40 Estudio de grabación 20 Susurro 10 Umbral de escucha 0 Tabla 1. Comparación de niveles de sonido Gama dinámica La calidad de los sonidos musicales grabados no es demasiado importante, ya que nunca son comparables a los reales. La razón principal es que el equipo estéreo no puede duplicar la gama dinámica completo de una orquesta o de un concierto de

rock. Una orquesta puede alcanzar los 110 dB en su clímax y en el punto más suave bajar hasta los 30 dB, dando lugar a una gama dinámica de 80 dB. Esta gama es superior a la gama dinámica de un sistema estéreo típico y, de hecho, superior a la capacidad de grabación de medios tales como un disco de vinilo y una cinta de audio. Ancho de banda Profundizamos ahora en aspectos prácticos, como la gama de frecuencia de un reproductor CD y el de nuestra voz. La Tabla 2 muestra el ancho de banda, la gama de frecuencias en el que sistemas electrónicos como tarjetas de sonido para PC y los instrumentos musicales -- así como nuestro oído y nuestra voz - son capaces de captar y de producir sonido. El ancho de banda es muy importante para disfrutar de la música (como manifiestan las quejas de sonido "de lata" de una radio de bolsillo) y es un criterio básico a la hora de seleccionar un equipo de audio. Lo que realmente es decisivo no son los números, que variarán dependiendo de quién tome la medida y de otros factores externos, sino de la magnitud de su diferencia. Por ejemplo, el ancho de banda teórico de la radio FM es aproximadamente tres veces el ancho de banda de la radio AM. Fuente de sonido o detector Radio AM (máximo teórico) Radio FM (máximo teórico) Reproductor CD Tarjeta de sonido para PC Micrófono barato Trompeta Teléfono Oídos infantiles Jóvenes asiduos de conciertos de rock Oídos adultos Voz masculina Voz femenina Ancho de banda 80 Hz a 5 kHz 50 Hz a 15 kHz 20 Hz a 20 kHz 30 Hz a 20 kHz 80 Hz a 12 kHz 180 Hz a 8 kHz 300 Hz a 3 kHz 20 Hz a 20 kHz 50 Hz a 10 kHz 50 Hz a 10 kHz 120 Hz a 7 kHz 200 Hz a 9 kHz

Pag. 2-2 o los micrófonos, hay que asegurarse de que se comparan manzanas con manzanas tras observar la definición del ancho de banda. Estas medidas pueden tomarse utilizando diferentes métodos ofrecidos por los fabricantes, de modo que la comparación es harto complicada. Afortunadamente existe una medida estándar para definir el ancho de banda: el gama de frecuencias sobre el que la amplitud de la señal no difere del promedio en más de 3 dB. La frecuencia en la que se produce una caída de 3 dB es conocida como la frecuencia de corte o envolvente. Se utiliza como punto envolvente un valor de 3 dB, ya que éste es el mínimo cambio en la fuerza de la señal que puede ser percibido como un cambio real en la intensidad por la mayoría de los oídos. Ruido y distorsión Del mismo modo que perturban los ruidos y ecos en una habitación, también puede generarse ruido y distorsión en la tarjeta de sonido, en los altavoces y en el micrófono. El ruido -sonidos aleatorios que subrepticiamente transforman y enmascaran el sonido deseado -- se mide en decibel. Dado que es tan poco probable disponer de un entorno de audio digital en perfecto silencio, como lo es encontrar una biblioteca silenciosa, lo que interesa realmente es saber la cantidad de ruido en relación con la señal que se introduce en el equipo de sonido, especialmente en la tarjeta de sonido de un PC. La fuerza de la música, del habla o de cualquier otro sonido, comparada con la fuerza promedio del ruido, se conoce como relación señal-a-ruido (S/N). A medida que aumenta la relación S/N, es mejor el trabajo realizado en grabación. Por ejemplo, una buena tarjeta de sonido para PC (que graba y reproduce audio digital) posee una relación S/N de más de 85 dB. Esto significa que la fuerza de la señal es 85 dB mayor que la fuerza del ruido. Una relación de 70 dB se considera válida para propósitos musicales y una relación de 65 dB está en el límite de aceptación. Además del ruido, hay otro elemento contaminante del sonido de alta fidelidad y que es la distorsión, un cambio tenue en la frecuencia de las componentes de una señal a medida que ésta pasa a través de los diferentes componentes de audio. La distorsión se mide en forma de porcentaje y una medida popular de la misma se denomina distorsión armónica total (THD). Al contrario que en la relación S/N, un menor valor de THD produce un sonido mejor. Hablando en términos generales, se considera adecuado un THD de un 0.5% o menor y un valor de un 0.1% satisfaría a los entusiastas más exigentes del sonido. Los circuitos de reproducción de audio digital típicamente poseen un valor THD mejor al 0.07%. Características de la voz La voz humana es un clase de sonido cuyas frecuencias están comprendidas en una gama de aproximadamente 4 kHz. A continuación se incluye un extracto del libro de Henry Beker y Fred Piper, Cipher Systems, Northwood Books (London), 1982, donde se describen algunas propiedades de la voz. In a “typical” speech spectrum, frequency components higher than 3 to 4 kHz, fall rapidly. Consequently very high frequency components make a much smaller contribution to the signal than, for example, frequencies in the range 500-3000 Hz. Also

Tabla 2. Gama de frecuencias audibles (ancho de banda)

Nota: A menudo el ancho de banda se simboliza mediante un único número cuando la frecuencia baja está bastante próxima a cero. Por ejemplo, el ancho de banda de una voz femenina se sitúa en torno a los 9 kHz, aunque realmente puede estar en el gama que va desde los 200 Hz hasta los 9 kHz. Un hecho a considerar es que el ancho de banda de nuestro oído es superior al de la mayoría de los sistemas electrónicos. De la Tabla 2.2 puede extraerse una de las razones por la que las estaciones de radio FM son más agradables de escuchar que los canales de amplia difusión de AM: las estaciones de FM transmiten más componentes musicales de alta frecuencia que las estaciones de AM. También puede explicarse, comparando los anchos de banda del teléfono y de la voz humana, por qué a veces confundimos la voz de una persona al teléfono: es que sencillamente no tenemos toda la información necesaria para reconocer la voz. Cuando se compara el ancho de banda de dos equipamientos similares, como pueden ser las tarjetas de sonido

to enable comparison with figure 2) .g. 3. Figure 3 shows typical cavity shapes and amplitude spectra for two vowel sounds.) Phonemes vary considerably from language to language and we will restrict our attention to English. How frequency components change with time Fig. This shows the spectrum obtained when a particular sound is made. The airstream then passes into a number of cavities of which the most dominant are the nose. mouth and throat. The important fact to realize is that various different letters or sounds give rise to completely different waveforms. It should be noted that the change is fairly slow. the palate. Fig. Phonemes and pitch frequency In order to analyze speech we break it down into its individual component sounds. e. 2. tongue or lips. form two classes called plosives and fricatives. the vowels forming one complete family while the consonants and some other single syllable phonetic sounds. By “typical” we mean that the power density at each part of the spectrum is that obtained by averaging a relatively large number of conversations over a relatively long time. typically. However an understanding of the details is not necessary. e. Clearly the sound which emerges depends on the shape and size of these cavities. Vowels are produced by movements of the vocal chords which convert the stream of air passing through the larynx into a series of pulses. In the English language there are about forty phonemes which fall into three classes. F2.Pag. F3. ch. (We will now give a very brief discussion of different phonemes for the English language and how they arise. A vowel sound builds up gradually and. 2-3 frequencies of less than about 300 Hz contribute very little to the overall signal. Speech frequency spectrum The diagram shows clearly that there are a number of peaks. st.) If we restrict ourselves to frequencies of up to 3 kHz and use a very sensitive analyzer we should obtain a jagged curve like the one shown in Figure 1. Fig. 1. The amplitude spectra for two vowel sounds Plosives are produced by shutting off the airstream and then releasing it with an explosive effect. These formants are produced as a result of the way in which speech is formed and Figure 2 illustrates how these frequency components change with time. takes about 100 milliseconds to reach its peak amplitude. This results in modifying the frequency spectrum in a way which is rather similar to the effect that a series of bandpass filters has on a rectangular pulse train. There are various points at which the airstream may be blocked. called phonemes. One obvious example of a plosive produced by blocking . called formants. (One obvious example of a speech signal is that obtained from a microphone when someone speaks into it.g. (In Figure 1 the three formants are marked F1. but it is usually characterized by a large low-frequency content.

It is absolutely crucial that the cryptographer is aware that there are limitations such as these permissible bandwidths for the various forms of transmission. 2-4 individual telephone calls and ‘frequency shifting’ them.300 MHz and the ultra high frequency (UHF) wave-band of 300 MHz . Once this has been achieved the signal may be enciphered easily.1 kHz is sufficient for speech recognition. This is done by changing the relationships between time. (It is interesting to note that. las componentes de frecuencia mayores a 3-4 kHz disminuyen rápidamente. The middle value of this frequency varies from individual to individual. if the pitch frequency is f. Asimismo las frecuencias menores a 300 Hz contribuyen muy poco a la señal total. should not have any significant effect on the bandwidth of the signal. In the very high frequency (VHF) wave-band of 30 .e. __________________________________________ Traducción: En un espectro vocal "típico". A further characteristic of human speech which needs mentioning is the pitch frequency. This is achieved by using vocoder techniques but. for instance. the range may be taken to be even smaller and. (By the personality of the speaker we merely mean those slight variations of frequency. Por consiguiente las componentes de muy alta frecuencia contribuyen a la señal en una proporción mucho menor que. to form another signal to convey the same spoken message. the human ear can recognize sound at much higher frequencies.. and that the difference in these operations is reflected in various distinguishing properties of the resulting signal. The reason should be clear after the following discussion. Fricatives are produced by partially shutting off the airstream to produce a sound like “white” noise. One example of a fricative is “sss. For a typical male the pitch frequency is about 130 Hz while the average female is about twice as high. i. This principle of reproduction is the basic idea behind vocoders and we shall discuss them a little later. pitch etc. the range will be about f/2 to 2f). hopefully it will make the reader realize that his vocal system performs different operations to produce various ditferent sounds. For the second method the analogue signal is converted into a digital one. a speech signal also contains considerable information abnut the vocal characteristics of the speaker. at present. For the moment we merely emphasize that a voice message contains two types of information.e.4 kHz bandwidth.3 GHz wider bandwidths are permissible. Before we discuss the various ways of achieving this objective. It is. As well as conveying the spoken message. However a transmission link can carry signals with a much wider bandwidth than 3100 Hz. and each particular speaker then has a range of about an octave above and below this central frequency (i. i. They may also be very susceptible to errors incurred during transmission. Voice Message Transmission As we saw earlier. amplitude and frequency. For most practical purposes. This method.e. For instance the high frequency (HF band of 3 MHz . the content of the message and the personality of the speaker. most of the information in a speech signal has a frequency between roughly 300 Hz and 4 kHz. i. Con "típico" queremos decir que la densidad de potencia en cada porción del espectro se obtiene mediante un promedio de un número relativamente grande de conversaciones a lo largo de un tiempo relativamente largo. We realize that the above discussion is extremely brief and is probably insufficient tn enable the reader to distinguish between some of the plosives and fricatives. which enable us to identify him). the speech signal is represented as a series of digits. by taking the signals for Pag. This reproduction might sound rather unnatural and some of the “personality” of the speaker would almost certainly be lost. the bandwidth limitations imposed on the speech signals enable a channel to carry several thousand telephone calls simultaneously. las frecuencias en el rango de 500-3000 Hz. a ciphered message should conceal both types of information from an interceptor. There are essentially two different ways to encipher a speech signal. ideally. if carefully engineered. It is often possible to hear sounds at up to 20 kHz and. indeed. The problem with this method is that most digitization techniques increase the bandwidth of the signal.e. This sound is then filtered by the vocal tract cavities. possibly even greater than 10 kHz. This is the frequency of the vibration of the vocal chords. it is worth discussing briefly the various ways in which speech signals are transmitted. formants.) There are similar restrictions on the bandwidth when speech signals are transmitted by radio waves.the airstream with the lips is a “p”. the devices needed are expensive and destroy many important properties of the signal. por ejemplo. in fact. this information is largely redundant but does of course contain information relating to the “personality” of the speaker.30 MHz is extremely overcrowded and liable to a great deal of interference. However. The recipient deciphers the cryptogram in its digital form and then the analogue signal is recovered from these digits. we could use the pitch.”. How much of this information is lost would depend on the precise parameters employed in the formation of our new signal. As far as the message itself is concerned. We stress that. (This process is called frequency division multiplexing. possible to digitize speech signals without increasing the bandwidth. Another significant point should be emerging from this discussion. We will not give a list of plosives but merely note that they tend to be characterized by their high frequency components and typically reach 90% of their peak amplitude in less than 5 ms. The first is to scramble the signal in some way. Thus. to a bandwidth of 3100 Hz. In this situation the speech signal may be restricted to about a 2.) This produces a considerable reduction in the transmission costs.. for high quality transmissions a bandwidth of at least 15 kHz is considered necessary. From the last paragraph it should now be clear that this might mean we can no longer use the same transmission channel. A fricative sound typically reaches its peak amplitude in 20-50 ms and most of its power density is concentrated between 1 and 3 kHz. Si nos restringimos a frecuencias encima de 3 kHz y . timing and so on. although a bandwidth of 3. telephone speech signals are normally bandlimited to the range 300-3400 Hz. For any given speech signal. (Un ejemplo obvio de una señal vocal es aquella que se obtiene a partir de un micrófono cuando alguien habla en él).

Los fonemas varían considerablemente de lenguaje en lenguaje pero restringiremos nuestra atención al Inglés. valga la redundancia. Un ejemplo obvio de un fonema explosivo producido por el bloqueo de la corriente de aire con los labios es una "p". Fig.usamos un analizador muy sensible podríamos obtener una curva aserrada como la mostrada en la figura 1 Esta curva muestra el espectro que se obtiene cuando se hace un sonido en particular. Los fonemas fricativos se producen por una aislamiento parcial de la corriente de aire para producir un sonido como . pero está usualmente caracterizado por un contenido alto de bajas frecuencias. La figura 3. Estos formantes se producen como el resultado de la manera en la cual se forma la voz. 1.. típicamente. lengua y labios. ch. st. La corriente de aire pasa a un número de cavidades de las que las más importantes son la nariz. por ejemplo.1 los tres formantes están marcados con F1. Fig. vocales. Pag. El hecho importante de comprender es que Los fonemas explosivos se producen al aislar la corriente de aire y luego soltarla con un efecto explosivo.2). Claramente el sonido que emerge depende de la forma y tamaño de estas cavidades. En el lenguaje inglés hay cerca de cuarenta (40) fonemas los cuales se dividen en tres clases. Espectro de frecuencia vocal El diagrama muestra claramente que hay un número de picos. Esto modifica el espectro en frecuencia de una manera similar al que una serie de filtros pasabanda afectan a un tren de pulsos rectangulares. toma cerca de 100 ms para alcanzar su amplitud pico.3 muestra las formas típicas de las cavidades y el espectro de amplitud para dos sonidos vocales. que forman una familia completa mientras que las consonantes y otros sonidos fonéticos de sílabas simple. Hay varios puntos en los cuales la corriente de aire puede ser bloqueado. Cómo las componentes de frecuencia cambian con el tiempo Fonemas y frecuencia de tono A fin de analizar la voz la dividiremos en sonidos componentes individuales. Nótese que el cambio es suavemente lento (En la figura.3. Sin embargo un entendimiento de los detalles no es necesario. llamados formantes. El espectro de amplitud para dos sonidos vocales Fig. F3 para compararlos con la figura. la boca y la garganta. Un sonido vocal se forma gradualmente y. forman las otras dos clases llamados explosivos y fricativos. 2. por ejemplo. el paladar. F2. 2-5 diferentes letras o sonidos ocasionan formas de onda completamente diferentes). llamados fonemas (Ahora daremos una muy breve discusión de diferentes fonemas del lenguaje Inglés y de donde surgen. No daremos una lista de fonemas explosivos pero simplemente note que ellos tienden a estar caracterizados por sus componentes de frecuencias altas y típicamente alcanzan el 90% de su amplitud pico en menos de 5 ms. Los fonemas vocales se producen por movimientos de las cuerdas vocales las cuales convierten la corriente de aire que pasa a través de la laringe en una serie de vibraciones. La figura 2 ilustra como estas componentes de frecuencia cambian con el tiempo.

es posible digitalizar señales de voz sin incrementar el ancho de banda. la señal vocal se representa como una serie de dígitos. amplitud y frecuencia. los formantes. Acentuamos que. etc que nos permiten identificarlo). para transmisiones de alta calidad se considera necesario un ancho de banda de al menos 15 kHz).e.1 kHz es suficiente para reconocer la voz. Un sonido fricativo típicamente alcanza su amplitud pico en 20-50 ms y la mayo parte de su densidad de potencia está concentrado entre 1 y 3 kHz Un ejemplo de un fonema fricativo es "sss. En lo que respecta al mensaje en si mismo. Otro punto importante debería surgir de esta discusión.". Para propósitos prácticos el rango se puede tomar más pequeño y. el oido humano capta sonidos con frecuencias mucho más altas. las señales vocales telefónicas están normalmente limitadas en la banda de 300 3400 Hz. una señal vocal también contiene información considerable sobre las características vocales del que habla. 2-6 300 Hz y 4 kHz. los dispositivos son muy caros y destruyen muchas propiedades importantes de la señal. La razón quedará clara después de la siguiente discusión. tono. sino también la comunicación en vivo. Cuanta de esta información que está perdida dependería de los parámetros precisos empleados en la formación de nuestra nueva señal. si es realizado cuidadosamente. Con el segundo método la señal analógica se convierte a una digital. También son muy susceptibles a los errores que ocurren durante la transmisión. (Es interesante notar que. Así como también se está transmitiendo el mensaje hablado. Tecnologías de Audio para PC En los últimos años han emergido novedosos sistemas de procesamiento digital de señales que han mejorado significativamente no sólo la reproducción de la música y el almacenamiento de mensajes hablados. Transmisión del mensaje vocal Como vimos anteriormente. las limitaciones de ancho de banda impuestas a las señales vocales permiten a un canal transportar miles de llamadas telefónicas simultáneamente (Este proceso se conoce como multiplexión por división en frecuencia). Hay restricciones similares sobre el ancho de banda cuando se transmiten señales de voz mediante ondas de radio Por ejemplo la banda de frecuencias altas (HF) de 3 MHz-30 MHz está extremadamente repleta y expuesta a una gran cantidad de interferencia. Hay esencialmente dos maneras diferentes de encriptar una señal vocal. Por el momento simplemente enfatizamos que el mensaje vocal contiene dos tipos de información. si la frecuencia de tono es f."ruido" blanco. Comprendemos que la discusión anterior es extremadamente breve y es probablemente insuficiente para que el lector sea capaz de distinguir entre los fonemas explosivos y los fonemas fricativos. Esto se hace cambiando las relaciones entre tiempo. esta información es altamente redundante pero por supuesto contiene información rela-cionada con la "personalidad" del que habla. Es absolutamente crucial que el criptógrafo esté informado que hay limitaciones tales como estos anchos permisibles para varias maneras de transmisión. El problema con este método es que la mayoría de las técnicas de digitalización incrementan el ancho de banda de la señal. Para un hombre común la frecuencia de tono es cerca de 130 Hz mientras que el promedio femenino es casi dos veces más alto. En esta situación la señal vocal se debe restringir a cerca de 2. Esta es la frecuencia de vibración de las cuerdas vocales. i.3 GHz se permiten anchos de banda mayores. efectivamente. Este principio de reproducción es la idea básica detrás de los vocoders que los discutiremos un más adelante. Una vez que esto se ha alcanzado la señal puede ser encriptada fácilmente. un mensaje cifrado esconde ambos tipos de información de un intruso. podría no tener un efecto significativo sobre el ancho de banda de la señal. Para cualquier señal vocal dada.e. El valor medio de esta frecuencia varía de individuo a individuo. i. Este sonido es luego filtrado por las cavidades del sistema vocal. hasta el momento. Esto produce una reducción considerable en los costos de transmisión. Este método. La primera es mezclar desordenadamente la señal de alguna forma. El receptor decifra la clave a su forma digital y entonces la señal analógica es recuperada a partir de estos dígitos. Sin embargo. por ejemplo. el contenido del mensaje y la personalidad del que habla. con optimismo esto hará que el lector comprenda que su sistema vocal efectúa operaciones diferentes para producir sonidos diferentes. podríamos usar el tono.. idealmente. i. En la banda de ondas de muy altas frecuencias (VHF) de 30 . Sin embargo un enlace de transmisión puede transportar señales con un ancho de banda mucho mayor que 3100 Hz.300 MHz y las banda de ondas de ultra alta frecuencia (UHF) de 300 MHz . (Por personalidad del que habla simplemente nos referimos a aquellas ligeras variaciones de frecuencia. Estos sistemas permiten que el sonido digitalizado pueda ser representado por medio de muy pocos . tomando las señales de llamadas telefónicas individuales y 'desplazándolas en frecuencia'. y que la diferencia en estas operaciones se refleja en varias propiedades características de la señal resultante. a un ancho de banda de 3100 Hz. Del último párrafo debería estar claro ahora que esto quiere decir que no podemos dar un uso más largo al mismo canal de transmisión. la mayor parte de la información en una señal vocal tiene una frecuencia aproximadamente entre Pag. Esta reproducción puede sonar algo artificial y un poco de la "personalidad" del que habla podría ciertamente perderse. De esta manera.. el ritmo y así sucesivamente.e. para formar otra señal para transmitir el mismo mensaje hablado. y cada persona que habla tiene entonces un rango de cerca de una octava por encima y por debajo de esta frecuencia central (es decir. Esto se logra mediante el uso de técnicas vocoder pero. 2. Antes discutimos las diferentes maneras de lograr este objetivo por lo que vale la pena discutir brevemente las diferentes formas en las que las señales vocales se transmiten. el rango será entre f/2 y 2f). Realmente. aunque un ancho de banda de 3. A menudo es posible oir sonidos por encima de 20 kHz y.2.4 kHz de ancho de banda. posiblemente mayores que 10 kHz. Una característica adicional de la voz humana que es necesario mencionar es la frecuencia de tono.

una tecnología que produce mejores sonidos pero que es más compleja. Estos armónicos. Osborne McGraw-Hill. se transforma en audio digital y se almacena en disco. una señal debe pasar por muchas fases de transformación de audio y por diferentes dispositivos. Las tarjetas de sonido Sound Blaster de Creative Labs poseen una gran cantidad de características y tecnologías. dan a todos los tipos de sonido (incluyendo los instrumentos sintetizados FM) un timbre único. Este abismo se cubre con el lenguaje musical MIDI. y la salida no será mejor que la interpretación del miembro menos capacitado de un grupo. Cuando se trata de reproducción. 1994. éste es el ancho de banda necesario para reproducir audio digital.711 del UITT). también puede crearla un sintetizador de onda muestreada. Lo más probable es que la música electrónica que se escuchó proveniente del PC se genere en el sintetizador de FM. También se incluye un artículo sobre las formas de almacenamiento del sonido bajo Windows. El audio digital del disco es transformado de nuevo en una señal eléctrica y reproducido a través de los .dígitos binarios. Hablando estrictamente. voz y otros sonidos. de manera que el software musical tiene un control limitado sobre ellos. a menos que los altavoces adquiridos sean muy buenos. De particular importancia para aplicaciones multimedios son las técnologías de procesamiento del sonido utilizadas en estaciones de trabajo y computadores personales. Chowning descubrió que el uso de una onda sinusoidal para modular otra podía crear una tercera onda. y la síntesis de onda muestreada. AT&T. Síntesis FM La conocida técnica de modulación en frecuencia simple (FM) para síntesis musical fue inventada por John Chowning. Por ejemplo. La calidad del sonido producido por la computadora refleja el esfuerzo de muchas componentes. Fijitsu. La tercera onda contenía las dos ondas originales. El sintetizador FM crea música sintetizada y. Texas Intruments. que tiene probablemente una envolvente en respuesta de 3 dB a aproximadamente 12 kHz. tales como Siemens. la Sound Blaster Pro 2 (modelo CT1600) y la Sound Blaster 16 se han construido con el chip más reciente de síntesis FM de Yamaha YMF262 (OPL3). Existe una diferencia notable entre tocar una nota instrumental y tocar una composición musical. probablemente por un controlador software. Las tecnologías clave son la síntesis FM. El enlace más débil en grabación suele ser el micrófono. su suma y diferencia y sus armónicos. Philips. proporcionado por un disco de audio CD o por un disco CD-ROM. algunas de las cuales solapan sus capacidades. que se trata posteriormente. Yamaha ha reducido la tecnología de síntesis FM a un solo chip más pequeño que la uña de un dedo. En los últimos años. Hitachi. 2-7 audífonos o de los altavoces. La tarjeta de sonido tiene un ancho de banda sorprendentemente amplio. Speech and Signal Processing). Northern Telecom. E1 primer modelo de la Sound Blaster Pro (modelo CT1330) se diseñó Peter Ridge y otros. que produce sonido sintetizado FM en estéreo utilizando síntesis de dos o de cuatro operadores. A continuación se incluye información relativa al popular sistema Sound Blaster. La modulación en frecuencia indica la leve variación de frecuencia que produce una onda en otra. AMD. Los sonidos de percusión se programan en el interior del chip cuandó se confecciona en la fábrica. el cual consiste de una familia de tarjetas de sonido para PC. Allí se pueden ver las nuevas realizaciones de los fabricantes. E1 sintetizador FM (que los músicos abrevian como "sint") produce una amplia gama de sonidos que incluye música y efectos especiales. Signetics. Es importante tener en cuenta que el ancho de banda de un equipo de sonido depende del enlace más débil del canal. NEC. NTT. Los progresos relacionados con codificación del sonido se discuten en conferencias tales como la ICASS (IEEE International Conference on Acoustic. el sintetizador FM puede soportar hasta seis sonidos melódicos y cinco sonidos de percusión. se pueden usar velocidades de transmisión digital de apenas 16 kb/s. La tarjeta de sonido transforma el sonido recogido del micrófono en una señal eléctrica que. posteriormente. rica en timbre musical (complejidad musical o riqueza). el ancho de banda de la tarjeta de sonido Sound Blaster 16 se extiende desde los 20 Hz hasta los 20 kHz. la tecnología más común para crear sonido musical en tarjetas de sonido para PC. "Guía oficial de Sound Blaster" (extracto). Pag. En el modo de cuatro operadores. el enlace más débil se encuentra en los altavoces del PC. estos sonidos pueden cambiarse mediante programas musicales de software que envían nuevas instrucciones al chip sintetizador FM. en 1971. que normalmente no es la tarjeta de sonido Sound Blaster. El ancho de banda efectivo del sistema de sonido está limitado por el dispositivo con el ancho de banda más estrecho de todos los dispositivos que procesan el sonido. Los sonidos melódicos son sonidos instrumentales generados por software. Si se dispone de un reproductor CD-ROM. Todas las tarjetas de sonido de Creative Labs tienen un sintetizador FM que trabaja del mismo modo que lo hace un sintetizador de teclado de Yamaha. Sintetizador FM de la tarjeta de sonido: La Sound Blaster Pro Deluxe. ondas cuya frecuencia es múltiplo de las dos ondas originales. El sintetizador FM es la tecnología electrónica más popular para crear sonidos musicales. Al usarlos para la voz. 8 kb/s y hasta 4 kb/s. en el caso de la Sound Blaster 16 con Wave Blaster opcional. el sintetizador FM puede generar hasta 16 sonidos melódicos y seis sonidos de percusión. muy por debajo de los 64 kb/s del PCM normalmente utilizado (según la Recomedación G. En el caso del sistema de sonido de la computadora. consideremos el sonido grabado mediante un micrófono y que luego es reproducido. etc. que cubre efectivamente el gama completo de escucha humana. también podrá añadirse al conjunto de fuentes de audio disponibles sonido CD. de la Universidad de Stanford. En el modo de dos operadores. incluyendo un tam-tam o tamborcito. A continuación se introducen las tecnologías de audio para crear sonidos musicales instrumentales: síntesis FM y síntesis de onda muestreada. El audio digital puede utilizarse para grabar y reproducir música.

un archivo MIDI almacenado en la computadora puede reproducirse en el sintetizador propio de la tarjeta de sonido. que son monaurales. de modo que incluso un niño de cinco años podría pensar "¿Se trata de una flauta mágica?" El segundo inconveniente es que es difícil recrear fielmente el sonido de instrumentos familiares. los chips de síntesis en FM monoaurales Yamaha 3812 (OPL2) capaces de crear 22 sonidos estéreo. teclados.antes de que el YMF262 estuviera disponible y. frases musicales y otros elementos. La belleza del software de un secuenciador está no sólo en reproducir una grabación de una interpretación pasada. módulos de sonido (sintetizadores sin teclado). En el modo de cuatro operadores se conectan en serie dos pares de células. está preparada para ponerse por delante siempre y cuando se abaraten sus costos. MIDI es la tecnología que toca una composición musical que abarca cientos de notas además de otros detalles de la interpretación musical. Síntesis de onda muestreada La síntesis FM ha sido la técnica utilizada usualmente para sintetizar el sonido de instrumentos musicales. Datos musicales MIDI Un paquete de software secuenciador dirige a los instrumentos MIDI para reproducir música tocando una secuencia de notas y otras instrucciones musicales que están almacenadas como un archivo MIDI. Esta secuencia de instrucciones MIDI especifica el instrumento a tocar. es posible cambiar los instrumentos y la propia melodía. E1 teclado derivado de tablas de onda contiene 4MB de memoria de sólo lectura (ROM) que incluye muestras digitales de instrumentos originales. en el mejor de los casos. Estas notas se procesan digitalmente para ajustar su tono. La programación cuidadosa de los parámetros del sintetizador de FM permite crear una amplia variedad de sonidos instrumentales musicales y sonidos de efectos especiales. Estas muestras proporcionan un sonido instrumental mucho más real que el obtenido a partir de la síntesis FM con cuatro operadores (o incluso ocho operadores). La célula transportadora determina la frecuencia base del tono. computadoras y otros dispositivos MIDI. que son muestras audio de calidad CD.MID o. de modo que crear sonidos que se parezcan a instrumentos familiares es un proceso de prueba y error.MFF) contiene la misma información que puede verse en una partitura: una lista de notas de duración y tono variables. Los archivos MIDI son significativamente diferentes de los archivos de audio digital como los archivos VOC y WAV. sino en que puede recrear una interpretación musical. Es el estándar mediante el que se comunican los sintetizadores. Inconvenientes de la Síntesis FM: La síntesis FM presenta dos inconvenientes. manipula digitalmente una muestra representativa de sonido para crear la gama completa de notas. cuando se pulsa. El más serio es que la música suena. La mayoría de estos prodigios electrónicos dispone de interruptores. en un sintetizador de teclado MIDI externo o en un instrumento con entrada MIDI. la fuerza con la que hay que hacerlo. Los . La Sound Blaster 16 con la Wave Blaster es la primera tarjeta de sonido de Creative Labs en la que se aplica esta nueva tecnología. ya conoce la tecnología de síntesis de Pag. Un archivo MIDI (que normalmente tiene la extensión . Por esta razón. llamada célula transportadora. Esto se debe a que la física del sintetizador FM guarda poca relación con la física de producción de sonido de la mayoría de los instrumentos musicales. Una característica particularmente valiosa del chip de síntesis FM Yamaha (su capacidad para gestionar el trabajo involucrado en la creación de sonido musical. A diferencia de una grabación. por tanto. Las muestras instrumentales de la tabla de ondas son de 16 bits. otra tecnología. Una Sound Blaster 16 con la placa auxiliar Wave Blaster (una pequeña tarjeta que se introduce en la tarjeta de sonido) convierte al PC en un estudio musical de categoría profesional. Véase el Apéndice A para una explicación más detallada de la forma en la que la síntesis en modo de dos y de cuatro operadores produce una amplia gama de sonidos instrumentales y de efectos especiales. de modo que fijando un interruptor y cerrando los ojos. Mientras que la síntesis FM y la síntesis de tablas de onda son tecnologías para tocar sonidos instrumentales. En otras palabras. sólo bien. la tecla a pulsar y. sirviendo como una banda de copias inagotable. contienen un solo chip Yamaha 3812 (OPL2). La Sound Blaster Deluxe y las anteriores tarjetas Sound Blaster. Desde que MIDI surgió hace 10 años. la música MIDI ha Ilegado a ser una parte esencial de un estudio de grabación. 2-8 onda muestreada. con tiempo. se puede estar tocando un clavicordio o un piano. dando lugar a un timbre más rico que el generado con el modo de dos operadores. Cualquier composición que se toque con un teclado u otro instrumento MIDI puede grabarse y almacenarse en la computadora como un archivo MIDI. hoy se ha convertido en un estándar para la música electrónica extendido por todo el mundo. liberando así a la CPU de tal carga) ha conducido a su implantación en la mayoría de las tarjetas de sonido. que se denomina síntesis de onda muestreada. la síntesis FM es más un arte misterioso que una ciencia. Es posible reconocer el sonido de una flauta como el sonido producido por un instrumento de viento. así como para incrementar la velocidad del teclado o rebajar la intensidad y otros efectos de la interpretación como el trémolo (una lenta y sutil variación en la fuerza con la que se toca una nota). hace uso de dos modelos anteriores a éste. Sin embargo. La figura siguiente (no mostrada) ilustra la síntesis en FM para dos operadores y el modo en el que la célula moduladora de Yamaha modula la segunda célula. Si ha tocado algún piano electrónico de los que suenan de modo similar a los reales. La síntesis de onda muestreada. Reproducción de composiciones musicales con MIDI La Interfaz Digital para Instrumentos Musicales (MIDI) ha reformado completamente el mundo musical proporcionando la posibilidad de que músicos aficionados graben e interpreten música sofisticada. conocida también como síntesis de tablas de onda. Del mismo modo. mientras que la célula moduladora determina los armónicos que dan al tono su singular timbre.

contiene sólo instrucciones sobre la manera de tocar un instrumento. La música MIDI. Esta interfaz es bidireccional. de Twelve Tone Systems. sino que también es completamente editable. Conversión analógica-digital (ADC): El proceso ADC convierte la señal analógica continua en series de valores digitales discretos muestreando. Obsérvese que la onda continua se aproxima mediante series de valores de 8 bits. de 16 bits.terminología empleada por los entusiastas del audio para expresar la exactitud en la réplica de la música original -. Cuando se instala una tarjeta de sonido de Creative Labs. el movimiento mecánico se traduce en una señal eléctrica. Con el software adecuado -probablemente un programa secuenciador MIDI -. es posible crear una réplica superior del sonido. Conversión digital-analógica (DAC): El proceso DAC convierte los valores digitales discretos que representan al sonido en una señal analógica continua utilizando un filtro que suaviza los picos más bruscos. El paquete MIDI más frecuentemente adquirido incluye software de secuenciador MIDI y un cable para la interfaz. pero no puede hacerse más modificación que la de cortar y pegar para cambiar zonas del mismo. Paquetes de ampliación MIDI Creative Labs ofrece varios paquetes de ampliación MIDI. como Creative JukeBox y Media Player de Microsoft. Utilizando un tamaño mayor de muestra.archivos de audio digital contienen sonido real. Si las medidas se toman a una frecuencia de muestreo alta. El cable de la interfaz MIDI que viene con el equipo opcional de ampliación MIDI de Creative Labs tiene un conector en un extremo que se conecta al puerto de juegos MIDI de la tarjeta de sonido. de modo que el único límite está en la imaginación del usuario y no en la capacidad de interpretación de la tarjeta de sonido. grabado de forma digital a partir de la captura de miles de muestras por segundo. Pueden eliminarse trozos de voz. como un "no" en una frase grabada. Los archivos de audio digital pueden necesitar millones de bytes de datos para tocar tan sólo unos minutos de música. 2-9 alternativamente. es decir. puede hacerse uso de la potencia de la CPU de la computadora para transformar este sonido de miles de modos. tomando medidas instantáneas de la amplitud de la señal a una velocidad constante. por el contrario. Una analogía apropiada para estos dos tipos de archivo podría ser la de un documento fax y un archivo de procesamiento de texto. como el programa secuenciador Cakewalk Apprentice y los reproductores MIDI. análoga al sonido original. El otro extremo se conecta a un dispositivo MIDI. que suele ser un sintetizador de teclado. Anteriormente. es como un archivo de procesamiento de texto: puede modificarse sin limitación alguna. Un archivo MIDI no sólo es más compacto que un archivo de audio digitalizado. MIDI y controladores software Los controladores software son el puente entre el hardware que crea el sonido de las notas y los programas que tocan música MIDI. Estos paquetes incluyen en la actualidad un programa secuenciador para Windows de Microsoft denominado Cakewalk Apprentice para Windows. por otro lado.puede utilizarse la computadora para controlar completamente una red de dispositivos MIDI. el paquete MIDI incluía un programa secuenciador para DOS denominado Sequencer Plus Pro (SP Pro). Esta señal se denomina señal analógica porque es una señal continua. mediante un proceso denominado conversión analógica-digital (ADC). Finalmente. Interfaz MIDI Muchos teclados y pianos electrónicos tienen incorporada en la actualidad una interfaz MIDI. el proceso de conversión digital-analógica (DAC) transforma de nuevo los bytes de sonido a una señal eléctrica analógica que emiten los altavoces. Los circuitos de modulación de código pulso (PCM) de la tarjeta de sonido que gestionan la ADC y la DAC son excelentes.del sonido audio digital depende de la selección de la correcta frecuencia de muestreo y del correcto tamaño de . Muestreo: Conversión analógica-digital y viceversa Comenzaremos con la captura del sonido haciendo uso del micrófono. ya que acepta datos MIDI provenientes de un teclado MIDI u otros controladores (dispositivos que controlan sintetizadores y módulos de sonido) y transmite datos MIDI a instrumentos MIDI exteriores. de modo que la forma de onda de la señal no varíe demasiado entre las muestras. incluyendo el siempre presente sintetizador de teclado. casi comparables a los de los reproductores CD. Pueden mezclarse archivos de sonido. se incorpora automáticamente a la computadora una interfaz MIDI. Cuando las ondas de sonido llegan al micrófono. mientras que con unos pocos miles de bytes de datos MIDI es posible tocar música durante horas. el sintetizador de FM que se encuentra en todas las tarjetas de sonido de Creative Labs o el sintetizador de onda muestreada Wave Blaster que está disponible para la Sound Blaster 16. Pag. añadir reverberación o eco a la música o a la voz. cuando se está dispuesto a escuchar la obra maestra. Un archivo MIDI. debe transformarse el sonido de una forma analógica audible a una forma digital aceptable por la computadora. que se almacenarán como bytes en un archivo del disco. entre la computadora y el equipo MIDI a través de la interfaz MIDI de las tarjetas de sonido. Velocidad y tamaño de muestra La fidelidad -. por ejemplo. Los datos MIDI pueden pasar. manipular y reproducir sonido. Con el software adecuado es posible. de Voyetra Technologies. variando estos valores desde +128 hasta -127. el proceso ADC puede realizar un buen trabajo de aproximación a la onda de sonido analógica. E1 hardware es un sintetizador en la tarjeta de sonido. Una vez que los datos de sonido se han almacenado como bytes en la computadora. La figura siguiente (no mostrada) ilustra cómo funciona la conversión analógica-digital. Grabación y reproducción de audio: Bases del audio digital Antes de que la computadora pueda grabar. El fax puede leerse y el archivo de audio digitalizado se puede reproducir. ajustarse el tono de la voz de manera que no pueda reconocerse y muchas cosas más.

de modo que la frecuencia de muestreo de 44. Esto hasta cierto punto es debido a que la frecuencia de muestreo es demasiado baja para reconstruir con precisión las componentes de mayor frecuencia de onda. perciben el sonido de 8 bits en un tono apagado o desafinado si se compara con el sonido de audio digital de 16 bits. conjunto de circuitos utilizados para bloquear el ruido de alta frecuencia que se infiltra en la grabación. Estas restricciones se discuten en detalle para cada programa de utilidad. sólo pueden grabarse 6 segundos de estéreo a 22.58 MB. como el sonido del cristal de una copa de vino o el del arqueo de un violín. Según el teorema de Nyquist. se podría asumir que todo lo que hay que hacer para obtener buen sonido es grabar a la velocidad límite de 44. Los oídos son más sensibles a la detección de diferencias en el tono que en la intensidad. El oído humano percibe todo un mundo de diferencias entre estos dos tamaños de muestra.asumiendo que se dispone de una Sound Blaster 16 capaz de afrontar esto -.1 kHz. 2-10 Para la mayoría de los amantes del sonido. Los archivos de audio digital pueden grabarse seleccionando la frecuencia de muestreo. Mientras que la especificación MPC (Multimedia PC) de Nivel 1 requiere muestras de 8 bits.es el costo en espacio en el disco. pero son aún más sensibles a la fuerza del sonido. Debido a que el filtro de entrada tiene su propia envolvente. Cada muestra de 8 bits (Sound Blaster y Sound Blaster Pro) consume 1 byte de memoria o de espacio en el disco. un minuto de grabación rellenará un disco de 360K. tomando muestras simultáneamente en los canales izquierdo y derecho a 44.1 kHz con muestras de 16 bits (2 bytes). Frecuencia de muestra: La frecuencia de muestra (también denominada frecuencia de muestreo) debe ser lo suficientemente alta para que los sonidos de alta frecuencia. El hardware de las tarjetas Sound Blaster 1.050 Hz antes de ocupar completamente la memoria. toman muestras de sonido de 8 bits (1 byte).1 kHz de la Sound Blaster de la Sound Blaster Pro es más que suficiente. con un canal izquierdo y otro derecho que producen una frecuencia de muestreo combinada de 88. Por ejemplo. Mientras que un muestreo a una frecuencia de 44. sin embargo. De hecho. La Sound Blaster 16 constituye el sueño hecho realidad de un distribuidor de unidades de disco. emitiendo voz y música con una fidelidad equivalente a los reproductores CD actuales.000 muestras por segundo) una voz masculina típica. Este valor es el utilizado hoy en los reproductores de audio CD. puedan recogerse con precisión.200 muestras por segundo. es posible repetir con exactitud una forma de onda si la frecuencia de muestreo es como mínimo el doble de la frecuencia de la componente de mayor frecuencia. los equipos de grabación de los que disponen los estudios comerciales utilizan por esta razón una frecuencia de muestreo de alrededor de 48 kHz. Pag. una muestra de 16 bits tiene un gama dinámica de 65. frecuencias de onda del orden de 22. ¡consumirá cerca de 10MB de memoria en sólo un minuto! La limitación será aún mayor si se graba en memoria y no en disco. Por el contrario. Si se graba en estéreo. La restricción principal es que no puede utilizarse una frecuencia de muestreo demasiado elevada si se piensa empaquetar (comprimir) los archivos.000 Hz proporciona una grabación de la voz femenina de mayor calidad. Una frecuencia de muestreo de 8. La Sound Blaster 16 puede grabar en estéreo.536 pasos (gama de 90 dB) -.100 muestras por segundo.05 kHz.000 Hz (6. El tamaño de muestra controla el gama dinámica que puede grabarse.1 kHz puede grabar. pero no lo es para una voz femenina típica. Si se dispone de un sistema con 16 MB de memoria RAM es posible almacenar cerca de dos minutos de audio digital en la memoria RAM del sistema antes de que la computadora lance al usuario un mensaje de salida para comer.000 Hz. Las tarjetas de sonido de 16 bits de Sound Blaster ofrecen la posibilidad de elegir entre un tamaño de muestra de audio digital de 8 bits (1 byte) o de 16 bits (2 bytes). Las tarjetas Sound Blaster Pro y la Sound Blaster 16 son capaces también de trabajar en estéreo con una velocidad máxima de reproducción de 22. las muestras de 8 bits limitan el gama dinámica a 256 pasos (gama de 50 dB). el audio CD carece de cierta riqueza en el sonido. EI único problema que aparece -. Ambas tarjetas. El resto no tiene otra elección más que la de enviar los datos directamente . la especificación MPC de Nivel 2 obliga a que las muestras sean de 16 bits. en teoría. pueden pasar todas las frecuencias que están por debajo de ella. Compromisos en el muestreo: Basándonos en la literatura existente. que escasamente coincide con el ancho de banda del oído humano.200 muestras por segundo). aumenta la calidad.una mejora sustancial.050.x y 2. que posee componentes con una frecuencia más alta. en una realización práctica el ancho de banda está cerca de los 20 kHz. cada medida consume 1 byte de almacenamiento de la memoria de la computadora o del disco. una muestra de sonido de un minuto necesita un espacio para almacenarse de 10. no puede bloquear todas la frecuencias que están por encima de una determinada y. Existen varias razones para no utilizar las frecuencias de muestreo más altas. A medida que aumenta la frecuencia de muestreo. cuando se utiliza VEDIT2 (el grabador y editor de sonido para DOS de la Sound Blaster Pro) en un PC con 640K. Por ejemplo. Los oídos humanos. La frecuencia más alta que puede percibir el oído humano está cercana a los 20 kHz.muestra.100 Hz (en realidad en estéreo es de 88. La Sound Blaster y la Sound Blaster Pro manejan muestras de 8 bits. las frecuencias de muestreo altas necesitan gran capacidad de almacenamiento. el ancho de banda efectivo de las tarjetas de sonido queda ligeramente por debajo del máximo teórico. grabando hasta 44.0 impone restricciones adicionales en la frecuencia de muestreo. una velocidad de 6. siendo este último el número de bytes utilizados para almacenar cada muestra. En primer lugar. la Sound Blaster y la Sound Blaster Pro. a 44. Por ejemplo. que se suma a la envolvente de los circuitos digitales. no es un dispositivo perfecto. La Sound Blaster 16 maneja muestras de 16 bits (2 bytes). que están acostumbrados a detectar sonidos con variaciones de varios órdenes de magnitud en la fuerza. en el máximo de frecuencia de muestreo. Tamaño de muestra: El tamaño de muestra es la otra componente de mayor influencia en la fidelidad del audio digital. A una frecuencia de muestreo de 6. El problema se encuentra en que el filtro de entrada. La Sound Blaster 16.

de modo que es necesario tener un mínimo conocimiento sobre el formato que utiliza cada uno antes de pagar una factura telefónica enorme a CompuServe o comprar una pila de discos que contengan programas inútiles. Las plataformas caracterizadas por una marca de sonido y archivos de sonido exclusivos incluyen el Commodore Amiga. El ancho de banda de un teléfono es de sólo 3 kHz. En mono se toma una muestra en cada instante de tiempo. Las técnicas de compresión utilizadas por Soundo'LE y VEDIT2 se describen en el Apéndice A. Una característica interesante de este formato de archivo es que admite lazos. Por ejemplo. ya que la entrada a éste es mono. en la mayoría de los casos. Formatos de archivos de sonido El sonido de la computadora compatible IBM PC ha surgido desde muchos frentes. Compresión de audio digital Los archivos de sonido tienen ciertas particularidades por lo que respecta a la compresión de los mismos. que. incluso en la Sound Blaster 16. Apple Macintosh y el IBM PC original. a diferentes formas de almacenar el sonido en disco y a diferentes extensiones de archivos para distinguir entre los formatos. a partir de muestras de 8 bits para efectos especiales y para la voz. 2-11 al disco. texto y muestras de sonido. Por ejemplo. Cuando se elige la frecuencia de muestreo. La corriente más actual en audio digital aconseja seguir las directrices dadas a continuación con el fin de conservar el espacio de almacenamiento: • Grabar en mono en vez de en estéreo. mientras que en estéreo se toman dos muestras. supongamos que planeamos grabar una conversación telefónica. Las aplicaciones de sonido en los IBM PC normalmente no hacen uso de este formato de archivo. una por el canal derecho y otra por el canal izquierdo. la reproducción iterativa de un bloque o de un grupo de bloques. no existe ningún problema en la grabación de audio digital a 44. utilizar muestras de 8 bits para obtener efectos de sonido y de voz. se habrá conseguido ahorrar un 50 por 100 del espacio de almacenamiento. En el caso de la voz. La compresión se lleva a cabo para ahorrar espacio de disco. Los archivos de audio necesitan utilidades de compresión que contengan algoritmos en software. Cada bloque de información contiene datos del mísmo tipo. Lo aconsejable es usar la frecuencia de muestreo más baja posible. dando lugar a diferentes formatos de archivos de sonido. la grabación será acertada si la frecuencia de muestreo es de 6 kHz o mayor. Un formato de archivo relacionado es el Formato Instrumental de la Sound Blaster de Creative Labs. que se ejecuta bajo Windows de Microsoft y que ahora se incluye en todas las tarjetas de sonido de Creative Labs. pero teniendo en cuenta la relación de 10 MB por minuto es posible que el disco se ocupe antes de que se haya preparado un sandwich. Con la llegada de Windows de Microsoft el sonido de computadora en el PC se ha ampliado con formatos de archivo adicionales. que entiendan el "aspecto" del sonido. Admite varias frecuencias de muestreo y tamaños de muestra de hasta 32 bits por muestra. Los efectos especiales son. al igual que el bloque instrumental del archivo CMF. Un método seguro para ahorrar espacio en el disco es el de grabar sonido en mono en lugar de en estéreo. • Siempre que sea posible.1 kHz si el micrófono utilizado funciona a 12 kHz y la fuente de sonido es una voz masculina grave que no supera los 7 kHz. como puede ser audio digital de 16 bits o audio digital de 8 bits o música MIDI. Sólo si el software entiende el formato del sonido es posible realizar un trabajo aceptable de compresión sin pérdida de excesiva fidelidad. • Utilizar la menor frecuencia de muestreo. Aunque lo deseado para una buena reproducción musical es disponer de muestras de 16 bits. se debe intentar grabar el sonido con muestras de 8 bits. Un archivo CMF incluye un bloque instrumental. Un bloque es una subdivisión de un archivo análogo a un bloque en una ciudad. Si se graba del micrófono. que se añade al Formato de Archivo MIDI Estándar. también hay que considerar el ancho de banda de todo el sistema. Creative Soundo'LE. puede comprimir opcionalmente mientras graba si la tarjeta sobre la que se está ejecutando es una Sound Blaster 16. Los formatos de archivo de mayor uso en computadoras personales se describen en la siguiente lista. de manera que son buenos candidatos para utilizar muestras de 8 bits y una frecuencia de muestreo baja. sin embargo. Commodore Amiga también utiliza este tipo de formato. es posible lograrla. El archivo CMF se ha diseñado para trabajar con el chip estándar industrial Yamaha. no hay posibilidad de elegir. Este formato de archivo procede de Electronic Arts. que hace años intentó desarrollar formatos de archivo industriales estándar para gráficos. es decir. Las notas musicales se almacenan en un bloque musical. El término bloque se utiliza a veces para describir la arquitectura interna de un formato de archivo.Pag. almacena los parámetros para crear sonidos instrumentales. o técnicas matemáticas. de modo que es posible que no se ahorre demasiado si se utilizan programas de utilidad de compresión como PKZIP o una utilidad de duplicación de disco. después de haber realizado la grabación con el programa Voice Edit del DOS de la Sound Blaster (VEDIT2) que viene con la Sound Blaster Pro. que contiene los parámetros para programar con los sonidos instrumentales deseados el sintetizador FM de la tarjeta de sonido. Cada programa software sólo puede leer un número pequeño de formatos de archivos. FORMATO DE ARCHIVO DE INTERCAMBIO DE AUDIO (IFF): Apple Macintosh utiliza el Formato de Archivo de Intercambio de Audio (IFF) para almacenar muestras de sonido audio digitalizado. utilizado para sintetizar música en FM. ruidosos. FORMATO MUSICAL CREATIVE (CMF): El Formato Musical Creative (CMF) es uno de los dos formatos de archivo promovidos por Creative Labs para almacenar música. De acuerdo con el teorema de Nyquist. Pueden almacenarse juntos hasta 128 parámetros de voces ins trumentales en el archivo de banco . si suena bien. La lista se ha ordenado por el nombre del formato de archivo (la extensión usada aparece entre paréntesis) e incluye una breve descripción sobre la utilización de cada formato de archivo.

cuando los requisitos de sonido son sencillos. Hasta hace poco los archivos VOC tenían sólo 8 bits (versión 1. Las muestras de 8 bits pueden comprimirse en uno de estos tres formatos: 2-.6. L. almacénelo en MIDI Estándar. Lo original de RIFF es que puede albergar bloques que aún no se han inventado. tiempos y cambios intrumentales.os archivos Voice son nuevos para el entorno Windows. un deslizamiento ascendente o descendente del tono. como Goldware (un editor de libre circulación) y Sound Forge de Sonic Foundry. Los datos pueden almacenarse como muestras sin comprimir o en una forma comprimida. 3:1 y 2:1. gráficos y vídeo. como se pone de manifiesto en la aparición de editores de sonido y servicios que permiten este formato. pero hay una tendencia hacia reproductores MOD y música de ocho canales.MOD y contienen cuatro canales de música. En este momento el formato de archivo Wave de Miccosoft es el formato . como HyperCard. como el sonido de alarma del altavoz incorporado en el Macintosh. 2-12 instrumental de una Sound Blaster (IBK). de forma que no todos los archivos MOD sonarán igual en los reproductores MOD. Otros formatos disponibles son NoiseTracker (cuatro canales).es que los archivos MOD pueden presentarse de muchas maneras. Al igual que el archivo CMF. Inc. y una curva de tono. a una compresión 2:1. También se puede repetir un sonido instrumental indefinidamente con el fin de obtener un efecto de eco o reverberación. para el que es el formato de archivo musical probablemente más popular. y marcadores de silencio que reemplazan zonas de silencio con un pequeño marcador. pero comenzando a ser considerados. ScreamTracker S3M (hasta 10 canales) y 669 (ocho canales). Pueden contener hasta 31 voces instrumentales (sólo 4 u 8 se tocan a la vez). un programa de software proporcionado por AdLib. Son más grandes que los archivos MIDI. Por ello RIFF ha Ilegado a ser muy popular. Se pueden asignar a cada nota efectos especiales como el vibrato.con el que hay que ser cauteloso -.sólo 8 bits por muestra -. Todas estas características se combinan para producir música que suena muy bien. el archivo ROL contiene una lista de notas. unos marcadores de sincronización que los programas de presentación multimedios pueden utilizar para sincronizar la reproducción de archivos VOC con sonido. proporcionando una compresión de 4:1. Se utiliza para expresar sonidos cortos. en la tarjeta de sonido Sound Blaster. los archivos ROL pueden tocarse. una lenta vibración en amplitud. Las muestras de 16 bits pueden comprimirse sólo en dos formatos: 4 bits. que da lugar.admitido por Apple. respectivamente. 2. tanto para un aficionado como para un profesional. RIFF (RMI): El Formato de Archivo de Intercambio de Recursos de Microsoft (RIFF) se ha diseñado como el último formato de archivo para multimedia Windows. como unos marcadores especiales que repiten un bloque. está preparada para ser compatible con secuenciadores previos. si se dispone un programa de utilidad musical. el lenguaje universal del mundo musical MIDI. La característica más significativa de los archivos MOD es la de contener muestras de audio digitalizadas de instrumentos musicales actuales.AU de Sun pueden leerse y transformarse en cualquier otro tipo de archivo gracias a un grupo de editores de audio digital. Con la introducción de la Sound Blaster 16. El formato de archivo ROL se diseñó para poder generar música en el chip sintetizador de FM Yamaha de las tarjetas AdLib. el formato de archivo Voice se amplió para permitir muestras de 16 bits (versión 1. CMF y ROL. cada una de las cuales puede tener fijado su propio volumen. capaz de incluir "chunks" (término de Microsoft para designar bloques) con formatos de los datos muy diferentes. cada nota se toca tomando la muestra de sonido instrumental para esa nota y tocándola rápida o lentamente para darla el tono musical adecuado. VOICE (VOC): Creative Labs popularizó el formato de archivo Voice (VOC) para audio digital. El estándar MIDI Tipo 1 es la variante más moderna de MIDI. que protege fielmente una composición como una partitura multitraza. Este tipo de archivos de sonido es común en Internet. La mayoría de los archivos tienen la extensión . ScreamTracker NST (cuatro canales). MIDI (MID O MFF): Si necesita compartir un archivo MIDI con un amigo. La versión anterior.Pag. Un inconveniente mayor -.o 4 bits por muestras de 8 bits. SOUND (SND): El Formato de Archivo de Recursos de Sonido (SND) de archivo de audio digital compacto -. que producen una compresión 4:1 y 8 bits. proporcionan la calidad y la flexibilidad del audio digital sin el consumo asociado a una grabación digital completa.20 del formato de archivo). Los archivos MOD presentan varias características excelentes. El formato de archivo Voice incluye características especiales.10 del formato de archivo). ScreamTracker (cuatro canales). y para emplear en aplicaciones Macintosh. Los archivos MOD tienen varias ventajas e inconvenientes. MOD (MOD): El formato de archivo MOD proviene del Commodore Amiga. Aunque esto pueda parecer una desventaja. Las muestras de audio digital del archivo Voice pueden grabarse con una amplia gama de frecuencias de muestreo. Existen dos variaciones del MIDI "estándar" en el software MIDI. Véase la descripción de los archivos Wave (WAV) (un tipo de archivo que también puede ser un bloque RIFF). Los archivos MOD contienen generalmente cuatro canales de música y cada canal se dedica a un solo sonido instrumental. Puesto que todas las tarjetas de sonido Sound Blaster contienen el mismo chip Yamaha. y puede transformarse mediante programas de utilidad como SOX. El Tipo 0 no está recomendado porque admite solamente una traza. Estos formatos incluyen audio digital Wave (WAV) y bloques MIDI. Estos archivos VOC de 16 bits pueden crearse y reproducirse con programas de utilidad de voz incluidos en la Sound Blaster 16. para usar con la tarjeta de sonido de AdLib. Los archivos . Cuando se reproducen los archivos MOD. AUDIO (AU): Las estaciones de trabajo de Sun Microsystems utilizan archivos de audio comprimido de 16 bits A-law y µlaw. el formato Tipo 0. disponible en Internet.. ROLL (ROL): Los archivos Roll nacen con Visual Composer. aunque la eficiencia en la organización es menor que la de los archivos CMF.

. El teorema de Fourier predice que una onda compleja puede reducirse a una serie de ondas simples. Para un físico o ingeniero que observa las ondas de sonido cruzando la pantalla del osciloscopio. Esta es la utilidad práctica del teorema de Fourier. Este apéndice le conducirá a través de algunos de los aspectos más esotéricos y técnicos del sonido. Voz Se ha dicho que de todos los instrumentos musicales la voz humana es la más versátil y expresiva y la que tiene el timbre más rico.dominante en entornos Windows para audio digital. probablemente. 2-13 La música que se describe como rica en textura o timbre tiene una onda compleja asociada. El término armónico describe las relaciones entre las ondas.1 kHz. la repetición se produce en el ritmo. Sin embargo. Las ristras de datos de sonido eliminadas de las cabeceras y otra información descriptiva. ecualizaciones más cnplejas. Se pueden ver más detalles acerca de estos bloques fundamentales de construcción y de las características de la voz en el Apartado "Tecnología de voz de DECtalk" que se encuentra más adelante. que está llamado a ser se de la próxima generación de tarjetas de sonido de gama alta de Creative Labs. la melodía.025 kHz. Usted atestigua esto cada vez que reconoce la risa de un amigo en el teléfono o la voz de su cantante favorito en la radio. WAVE (WAV): Microsoft adoptó el Formato de Archivo Wave (WAV) para emplearlo con las extensiones multimedios de Windows. APENDICE A: CUESTIONES AVANZADAS SOBRE EL SONIDO El propósito de este apéndice es reforzar y ampliar las nociones que se presentaron anteriormente. un micrófono barato puede distorsionar excesivamente la señal a 10 kHz. Esta manipulación se puede llevar a cabo en una computadora digital. Este ejemplo específico de ecualización también se puede realizar mediante un sistema analógico de circuitería de audio con un costo de tan sólo unos pocos dólares. En el canturreo de una partitura musical. Mediante la técnica denominada ecualización. La cualidad de la repetición de la voz se hace presente en los bloques fonéticos con los que se construye el discurso. Pag.05 kHz y 44. Instrumentos musicales Tanto la repetición como la complejidad son elementos esenciales de la música. ya sea su fuente un instrumento musical. Aprenderá lo que es una forma de onda compleja y verá cómo reducir sonidos maravillosos a los componentes simples que la computadora puede manejar fácilmente. que ituye el alma de la familia de los productos de síntesis (síntesis de voz a partir de texto) TextAssist. Es difícil encontrar archivos VOC comprimidos a menos que los cree uno mismo. pero en cambio funcionar razonablemente bien con un ancho de banda más bajo. La ulterior discusión sobre el procesamiento de señales digitales le introducirá en el conocimiento de las últimas tecnologías sobre el sonido que Creative Labs está planeando al mercado. no son fáciles de Ilevar a cabo con circuitos analógicos. Cómo se reducen las formas de onda complejas a sus componentes simples: El análisis de Fourier Un factor intrigante de las formas de onda complejas. son múltiplos de la onda dominante (la amplitud más fuerte). Estos bloques de construcción son relativamente un pequeño conjunto de los muchos posibles sonidos que Ios humanos somos capaces de pronunciar. los fenómenos de muestreo y aliasing del sonido digital y la técnica de compresión de sonido que emplea la modulación adaptativa diferencial código-pulso. De acuerdo con el teorema de Fourier. es posible reducir la intensidad de las frecuencias en torno a 10 kHz para crear una señal que suena como si se hubiera grabado con un micrófono mucho mejor y con un ancho de banda más bajo. así como efectos especiales tales como cambiar la velocidad de reproducción una voz sin cambiar el tono de la persona. Formas de onda complejas Esta sección tiene la misión de describir las formas de onda complejas que son el fundamento de la música y la voz. donde la onda tiene frecuencias que son múltiplos de las llamadas frecuencias fundamentales. mediante un algoritmo (un conjunto sencillo de instrucciones) conocido como la transformada rápida de Fourier (FFT. son idénticas al audio digital encontrado en los discos CD-ROM. cada onda compleja periódica es una serie (familia) de ondas sinusoidales simples e incluye muchos armónicos. La otra característica esencial del sonido es su complejidad. le fascinará una vez que haya aprendido los principios básicos. E1 segundo armónico tiene dos veces la frecuencia de la onda fundamental y el tercer armónico tiene tres veces la frecuencia de la fundamental. una voz humana o la vibración de una máquina. Fast Fourier Transform). Un inconveniente de Wave es que no permite los lazos de bloques de sonido. con lo que se prolonga lo bastante como para dar a nuestros oídos la sensación de un tono. es el hecho de que se componen de ondas simples. Almacena muestras de audio digital de 8 o de 16 bits. El apéndice concluye con un estudio en profundidad del sistema de voz DECtaIk. la repetición se traduce en que la misma forma de onda aparece cientos o miles de veces. Son pocos los productos comerciales que incorporan archivos de sonido VOC comprimidos porque el esquema de compresión no es compatible con tarjetas de sonido que no sean Sound Blaster. Este formato de archivo es admitido por casi todas las aplicaciones multimedios basadas en Windows y por todas las tarjetas de sonido. Describe las forma de onda complejas. Hay efectos especiales que sólo se consiguen manipulando el sonido que cae dentro de una estrecha gama de frecuencias. Por ejemplo. los mecanismos de la síntesis FM. Entre ellas se cuenta el chip DSP EMU8000. La técnica FFT también es la base de la mayoría de los programas de reconocimiento de la voz y un lugar común en las aplicaciones tanto comerciales como militares. que manipula la forma de la respuesta en frecuencia de una señal. las frases y la reinterpretación de fragmentos previos. es decir. así que. gestiona datos en mono o en estéreo y admite tres frecuencias de muestreo: 11. 22. del tipo de un PC. Lo contrario también es cierto: una serie de ondas simples puede combinarse para dar una onda compleja.

ya que es de muy alta frecuencia. con lo que se consigue crear otras ondas. una onda electromagnética FM modulada. profundidad del trémolo. 99. Técnicas de síntesis FM Todas las tarjetas de sonido de Creative Labs producen música gracias al sintetizador FM que está integrado en ellas. amplitud de la envoltura. El sonido resultante es muy complejo y contiene componentes con las dos frecuencias originales y muchos de sus armónicos. Este proceso puede Ilevarse a cabo con un equipo muy barato. Sintesis FM de dos operadores Las tarjetas Sound Blaster l. en 1971. es decir. La síntesis FM de sonido se consigue mediante la Pag. La Sound Blaster Pro 2 tiene integrado el último chip de Yamaha. En las secciones anteriores se dió una breve introducción a los sintetidores FM y a los chips que se emplean para implementarlos en las tarjetas de sonido. la componente audible de la señal de radio. que produce sonido sintetizado FM mediante la síntesis de dos operadores. Síntesis FM de cuatro operadores La Sound Blaster Pro 2. anteriores a la Pro 2.poca gente necesita componer música para más de 20 instrumentos a la vez. usted oirá la voz y la música que se enviaron mezcladas con la onda de radio de muy alta frecuencia. seis son instrumentos y cinco son percusión. la nueva Sound Blaster Pro 2 con el chip YMF262 tiene sólo 20 voces. En total.0 y Sound Blaster Pro. Si la radio está bien sintonizada. el YMF262 OPL3. el chip ha sido programado para la simulación de 5 instrumentos de percusión: tambor con tirantes de cuerda. E1 chip 3812 tiene 12 celdillas operadoras que se pueden combinar para dar lugar a seis pares que crean seis sonidos distintos FM sintetizados. Cuando se han combinado la señal difundida y la señal local. El sintetizador FM puede producir una amplia gama de sonidos.7 MHz. valor de la clave de la escala. Attack/Decay/Sustain/Release). El chip YMF262 que se usa en la tarjeta Pro 2 es casi compatible con el más antiguo 3812. tipo de envoltura (percusiva o no percusiva). olvídese por un momento de lo que ha leído. Dado que la síntesis FM de sonido proporciona una técnica para la modulación de sonido de forma controlada. la música electrónica sólo se podía crear mediante la utilización de equipos muy complejos y caros. Cada uno de los siguientes parámetros de las celdillas operadoras puede ser controlado desde el chip Yamaha para crear un inico sonido: Frecuencia. La Sound Blaster 16 también contiene este chip OPL3. de las cuales 15 son instrumentos melódicos y cinco son de percusión. Teoría de la síntesis FM Los términos FM y AM son familiares a cualquiera que escuche la radio. y las primeras Sound Blaster Pro tienen dos chips 3812 con lo que consiguen 22 voces. el 3812 es capaz de crear 11 voces (sonidos de instrumentos) simultáneamente.audibles a los humanos. bombo. e información sobre el sintetizador FM de la tarjeta de sonido. tantán. Hay una amplia gama de parámetros de estos operadores que puede controlarse. de muy alta frecuencia. que es la que se propaga a través del aire. Chowning descubrió que podía crearse una gran variedad de sonidos usicales mediante la modulación de la frecuencia de una onda sinusoidal con una segunda onda sinusoidal (simple) con el fin de crear una tercera onda de frecuencia odulada (FM) (compleja). Antes del descubrimiento de la síntesis de sonido FM. La limitación a 20 voces no tiene importancia práctica. ya que 20 sonidos monoaurales o 10 estéreos son suficientes normalmente -. selección de la forma de onda (sinusoidal o no sinusoidal). que en los últimos años se ha reducido a un circuito integrado más pequeño que uña de un dedo. El papel de su radio FM es capturar esta señal y extraer las componentes de baja frecuencia -. En la síntesis con cuatro operadores. con una explicación específica de la síntesis de sonido con dos operadores. De las 11 voces estéreo. que es capaz de realizar la síntesis de dos y cuatro operadores. profundidad del vibrato. Además. Esta sección proporciona más detalles sobre los orígenes y las técnicas que emplean los sintetizadores FM de las tarjetas de sonido. utilizan el circuito integrado (chip) Yamaha 3812 OPL2. frente a la de cuatro operadores. La ventaja de la síntesis de dos operadores es que asegura la . Esta señal se llama señal de radio. casi compatible quiere decir que nunca es lo bastante compatible. utilizando un mecanismo inventado por John Chowning. Aquí tenemos un ejemplo de onda compleja que nos proporciona la naturaleza.x/2. Esta sección es una introducción a la teoría de la síntesis FM. es capaz de crear una amplia gama de sonidos. Como sabe todo el que haya trabajado con computadoras. tanto música como efectos especiales. la señal de radio recibida se combina con otra que se produce directamente en su aparato y que tiene la misma alta frecuencia que la usada por la estación de radio -. puede realizar la síntesis FM de dos o de cuatro operadores. de la Universidad de Stanford.Si se siente aturdido al leer términos como "teoría de as ondas". tiempos de subida/bajada/estabilización/relajación (ADSR. relájese y trate de imaginar un arco iris. con el fin de crear una señal más compleja. Sonido estéreo La tarjeta Sound Blaster Pro (anterior a la Pro 2) tiene dos chips 3812. Como resultado le ello puede producir hasta ll voces estéreo o 22 voces monoaurales. Aunque el 3812 tiene 11 voces. Después de que su radio FM selecciona y amplifica esta señal. címbalo superior y címbalo de copa. uno de los resultados es una onda que es exactamente la diferencia entre ambas señales. Y con la ayuda de las minúsculas gotas de lluvia se ha producido la descomposición de la luz blanca en sus componentes simples: los colores puros que a simple vista todos abarcamos a observar en el arco iris. La técnica que subyace bajo la síntesis FM de música es exactamente la misma que se emplea para producir señales de radio FM: se usan voces y música de bajas frecuencias (audibles por el oído humano) para variar la frecuencia de una onda electromagnética.por ejemplo. que usa el último chip de Yamaha. 2-14 modulación de dos ondas simples de baja frecuencia. con lo que se crea un sonido de textura muy rica. se usan cuatro operadores para la síntesis de un único instrumento. "teorema de Fourier" y "algoritmo". y que también produce numerosos armónicos. El timbre del sonido es sólo en parte función de la frecuencia de las celdillas operadoras.

El método ADPCM comprime estrechamente el sonido digital. es importante que comprenda el propósito de dichos filtros para que su conocimiento sobre el sonido digital sea completo. contienen muchos caracteres repetidos. 2-15 hasta 10.1 kHz ocupa el mismo espacio que un archivo mono de 22. es necesario un método de compresión más sofisticado.025 kHz. en consecuencia requieren un método de compresión distinto. Puede producirse este fenómeno si la frecuencia de muestreo es demasiado baja. Si hay una componente en frecuencia que exceda el límite de Nyquist -. se observa una pérdida de la fidelidad. A menos que se haya seleccionado un método de compresión. hasta alcanzar incluso la cuarta parte del tamaño oriinal.5 kHz (suficiente para grabar la voz profunda de un adulto.como por ejemplo un chillido --. tales como los espacios y los finales de línea. para poder asegurar que se muestrean las componentes de alta frecuencia del sonido que se está grabando. Este filtro es un filtro digital pasa-bajos que permite el paso libre de las señales por debajo de una cierta frecuencia. E1 filtro se configura internamente. Aunque no pueda configurar el filtro durante la grabación. pero la mayoría de los formatos de archivo de sonido no lo admiten. en la frecuencia de corte (roll-off) correcta. Cómo se llega a dominar el muestreo de sonido digital Los últimos programas de Creative Labs para la grabación de sonido digital le separan del filtro de la tarjeta de sonido. Adaptative Differential Pulse-Code Modulation) y que almacena el sonido usando menos bits por cada muestra que el LPCM. E1 sonido digital almacenado en un CD de audio es sonido digital de 16 bits LPCM. pero que eliminase las superiores. Estos archivos se pueden comprimir sin más que usar un compresor de propósito general.05 kHz. En particular. el formato Microsoft Wave no admite bloques de silencio. El filtro de entrada (llamado a veces filtro de grabación) es esencial para el correcto funcionamiento de los circuitos PCM que graban sonido digital. Dado que es imposible crear el filtro perfecto. Se puede reconstruir la forma de la onda comenzando en un punto inicial y dibujando cada cambio. De acuerdo con el teorema de Nyquist. Incluso los períodos de "silencio" raramente están exentos de sonido. Esta técnica recuerda a la grabación de una partida de ajedrez. con lo que se evita que usted cometa algún error. sonidos que nunca existieron. y expresarla como una fracción del valor actual de cada muestra.1 kHz. de analógico en digital y otra vez en analógico. Los requisitos de la compresión de audio Los archivos de sonido son fundamentalmente diferentes del resto de los archivos de datos con los que usted pueda trabajar.05 kHz que no esté comprimido. cuando se usa una tarjeta de sonido de Creative Labs y se graba en disco sonido digital. se guarda con el formato LPCM. Por ejemplo. el límite de Nyquist es 22. Esto implica que un archivo estéreo comprimido de 44. esta frecuencia es adecuada para grabar sonidos cuya frecuencia más alta sea como iucho de 5. La ventaja de la síntesis FM de cuatro operadores es que el sintetizador FM puede crear sonidos más ricos mediante el uso de dos veces el número de operadores del caso anterior. conocida como modulación adaptable y diferencial códigopulso (ADPCM. y se consigue reducirlos hasta la quinta parte de su tamaño original. Por ejemplo. del tipo PKZIP. tras la descompresión. es decir. gracias a los circuitos de modulación código-pulso. Este esquema trabaja relativamente bien. El formato de archivo VOC usa el concepto de bloques de silencio. en lugar de un par. Los fallos en el funcionamiento del filtro provocan un tipo de distorsión denominado aliasing. en la que sólo se anotan los cambios . Modulación adaptable y diferencial código-pulso Existe una variación muy sofisticada del sistema PCM. Por ejemplo. Modulación lineal El sonido se transforma.compatibilidad con los controladores existentes y soporta hasta 12 voces sintetizadas. un tipo de distorsión de la señal que provoca que aparezcan en la grabación sonidos falsos. porque se usan dos pares de operadores para cada voz. el circuito PCM que realiza el muestreo creará un sonido falso con una frecuencia que es la diferencia entre las dos anteriores. un período extenso de silencio se reemplaza en el archivo audio con una marca y un valor de la duración temporal. en tomo a los 20 kHz. La compresión de audio Se ha mencionado varias veces el hecho de que los archivos digitales de sonido ocupan mucho espacio en el disco duro -- Pag. Este tipo de programas compresores no realiza un buen trabajo con los archivos de audio. La Sound Blaster contiene un filtro de entrada y otro de salida. Afortuadamente existen sistemas de compresión bastante sofisticados que reducen los archivos de audio a tamaños más manejables. A cada muestra se le asigna un valor de 8 o 16 bits que es proporcional -. suponga que usted selecciona para grabar voz una frecuencia de 11.5MB por minuto. así que se emplea frecuentemente para la audiocompresión. pero que bloquea las señales por encima de dicha frecuencia. y la frecuencia de corte debería estar por debajo de ese valor. con lo que.linealmente -. este proceso se denomina PCM lineal (LPCM). uno que esté diseñado para que aproveche las características del sonido. EI inconveniente es que la Pro 2 está limitada a seis voces sintetizadas. si la frecuencia de grabación es de 44. Consecuentemente. Puede que observe esto cuando utilice juegos que incluyan sonido digital. que es la frecuencia por encima de la cual se reduce la intensidad de la señal. El truco en el que se basa el método ADPCM es captar la diferencia entre una muestra y la siguiente. ya que lo natural es ve el sonido (al igual que el vídeo) cambie continuamente. mediante la circuitería de la tarjeta de sonido. El correcto funcionamiento del filtro de entrada previene el fenómeno del aliasing. Estos programas seleccionan automáticamente los filtros de entrada y de salida adecuados para la frecuencia de muestreo que se ha elegido. los ingenieros se han visto forzados a seleccionar una frecuencia de corte por debajo del límite de Nyquist. uno que dejase pasar todas las frecuencias por debajo de la de corte. pero no para rabar la voz chillona de un niño).a su intensidad. los procesadores de textos y el resto de los archivos que consten únicamente de texto y números. las hojas de cálculo. EI teorema de Nyquist establece que la máxima frecuencia que puede ser muestreada con seguridad es la mitad de la frecuencia de muestreo que se usa al grabar.

comprime el sonido a un número menor de bits -.x/2. 2-16 música. como Microsoft Wave (WAV). el costo por byte del espacio del disco duro era considerablemente mayor al de hoy en día. No puede hacerse el empaquetamiento si los archivos VOC han sido grabados con una frecuencia de muestreo alta (esto sólo es válido para la Sound Blaster 1. Ambos difieren sólo en algunos detalles de su implementación. se puede comprobar que este tipo de medida no es demasiado adecuado para la voz y el sonido. Técnicas de compresión para archivos VOC Cuando Creative Labs lanzó su primera tarjeta Sound Blaster 1. Los algoritmos A-law y µ-law son muy parecidos al PCM lineal. con lo cual hay un control más preciso sobre la forma de la onda. tales como Creative WaveStudio (Windows) o VEDIT2 de la Sound Blaster (DOS). ambas conocidas como CT ADPCM (tecnología ADPCM de la compañía Creative Labs). 3:1 o 2:1. La elección de comprimir 3:1 ha desaparecido de la Sound Blaster 16 para dejar paso a dos esquemas distintos de compresión 2:1. no pueden revisar archivos comprimidos.0 y la Sound Blaster Pro). Creative Labs emplea dos variedades distintas de ADPCM. empaquételo y luego escuche los resultados. Con miras a garantizar la fidelidad del sonido. en las que la distancia viene dada por marcas repartidas uniformemente. los otros dos algoritmos sólo pueden actuar sobre muestras de 16 bits. Hoy en día. los archivos pueden reducirse a sólo una cuarta parte del tamaño original. que se describen en la si guiente sección. Empaquetamiento de bloques de silencio Los bloques de silencio son marcadores que contienen un valor de duración temporal que representa un lapso de silencio o de casi silencio. Este algoritmo ofrece la posibilidad de configurar la compresión como 4:1. Con estas técnicas de empaquetamiento. Por esta razón se toma como base para los algoritmos A-law y µ-law. Debido a esto. esto es. • Los editores de sonido digital.pero lo hace conservando una fidelidad relativamente buena. en teoría. A-law y µ-law. sino que es el factor de escala. Una regla lineal no hará justicia ni al periodo tranquilo en que se interpreta un solo de flauta ni al súbito estruendo de los címbalos y los tambores. y si se emplearan 8 bits se tendrían hasta 256 factores de escala. • Los archivos empaquetados no pueden convertirse a otro formato. Mientras que el ADPCM de Creative Labs puede comprimir muestras audio de 8 y de 16 bits. cantidad más que suficiente. los ingenieros de Creative Labs pusieron un empeño considerable en desarrollar el archivo de voz de sonido digital (VOC). Si se observan las ondas de sonido en la pantalla de un osciloscopio. mientras que µ-law se emplea más en Estados Unidos y Japón. Antes de empaquetar se debe usar un programa del tipo de VEDIT2 para reducir la frecuencia de muestreo. Sin embargo este sistema tiene algunos inconvenientes: • Se producen pérdidas en la calidad del sonido. es una elección mejor que la regla lineal en lo que se refiere a la grabación del gama dinámica del sonido. usando para ello las medidas obtenidas con una regla lineal. usan el algoritmo Creative ADPCM desarrollado originalmente para la Sound Blaster 1. sobre Microsoft Windows y DOS) que vienen con la Sound Blaster 16 ofrecen la posibilidad de elegir entre tres técnicas distintas para comprimir muestras de 16 bits: ADPCM. La tarjeta Sound Blaster 16 usa estos dos métodos de modo diferente. Cada bloque contiene un tipo específico de información o un marcador. el Creative WaveStudio o el programa Sound Blaster VOXKIT. pero ocasionalmente está salpicado por chorros de energía. Los poseedores de la tarjeta Sound Blaster 16 deberían intentar grabar música usando las tres técnicas de compresión y escuchar las diferencias entre ellas. Un archivo VOC consta de una cabecera que identifica el archivo como de este tipo. los circuitos de sonido digital de 8 bits que utilizan uno de estos algoritmos pueden archivar una señal proporcional al ruido y un gama dinámica equivalente al del circuito LPCM de 12 bits. La técnica ADPCM consigue esto mediante la asignación de un valor de 4 bits. se puede realizar un buen trabajo a la hora de replicar una onda compleja. Alaw se usa sobre todo en Europa. seguido de un tren de bloques de datos. Este hecho se hace aún más notorio si nos fijamos en la música orquestal. No es necesario almacenar el estado del tablero antes de cada movimiento. Con los 4 bits que suele emplear ADPCM se tienen 16 factores de escala. La tarjeta Sound Blaster 16 de 16 bits usa una variante distinta de ADPCM que permite sólo la compresión 4:1 y 2:1.x/2.de 16 a 8 bits -. Es fácil apreciar cómo el empaquetamiento de datos degrada la calidad de la grabación. Esta técnica de empaquetamiento elimina los . además de ser una buena aproximación al modo en que el oído responde a la Pag.x.(próximo movimiento) y no el estado total del tablero. es decir con 16 valores distintos. Con los archivos de voz se pueden emplear dos técnicas diferentes para el empaquetamiento (que es la compresión específica para los archivos de sonido digital VOC de los Creative Labs): reemplazamiento de los períodos de silencio con bloques de silencio y compresión de los datos almacenados en bloques de datos. el VEDIT2 de la Sound Blaster Pro. Una regla logarítmica. Este tipo de música se toca a un volumen relativamente bajo. Estos dos últimos son algoritmos estándar CCITT (ahora UIT-T) para la compresión de voz. dado un tamaño fijo de muestreo de 8 o 16 bits. Con LPCM se graba la amplitud de la onda. A-law y µ-law.x. que es el factor de escala de una muestra. respectivamente. El valor no es la amplitud de la onda en ese punto del tiempo. El efecto neto de estos dos algoritmos es que.0 y Sound Blaster Pro de 8 bits. Cargue repetidamente un archivo de sonido digital. Las tarjetas Sound Blaster 1. Para comprobarlo puede usar un editor de sonido digital del tipo de la Sound Blaster Deluxe. Con sólo 4 bits. Algo así como que si una cosa es dos veces más larga que otra. ciertamente mejor que la que proporciona la compresión equivalente 2:1 hecha con ADPCM. como las de dibujo. la cantidad por la que hay que multiplicar a la muestra anterior para obtener la amplitud de la muestra actual. dado que la grabación de los movimientos permite reconstruir la partida paso a paso sin más que consultar la lista de los movimientos que se han hecho con cada pieza. se le asigna un número doble del anterior. Técnicas alternativas para la compresión de 16 bits Los programas Soundo'LE y WREC (que funcionan.

Cuando un programa encuentre uno de estos bloques al interpretar un archivo VOC. o 16 bits para que resulten 4.0 realizan esta compresión. Limitaciones técnicas de la compresión Hay dos factores que acotan el trabajo realizable con archivos comprimidos: la pérdida de fidelidad y la carencia. Como resultado. tanto el editor VEDIT2 como VOXKIT de la Sound Blaster 1.períodos de silencio. y los reemplaza con bloques de silencio. pero a base de robar vitalidad al PC.cualidades que se hacen necesarias si la voz o la música se van a comprimir sobre la marcha (a medida que se escucha el sonido). En particular. y consigue además ahorrar una considerable cantidad de espacio de almacenamiento. La descompresión de un archivo coloca una carga adicional sobre el circuito de la tarjeta de sonido. de parte de la fidelidad del sonido. E1 programa debe examinar la cabecera para comprobar que es un archivo VOC y ver si ha sido comprimido. con lo que el nombre no es una elección demasiado afortunada. Creative Iabs se refiere a este chip como el chip de procesamiento de sonido digital. La ventaja de usar este chip es que la tarjeta Sound Blaster es capaz de reproducir archivos de sonido digital. ya que el trabajo de descompresión lo realiza la tarjeta de sonido. Segundo: se descomprime a medida que se interpreta. La técnica de compresión ADPCM de Creative Labs es simple y rápida -.x/2. hay que tener en cuenta varios factores antes de seleccionar la cantidad de la compresión. Los bloques de datos -. no se pueden reproducir archivos empaquetados a la misma velocidad que los que no lo están. después de que se haya grabado el archivo. debería evitar exceder la máxima frecuencia de muestreo permitida (las SB16 de 16 bits soportan hasta 44 kHz sin problemas). ya que es difícil preservar una cantidad significativa de información cuando se estrujan 8 bits para que den lugar a 2. causará demasiada distorsión para que resulte práctico emplearla con la música o la voz. que tenía como CPU un 8088. lo que quiere decir que lo hace la CPU. en consecuencia.x/2. EI empaquetamiento de datos se realiza mediante la compresión ADPCM que estruja los bloques de datos hasta reducirlos a una cuarta parte del tamaño original. La compresión se realiza mediante software. Esta compresión sólo es eficaz para los efectos de sonido. aunque en este proceso se pierde fidelidad. El empaquetamiento de datos se realiza en dos pasos.0 y la Sound Blaster Pro. La extrema. A pesar de que la técnica de compresión que se emplea hace que la descompresión sea simple y rápida. La cantidad de esta pérdida depende del grado en que se comprima el archivo. Aunque el chip se denomina "DSP". La información de la cabecera también indica si es un archivo VOC de 8 o de 16 bits y da las instrucciones necesarias para reproducirlo. es decir. la basada en la velocidad del circuito PCM de la tarjeta por un lado. suspenderá la salida de sonido digital durante el tiempo indicado por el bloque de silencio. Limitaciones a la compresión de archivos de voz Si usted tiene una tarjeta Sound Blaster de 8 bits o una Sound Blaster Pro y quiere almacenar sonido en archivos VOC de 8 bits con datos empaquetados. 2-17 Para que la compresión sea la mejor posible. 4:1. Hardware de descompresión Las tarjetas de sonido de 8 bits.VOC. y la de la CPU de la computadora y el tiempo de acceso al disco por otro. la 4:1. de modo que es capaz de realizar la compresión. Actualmente. los bytes de sonido son restaurados y pueden reproducirse mediante los circuitos de sonido digital de la tarjeta. este chip de proceso de sonido digital sólo actúa como un auxiliar de la descompresión y se ocupa de algunas otras tareas menores. incluyen un chip de control especial que permite realizar la descompresión ADPCM (la compresión se hace sin necesidad de que haya un chip dedicado a ello -. de la potencia necesaria para realizar la compresión y descompresión lo suficientemente rápida como para que se mantenga el flujo normal de sonido. aun cuando si el disco tiene suficiente espacio se recomienda usar la compresión 2:1. La mayor pérdida de fidelidad se produce con la mayor compresión. son el equivalente a los bytes para el sonido digital actual. En esta sección se trata acerca de esta última limitación. unidad central de proceso del PC).se realiza por software. La 3:1 (sólo permitida para muestras de 8 bits) es apropiada para la voz. procesamiento de sonido Q-sound y cualquier otra tarea que se programe en el chip. Pag. puede realizar la compresión y la descompresión. descompresión. En ningún caso se recomienda comprimir las grabaciones de música. Mientras que un chip de proceso de señales digitales puede programarse para diferentes tareas (véase la sección siguiente que trata de la tecnología DSP). como la Sound Blaster 1. Un elemento importante del esquema de empaquetamiento de datos es que la cabecera del archivo no se comprime. del tipo de los PC originales de IBM. Los bloques de silencio son parte del formato de archivo VOC de Creative pero no existen en la mayoría de los demás formatos. Una SBl6 que no tenga el chip DSP para el procesamiento avanzado de señales. tales como la pausa entre dos frases o palabras. incluida información del tipo de la frecuencia de muestreo y si es un archivo estéreo o monoaural.se comprimen uno a uno. se debe hacer el empaquetamiento de los silencios antes que el de los datos (una vez que se hayan empaquetado los datos será demasiado tarde para hacer lo mismo con los silencios). ya que debe usar el chip UCP para estas tareas. también produce la pérdida de parte de la información y. La frecuencia de muestreo máxima varía de acuerdo con la compresión seleccionada (véase la siguiente tabla). por parte de la computadora. no es un chip de procesamiento de señales digitales. Primero: se comprime el archivo VOC de sonido digital.que probablemente estarán separados por bloques de silencio -. La descompresión la hace el hardware de la Sound Blaster mediante un circuito dedicado específicamente a ello a medida que reproduce el archivo. incluso en una computadora relativamente lenta. Si la . Un archivo VOC empaquetado y otro sin empaquetar tienen superficialmente el mismo aspecto: la extensión . el formato de a Microsoft WAV no dispone de estos bloques. Empaquetamiento de bloques de datos Los bloques de datos constituyen la parte principal de los archivos. Aunque se pueden empaquetar los datos incluso con la compresión 4:1. Cuando se descomprime un archivo. Cuando se lanzó la Sound Blaster 16 se la dotó del chip DSP.

como cuando se usa una unidad eco para añadir un eco. si una onda tiene una altura de 8. podemos señalar Creative WaveStudio. cuando están en forma digitalizada. Por lo tanto. la Sound Blaster 16 es capaz de El programa VEDIT2 de la Sound Blaster Pro puede comprimir sonido digital de 8 bits. así que un archivo de sonido que se haya comprimido usando un determinado paquete de programas no podrá leerse con un paquete proporcionado por otra compañía. la tarjeta de sonido reproducirá el archivo. tiene integrado un chip para el procesamiento de señales digitales (DSP). su implementación varía. en tiempo real. no del disco fijo). Se debe evitar comprimir y descomprimir repetidamente un archivo de sonido digital.frecuencia de muestreo sobrepasa la máxima mostrada en la tabla. La razón de que la frecuencia máxima a la que se puede grabar o reproducir sonido digital en crudo (sin comprimir) sea de 44. y frecuentemente se acompañaban con una base restringida de software. se generan errores de cuantificación. Esta compresión es factible ya que VEDIT2 almacena en el disco a su propio ritmo. Limitaciones a la compresión de los archivos Wave Creative Soundo'LE es un producto para Microsoft Windows -un programa de grabación y edición compatible que acompaña a todas las tarjetas Sound Blaster hoy en día. A-law y µ-law.0 y la Sound Blaster Pro también tienen cargado el Soundo'LE. es decir. pero despacio si se compara con la velocidad a la que se graba el sonido que llega del micrófono. los efectos especiales de sonido se llevaban a cabo mediante hardware analógico. pero no en tiempo real. es procesamiento de señales digitales. para manipular la compresión lo bastante rápido. del sonido en línea o del sonido procedente de la salida del CD-ROM. La segunda razón para que no se haga la compresión en tiempo real mediante software es que la industria de las tarjetas de sonido todavía carece de un único estándar para la compresión de sonido. En este caso el error de cuantificación es de casi el 5%. si la frecuencia de muestreo es alta.6 bits) Compresión 4:1 (2 bits) Máxima frecuencia de muestreo 44. necesita al menos un 386 DX/33 MHz o un 486 SX/25 MHz. archivos de sonido digital de 16 bits mediante las técnicas ADPCM. con lo que se veían limitados al tener que usar la CPU del PC. Una vez que el sonido se haya almacenado de forma digital. pero sólo son admisibles los valores enteros entre son 1 y 10. Como los archivos de sonido no tienen redundancias. VEDIT2 de la Soundblaster Pro puede comprimir. los archivos de sonido se comprimen generalmente con las técnicas de compresión con pérdidas ADPCM y similares. La forma común de denominar al trabajo con sonido e imágenes. Opciones para la compresión de datos de 8 bits Sin comprimir Compresión 2:1 (4 bits) Compresión 3:1 (2. rápidamente desde nuestro punto de vista. Este programa puede comprimir y descomprimir. la Sound Blaster 16 con procesamiento avanzado de señales. para almacenarlos o para su transmisión telefónica. pero sólo cuando se ejecutan con la potente Sound Blaster 16. 2-18 dedicado a manejar esta carga de trabajo adicional.tienen limitaciones a la hora de realizar la compresión en tiempo real. Por ejemplo. la 3:1 (los 8 bits ocupan aproximadamente 2. muchos PC no tienen la potencia computacional suficiente para hacer la compresión en tiempo real. Esta degradación se produce de la siguiente manera: Cuando se redondea el valor de una muestra. debe redondearse a 9. imágenes u otro tipo de archivos. La Sound Blaster 16 con procesamiento avanzado de señales. Una Sound Blaster 16 sin el DSP tiene que emplear la CPU de la computadora para la compresión. Mientras que se acepta generalmente la técnica ADPCM. Las tarjetas de 8 bits Sound Blaster 1.0) 13 kHz (Sound Blaster 1. Probablemente tendrá que usar al menos una 386 DX/40 MHz o 486 SX/33 MHz.6 bits) o la compresión 2:1 (los 8 bits se transforman en 4). Las sucesivas compresiones y descompresiones estropearán rápidamente la calidad del sonido. ya que cada vez que se realiza una de estas operaciones se pierde una pequeña parte de la información. Cuando se desee almacenar en disco se puede seleccionar la compresión 4:1 (8 bits se guardan como 2). pero sólo después de haberlo capturado en forma no comprimida de la memoria (de la RAM de la computadora. Por ejemplo. así que necesita aún más potencia. el ahorro que se produce en el tamaño del archivo al comprimirlo es muy pequeño cuando se usan estas técnicas sin pérdidas. La primera razón es que sin un chip dedicado a la compresión (como el chip de procesamiento avanzado de señales). Procesamiento de señales digitales: Tecnologías de punta Todas las tarjetas de sonido de Creative Labs graban y reproducen sonido digital LPCM (no comprimido). Como ejemplos de programas que realizan sólo una cantidad limitada de procesamiento de señales digitales. Con las técnicas de compresión sin pérdidas (como las realizadas por PKZIP) se pueden comprimir sonidos.5 y MCV) 12 kHz 13 kHz 11 kHz Pag. pero la salida será sonido "lento". Peligros de la compresión y descompresión repetitivas El esquema de compresión puede ser con o sin pérdidas.53 unidades. un accesorio de Microsoft Windows. y luego pueden expandirse y usarse sin ninguna degradación en la calidad. pero una versión que no es capaz de realizar la compresión. más que adecuado para la transferencia de sonido digital. VEDIT2 de la Sound Blaster Pro y Sound Recorder.x/2. Nota: La mayoría de las computadoras personales que se venden hoy en día tienen un tiempo de acceso al disco rígido por debajo de los 30 milisegundos.1 kHz (Sound Blaster Pro) 15 kHz (Sound Blaster 2. ya que se irá acumulando este tipo de error.1 kHz (Sound Blaster Pro y Sound Blaster 16) es que la tarjeta de sonido tiene un circuito PCM . números en la computadora. Gracias a este chip. Hay dos razones por las que las tarjetas de Creative Labs -salvo la Sound Blaster 16 con procesamiento avanzado de señales -. puede ser fácilmente procesado (transformado). ya que usan la CPU. Tradicionalmente. la tarjeta más novedosa de Creative Labs.

y que hoy en día es una empresa subsidiaria de Creative Labs. el dispositivo DECtalk está considerado como el que produce el sonido más natural. todas con excelente calidad. descompresión y sonido QSound. así como las características físicas de las voces. pudieron vislumbrar lo que será la base de la siguiente generación de tecnología del sonido: el chip EMU8000 para el procesamiento de señales digitales de sonido. Los chips DSP son todavía demasiado caros para que se haya extendido su uso en las tarjetas de sonido. a partir de texto. DECtalk PC estuvo disponible de forma práctica por primera vez en 1991 como . filtro de sonido integrado y efectos especiales del tipo de la reverberación. Además. de niño y de adulto. la panorámica.procesar señales más rápidamente y mejor que las tarjetas de sonido de 8 bits. Los melómanos apreciarán los efectos especiales del tipo de la reverberación (el eco débil que se escucha dentro de un auditorio o un edificio) y el efecto coro (los pequeños retardos que se producen al comienzo del sonido de un instrumento y que hacen que el sonido sintetizado de un único instrumento se escuche como si tocasen juntos un grupo de instrumentos idénticos al anterior) y pueden hacerse en tiempo real. E-Mu proporcionará pronto una solución integrada de hardware y software preparada para su incorporación a las tarjetas de sonido de Creative Labs. está a la cabeza de la fabricación de instrumentos digitales. TextAssist no sólo suena más natural que Monologue para Windows. para el procesamiento de señales digitales. conversión de la frecuencia de muestreo. la ecualización digital. ya que tiene un chip dedicado exclusivamente a esta tarea. la configuración de la velocidad y del volumen. La mayor de las ventajas que surgen del uso del DSP. Esta tecnología apareció por primera vez en 1983 como el componente software de un dispositivo hardware construido a medida. En la industria de la voz. En base a su extensa experiencia con equipos profesionales. Klatt. los equipos profesionales de sonido y que incluso puede integrarse en algunas aplicaciones. Creative Labs ofrece tanto la Sound Blaster 16 como la más cara Sound Blaster 16 con procesamiento avanzado de señales. E-Mu está considerado como un líder en las industrias de la grabación. multiplicación y retardo. El procesamiento de señales digitales se aplica en numerosos campos. Este chip es un tipo especial de microprocesador diseñado específicamente para que ejcute las operaciones más básicas del procesamiento de señales digitales: adición. Inc. estaba considerado como uno de los mejores científicos de la voz en el mundo. pero no es la que uno consideraría como ideal para escuchársela al PC todos los días. de los creados hasta la fecha. masculinas y femeninas. Tecnología de voz de DECtalk Creative Labs dio un salto cuantitativo en la síntesis de voz (conversión de texto en voz) con la adquisición de la licencia exclusiva del dispositivo de voz DECtalk de Digital Equipment Corporation (DEC). El chip EMU8000 no es el primero ni el único chip DSP que surge en el mundo del sonido (como ejemplo podemos señalar el potente chip de IBM M-Wave). de los laboratorios E-Mu Systems. lo emprende a su propio ritmo furioso. 2-19 combina las funciones más importantes de las tarjetas de sonido: sonido digital de 16 bits. mediante el ajuste de parámetros como el tono. Creative ha reescrito DECtalk para que trabaje con la Sound Blaster 16 con procesamiento avanzado de señales. la duración de los fonemas. tales como tratamiento de sonido Q-Sound. Su logro capital fue la creación de un sintetizador de voz cuidadosamente desarrollado para imitar el acento del inglés americano. El trabajo de su vida fue la creación de una computadora que "modelaba" la forma en que se produce la voz humana. La relación que se establece entre la CPU y el DSP es la misma que la que existe entre la CPU y su coprocesador matemático. Así. compresión y descompresión. las tarjetas de las computadoras. EMU8000: la siguiente generación de sonido DSP Los visitantes que acudieron a Las Vegas en noviembre de 1993 para ver la exposición de computadoras. al menos es comparable a la velocidad de trabajo de un Pentium. mezcla. la conversión de la frecuencia de muestreo y los cambios en el tono (sin cambiar la velocidad de reproducción). fundada en 1972. sino que además ofrece muchas facilidades adicionales. los coros. (E-Mu). Hoy en día. con una sólida formación en ingeniería eléctrica y muy interesado por la psicología de la percepción. que ha sido optimizado para la síntesis de voz. Usted puede añadir sus propias voces para que se adapten a su gusto personal. la CPU de la computadora queda libre para interactuar con usted y ocuparse de otras tareas. Por esta razón. E-Mu. La síntesis de voz DECtalk la inventó Dennis Klatt. ecualización (cambio de la longitud relativa de las componentes en frecuencia). llamado TextAssist y construido alrededor del dispositivo DECtalk. han creado un chip DSP de alta calidad y bajo costo que Pag. más rápidamente que un procesador de propósito general como el 80386 o el 80486. incluyendo nueve voces predefinidas. así que el sonido puede procesarse a medida que se graba o se interpreta. dado que se ha optimizado el DSP para que realice el procesamiento de señales digitales. síntesis de ondas muestreadas. polifonías de 32 voces. los instrumentos musicales y la posproducción de archivos/video. Cuando baje el coste de los DSP. Típicamente se escucha una sola voz con un timbre monótono como en las películas de ciencia ficción de los años setenta. el único procesamiento del que se encarga el DSP es la compresión. ya que forma parte de un subsistema de sonido completo que reúne el conjunto de características adecuado para llegar a ser un estándar industrial. del tamaño de un maletín. descomposición en frecuencias (FFT para el tratamiento de voz) y efectos musicales. mezcla de sonido. pero es especial. en lugar de la CPU de la computadora. un módulo de programas cuidadosamente escritos. Creative Labs ha desarrollado un nuevo software para la síntesis de voz. es que el DSP toma para sí el prosaico pero muy intensivo trabajo de procesar las señales digitales. éstos harán su aparición en todas las tarjetas de sonido y se dotará inmediatamente a las aplicaciones audio de una nueva potencia y flexibilidad. La mayor parte de los programas de texto a voz son inteligibles pero limitados. investigador del Instituto Tecnológico de Massachusetts (MIT) y consultor de DEC hasta su fallecimiento en 1988. soporte MIDI completo. encubrimiento de los errores (enmascaramiento de los defectos).

mediante la inclusión de Pag. que es característica de muchos fonemas) es un enfoque de la síntesis de voz radicalmente disitinto de la síntesis de fonemas. que sintetiza voz mediante el análisis de palabras :omo fonemas más que como difonos.195 dólares. pero en la oficina del siglo XXI podría ser habitual que en los mensajes electrónicos se incluyera un fragmento con la voz del . Para cada voz (tal como la de una mujer adulta o la de una adolescente). una explosión de sonido. Es posible modelar el tracto vocal mediante algunos artefactos físicos muy familiares. la duración y otros factores que contribuyen a la generación de voz. el texto que llega se transforma en una cadena de fonemas. coinciden en el primero y último pasos. ésta se transforma en la palabra "bat" (/b//a//t). Con la notable excepción de DECtalk PC. a pesar de que la pronunciación difiera en un acento. con un sintetizador de constituyentes es posible crear voces nuevas o modificar las ya existentes (como la conversión de una voz hablada en la misma voz cantada) sin más que asignar valores diferentes a los parámetros del dispositivo de voz. Por el contrario. los sonidos se reducirán a difonos. en inglés (un constituyente es un estallido de energía acústica. En el futuro es posible que se desarrollen programas capaces de extraer e imitar las características de la voz de cualquier persona. por ejemplo. En DECtalk PC se incluye un sintetizador de constituyentes. Un sintetizador de fonemas contiene muestras pregrabadas de cada fonema o difono. aunque estos sonidos (llamados alófonos) pueden intercambiarse sin cambiar el significado de las palabras. como el dispositivo DECtalk incluido en Creative TextAssist. la tecnología subyacente bajo la síntesis de voz a partir de texto en el PC. Con un sintetizador de fonemas. A rontinuación se aplican reglas y diccionarios -.la parte patentada en los sistemas de síntesis de voz a partir de fonemas -. la amplitud. Por ejemplo. La secuencia así obtenida se envía al hardware de generación de la voz que será el encargado de crear la forma de onda del sonido. que es capaz de generar voz con un sonido natural mediante un modelo matemático donde se definen parámetros para especificar el tono. Los sintetizadores de constituyentes son mucho más flexibles que los sintetizadores de fonemas debido a que no están basados en un conjunto de sonidos pregrabados para cada voz. cada una de las cuales se denomina difono. El enfoque más común a la síntesis de voz consiste en utilizar un sintetizador de fonemas o difonemas (la mitad de un fonema). Durante la producción de voz. el ritmo (velocidad) y el tono. estos dos alófonos son fonemas distintos.para optimizar la secuencia difónica (conjunto de códigos de difonos) y conseguir un discurso que suene de manera natural. tiene alrededor de 40 fonemas. todas las nuestras deben provenir del mismo hablante nativo. y en el caso je los sintetizadores de voz basados en difonos. Se ha adaptado esta misma tecnología para que trabaje con el chip DSP de procesamiento avanzado de señales de la Sound Blaster 16. donde se crea la forma de onda de la voz. En cambio. En lugar de concatenar una secuencia de muestras pregrabadas de voz. cada fonema puede dividirse en dos mitades. que no necesitan más que 56 bytes para ser almacenados. el dispositivo DECtalk convierte la secuencia de fonemas en valores de control del sintetizador. se basa normalmente en la síntesis de fonemas. ya que constituyen bloques de lenguaje. un sintetizador de constituyentes utiliza un modelo matemático del tracto vocal humano. Por ejemplo. la creación de una nueva voz requiere un laborioso proceso de grabación además de necesitar mucho espacio de almacenamiento -. ve la palabra "cat" como tres fonemas: /k/ /AE/ t/ donde /AE/ es el código fonético de Monologue para la "a" cuando suena como en a palabra "cat". Con este método. Los fonemas son los sonidos más importantes del discurso. lat. en ruso. que se envían al modelo computacional del tracto vocal. la palabra "cat" se representaría como cuatro difonos: Difono 1 2 3 4 Sonido Silencio + primera mitad de la "c" segunda mitad de "c" + primera mitad de la "a" segunda mitad de "a" + primera mitad de la "t" segunda mitad de "t" + silencio Monologue para Windows.una tarjeta EISA/ISA para PC con un precio de venta al público de 1. Los sintetizadores de fonemas y los sintetizadores de constituyentes. La creación espontánea de nuevas voces es impensable. Los fonemas son los sonidos que cuando se sustituyen hacen que cambie el significado de una palabra. dado que si se intercambian cambia el significado de la palabra.los físicos han creado modelos que describen su comportamiento vibratorio). es posible personalizar las voces de la computadora (como la voz de Talking Scheduler). del tipo del sintetizador Klatt de constituyentes (desarrollado por Dennis Klatt).de 350 a 750K. jat. Con el propósito de aumentar la calidad de la síntesis de voz. que es el método que se utiliza en los sintetizadores de fonemas. hay muchos más de 40 sonidos en inglés. Monologue para Windows. Siguiendo un ejemplo tomado de la Cambridge Encyclopedia of Science. pero difieren en la manera en que se manipula la secuencia de fonemas. /b/ y /k/ son claramente dos fonemas diferentes porque si se sustituye la /k/ por la /b/ en la palabra "cat" (/k//a//t/). El inglés americano. Pocos de nosotros toleraríamos escuchar a una computadora imitando perfectamente nuestra propia voz. implementado como un programa de computadora. que está instalado en cientos de miles de tarjetas de sonido de Creative Labs. gat. Es sencillo modificar las voces. según el tamaño y el ritmo de la muestra. Evidentemente. Debido al reducido número de parámetros necesarios para definir una voz. el sonido "el" de la palabra "leaf' difiere de ese mismo sonido en la palabra "pool". para obtener una voz más grave se modifican los parámetros que especifican el tamaño de la laringe y el grosor de las cuerdas vocales. 2-20 marcas especiales dentro de la secuencia de fonemas o difonos que mejoran a entonación (timbre). Mediante la aplicación de reglas y el uso de diccionarios. y así sucesiva mente. tales como una tubería (a modo de garganta) y una cuerda tensa (a modo de cuerdas vocales -. No hay más que ver lo fácil que es crear nuevas palabras sin sentido en inglés para darse cuenta de que éste es un idioma muy rico en fonemas: dat. La síntesis de constituyentes o formants. es un ejemplo de sintetizador de fonemas.

wBitsPerSample 4 "data" 4 tamaño de los datos de forma de onda datos de forma de onda Figura 1. se usan funciones que comienzan con el prefijo wave (onda). el tamaño del archivo menos 8 bytes. En ambos casos. E1 primer campo de WAVEFORMAT es wFormat Tag. es capaz de hablar esa lengua. A continuación hay un bloque de 32 bits que es el tamaño del resto del archivo. lo que indica modulación de código de pulso. a un turista o a un policía. El bloque de información comienza con la cadena de texto "WAVE". PC Magazine en español. o sea. una vez se le añadan los analizadores adecuados para convertir en fonemas texto de otro idioma. Los programas de MCI que he discutido antes también crean archivos. de voces diferentes. Desplazamiento 0000 0000 0008 000C 0010 0014 0016 0018 001C 0020 0022 0024 0028 002C Charles Petzold. Los programadores pueden usar las facilidades de sonido por forma de onda de las Extensiones de Multimedios para Windows bien con una interfaz de programación de bajo o alto nivel.nBlockAlign 4 pcm. Ejemplo de archivo . MCI está disponible bien a través de una interfaz de mensaje y estructura o de cadenas de comandos. Con la de bajo nivel. Pag. El campo nSamplesPerSec es el número de muestras . el tipo de formato de la información. estando en un abarrotado mercado tunecino decidimos preguntarle una dirección a un tendero. no es demasiado arriesgado pensar en futuros sistemas multimedios basados en TextAssist de Creative Labs que incluyan cientos. en respuesta a diferentes situaciones. Este formato es un ejemplo de un formato más extenso conocido como RIFF (Formato de Archivo para Intercambio de Recursos). "Almacenando sonido: una mirada a los archivos de sonido con formas de onda". los archivos con la extensión WAV se reconocen como archivos de sonido por forma de onda. Las versiones futuras de Windows con Multimedios pueden definir otros formatos para el sonido por forma de onda. en este caso 16 bytes.nChannels 4 pcm. Cubriremos los archivos en forma de onda y dos funciones más de alto nivel que pueden reproducir el sonido por forma de onda. para sonido mono o estéreo. que lo identifica como un archivo RIFF.wFormatTag = WAVE_FORMAT_PCM = 1 4 pcm. lo que lo identifica con un bloque secundario que contiene el formato de los datos de sonido por forma de onda. PCMWAVEFORMAT comienza con unaestructura WAVEFORMAT. Si echa un vistazo a estos archivos . que se define en la actualidad como WAVE_FORMAT PCM (igual a 1). El mismo dispositivo. que es el formato Bytes Datos 4 "RIFF" 4 tamaño del bloque de forma de onda (tamaño del archivo . Un archivo de sonido por forma de onda comienza con la cadena de texto "RIFF"'. EI valor del tamaño del bloque no incluye los 8 bytes que se requieren para el nombre y tamaño del bloque. La voz no se limita a la voz humana. Es parte de un formato más general conocido como Formato de Archivo para Intercambio de Recursos (RIFF). La interfaz de alto nivel se llama MCI (Interfaz de Control de Medios) y emplea archivos en lugar de bloques de memoria para grabar y reproducir el sonido por forma de onda. 2-21 general para los archivos de datos de Windows con Multimedios. si no miles. que es el formato general para los archivos de datos de Windows con Multimedios. el maullido de un gato y el sonido de cualquier otro animal cuyo tracto vocal sea lo bastante parecido al de los seres humanos. creadas muchas de ellas de manera dinámica. Quizá nos encontremos ante un caso de tecnología que corre desbocada.8) 4 "WAVE" 4 "fmt " 4 tamaño del bloque de formato (16 bytes) 4 pcm. Se puede crear archivos de sonido por forma de onda usando el programa Grabadora de Sonido (sound recorder) que se incluye en el Windows con Multimedios. Otra cadena de texto "fmt" (note el espacio en blanco para hacerla una cadena de 4 bytes) viene a continuación. Toda la información para los multimedios puede (y debe) guardatse en el formato RIFF.nSamplesPerSec 4 pcm·wf·nAvgBytePerSec 4 pcm·wf. con archivos que consisten de bloques de información identificados por un nombre de 4 caracteres ASCII y de un tamaño de 4 bytes (32 bits). La información de formato es una estructura PCMWAVEFORMAT.remitente. mayo 1992.wf. RIFF es un formato de archivo marcado (tagged).WAV. pero con las futuras versiones de TextAssist debería ser posible generar una voz por computadora que cantase en cualquier idioma y con cualquier acento. El dispositivo de voz DECtalk tiene la posibilidad de crear el ladrido de un perro. verá que tienen un formato como el que se muestra en la Figura 1. como si. A la cadena "fmt" la sigue el tamaño de la información de formato. El campo nChannel es bien 1 ó 2.WAV. El sonido se graba en bloques de memoria global y se reproduce desde estos bloques. que lo identifica como un bloque de sonido por forma de onda. Dado que es posible definir de manera concisa las características de la voz. por ejemplo. EL FORMATO DE SONIDO POR FORMA DE ONDA El Windows con Multimedios viene con varios archivos de sonido por forma de onda que se guardan en el subdirectorio MMDATA de su directorio de Windows.wf.WAV con un editor hexadecimal. o los programas MCITEST y WAVEEDIT que vienen con el Kit para Programadores de Multimedios (MDK).wf.

se interpreta la muestra como un valor con signo. El primero de estos usa el identificador "fmt " y el segundo usa un identificador de bloque "data". Después de ambos vienen tamaños de bloques de datos de 4 bytes.050 y 44.INI tienen el formato: SoundName=FileName Por ejemplo. el byte de muestra se interpreta como un valor sin signo.100. El tamaño de 4 bytes no incluye los 8 bytes que se requieren para los bytes del nombre y el tamaño. Aunque un archivo de sonido por forma de onda requiere bloques secundarios "fmt" y "data" (en ese orden). El bloque de datos comienza con la palabra "WAVE" pero "WAVE" no introduce un nuevo bloque. Pag.wav SystemExit=c:\mmwin\mmdata\bella. entre el bloque secundario de formato y el bloque secundario de datos. a lo que sigue la propia información de la forma de onda. dividido entre 8 y redondeado.wav Estos son los archivos de sonido que se tocan cuando comienza y termina Windows con Multimedios. NOMBRES DE SONIDO Los archivos de forma de onda pueden asociarse con "nombres de sonidos". el identificador "WAVE" está seguido por dos bloques secundarios. puede contener también otros bloques secundarios. Si el tamaño de la muestra está entre 9 y 16 bits. salte todo bloque secundario que no reconozca o con el que no pueda lidiar. Así que si necesita sacar datos de un archivo de sonido por forma de onda. que son entradas en la sección "[sounds]" del archivo WIN. cada muestra es de 2 bytes (mono) o 4 bytes (estéreo).025. Para los datos de forma de onda en estéreo cada muestra consiste del valor izquierdo seguido del derecho. Un archivo RIFF consiste de uno o más bloques que se identifican por un nombre en mayúsculas de 4 caracteres y un tamaño de datos de 4 bytes.INI. 22. e "ICRD" (fecha de creación). Los datos están en el mismo formato que se usa en las facilidades de sonido por forma de onda de bajo nivel. un archivo de sonido por forma de onda puede incluir un bloque secundario marcado como "INFO" y sub-bloques secundarios dentro del secundario que pro veen información del archivo de sonido por forma de onda. en una versión instalada de Windows con Multimedios. Y también pudiera haber otros. Charkles Petzold\0" "ICRD" 12 "1991-10-30\0\0" Figura 2. seguidos por el bloque de datos. Esta información no está comprimida y consiste simplemente de las muestras consecutivas.por segundo. Si el tamaño de muestra es de 9 bits o más. Una de las reglas más importantes para leer los archivos marcados es ignorar los bloques con los que no quiere lidiar. Para los tamaños de muestra de 8 bits o menos. Bytes 4 4 4 4 12 4 4 32 4 4 12 Datos "INFO" 80 "INAM" 12 "Audio Logo\0\0" "ICOP" 32 "Copyright 1991. También encontrará las siguientes entradas: SystemDafault= SystemAstarisk= SystemExclamation= SystemHand= SystemQuestion= . Este bloque secundario contiene tres subbloques secundarios con las etiquetas "INAM" (nombre). Tales bloques secundarios de información pueden aparecer en otros archivos RIFF. EI campo nBlockAlign es el número de canales multiplicado por el tamaño de la muestra en bits. "ICOP" (derecho reservado). dividido entre 8 y redondeado. Los tamaños estándares para las muestras son de 8 y 16 bits. Las entradas en la sección "[sounds]" de WIN. Si el tamaño de la muestra es de 8 bits o menos. El campo nAvgBytesPerSec es la razón de muestreo en muestras por segundo multiplicado por el número de canales y por el tamaño de cada muestra en bits. Los tamaños de datos deben aproximarse al siguiente múltiplo de 2. En el caso de un archivo de sonido por forma de onda. Esto es fácil porque el tamaño del bloque secundario sigue al identificador del bloque. cada muestra consiste de 1 byte (para mono) o 2 bytes (para estéreo). o después del bloque secundario de datos. el nombre del bloque es "RIFF" y el tamaño de los datos son los próximos 4 bytes del archivo. 2-22 La tabla de la Figura 2 muestra un posible bloque secundario INFO que pudiera aparecer en un archivo de sonido por forma de onda. encontrará dos entradas que parecen así: SystemStart=c:\mmwin\mmdata\water. los valores estándares son 11. (En seguida lo explicaré en detalle). Notará que no está seguida por un tamaño del bloque. En particular. Este bloque secundario puede aparecer antes del bloque secundario de formato. para un tamaño de muestra de 8 bits un silencio es equivalente a una cadena de 0x80 bytes). (Por ejemplo. EL FORMATO DE ARCHIVO PARA INTERCAMBIO DE RECURSOS (RIFF) Una discusión completa del RIFF aparece en la Referencia para el Kit para Programadores de Multimedios [MDK) de Windows. Un trozo secundario de información como este pudiera aparecer en cualquier archivo de sonido por forma de onda. Finalmente la estructura PCMWAVEFORMAT concluye con un campo nBitsPerSample. y el silencio es equivalente a una cadena de 0 valores. que es el número de canales multiplicado por el tamaño de la muestra en bits. En cambio. Después de la información de formato viene la cadena de texto "data" seguida por un tamaño de información de 32 bits. Estos nombres de sonidos pueden usarse con MCI y con la función sndPlay Sound.

de acuerdo con la Referencia para el Programador de Windows de Microsoft (Realmente.0). el archivo de sonido por forma de onda debe caber en la memoria disponible. La función sndPlaySound retorna FALSE si no hay una entrada en SystemDefault o si no puede encontrarse el archivo asociado con SystemDefault. MB_OK | MB_ICONATERISK). El prefijado es SND_SYNC (igual a 0). LA NUEVA FUNCION MESSAGEBEEP La función MessageBeep ha estado en Windows desde la versión 1. Generalmente. entonces se asume que es un nombre de archivo de sonido por forma de onda. sndPlaySound toca un archivo de sonido por forma de onda. puede especificar que SND_ASYNC toque el sonido de forma asincrónica. Estas se usan junto con la función MessageBeep que explicaré en los párrafos siguientes. el primer parámetro de sndPlaySound se asume que sea un puntero a un bloque de memoria que contiene una imagen en memoria de un archivo de forma de onda. En Windows con Multimedios el parámetro wType tiene un nuevo significado. Aquí se muestra cómo es usado en Multimedios de Windows. Si quiere detener un sonido que sndPlay Sound esté tocando. Cuando se instalan las extensiones de Multimedios. Normalmente. Puede detener la repetición llamando a sndPlaySound con un primer parámetro que sea NULL. Pueden especificarse seis indicadores (flags) en el segundo parámetro.0. la función toca el archivo de sonido por forma de onda asociado con el nombre de sonido asociado con la variable SystemDefault. Si no puede encontrarse allí un nombre de sonido. En cualquier caso. wFlags) Esta es la única función en las extensiones de multimedios que tiene el prefijo "snd". Note que los valores de wType co mienzan con el prefijo MB que son las constantes que se usan en la función Mes sageBox para especificar el tipo de icono que se muestra.WAV que el programa usa para imitar los sonidos de un reloj y sonar una alarma. El uso de la función MessageBeep es la forma más conveniente de hacer que sus programas de Windows "conozcan" el multimedios sin tener que añadir llamadas a funciones específicas de multimedios.INI. En una versión que no sea de multimedios de Windows. puede que quiera definir su sonido de SystemDefault para . lo que significa que la función no regresa hasta que se termine de tocar el sonido. MessageBeep simplemente hace sonar al altavoz de la PC sin importar el parámetro. MEssage8ox (hwnd. SND_NODEFAULT evita que la función toque los sonidos prefijados si no puede encontrar el sonido pedido. El indicador SND_NOSTOP hace que la función retorne FALSE si se está tocando otro sonido. NULL. Si usa el indicador SND_ASYNC también puede incluir el indicador SND_LOOP para tocar el sonido sin cesar. Pag.con otros archivos.WAV en los recursos definidos por el programador para su programa. MessageBeep toca un archivo de sonido definido por el usuario. Asegúrese de llamar a MessageBeep antes de MessageBox. invocando la opción de Sound en el Panel de Control de Windows con Multimedios. El programa Reloj de Multimedios (multimedia clock) usa la sección "[sounds]" de WIN. el parámetro wType se ignora así que puede fijarlo a lo que quiera). que tiene la siguiente sintaxis: BOOL andPlaySound (lpzsSound. Sólo tiene que pasar el mismo parámetro a MessageBeep que usa para especificar el icono en MessageBox.WAV que siguen a los signos de igual. pero si usa el indicador SND_MEMORY. Un programa puede tener acceso al nombre de archivo asociado con un nombre de sonido o añadir nuevas enaadas usando las funciones GetProfileString y WriteProfileString. La sintaxis es: void MessageBeep (wType). En las versiones normales de Windows el parárnetro wType no se usa y "debe fijarse a cero". use MessageBeep antes de llamar a MessageBox. Se asume que el primer parámetro es un nombre de sonido listado en la sección "[sounds]" de WIN. Como existen muchos programas que sencillamente llaman a MessageBeep con un parámetro de cero. wType -1 0 MB_ICONASTERISK MB_ICONEXLAMATION MB_ICONHAND MB_ICONQUESTION Sonido El sonido de la PC Sonido "SystemDefault" Sonido "SystemAsterisk" Sonido "SystemExlamation" Sonido "SystemHand" Sonido "SystemQuestion" Figura 3. "File Not Found!". LA FUNCION ANDPLAYSOUND La función más simple que puede usarse para tocar archivos de sonido por forma de ondaes probablemente la función sndPlaySound. como se muestra en la Figura 3. Usa LoadResource y LockResource para tomar un puntero al bloque de memoria que contiene el archivo y simplemente pasa el puntero a sndPlay Sound con el indicador SND_MEMORY. pero siempre se ha definido de una forma algo peculiar. o cambiar los nombres de archivo asociados con los nombres de sonidos existentes. Si no puede encontrar el archivo.INI para guardar los nombres de archivos. En este caso la función retorna inmediatamente y el sonido se toca en segundo plano. Puede añadir los nuevos nombres de sonido. Bajo las versiones de Windows que no son de multimedios. De forma alterna. Esto simplifica la inclusión de archivos de forma de onda. de esta forma: MessageBeep(MB_ICONASTERISK). 2-23 Los dos indicadores adicionales son SND_NODEFAULT y SND_NOSTOP. el parámetro wType no es usado. porque MessageBox no regresa hasta que el usuario termine de mostrar la caja de mensaje. puede llamar: andPlaySound(null.

así que la capacidad de dispositivos de grabación. "uhhhh". Así que los enlaces de voz analógicos ahora utilizados para transmitir voz analógica de alta calidad serán entonces capaces de llevar voz digital de alta calidad con beneficios adicionales tal como seguridad y privacidad. También es crucial para acomodar más usuarios sobre canales comerciales que tienen limitaciones inherentes de ancho de banda o potencia. Codificación de la Voz a Baja Velocidad En nuestro mundo que tiende cada vez a redes de banda ancha para altas velocidades. Un chip de memoria de 16 Mb podría guardar 1 hora de habla a 4 kb/s.3. donde todas las formas de comunicación se reducen al formato digital).34bis trasmiten a 33. han aparecido numerosos productos y componentes. Como se sabe. calidad. SystemHand (mano) y SystemQuestion (pregunta) a archivos Pag. También se explota una característica de la audición humana y es que las amplitudes altas logran enmascar. se requieren técnicas mucho más elaboradas. Si bien la tecnología no está completamente madura. Los expertos en codificación digital tratan de optimizar la interacción de 4 parámetros: velocidad binaria. Algoritmos de codificación robustos y de alta calidad están reduciendo la velocidad de transmisión y nuevos modems. pero en el futuro se van a usar canales digitales con quizás 8 kb/s para codificar la voz con ancho de banda de 10 kHz. a medida que se trata de reducir la velocidad binaria. De esta forma la relación señal a ruido de cuantificación se mantiene constante sobre una amplia gama de niveles. en vez de los canales digitales de mayor ancho de banda. las interferencias quedan prácticamente eliminadas. en PCM la forma de onda de la voz es muestrada. A medida que la . Con la vista puesta en aplicaciones como las mencionadas. A velocidades bajas. El cifrado de mensajes secretos o importantes puede llegar a ser más facilmente disponible para el sector comercial o militar. a menos que se aumente la complejidad del esquema de codificación (y de los circuitos integrados que realizan el proceso). en cierta medida. A la relativamente alta velocidad de 64 kb/s. tales como enlaces militares vía radio. La función principal de estas técnicas es analizar la señal de habla más cuidadosamente. Yo he grabado mi voz en archivos de sonido y he fijado los sonidos SystemAsterisk (asterisco). Se puede usar 56 o 48 kb/s para la voz y 8 o 16 kb/s para datos. las cuales predominan en el habla. Las velocidades bajas pueden adaptar más fácilmente los mensajes de voz para la conmutación por paquetes (como Frame Relay).que sea algo breve y simple.600 b/s sobre canales con ancho de banda de apenas 3 KHz. 2-24 que contienen el sonido de las palabras "hey". Los investigadores han ensayado una gran variedad de esquemas de codificación y aparecen continuamente nuevos conceptos de codificación que se añaden a los existentes. pronto puede ser práctico el enviar señales digitales de voz de alta calidad a unos 8 kb/s sobre una amplia gama de canales. también se pierde la calidad del sonido. la codificación del habla a bajas velocidades tiene su importancia. Este retardo. como resultado de la transmisión digital. De hecho muy pocas personas pueden decir si la voz en el otro extremo de la línea telefónica se está transmitiendo digitalmente. tal como el V. sin embargo. no es un problema serio en aplicaciones como el correo de voz. Algo interesante es que parece que la respuesta del oído a estas frases fuera más rápida que la respuesta visual a los iconos. en el cual el paso de cuantificación aumenta a medida que la amplitud aumenta. 2. Algunos opinan que se puede realizar la codificación del habla con alta calidad a velocidadades tan bajas como 2 kb/s. Actualmente en telefonía celular se usa canales analógicos FM con ancho de banda de 30 KHz. los límites fundamentales sugeridos por la percepción del habla y la teoría de la información son bastante bajos. En el extermo receptor se efectúa el proceso inverso por medio de un decodificador. Puede divertirse con estos nombres de sonidos. para así eliminar la redundancia presente de una forma más profunda y usar los bits disponibles para codificar las partes no redundantes de una manera eficiente. a los cuales estamos obligados actualmente. puede aumentar significativamente. tales como máquinas contestadoras. La codificación del habla a baja velocidad permite compartir entre voz y datos un canal B a 64 kb/s de la ISDN (Red Digital de Servicios Integrados. la calidad de la voz no es un problema. La modulación por pulsos codificados convencional (PCM) es de una calidad altamente aceptable. Otro factor es el deseo de sistemas eficientes desde el punto de vista de memoria para el almacenamiento de voz y para lo que se conoce como el correo de voz. cuantificada y codificada digitalmente. el ruido de cuantificación. tal como la telefonía celular o en las comunicaciones por satélite. En efecto. el nivel de recepción se vuelve independiente de la distancia y se puede conversar más fácilmente con manos libres. El único algoritmo especial en PCM es la cuantificación. los entes de estandarización y los laboratorios de procesamiento digital de señales han estado muy activos en los últimos años. "pare!" y "cómo?". es decir buzones electrónicos donde se almacenan mensajes hablados. SystemExclamation (admiración). Más bien. existe la ventaja de la mejor calidad de la voz. Por ejemplo. donde se utiliza un cuantificador no lineal (ley A en Europa y ley µ en Estados Unidos y Japón). por supuesto. Los investigadores se sienten optimistas ya que en el compromiso entre calidad de voz y velocidad binaria. los expertos en transmisión digital tratan de subir la velocidad de transmisión que un canal puede acomodar. Una razón de ello es la creciente necesidad de transmitir mensajes hablados con alto nivel de seguridad sobre canales de baja velocidad. La complejidad incrementa los costos y a menudo aumenta el tiempo de procesamiento. complejidad y retardo. Se podría afirmar que en las telecomunicaciones hay 2 tendencias claras de evolución: mientras los expertos en codificación tratan de bajar la velocidad binaria para un dado nivel de calidad. Esta no linealidad favorece las bajas amplitudes.

Los algoritmos Pag. no solamente la voz. cuantificando sólo el error de predicción. Un método muy utilizado es la predicción lineal. Otra técnica es usar codificación adaptable por sub-bandas. (esto es. Para el habla. donde se utilizan 8 bits por muestra. para velocidades de 8 kb/s y eventualmente de 4 kb/s. Esta descripción usualmente se basa en la noción de una señal de excitación que alimenta un filtro lineal. El número de bits puede ser reducido ulteriormente por el enmascaramento del ruido: En lo que se refiere al que escucha. Este principio se explota. (LPC: Linear Predictive Coding) con el cual se codifica la señal de voz haciendo una estimación de la misma como una función lineal de las muestras anteriores. sobre todo cuando la señal es estacionaria solamente por un corto tiempo.velocidad binaria disponible se reduce a 32 kb/s. buscan una descripción compacta de la señal de entrada y digitalizan solamente los parámetros de esta descripción compacta. basada en modelo) que permite una resolución espectral más precisa que la transformada de Fourier no parámetrica. pero ir de 4 a 2 bits por muestra (esto es. 8 kb/s y 4 kb/s. tanto en transmisión que almacenamiento. el estándar LPC-10 ha sido muy utilizado en ambiente militar durante años. Se utilizan 4 bits por muestra con velocidad de muestreo de 8 kHz. Una aplicación prometedora para el vocoder es en el correo de voz. ya que se hace una estimación de la muestra de voz actual a partir de una combinación lineal ponderada de muestras pasadas cuantificadas. 16 kb/s. El error de predicción tiende a contener menor energía que la voz original y en consecuencia puede ser codificado usando menos bits para un dado grado de error de reconstrucción. LPC es una técnica muy utilizada para el análisis de muchas señales. esto es el hecho que personas hablan con un timbre característico. por ejemplo. Los vocoders. especialmente si el filtro es excitado por pulsos breves pocos frecuentes. LPC utiliza un número reducido de parámetros vocales (llamados coeficientes LPC) que tienen que ver con la configuración del tracto vocal y en consecuencia con el sonido que es emitido. Si bien el principio del ADPCM se conoce desde hace muchos años. LPC es una forma de análisis parámetrico. Son robustos en el sentido de que funcionan razonablemente bien aun en ambiente con tasas de errores altas. Los sistemas que usan estas técnicas son llamados codificadores de forma de onda (waveform coders) y son distintos de los llamados vocoders. En el caso del habla. Esta predecibilidad hace innecesario representar la onda completa y permite que el codificador y el decodificador utilicen un algoritmo de predicción basado en las propiedades estadísticas de la onda. en el PCM diferencial adaptable (ADPCM). 2-25 utilizados por los vocoders no son muy robustos: pueden fallar cuando hay mucho ruido de fondo o cuando varias personas hablan simultáneamente. El resultado es por lo general un sonido artificial en el cual las palabras pueden ser entendidas claramente pero no se puede fácilmente identificar a la persona que habla. las técnicas para la reducción de la redundancia y el aprovechamiento de los bits deben ser cada vez más sofisticadas. Este es un modelo que trata de simular el proceso de excitación y modulación en el tracto vocal humano usando LPC. resonancia de vocal) tiende a enmascarar el ruido que se encuentra en la banda de frecuencias de la formante. si el ruido se encuentra a más de 15 dB por debajo de la señal. La compresión digital del sonido en general asume que una porción de la onda que empieza de cierta forma probablemente continúe de una forma conocida por un cierto tiempo más. en donde un bloque completo de entrada se cuantifica todo de golpe. con el desarrollo de algoritmos eficientes y robustos. la cual fracciona el habla en bandas de frecuencias y asigna los bits diponibles de forma que se adecuen al espectro de la voz de entrada y a las propiedades del oido. Aquí se hace uso de la naturaleza periódica del habla y de una carácterística de la forma como las personas escuchan. Estos coeficientes puede ser utilizados en circuitos digitales como valores multiplicadores para generar una versión sintética de la señal original o pueden ser almacenados como patrones para el reconocimiento de la voz. sin trasmitir información explicita de adaptación. llamada enmascaramiento del ruido. Las señales producidas a través del filtrado lineal de variaciones lentas son las más adecuadas para LPC. así que la velocidad binaria es de 32 kb/s en vez de los 64 kb/s del PCM convencional. La periodicidad del habla. En el ADPCM la calidad subjetiva de la voz es comparable con el PCM y no hay incremento del retardo de procesamiento. El resultado es un ahorro considerable en bits para un dado nivel de calidad de la voz reconstruida. donde la entrada al cuantificador es la diferencia entre una muestra de voz y la predicción de la misma. Estos algoritmos son eficientes en el sentido de que ellos adaptan la cuantificación y la predicción en forma sincrónica en el codificador y en el decodificador. El decodificador realiza una operación inversa parecida a la integración. Los primeros emplean algoritmos para lograr una salida que sea una aproximación de la forma de onda de la señal de entrada. Estas técnicas pueden ser combinadas entre ellas en forma complementaria. 4 kb/s o menos. llamada cuantificación vectorial. por ejemplo. Algunos de los nuevos codificadores de forma de onda a baja velocidad incluso se aprovechan de la tecnología de los vocoders. no fue posible estandarizarlo en el CCITT como un código a 32 kb/s sino hasta 1984. La calidad de los vocoders es aceptable para comunicaciones militares seguras que deben enviarse a velocidades muy bajas. Estos códificadores híbridos son más robustos que los vocoders y su objetivo es lograr una calidad del habla que sea suficientemente buena para el servicio comercial. por ejemplo. Adicionalmente pueden ser combinadas con otra técnica. La predicción es lineal. se asume que las señales son generadas por una fuente que excita un filtro lineal y la fuente puede representar soplos periódicos de aire que pasan a través de la glotis (que es el espacio entre las cuerdas vocales) o que es el ruido producido por un estrechamiento en el tracto vocal y el filtro corresponde al tracto vocal superior. hasta cerca de 1 error por cada 100 bits. ya que la codificación puede ser efectuada sin prisa con un proceso cuidadoso que optimice la calidad de la voz. Esto significa que cerca de las frecuencias de las formantes puede ser tolerado un error de . permite la predicción de ese timbre y en consecuencia codificarlo con pocos bits. En los Estados Unidos. una fuerte formante (esto es. en cambio. añadiendo la señal diferencia cuantificada a su propia estimación o predicción de la muestra de voz actual. Bajar de 8 a 4 bits por muestra involucra una relativa simple combinación de cuantificación adaptable y predicción adaptable. en vez que en muestra por muestra. lograr la codificación a 16 kb/s) es mucho más difícil.

la forma del espectro del ruido se modifica por asignación adaptable de los bits.25 bits por muestra. conformando el espectro de ruido. Utiliza los principio de codificación de forma de onda de alta calidad para optimizar la señal de excitación. pero velocidades substancialmente más bajas. pero es suficientemente flexible para adaptarse a las sutiles propiedades de la forma de onda del habla. por ejemplo. La cuantificación vectorial asegura buena calidad permitiendo que haya suficientes secuencias a escoger en las tablas de códigos de la excitación y del filtro. han logrado puntajes sorprendentemente favorables. 3. la asignación de bits apropiada para un segmento con un predominio de componentes de alta frecuencias podria ser 1. el algoritmo adaptable automáticamente asigna mayor número de niveles de cuantificación para las frecuencias más altas. en el caso de un sistema de 4 sub-bandas de igual ancho. la banda de voz se divide en 4 o más sub-bandas contiguas por medio de un banco de filtros pasabanda y se emplea un esquema específico de codificación para cada sub-banda.5 bits por muestra para codificar la voz. Para la codificación a 4 kb/s se ha desarrollado la codificación con excitación estocástica. esto es. Adicionalmente en un sistema de codificación por sub-bandas. 1. en vez de la propia secuencia de 40 muestras. Con las técnicas híbridas más avanzadas. pero con la sofisticación de la cuantificación vectorial. 0 bits para las 4 sub-bandas en orden creciente de frecuencias. resultando así una velocidad de 8 a 4 kb/s. donde un número adecuado de pulsos se utilizan como la secuencia de excitación correspondiente a un segmento del habla (por ejemplo. pagada). 10 pulsos para un segmento de 10 ms). logrando al mismo tiempo mantener un promedio de 2 bits por muestra. En las bandas de bajas frecuencias. Como ejemplo. 1024 secuencias almacenadas. Pruebas subjetivas de sistemas experimentales a baja velocidad han demostrado que los usuarios encuentran la calidad del los codificadores de forma de onda más que adecuada. Este es un sistema híbrido que adopta mucha de la eficiencia de los vocoders tradicionales. se asignan más bits a las frecuencias percibidas como más importantes. Ellos utilizan información acerca de las formantes de manera tal que las frecuencias del ruido de cuantificación se modifican de acuerdo a la frecuencia del formante. calidad de llamada de larga distancia. Se pueden lograr velocidades todavía más bajas utilizando un tipo de código que alimenta un filtro lineal predictivo con una señal de excitación cuidadosamente optimimizada. al ser realizadas con codificadores avanzados de alta complejidad. las señales de las sub-bandas son decodificadas y sumadas para así lograr una reproducción fidedigna de la señal original. ya que ambos tipos de parámetros deben variar Pag. Un MOS de 5 se considera excelente. lo cual no deja muchos bits para la información que proviene del filtro predictivo lineal. Si la tabla de códigos contiene. 1. una velocidad promedio de 2 bits por muestra implica una velocidad total de 8 bits por muestra. En el extremo receptor. En la cuantificación vectorial. en vez de usar excitación rígida de 2 estados de los vocoders. una velocidad de 64 kb/s alcanza un puntaje alto en tales pruebas. Para estos valores la distorsión está presente.codificación (el equivalente de ruido) relativamente alto y que la velocidad binaria puede ser reducida proporcionalmente. los esquemas más complejos para codificación sub-banda adaptable y el propio ADPCM usan predicción del timbre y enmascaramiento del ruido. La calidad se mide en forma subjetiva por medio de un puntaje promedio de opinión (MOS: Mean Opinion Score) obtenido a través de pruebas rigurosas. Como ejemplo. por ejemplo una secuencia de 40 muestras de largo. el ruido de cuantificación de una banda se mantiene dentro de esa banda. Sin embargo si predomina energía de alta frecuencia en un dado segmento de habla. con personas. Un MOS mayor de 4 significa que la persona encuentra el habla tan inteligible como el original y libre de distorsión. el número de niveles de cuantificación puede controlarse independientemente en cada banda y la forma del espectro total del ruido de cuantificación así puede ser controlado según la frecuencia. pero no es fácilmente distinguible y la inteligibilidad es todavía muy alta. Optimizar la excitación y los parámetros del filtro representa un gran desafío para los investigadores. mientras que 4 o más significa una alta calidad. 3 regular. En el ADPCM se le da cierta forma al espectro del ruido por medio de realimentación del error o técnicas de post-filtado. Al fondo de la escala se encuentra la calidad sintética típica de los vocoders: . Valores de MOS entre 3 y 4 corresponden a calidad apta para comunicaciones. donde debe conservarse la información sobre el timbre y el formante. por ejemplo. se requieren solamente 10 bits para transmitir la dirección del código de 40 muestras y la codificación se logra con apenas 0. Valores de MOS entre 3.5 y 4 representan un nivel útil de calidad del habla. 2. 2 pobre y 1 malo. la codificación de los parámetros de predicción puede hacerse suficientemente precisa. así que una entrada de habla de bajo nivel no va a ser afectada por el ruido de cuantificación en otra banda. En cambio en la codificación adaptable por sub-bandas. Esto es. En este caso la asignación de bits apropiada a un segmento de habla con un espectro rico en bajas frecuencias podría ser. 5. Si se varía la asignación de los bits en las distintas bandas. Así que un MOS de 5 indica calidad perfecta. donde cada una es una secuencia estocástica (esto es aleatoria) de pulsos. Por medio de una búsqueda en lazo cerrado se selecciona la mejor secuencia. se requieren apenas de 1 a 0. Luego escoje la dirección correspondiente a ese conjunto de secuencias y transmite esa dirección al receptor. el codificador tiene almacenado un repertorio de posibles excitaciones. Para esto. Un buen candidato para la codificación a 8 kb/s es la codificación predictiva lineal por multipulsos. se usan en promedio más niveles de cuantificación. Aquí es casi una necesidad la cuantificación vectorial en el filtro predictivo lineal. formales. 2-26 con el tiempo para lograr calidad y naturalidad. Las amplitudes y la posición de los pulsos se optimizan pulso por pulso a través de una búsqueda de lazo cerrado. La velocidad binaria asignada a la excitación es más de la mitad de la velocidad total de 8 kb/s. el cuantificador busca en su memoria el conjunto que más se asemeja a la secuencia de muestras. 4 bueno. con el fin de asegurar que estén disponibles suficientes bits para los parámetros de excitación y predicción. 3 bits para cada muestra de subbanda. Como podría esperarse. (los ingenieros telefónicos la llaman toll quality. asumiendo que la velocidad de muestreo de cada subbanda sea 1/4 de 8 KHz (esto es 2 KHz).

usualmente expresada en millones de instrucciones por segundo (MIPS). una versión altamente compleja puede conseguir habla de alta calidad a velocidad más baja. Esto se debe a que los segmentos de habla son mucho más largo que el valor de 10 ms asumido en la figura y porque se usan subsistemas adicionales para la interpolación de parámetros y para la protección contra errores. los valores de complejidad pueden diferir substancialemnte de los ordenes de magnitud estimados en la figura. especialmente cuando se suman los retardos en la propia red de transmisión (sobre todo en enlaces vía satélite) y se combinan con ecos que no han sido neutralizados. Bajo este criterio. Pero en pruebas subjetivas los mejores codificadores de 16 kb/s se acercan en calidad a los codificadores PCM de alta velocidad y logran un puntaje MOS cercano a 4. De hecho. por ejemplo. puede ser realizado con unos cuantos chips especialmente diseñados. En casos específicos. el codificador PCM adaptable puede ser rediseñado para lograr habla a 16 kb/s con calidad de comunicación. manteniendo aproximadamente la misma calidad del habla. el codificador predictivo lineal excitado estocásticamente puede ser simplificado a 50 MIPS con solo una pequeña pérdida en la calidad de la voz. 2-27 los cuales son una combinación de circuitos integrados de propósito general y de propósito específico. una versión ampliamente usada del vocoder LPC posee un retardo mucho más grande del que se muestra en la figura. Estas pruebas subjetivas de MOS complementan mediciones objetivas. Pag. El costo del hardware generalmente aumenta con la complejidad. de baja complejidad. Por ejemplo. Por ejemplo. como se ilustra en la Tabla 1. las señales son codificadas y decodificadas una sola vez.01 32 0. mucho más importante. en cada teléfono digital) así que deben ser económicos. a reducir la diferencia de costo entre las técnicas de baja complejidad y las de alta complejidad. sin embargo el progreso en la tacnología de procesadores de señales tiende a hacer bajar los costos para un dado nivel de complejidad y. Por otro lado los valores de retardo están redondeados y generalmente reflejan el mínimo para los distintos códigos. Este último problema se puede aliviar incorporando un cancelador de eco en el sistema. Sin embargo. Comparación de distintos esquemas de codificación del habla Un tipo de código no está necesariamente limitado a la velocidad que se muestra en la tabla. en enlaces completamente digitales de extremo a extremo (como ocurriría con la ISDN). velocidad y calidad.1 16 1 8 10 4 100 2 1 Retardo (ms) 0 0 25 35 35 35 Calidad alta alta alta comunicaciones comunicaciones sintética Tabla 1. puede ser rediseñado para que opere a 8 kb/s en vez de 4 kb/s. mientras que un codificador predictivo lineal excitado estocásticamente. El retardo de codificación no es problema si la voz se almacena en forma . centrales viejas y modernas). Un algoritmo se considera generalmente práctico si se puede realizar en un solo chip. Por supuesto. La figura muestra valores típicos para varios sistemas de codificación de habla y muestra el compromiso entre complejidad. tales como la relación señal a ruido y. esto es el codificador de predicción lineal excitado estócásticamente. Los codificadores de baja velocidad están destinados a un uso masivo (por ejemplo.las palabras son en su mayoría inteligibles pero no siempre puede ser identificada la persona que habla. a medida que los algoritmos se vuelven más complejos. Los algoritmos complejos introducen un retardo entre el momento en que la persona que habla emite un sonido y el momento en que la versión codificada de ese sonido sale del codificador. en vez de habla alta calidad a 32 kb/s. Los algoritmos para la codificación digital del habla usualmente se implementan en procesadores digitales de señal. a menudo son más significativas. con una complejidad de 50 a 100 MIPS. Por ejemplo. son bastante inferiores a los codificadores PCM de 64 kb/s. la codificación pedictiva lineal multipulso de baja complejidad puede lograr codificación de alta calidad a 16 kb/s. Los codificadores son por lo general mucho más complejos que los decodificadores. Estos retardos pueden ser objetables en una conversación telefónica bidireccional. en base de mediciones de señal a ruido los codificadores de 16 kb/s. ya que un procesador de señales de propósito general puede trabajar hasta unos 10 MIPS. requieren más tiempo para actuar. en la gama de 64 kb/s a 8 kb/s el número de MIPS aumenta de un orden de magnitud cuando la velocidad de codificación se reduce a la mitad. El costo por supuesto es también un factor de compromiso pero es difícil de cuantificar en la figura. sin importar su complejidad. de hecho. Como regla práctica. Tipo de código Modulación por pulsos codificados (PCM) PCM adaptable diferencial (ADPCM) Codificación sub-bandas adaptable LPC multipulsos LPC con excitación estocástica Vocoder LPC Velocidad (kb/s) Complejidad (MIPS) 64 0. La complejidad de esos procesadores se mide por el número de operaciones tipo multiplicación-adición requeridas para codificar el habla. Con PCM todavía se logra alta calidad con hasta 8 etapas de conversión. la mayoría de los codificadores mostrados en la figura son actualmente prácticos. por lo que las ventajas multietapas de las velocidades altas son menos importantes. tal como la que se encuentra en un enlace de transmisión en el cual haya numerosas conversiones analógico/digital (por ejemplo. aun los sistemas más sistemas más sofisticados a baja velocidad se quedan a veces cortos con respecto a los sistemas PCM de 64 y 32 kb/s por lo siguiente: su calidad decrece abruptamente si la señal pasa por etapas sucesivas de codificación/decodificación. En forma similar. Aún la excepción. Por supuesto.

5 37.729A 8 10 5 15 10.723. pero es aplicable a comunicaciones de multimedia. Provee habla con buena calidad y fue diseñado originalmente para aplicaciones de telefonía celular.1 opera a 6.5 16 2. El G.1 5.723. si el retardo es aceptable.1 6.2 k Tabla 2.A es una versión del G. 2-28 digital para su entrega posterior. debido a su baja complejidad.723.723.709 opera a 8 kb/s con un retardo de 15 ms.729 8 10 5 15 20 2. puede ser una alternativa al G.3 30 7.2 k G.1. El G. Figura 1.3 kb/s y fue diseñado para videoteléfonos de baja velocidad.729.Pag. La calidad en los codificadores de voz Parameter Bit rate (kb/s) Frame size (ms) Subframe size (ms) Algorithmic delay (ms) MIPS (fixed-point DSP) RAM (16 bit words) G. En la Tabla 2 se reportan los valores comparativos de los más recientes sistemas de compresión estandarizados por el ITU.6 2. En aplicaciones donde se requieran bajos retardos. Comparación entre codificadores de voz estandarizados . En la Figura 1 se muestra la calidad de la voz en varios sistemas estandarizados por el ITU y por otros entes.729 a expensas de una ligera degradación en la calidad del habla. La información en la Figura 1 y en la Tabla 2 se encuentra ampliada con más detalles en algunas de las lecturas que siguen a continuación.7 k G.1 puede no ser la solución más apropiada.3 y 5.5 37.5 14. el G.3 30 7.723.5 2k G.729 con complejidad reducida y fue diseñado originalmente para aplicaciones de voz y datos en comunicaciones de baja velocidad. sin embargo. Por otro lado el G. entonces el G.

Sign up to vote on this title
UsefulNot useful