Está en la página 1de 3

IE0527 INGENIERÍA DE COMUNICACIONES I 1

Estudio de Fuentes y Codificación de Información


Caracteres, Audio y Emojis
Jeremy Soto, B97751, Luis Javier, B93840, Limber Benavides Araya, B81061 Jorge Adán Mora Soto, B9522
Yanelis Salazar Rodrı́guez, B66520 Steven Mora Barboza, B95109 Matı́as Leandro Flores B94199

Resumen—Mediante el siguiente documento se pretende abor- real (la tensión) de variable real (el tiempo). Las fuentes
dar el tema de las fuentes de información y la forma en que digitales solo pueden tomar unos valores predeterminados,
se debe codificar la información que estas generan para lograr por lo que su conversión a una secuencia de bits es más o
que esta sea transmitida de forma eficiente. Del mismo modo, se
estudiará y tratará de explicar la forma en que se codifican la menos directa.
información que se encuentra en forma de; caracteres, audio y El codificador de fuente tiene que ser capaz de establecer
finalmente los emoticones. Para cada uno de estos se presenta un una representación eficiente de la información. Entendemos por
ejemplo que muestra su implementación y el estándar asociado. representación eficiente el hecho de que la cantidad total de bits
Palabras clave—Codificar, modular, discretizar. transmitidos sea la más reducida posible, evidentemente, con la
restricción de que el receptor pueda recuperar la señal original
y aplicar un proceso inverso para obtener la información que
I. I NTRODUCCI ÓN
se quiere procesar.
Con el pasar de los años la información transmitida ha sufrido
una evolución y lo que antes eran mensajes telegráficos, hoy se II. F UENTES Y CODIFICACI ÓN DE FUENTES DE
ha convertido en una cantidad masiva de sı́mbolos o datos, los COMUNICACI ÓN
cuales son un conjunto sencillos de “formas” que representan
II-A. Caracteres
información que incluyen textos, audios, imágenes, vı́deos,
medidas fı́sicas, entre otros (en su mayorı́a alfanuméricos) Un ordenador no puede almacenar letras, números, imágenes
pero en un modo tal que no resultan habitualmente útiles o cualquier otro tipo de elemento. Lo único que puede guardar
para el consumidor. Es por ello que en el extremo receptor es son bits de información, cuyos valores son 0 y 1. El ordenador
necesario un medio electrónico que los manipule y posibilite trabaja con electricidad, y un bit es básicamente un punto de
su interpretación. Es por ello que en muchas ocasiones en energı́a que está ahı́ o no. La presencia o no de estos puntos
telecomunicaciones se habla de información “cruda”. se representa con unos y ceros, respectivamente. [1]
Se le llama fuente de información, a cualquier origen de
información que es representada mediante una señal analógica Existen distintas normas para poder interpretar las secuencias
o digital. De forma general se dice que cualquier magnitud de bits en letras o números, esto gracias al esquema de
fı́sica puede ser representado mediante señales, a través de la modificación. Una de estas reglas se llama codificación ASCII,
digitalización. donde existen 128 caracteres, donde se encuentran las letras
A diferencia de los sistemas de comunicaciones digitales, desde la A a la Z, en sus formas de mayúsculas y minúsculas,
los sistemas de comunicaciones analógicos no hacen el proceso los números del 1 al 9, puntuaciones, sı́mbolos como el dolar,
de digitalización de la información. En estos, la señal de y 128 es el numero máximo de combinaciones diferentes de
información es continua en el tiempo y constituye directamente ceros y unos, que es posible obtener con 7 bits.
la entrada al modulador. Son bastantes las ventajas que ofrecen
los sistemas de comunicaciones digitales ante los sistemas
de comunicaciones analógicos. El avance de la tecnologı́a
ha facilitado enormemente el desarrollo de los sistemas de
comunicaciones digitales y ha hecho que, en general, sean
menos costosos que los analógicos.
La función del codificador de fuente es obtener una secuencia
de bits que represente de manera eficiente la información
que queremos transmitir. En general, supondremos que la
información que queremos transmitir puede provenir de una
fuente analógica o digital. Una fuente analógica puede ser la
tensión obtenida a la salida de un micrófono convenientemente
amplificada, por lo que se puede representar como una función
Los autores son estudian tes de la Escuela de Ingenierı́a Eléctrica de la
Universidad de Costa Rica.
Reporte entregado el 2 de Septiembre del 2022. Figura 1. Tabla Codigo ASCII [1]
2 IE0527 INGENIERÍA DE COMUNICACIONES I

Por ejemplo, para decir “Hola Mundo” en código ASCII II-C. Emojis
tiene la forma:
01001000 01101111 01101100 01100001 01001101 01110101
01101110 01100100 01101111
II-C1. Cómo se codifica: Un emoji está representado por
un código en Unicode. Unicode es un set o una librerı́a de
II-B. Audio (Música) códigos que puede tener más de un millón de códigos, y
Una señal de audio analógica es completamente continua también tiene códigos asociados para los emojis. La asociación
en el tiempo y en la amplitud. Los codificadores de audio se de un emoji a un código Unicode no es suficiente para transmitir
utilizan para digitalizar la señal analógica y poder almacenar o la información de este emoji, pues se necesita representarlo
transmitir la información. El proceso de digitalización de audio de una forma binaria que una computadora entienda y pueda
empieza por discretizar la señal analógica el tiempo con la transmitir y recibir. La decodificación de la representación
ayuda de un convertidor A/D. Este toma la señal analógica de Unicode de un emoji a una forma binaria o la codificación
audio y la muestrea a la denominada frecuencia de muestreo. de un dato binario a una representación Unicode del emoji
Posteriormente, cada una de las muestras tomadas se discretiza la realiza un sistema de codificación para Unicode (UTF) (el
en amplitud. En esta etapa se hace uso de un cuantificador para más utilizado siendo UTF-8).
mostrar los valores de las muestras posibles como un número de
sı́mbolos finito. Por último, estos sı́mbolos son transformados En el caso del sistema de codificación para Unicode UTF-8,
en bits con el fin de ser almacenados o transmitidos [2]. este representa el código Unicode por unidades de 8 bits, en
un arreglo binario de 1 byte hasta 4 bytes. Los caracteres
más comunes son representados con menos bytes para ahorrar
espacio, mientras que los caracteres menos comunes, como
emojis, son representados con más bytes (hasta 4). La Fig.
4 muestra como se pasa de un emoji, a su representación
en Unicode, hasta una codificación en binario (en este caso
UTF-8) de dicha representación en Unicode [4].
Figura 2. Proceso de conversión de audio de analógico a digital

El standar utilizado es Compact Disc-Digital Audio BNN15-


83-095, abreviado como CD-DA, un sistema de almacenamien-
to de información digital en disco compacto desarrollado por
Philips y Sony en 1980, capaz de almacenar 74 minutos y 33
segundos de música (hasta 80 minutos en algunas variaciones).
El estándar del disco óptico se introdujo y popularizó a gran
escala en la década de los 90, aunque cada vez se usa menos; Figura 4. Representación de emojis en Unicode y codificación a binario en
no solo para su uso como soporte musical, sino también UTF-8 [4]
para diferentes formatos (CD-ROM, CD-ROM) para el mundo
informático y aplicaciones interactivas que incluyen sonido,
texto e imágenes (fijas o de video) como DVI (Digital Video
Interactive), CD-I (Compact Disc Interactive) o video como
single CDV (Disc Video)[3]. En la primera columna de la Fig. 4 se observa el emoji que
se desea enviar desde la fuente de información. En la segunda
columna se observa su código Unicode asociado y en la tercera
columna el arreglo binario de 4 bytes (en hexadecimal) que
codifica al emoji de una forma transmisible, a partir de su
código Unicode.

II-C2. Estándar: Unicode 14.0.0 [5].


Estándar de codificación, representación y manejo de texto
y emojis en la mayorı́a de los sistemas de escritura a nivel
mundial. Unicode puede funcionar con varias codificaciones
diferentes que, como ya se mencionó anteriormente, traducen
esos códigos a una secuencia de bytes; dos de las más comunes
son UTF-8 y UTF-16 [6].

II-C3. Ejemplo: A continuación se presenta una lista de


Figura 3. Caracterı́sticas del standard CD-DA,[3] cómo se codifican los emojis de categorı́a emoticon en unicode:
FUENTES DE INFORMACIÓN 3

Figura 5. Unicode de los emojis Emoticons ( 1F600 - 1F44E )

Adicional a esto existen códigos unicode para emojis de


diferentes categorı́as, y la lista del estandar como tal está
en constante actualización. La versión actual de Unicode
corresponde a la 14.0.0 que se lanzó en septiembre 14 de
2021 [5]. La lista completa de Unicode 14 se puede referenciar
haciendo click aquı́.

R EFERENCIAS
[1] D. Lazaro, “Codificación de caracteres en programación.” [Online]. Avai-
lable: https://diego.com.es/codificacion-de-caracteres-en-programacion
[2] M. R. Costa-juss, “Codificación del audio,” Universitat Oberta de
Cataliunya, Barcelona, España, 2015.
[3] J. Llardén, “LA CODIFICACION DE LA INFORMACION EN
ELCD-DA,” 1994. [Online]. Available: www.raco.cat
[4] J. Juviler. (2021) What is utf-8 encoding? a guide for non-
programmersn. Visitado el 9 de septiembre del 2022. [Online]. Available:
https://blog.hubspot.com/website/what-is-utf-8
[5] H. de Unicode. (2021, sep) Historial de las fechas de lanzamiento y
publicación de unicode. Visitado en septiembre 9 de 2022. [Online].
Available: https://unicode.org/history/publicationdates.html
[6] ——. (2021, sep) The unicode® standard: A technical introduction.
Visitado en septiembre 9 de 2022. [Online]. Available: https:
//www.unicode.org/standard/principles.html

También podría gustarte