Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UNIDAD 2
PARTE 2
…REPRESENTACIÓN DE LA INFORMACIÓN EN LAS COMPUTADORAS-
Representación de Textos
4
Ms.C. Ing. Yeny Castellanos
UNICODE
• Unicode define cada carácter o símbolo mediante un
nombre e identificador numérico, el code point (‘punto de
código’).
• Además incluye otras informaciones para el uso correcto
de cada carácter, como sistema de escritura, categoría,
direccionalidad, mayúsculas y otros atributos.
• Unicode trata los caracteres alfabéticos, ideográficos y
símbolos de forma equivalente, lo que significa que se
pueden mezclar en un mismo texto sin utilizar marcas o
caracteres de control.
Ref. Presentación de código por el estudiante Axel J. Arévalo – 2p19
11
abierto, flexible y ampliamente utilizado para almacenar, publicar e intercambiar cualquier tipo de información.
UTF-8: desventajas
▪ Es de longitud variable; eso significa que diferentes caracteres
toman secuencias de diferentes longitudes para codificar. La
agudeza de esto podría ser disminuida, sin embargo, creando una
interfaz abstracta para trabajar con cadenas UTF-8 y haciéndolo
transparente al usuario.
▪ Un analizador de UTF-8 mal escrito podría aceptar un número de
diferentes representaciones pseudo-UTF-8 y convertirlas en la
misma salida Unicode.
▪ Los caracteres ideográficos usan 3 bytes en UTF-8, pero sólo 2 en
UTF-16. Así, los textos chinos/japoneses/coreanos usarán más
13
espacio cuando sean representados en UTF-8.
• CESU-8: Esta implementación realiza una
traducción directa de la cadena de caracteres
representada con UTF-16 en lugar de codificar
los puntos de código Unicode. El resultado es
codificaciones diferentes para caracteres
Unicode con código superior a 0xFFFF.
Ref. Presentación de código EBCDIC por el estudiante Axel J. Arévalo – 2p19
Historia
17
Como hemos visto , el código ASCII es una codificación de siete bits utilizada para
los caracteres en inglés, incluida la mayoría de los signos de puntuación. Un byte
contiene ocho bits, por lo que hay un bit libre en cada byte que puede utilizarse como
señal de que el carácter se encuentra fuera de ese rango.
El “8” en la expresión “UTF 8” se refiere a estos ocho bits. El UTF 8 es una codificación
de ancho variable. Un carácter particular podría ser de uno, dos, tres o cuatro bytes.
Por otro lado, en UTF 16, también de ancho variable, los caracteres utilizan 16 bits, o 2
bytes para cada carácter de los más comunes, o 4 bytes si el carácter para codificar cae
fuera del rango.
Ref. Presentación de código EBCDIC por el estudiante Eduardo Tercero – 2p19
21
UTF-32
https://www.youtube.com/watch?v=JG4FtfAiPE4 26
27
https://www.youtube.com/watch?v=iJOO3lssGhE
EJEMPLO DE
USO DE
CODIFICACION
28
30
31
EJEMPLO DE USO DE CODIFICACION
32
Las tres formas de codificación codifican los mismos caracteres comunes y es posible realizar la conversión de una a
la otra sin pérdida de datos.
34
Otras codificaciones de caracteres Unicode son UTF-7 y UTF-EBCDIC. Existe también la codificación GB18030, que
es un equivalente chino de UTF-8 y admite los caracteres del chino simplificado y del chino tradicional.
Referencias
▪ Aho, Alfres V.; Hopcroft, John E.; Ullman, Jeffrey D.; Estructura de Datos y
Algoritmos. Pearson
▪ Brassard, G.; Bradley, P.; Fundamentos de Algoritmia. Prentice Hall
▪ Aires, U. d. (s.f.). Algoritmos y Estructura de Datos I. Argentina:
Departamento de Computación
▪ UTF-8: el estándar de la red. (2019, 27 febrero). IONOS Digital Guide.
https://www.ionos.mx/digitalguide/paginas-web/creacion-de-paginas-
web/utf-8-codificacion-para-una-comunicacion-digital-global/
▪ ¿Diferencia entre UTF-8 y UTF-16? (s. f.).
https://qastack.mx/programming/4655250/difference-between-utf-8-and-utf-
16 35
CTE-131
CTE-131
Algoritmos yy Estructura
Algoritmos Estructura de
de Datos
Datos
I Período 2023
Unidad 2
Parte 2 Ms.C. Ing. Yeny Castellanos
+504 31509591
ycastellanos@unah.edu.hn
36