Está en la página 1de 14

TEMA 10.

REPRESENTACIN INTERNA DE
LOS DATOS.

Oposiciones de Informtica

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.

INDICE
TEMA 10: REPRESENTACIN INTERNA DE LOS DATOS.

1.- DATOS. ...................................................................................................................... 3


1.1.- CONCEPTOS....................................................................................................... 3
1.2.- COMPOSICIN Y ESTRUCTURA. .................................................................. 3
1.3.- MEDIDAS DE INFORMACIN. ....................................................................... 3

2.- REPRESENTACIN INTERNA DE LOS DATOS. ................................................. 4


2.1.- DATOS A REPRESENTAR................................................................................ 4
2.2.- SISTEMAS DE NUMERACIN. ....................................................................... 5
2.3.- TIPOS DE DATOS QUE SE PUEDEN REPRESENTAR. ................................ 5
2.3.1.- REPRESENTACIN DE LAS INSTRUCCIONES. ................................... 6
2.3.2.- REPRESENTACIN DE LOS DATOS. ..................................................... 6
2.3.3.- REPRESENTACIN DE IMGENES...................................................... 12
2.3.4.- REPRESENTACIN DE SONIDOS. ........................................................ 12

3.- COMPRESIN DE DATOS. ................................................................................... 12

2
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.

1.- DATOS.
1.1.- CONCEPTOS.
La palabra datos proviene del latn datum (plural data) que significa "lo que se da", en
el sentido de "lo que acontece". El diccionario de la Real Academia de la Lengua
Espaola dice que los datos son: "antecedentes necesarios para llegar al
conocimiento exacto de una cosa o para deducir las consecuencias legtimas de un
hecho". Dato en informtica, es un conjunto de smbolos necesarios para expresar un nmero, valor,
palabra o concepto.

La informacin es cualquier entrada que cambia las probabilidades o destrezas.


La informacin es un conjunto de datos que permiten aclarar algo que es
desconocido. Es susceptible de aportar un conocimiento.
El ordenador es una mquina destinada a procesar informacin.

1.2.- COMPOSICIN Y ESTRUCTURA.


Los datos suelen ser magnitudes numricas directamente medidas o captadas, pero
tambin pueden ser nombres o conjuntos de smbolos o valores cualitativos.
Los datos se representan mediante una secuencia de smbolos, por ejemplo en
nuestra vida diaria representamos las palabras mediante letras tomadas de nuestro
alfabeto.
Un alfabeto no es ms que un conjunto de smbolos elementales en base a los cuales
se forma la informacin.
La informtica ha logrado el tratamiento automtico de la informacin con mquinas.
No es necesario que el alfabeto que usa una mquina en su interior sea el mismo que
el que utiliza el ser humano que la ha constituido y la maneja, basta con que la
traduccin de los smbolos internos a los externos o viceversa se efecte de una
manera cmoda y a ser posible automticamente por la propia mquina.
La codificacin: Es la operacin que permite pasar del alfabeto fuente al alfabeto
cdigo.

1.3.- MEDIDAS DE INFORMACIN.


Dentro del ordenador, la informacin se representa mediante el sistema de
numeracin binario, es decir, mediante 0's y 1's. (Debido a que inicialmente existan 2
estados elctricos bsicos. Tensin y ausencia de tensin).
La unidad bsica de informacin es el bit o BInary digiT. Viene de la expresin inglesa
de dgito binario.
Como el bit es una unidad de medida tan pequea, se usan medidas de unidades
superiores. El byte es el conjunto de 8 bits. En la memoria del ordenador, un byte
suele ser la unidad de direccionamiento, es decir, se puede referir a cada byte
mediante un nmero que es su direccin. El byte puede almacenar 8 dgitos binarios.
Las caractersticas de informacin hoy en da son grandes por lo que se utilizan
mltiplos. 1Kbyte son 1024 bytes (210). 1 (Megabyte) Mbyte son 220 bytes, 1 (Giga)
Gbyte son 230 bytes y un (Tera) Tbyte son 240 bytes.

3
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.

2.- REPRESENTACIN INTERNA DE LOS DATOS.


2.1.- DATOS A REPRESENTAR.
Toda la informacin que maneja el ordenador se representa mediante dos smbolos
bsicos, el ordenador es capaz de construir, almacenar y representar distintos tipos de
informacin, mediante la codificacin de la informacin, entre los que se distinguen 5
tipos de representaciones claramente:
- Representacin de textos. Usualmente la informacin se da al ordenador en
la forma usual escrita que utilizan los seres humanos; es decir, con ayuda de un
alfabeto o conjunto de smbolos, que denominaremos caracteres.
- Representacin de valores numricos. Los datos numricos se suelen
introducir como cualquier otro conjunto de caracteres.
- Representacin de instrucciones. Las instrucciones de un programa en
lenguaje de alto nivel o en lenguaje ensamblador se dan en forma de texto y el
traductor correspondiente, ya sea un compilador o intrprete, se encarga de
transformarlas en instrucciones mquina. Son las que entiende el ordenador.
- Representacin de sonidos. Los ordenadores actuales, adems de procesar
textos y datos numricos, tambin operan con otro tipo de elementos, como sonidos,
digitalizados y representados en binario en el interior del ordenador, mediante distintas
codificaciones del sonido.
- Representacin de imgenes. Al igual que los sonidos, las imgenes tanto
estticas como dinmicas poseen su representacin y codificacin binaria digital en el
interior de tos ordenadores. Siendo la codificacin de las imgenes una de las tcnicas
que ms estn evolucionando en los ltimos tiempos debido al auge de los sistemas
multimedia.
La codificacin va a facilitar y optimizar las tareas de almacenamiento, representacin,
procesamiento y comunicacin de la informacin. Algunos de los condicionantes que
encontraremos a la hora de codificar la informacin son los siguientes:
- La memoria del ordenador es finita, por lo que las representaciones han de
ser forzosamente acotadas.
- Las unidades funcionales del computador suelen estar diseadas para
trabajar con una cadena de bits de cierto tamao.
- Los elementos de comunicacin entre unidades funcionales (buses) tienen
cierto ancho de, esto es, permiten transmitir simultneamente un cierto nmero
de bits.

4
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.

2.2.- SISTEMAS DE NUMERACIN.


Un sistema de numeracin es el conjunto de reglas, convenios y smbolos que
permiten expresar nmeros.
Existen sistemas de numeracin posicionales y no posicionales.
En los primeros se contempla el valor relativo de la cifra dentro del nmero, en
los segundos no.
En los sistemas de numeracin posicional el valor de un dgito depende tanto
de su propio valor como de la posicin que ocupa. Un ejemplo es el sistema de
numeracin decimal. En los sistemas de numeracin no posicional el valor de
un dgito slo depende de su valor. Por ejemplo el sistema romano, que utiliza
los siguientes siete smbolos para la representacin {I, V, X, L, C, D, M} y que
independientemente de donde estn colocadas las cifras tienen el mismo valor.
Los sistemas ms comunes son:

Decimal. b=10. D {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}. Sistema de


representacin numrico del ser humano.

Binario. b=2. D {0, 1}. Sistema de representacin interna del


ordenador.

Octal. b=8. D {O,..7}. Las conversiones octal-binario y binario-octal


pueden hacerse fcilmente. Agrupando dgitos de 3 en 3.

Hexadecimal b=16. D {O, .., 9, A, B, C, D, E, F}. Las conversiones


hexadecimal-binario y binario-hexadecimal se realizan agrupando dgitos
de 4 en 4.
Los datos numricos se introducen en un ordenador usando el lenguaje escrito,
como secuencias de caracteres, y por tanto se codifican, como cualquier tipo
de texto, de acuerdo con un cdigo de entrada y salida, tal como el ASCII. Si se
va a realizar algn clculo matemtico, la representacin de los datos
numricos como textos es inapropiada. En efecto, como este tipo de
codificacin no se basa en los sistemas de numeracin matemticos, no
podemos aplicar las tablas y reglas de la aritmtica para operar con dichos
nmeros. Cuando queramos realizar algn clculo matemtico, obviamente lo
mejor es representar los datos numricos en alguna forma basada en el
sistema de numeracin matemtico.

2.3.- TIPOS DE DATOS QUE SE PUEDEN REPRESENTAR.


Un ordenador es una mquina que partiendo de unos datos de entrada, los procesa y
produce una informacin de salida. Concretando, la ejecucin de un programa implica
la realizacin del tratamiento (segn especifica un conjunto de instrucciones) sobre
unos datos.

5
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.

Los datos a representar internamente en el ordenador, se pueden clasificar:


2.3.1.- REPRESENTACIN DE LAS INSTRUCCIONES.
Una instruccin es un conjunto de smbolos que la computadora es capaz de
interpretar con objeto de realizar las operaciones de las que consta un programa. Las
instrucciones utilizadas por los ordenadores pueden tener diferentes formatos.
Todas las instrucciones tienen una parte que las diferencia, el cdigo de operacin
que indica la operacin a ejecutar. Segn el tipo de operacin, pueden contener uno o
varios operandos.

Campos de una instruccin:


- Cdigo de operacin: este campo es necesario que est presente en todas
las instrucciones, este campo, es el campo que diferencia una instruccin de otra.
Indica la operacin a realizar. No hay dos operaciones diferentes con el mismo cdigo
de operacin.
El cdigo de operacin suele ocupar los bits ms significativos de una instruccin (la
parte de la izq.). Si una instruccin ocupa ms de una palabra, el cdigo de operacin
estar en la primera palabra que lea la CPU.
- Campo operandos: este campo no est presente en todas las instrucciones
ya que algunas instrucciones no emplean datos y otras en que la localizacin de los
mismos est implcita en el propio cdigo de operacin.
La longitud de este campo es normalmente variable, dependiendo del nmero de
operandos que utilice la instruccin y de forma que se indique a la CPU el acceso a los
mismos.
2.3.2.- REPRESENTACIN DE LOS DATOS.
2.3.2.1.- REPRESENTACIN ALFANUMRICA.

La representacin de la informacin de tipo texto escrito se hace codificando, en un


octeto, cada uno de los caracteres que componen dicha informacin.
-

Cdigo Baudot: Data de finales del S. XIX. Lo desarroll Jean-Maurice-mile


Baudot. Utilizaba 5 bits por carcter y se usaba en telegrafa.

Alfabeto Internacional N 2: 1901. Donald Murray aadi nuevos caracteres y


cdigos de desplazamiento al anterior. Cada carcter 5 bits. Existen algunos
caracteres de control. Inicialmente se utiliz en los teletipos. (Teleimpresores o
TTY).

Codificacin FIELDATA: Proyecto de Estados Unidos a finales de los 50.


Pretenda crear un estndar para recoger y distribucin en el campo de batalla.
Utiliza bloques de 6 dgitos para representar los caracteres. Slo se pueden
representar 26 datos, es decir 64 caracteres.

6
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.


-

Codificacin EBCDIC (Extended Binary Coded Decimal Interchange


Code): Usado en mainframes de IBM inicialmente. Utiliza 8 bits para cada
carcter por lo que se pueden representar 256 caracteres. Cada octeto se
divide en 2 partes (bits de zona, bits de dgito).

Cdigo ASCII (American Standard Code for Information Interchange). El


ms difundido hoy en da para su uso en los ordenadores. Se public en 1963
por ASA (que posteriormente pas a ser ANSI) Dispone de 8 bits aunque slo
utiliza los 7 primeros para el uso de letras, nmeros y caracteres especiales.
Con 7 bits se pueden representar 128 caracteres diferentes. Se pueden
representar todos los nmeros, letras maysculas, minsculas, caracteres
especiales y de control.
El resto de las combinaciones de la 128 a la 255 se usan para representar
caracteres de tipo grfico.
Los 32 primeros caracteres son de control.

UNICODE. Es un estndar internacional establecido por el Consorcio Unicote


(formado por empresas como Apple Computer, Microsoft, IBM, HP, ). Su
objetivo es representar cualquier carcter jams escrito. Windows NT y sus
sucesores lo usan. Tambin sistemas operativos como Linux, Mac OS X y
lenguajes de programacin como Java, Perl y C#.

2.3.2.2.- REPRESENTACIN NUMRICA.

Como se sabe, los nmeros se pueden clasificar en:


-

Naturales.
Enteros.
Racionales.
Irracionales.

Cualquiera de estos conjuntos de nmeros es infinito, mientras que el espacio material


de representacin de los computadores es finito, por lo tanto, no es posible
representar todos los valores.
En informtica, se asigna un nmero fijo de n bits para representar un nmero.
Teniendo en cuenta que n bits permiten 2n nmeros distintos existirn dos valores.
Se llama rango de representacin al intervalo comprendido entre el mayor y el menor
nmero representable.
La resolucin de representacin se refiere a la diferencia que existe entre un
nmero representable y el inmediato siguiente:
Los factores a tener en cuenta para representar nmeros son:
-

El tipo de los nmeros a representar: enteros, reales


El rango de nmeros representables.
La posicin de dato numrico: n de nmeros para un rango dado.
El coste hardware requerido para almacenar y procesar los nmeros a
representar.

7
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.


Los sistemas de representacin ms empleados son los siguientes:

ENTEROS.
-

Posicionales: un nmero se representa como una secuencia de dgitos, donde


cada uno tiene un peso de acuerdo con la posicin que ocupa.
Con este tipo de representacin, el problema es que leer y escribir largas
cadenas de 1s o 0s es engorroso y una tarea que predispone a cometer
errores. Como solucin, se suele utilizar la base octal (b=8) y la base
hexadecimal (b=16).
Dentro de los nmeros enteros tendremos que distinguir entre los nmeros
positivos y los nmeros negativos:
o

Si slo representamos nmeros


representaremos desde el 0 a 2n -1.

Para codificar los nmeros enteros negativos, hemos de tener en


cuenta algunas consideraciones:





enteros

positivo,

con

bits

A) El intervalo de nmeros positivos debera de ser igual al


intervalo de nmeros negativos para un n dado.
B) Sea fcil detectar el signo por un simple test hardware.
C) Sea fcil detectar el 0.
D) El cdigo resultante de la codificacin ha de dar lugar a una
implementacin sencilla a la hora de realizar las operaciones
aritmticas bsicas.

Para dar respuesta a estas consideraciones, aparecen tres sistemas de


numeracin posicionales que permiten la represtacin de nmeros negativos.
o

Signo y magnitud: consiste en reservar un bit para el signo. Con n bits


disponibles, uno indica el signo y los n-1 restantes indican la magnitud.
Normalmente, el bit de la izquierda se reserva para el signo. El bit de
signo a 0 indica que el n es positivo, mientras que si es 1, indica que el
nmero es negativo.
Ventajas: cumple A) y B).
Inconvenientes: Representacin dual del 0 y no verifica D), por
que la suma no es tan evidente.
Esta representacin ampliamente utilizada en los computadores de la
tercera generacin, en la actualidad no se utiliza.

8
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.


o

Complemento a 1: se representa un nmero de n bits en complemento


a uno de la siguiente forma:


Para un n positivo, se representa el nmero en binario. (Sin


reservar ningn bit para el signo como en el caso anterior).

Para un n negativo, se representa igual que un nmero positivo


pero se complementa cada uno de los bits. (se cambian 0s por
1s y 1s por 0s).

Ventajas: cumple A) puesto que el nmero de positivos es igual


que el nmero de negativos. Cumple B) y D).
Inconvenientes: no cumple C) representacin dual del 0.
o

Complemento a 2: se representa un nmero de n bits en complemento


a dos de la siguiente forma:


Para un n positivo, se representa igual que un nmero positivo


en complemento a uno.

Para un n negativo, se representa igual que un nmero


negativo en complemento a uno pero se le suma 1 al resultado
obtenido.

Ventajas:
Cumple A) puesto que el nmero de positivos es igual al de los
negativos.
Cumple B) porque es fcil detectar el signo.
Cumple C) porque no tiene representacin dual del 0 y
Cumple D).
Inconvenientes: es ms costoso de implementar ya que hay que
realizar una suma adicional.
Se puede decir que es la representacin ms utilizada a la hora de
representar nmeros enteros negativos.

9
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.

No posicionales: los sistemas de numeracin no posicionales se basan en el


cdigo BCD o Decimal Codificado en Binario que consiste en que cada dgito
decimal se codifica por 4 bits binarios (16 valores posibles). Ello da lugar a
muchos cdigos posibles, los ms importantes son:
o

BCD Natural: la codificacin de cada dgito es equivalente a la


codificacin binaria. Se puede decir que cada dgito se expresa
mediante un nibble (4 bits) se utilizan los pesos 8, 4, 2, 1, pero la
posicin del nibble est pesada segn potencias de 10.

Exceso a 3: es otro cdigo construido a partir del BCD natural al que se


le suma 3 en cada dgito.

Aiken: es un cdigo BCD en el que los pesos dentro de cada nibble son
2, 4, 2, 1 en vez de 8, 4, 2, 1. Es autocomplementario.

Gray: no es un cdigo BCD. Entre dos cdigos consecutivos slo hay un


bit de diferencia.

o JOHNSON 5 bits: va aumentando el nmero de unos desde la


derecha, y posteriormente disminuye por la izquierda (no es
ponderado).

10
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.


Decimal

BINARIO

BCD natural

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

0000
0001
0010
0011
0100
0101
0110
0111
1000
1001
1010
1011
1100
1101
1110
1111

0000
0001
0010
0011
0100
0101
0110
0111
1000
1001
NO
NO
NO
NO
NO
NO

BCD exceso BCD Aiken


3
0011
0000
0100
0001
0101
0010
0110
0011
0111
0100
1000
1011
1001
1100
1010
1101
1011
1110
1100
1111
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO

GRAY
0000
0001
0011
0010
0110
0111
0101
0100
1100
1101
1111
1110
1010
1011
1001
1000

JOHNSON
5 bits
00000
00001
00011
00111
01111
11111
11110
11100
11000
10000
NO
NO
NO
NO
NO
NO

REALES.
-

Punto Fijo: consiste en colocar un punto en algn lugar de la cadena de unos


y ceros que va a representar nuestro nmero real.
Una vez colocado el punto en una determinada posicin, ya no se puede
modificar ya que esa decisin se toma durante el diseo de la mquina.
A la derecha del punto las potencias de la base son negativas.

Punto flotante: consiste en representar el nmero mediante una mantisa, una


base y un exponente.
o
o

Para el exponente se reservan q bits.


Para la mantisa p bits.

- IEEE 754: es un formato estndar para los nmeros flotantes de 32 y 64


bits:

32 bits (simple precisin).

El primer bit es el bit de signo (S),  0 para los positivos, 1


negativos.
Los 8 siguientes son los bits del exponente (E)  en exceso 127.
E = C 127.  C = E+127
El resto (23) son la mantisa (M)  se expresa normalizada(0,xxxxx)
S EEEEEEEE MMMMMMMMMMMMMMMMMMMMMMM

64 bits (doble precisin).

11
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.

Cambia slo los bits reservados para cada campo. El primer bit es el
bit de signo (S), 11 son los bits del exponente (E) y 52 son la
mantisa (M):
S EEEEEEEEEEE MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
0 1
11 12
63

2.3.3.- REPRESENTACIN DE IMGENES.


Las imgenes analgicas presentan una variacin continua de sombra y tonos. Para
poder representarlas es necesario realizar una conversin analgico / digital. Se hace
a travs de un muestreo y una cuantificacin.
-

El Muestreo divide la imagen analgica en subdivisiones cuadradas cuyo valor


depende de la escala (color) y de la intensidad de la luz.
Si el valor es un vector de tres componentes (R,G,B) se obtiene una escala de
color.
La Cuantificacin es la discretizacin de cada una de las muestras. A cada
valor obtenido se le llama pxel.

2.3.4.- REPRESENTACIN DE SONIDOS.


El sonido es una onda analgica que presenta variaciones de amplitud a intervalos
regulares de tiempo.
La amplitud determina su volumen, mientras que la frecuencia determina la escala.
Al igual que con las imgenes es necesario realizar una digitalizacin (conversin
A/D).
El nmero de bits de la cuantificacin influye en la calidad del sonido. El muestreo
debe ser realizado a 22 KHz.

3.- COMPRESIN DE DATOS.


En muchas aplicaciones se requiere la utilizacin de archivos de gran capacidad. As
ocurre con los archivos de imgenes y sonido en aplicaciones multimedia. En estos
casos el tiempo de transmisin de una imagen por una red, o el volumen requerido
para su almacenamiento en disco pueden llegar a ser muy elevados.
Este problema se presenta de forma notable en las aplicaciones multimedia, donde es
frecuente utilizar combinadamente textos, sonidos, e imgenes tanto estticas como
dinmicas (vdeo).
Existe un conjunto de tcnicas para reducir el tamao de la informacin que ocupan
estos archivos multimedia, denominadas compresin de datos. El archivo antes de ser
almacenado o transmitido se comprime mediante un algoritmo de compresin, y
cuando se recupera para procesarlo o visualizarlo se aplica la tcnica inversa para
descomprimirlo.

12
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.

Entre los algoritmos se distinguen aquellos que realizan:


Compresin sin prdidas, esto ocurre cuando la informacin original se
comprime sin perder nada de la informacin inicial de forma tal que se puede
recuperar exactamente la informacin de partida, sin prdida de calidad.
Compresin con prdidas, para conseguir una mayor compresin, se
toleran prdidas de calidad, no pudindose en la descompresin recuperar
exactamente la informacin original.

A continuacin se describen los fundamentos de algunas tcnicas de compresin:


- Codificacin por longitud de secuencias (o RLE, Run Length Encoged).
Recurdese que la informacin est representada internamente por ceros y
unos. Una forma sencilla de comprimir los datos, en el caso de que en el
archivo se repitan largas secuencias de ceros y unos, es sustituir cada una de
stas por el smbolo de la secuencia seguido por el nmero de veces que se
repiten en ella. Este tipo de compresin resulta til en archivos en los que se
repiten largas secuencias, por ejemplo, el fondo de en una imagen de un
espacio interior (la pared de una habitacin es muy continuo y queda, por tanto,
representada por grandes secuencias de smbolos iguales.
- Codificacin relativa o incremental. Con frecuencia en imgenes y seales
de sonido, los valores de dos pxeles consecutivos o de dos muestras de voz
consecutivas en el tiempo difieren en una cantidad pequea, en comparacin
con sus valores absolutos. Por ejemplo las, variaciones de color y de textura
dentro de los objetos de una imagen suelen ser muy pequeas, tenindose
slo grandes variaciones en los contornos de dichos objetos. En este caso se
logra una reduccin considerable de almacenamiento si en lugar de almacenar
los valores absolutos, se almacenan los incrementos respecto al valor anterior.
Esta tcnica de compresin tambin se utiliza para imgenes en movimiento,
cuando la variacin entre imgenes sucesivas es muy pequea Este es el
caso, por ejemplo, de imgenes de videoconferencias una vez que se
transmite completamente la imagen primera, sucesivamente solo se transmiten
las diferencias con respecto a la imagen anterior.
- Codificacin dependiente de la frecuencia. Consiste en representar cada
smbolo con un cdigo binario cuya longitud sea inversamente proporcional a la
frecuencia con la que aparecen; de esta manera los smbolos que se repiten
ms en un archivo se representarn con menos bits que los smbolos que
aparecen con menos frecuencia.
- Codificacin con diccionario adaptativo. La idea bsica consiste en
realizar un diccionario con secuencias de bits, y sustituir en el archivo a
comprimir dichas secuencias por su ndice (nmero de orden) dentro del
diccionario. El diccionario es adaptativo en el sentido de que segn se va
procesando la informacin, para comprimirla se va creando el diccionario: dada
una secuencia determinada, primero se consulta si ya est en el diccionario; si

13
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

Tema 10

REPRESENTACIN INTERNA DE LOS DATOS.


es as, se sustituye por el ndice correspondiente, si no la nueva secuencia se
incluye en el diccionario y se sustituye en el archivo por el nuevo ndice. La
compresin se obtiene debido a que siempre ocuparan menos los ndices que
las secuencias que representan.
- Codificacin Lempel-Ziv LZ77. Es un caso particular de diccionario
adaptativo donde se busca si los siguientes caracteres a comprimir han
aparecido previamente en una secuencia anterior, caso de ser as esa cadena
de caracteres se codifican con 3 nmeros (m, n, s), donde m representa el
lugar hacia atrs donde se inicia la secuencia previa encontrada, n es la
longitud de la secuencia y s es el siguiente carcter de la cadena comprimida.
Se observa que en este caso realmente no se crea un diccionario de cadenas.
Segn aumenta el tamao del archivo mayor probabilidad existe de encontrar
secuencias previas mas largas. En definitiva, la tcnica consiste en encontrar la
mayor secuencia previa que concuerde con los siguientes smbolos a
comprimir del resto del archivo. Los conocidos programas zip y unzip para
comprensin y decomprensin de datos utilizan procedimientos de este tipo.

14
Oposiciones de Informtica
Javi_nostra@hotmail.com

Tema 10 v3_0910

También podría gustarte