Está en la página 1de 17

Introduccin a la Teora de la Informacin Contenido 1. Introduccin 2. Fuentes de informacin 2.1. Tipos 2.2. Fuentes digitales 3.

s 3. Entropa de fuentes sin memoria 3.1. Concepto intuitivo de informacin 3.2. Informacin de un smbolo 3.3. Informacin de una fuente: entropa 3.4. Fuentes extendidas: agrupacin de smbolos 4. Entropa de fuentes con memoria 4.1. Interpretacin de la simulacin de una fuente con memoria 5. Codificacin y compresin de datos 5.1. Primer Teorema de Shannon 5.2. Justificacin del Primer Teorema de Shannon 6. Simulacin de una fuente con memoria 6.1. Cdigo y comentarios 1. Introduccin Hay gente que habla por los codos, pero dicen muy poco. En cambio hay otros que todo lo que dicen es til. Estos son los dos casos de datos con redundancia y datos sin redundancia. Aunque el primer caso puede ser deseable en alguna circunstancia (actos sociales...), no lo es en la mayora. La transmisin de datos no es tan rpida como quisiramos, los dispositivos de almacenamiento no tienen capacidad ilimitada, las cantidades muy grandes de datos son poco manejables... los que menos deseamos es que la mitad de los datos que recibimos, encima, no sirvan para nada. Sera interesante reducir la cantidad de datos, pero sin perder informacin. La Teora de la Informacin nos muestra, entre otras cosas, el camino a seguir para determinar la cantidad de 1

informacin til de unos datos y para comprimir la informacin de manera que los datos se representen de una manera eficiente. La Teora de la Informacin se desarrolla en trminos de probabilidades, ya que la informacin tiene una naturaleza aleatoria (si supisemos de antemano la informacin, para qu la querramos?). Por supuesto, en la realidad no disponemos a priori de las probabilidades necesarias, por lo que habr que estimarlas de los datos existentes. En este trabajo supondremos conocidas las caractersticas estadsticas de nuestros datos. No vamos a tratar en este trabajo de lo que probablemente sean los resultados ms interesantes (o por lo menos, ms sorprendentes) de la Teora de la informacin, ya que se necesitan algunos conocimientos de transmisin digital de datos. Estos resultados establecen la capacidad mxima de transmisin fiable de datos de un canal, entre otras cosas. 2. Fuentes de informacin Una fuente de informacin es un elemento que entrega informacin, como pueden ser una persona hablando, un ordenador entregando datos... La visin de la persona hablando (por ejemplo), nos puede servir para ver los elementos ms importantes en la emisin de la informacin. La informacin viaja sobre la voz de la persona (como una onda de presin). La voz es lo que llamamos seal, que es el soporte de la informacin. Pero es el hombre quien emite la voz, y es el hombre la verdadera fuente de informacin. Esto se puede formalizar con unas definiciones ms rigurosas. Una fuente de informacin es un elemento que entrega una seal, y una seal es una funcin de una o ms variables que contiene informacin acerca de la naturaleza o comportamiento de algn fenmeno. Es decir, vamos a considerar seal tanto al fenmeno fsico que transporta la informacin como a la funcin matemtica que representa a ese fenmeno. Cualquiera de las dos formas sirve como soporte a la informacin. En esta discusin, consideraremos nicamente seales unidimensionales, es decir, aquellas que dependen nicamente de una variable. Adems a esta variable la llamaremos tiempo, aunque no represente necesariamente el tiempo. Las fuentes de informacin se clasifican basndose en el tipo de seal que entregan. Se pueden clasificar, segn el tipo de variable independiente (tiempo) en: Fuentes de tiempo continuo: la funcin est definida para cualquier valor de la variable independiente. Fuentes de tiempo discreto: la funcin slo est definida para un conjunto contable de instantes de tiempo. Pero se pueden clasificar tambin segn el rango de valores que cubren las seales. En este caso los tipos de fuentes de informacin sern: Fuentes continuas o de amplitud continua: el valor de la funcin toma un rango continuo de valores. Fuentes discretas o de amplitud discreta: el valor de la funcin slo toma un conjunto finito de valores. A cada uno de estos valores lo llamamos smbolo. El conjunto de todos los smbolos se suele llamar alfabeto. La eleccin del alfabeto es, en cierto modo, arbitraria, ya que podemos varios smbolos para crear otros, por ejemplo. Estas dos clasificaciones son ortogonales, es decir, existen fuentes continuas de tiempo continuo, fuentes continuas de tiempo discreto, fuentes discretas de tiempo continuo y fuentes discretas de tiempo discreto. Aunque en la prctica slo se encuentran dos tipos: las llamadas fuentes analgicas, que son fuentes continuas 2

de tiempo continuo; y las llamadas fuentes digitales, que son fuentes discretas de tiempo discreto. Las fuentes digitales se suelen clasificar segn la relacin que tenga un smbolo con los que le preceden de la siguiente manera: Fuentes sin memoria: los smbolos son estadsticamente independientes entre s. De esta manera, los smbolos que hayan aparecido hasta el momento no van a condicionar al smbolo presente ni a posteriores. Fuentes con memoria: la aparicin de los smbolos no es estadsticamente independiente. Es decir, si han aparecido M1 smbolos, el smbolo Msimo est condicionado por los anteriores. 3. Entropa de fuentes sin memoria Vamos a analizar en este apartado las fuentes sin memoria, es decir, aquellas en que los smbolos son estadsticamente independientes. Esto se puede expresar matemticamente como:

siendo si y sj dos smbolos cualquiera de la fuente. 3.1. Concepto intuitivo de informacin Tenemos una fuente sin memoria que entrega smbolos de entre un alfabeto S = {s0, s1, ... sK1} con probabilidades de aparicin p0, p1, ... pK1 para cada smbolo, respectivamente. Por supuesto se cumple que

. En un momento dado la fuente entrega smbolo si. Si la probabilidad de este smbolo es pi = 1, es decir, sabemos de antemano qu smbolo va a entregar, la fuente no est entregando informacin ya que todo es conocido. En cambio, cuando la fuente entrega un smbolo que no esperbamos para nada (es decir, la probabilidad de aparicin de ese smbolo es pequea) la informacin que aporta es grande. En realidad, el proceso de aparicin de un smbolo puede describir mediante los siguientes pasos: Antes de la aparicin del smbolo: estado de incertidumbre, desconocimiento del smbolo que aparecer. En la aparicin del smbolo: sorpresa, debida a la aparicin de un smbolo no esperado. Tras la aparicin del smbolo: aumento en la informacin que tenemos ya que no tenemos la incertidumbre anterior. Podemos ver, por tanto, que el concepto de informacin est estrechamente ligado con las ideas de incertidumbre y sorpresa. 3.2. Informacin de un smbolo Como hemos visto, a mayor sorpresa (probabilidad de aparicin de un smbolo menor) mayor es la informacin que aporta ese smbolo. De esta manera se define la informacin que aporta un smbolo en funcin de su probabilidad de aparicin como:

Aunque la base del logaritmo se puede tomar arbitrariamente, se suele tomar base 2. De este modo, la informacin de un smbolo se mide en bits. La informacin de un smbolo tiene las siguientes propiedades: , ya que la probabilidad siempre est comprendida entre 0 y 1. Esta propiedad nos dice que un smbolo podr aportar mucha, poca o ninguna informacin, pero nunca supondr una prdida de informacin. . Como habamos visto antes, si sabemos de antemano que smbolo va a aparecer, ste no aporta ninguna informacin nueva. , es decir, a mayor sorpresa, mayor informacin. . Esto quiere decir que la informacin aportada por un smbolo que es la concatenacin de otros dos es la suma de las informaciones de ambos smbolos. 3.3. Informacin de una fuente: entropa Si consideramos que un smbolo si tiene una probabilidad de aparicin muy pequea, estamos afirmando que la informacin que aporta es muy grande, pero debido a que su aparicin es muy espordica, la informacin que aporta la fuente con el conjunto de todos los smbolos no es tan grande. De hecho, veremos que la informacin de una fuente est acotada. Por ahora nos conformaremos con ver que la informacin que aporta un smbolo en media est acotado, ya que depende de su frecuencia de aparicin. A continuacin se ve representada la funcin

cuando la probabilidad vara de 0 a 1. Concretamente, la funcin tiene un mximo en p(s) = e1. La informacin que entregue la fuente ser el valor medio de las informaciones que entregue cada smbolo individualmente cada vez que aparezcan. Este parmetro se llama Entropa de la fuente, y se puede expresar como:

donde E{} es la esperanza matemtica. Como podemos ver la entropa es una suma de un nmero finito de trminos como el analizado anteriormente, por lo que tambin va a estar acotada. La entropa de una fuente tiene las siguientes propiedades:

, es decir, que la entropa de una fuente no es negativa y est acotada superiormente. Esto quiere decir que la fuente no puede suponer una prdida de informacin, as como tampoco puede entregar una cantidad de informacin ilimitada (para un nmero de smbolos limitado). para algn i. En este caso el resto de las probabilidades sern nulas. No habr sorpresa y por tanto la entropa ser nula.

. Cuando todos los smbolos sean equiprobables, la incertidumbre sobre lo que va a ocurrir ser mxima, y por tanto nos encontraremos en el lmite superior de la entropa. Se mide en bits/smbolo. Para comparar la entropa de fuentes con diferente nmero de smbolos, podemos definir una entropa normalizada como de manera que . Es como si estuvisemos normalizando en nmero de smbolos a 2 (nmero mnimos de smbolos). 3.4. Fuentes extendidas: agrupacin de smbolos Dada una fuente que entrega smbolos pertenecientes a un alfabeto S = {s0, s1, ... sK1} con probabilidades de aparicin p0, p1, ... pk1 para cada smbolo respectivamente, podemos reagrupar los smbolos para formar otro alfabeto

en que cada smbolo es la concatenacin de M smbolos. Por tanto este nuevo alfabeto S' tiene KM smbolos. Un smbolo cualquiera sisj...sl tendr una probabilidad de aparicin pipj...pl. La entropa para este nuevo alfabeto est relacionada con el anterior mediante:

Debido a que el alfabeto se elige arbitrariamente, debe cumplirse que la entropa de la fuente sea igual para un alfabeto cualquiera. Para hacer esta comparacin hacemos uso de la entropa normalizada:

Aqu vemos claramente que la entropa normalizada depende de la fuente, y no del alfabeto elegido. Por lo tanto en la representacin de la entropa normalizada podemos prescindir de S (el alfabeto) como parmetro, y escribir para una fuente concreta. 5

4. Informacin y Entropa de fuentes con memoria El estudio de las fuentes con memoria es algo ms complejo que el de las fuentes sin memoria, por lo que no vamos a entrar en detalles. Contrastaremos los resultados tericos con los resultados de una simulacin. En una fuente con memoria los smbolos no son estadsticamente independientes, es decir, . Se puede ver que se va a producir una reduccin de la informacin entregada por la fuente, ya que una vez que han aparecido M1 smbolos, el smbolo Msimo va a depender de los anteriores, por lo que contendr menor informacin que si fuese independiente. Supongamos que tenemos dos fuentes con el mismo alfabeto y la misma probabilidad de aparicin de cada smbolo. HM(S)sin memoria y HM(S)con memoria son las entropas de la fuente sin memoria y con memoria con agrupaciones de M smbolos respectivamente. En la fuente con memoria hay una reduccin de la entropa respecto de la fuente con memoria, de tal manera que se cumple que: HM(S)sin memoria > HM(S)con memoria La entropa (normalizada) de la fuente con memoria se puede definir como:

Como vemos, la entropa normalizada de una fuente con memoria no es independiente del alfabeto elegido. De hecho, agrupaciones grandes de smbolos siempre proporcionan una entropa menor que agrupaciones menores. El valor ms pequeo (cuando las agrupaciones son de smbolos) es la entropa de la fuente con memoria. 4.1. Interpretacin de la simulacin de una fuente con memoria En este ejemplo vamos a simular una fuente con memoria que entrega dos smbolos que llamaremos {0, 1} (fuente binaria) y cada smbolo est condicionado slo por el anterior. Podemos caracterizar la fuente, en funcin de las probabilidades condicionadas:

Podemos calcular la entropa normalizada de esta fuente con memoria de la siguiente manera. Las siguientes expresiones se pueden aplicar a una fuente con un nmero cualquiera de smbolos, en que cada smbolo slo dependa del anterior:

La segunda ecuacin nos da la entropa de la fuente conociendo el smbolo que acaba de entregar. De esta manera, para cada smbolo, se tiene en cuenta la dependencia con el smbolo anterior. As la formula comprende el efecto de la reduccin de informacin debido a la memoria. 6

La entropa total de la fuente ser el valor medio de las entropas condicionadas, como se muestra en la primera ecuacin. Aplicando estas ecuaciones para nuestro caso, obtenemos el siguiente resultado:

En la simulacin de la fuente hemos estimado los siguientes parmetros finales:

siendo la entropa normalizada para agrupaciones de M smbolos. El resultado ms importante es que las entropas son decrecientes con M, y tienden asintticamente a , resultado que habamos visto en teora. 5. Codificacin y compresin de datos Como ya hemos comentado en la introduccin, sera interesante reducir el volumen de datos a manejar, siempre que se pueda. Estamos a favor de comprimir? S, siempre que no se pierda informacin, claro. O dicho de otra forma, debe poderse recuperar los datos originales a partir de los datos comprimidos. Para poder manejar apropiadamente los smbolos (y por tanto los datos) debemos representarlos mediante un alfabeto binario, tpicamente Sb = {0, 1}. Los smbolos de este alfabeto Sb binario los llamamos bits. Adems, ser conveniente poder convertir de nuevo la representacin binaria en smbolos. El proceso de asociar a cada smbolo otros smbolos del alfabeto binario se llama codificacin. Dado el alfabeto S = {s0, s1, ... sK1} que entrega una fuente sin memoria, la codificacin se puede representar como una aplicacin C: S ! Sb de tal manera que exista la funcin inversa C1: S ! Sb . Hay que tener en cuenta que el nmero de bits para codificar los smbolos tiene que ser suficiente para poder recuperar los datos originales, y que no es necesario asignar un nmero fijo de bits a cada smbolo. Pero hay alguna manera especialmente buena de codificar? Si pensamos en asociar muy pocos bits a los smbolos que aparecen mucho (a los que tienen una alta probabilidad de aparicin) y ms bits a los smbolos que parecen rara vez (probabilidad de aparicin baja), conseguiremos una codificacin eficiente. Esto es lo que se llama un cdigo de longitud variable. La longitud media por smbolo de este cdigo es el nmero medio de bits por smbolo, y se puede expresar como:

donde pi es la probabilidad de aparicin del smbolo si y li es el nmero de bits asociados a ese smbolo. Nuestro propsito es que sea lo menor posible, de manera que la informacin est comprimida al mximo. Pero cunto se puede comprimir? 5.1. Primer teorema de Shannon Es evidente que la longitud media del cdigo tendr un lmite inferior mayor que cero, ya que los datos no se pueden comprimir infinitamente. Tendremos por tanto que . Pero cul es ese lmite por debajo de cual ya no se puede comprimir la informacin? El Primer Teorema de Shannon nos da la respuesta a esta pregunta, y se puede enunciar as: Dada una fuente digital sin memoria con entropa , la longitud media del cdigo para cualquier cdigo sin prdidas est acotado inferiormente por . Un cdigo ser tanto mejor cuanto ms se aproxime su longitud media a la entropa de la fuente. Para medir esto podemos calcular la eficiencia de un cdigo que se define como:

donde es la eficiencia de la codificacin. De esta manera sabemos si la codificacin ha sido eficiente o por el contrario sigue habiendo redundancia y podramos haber diseado mejor nuestro codificador. 5.2. Justificacin del Primer Teorema de Shannon Supongamos que tenemos una fuente de informacin sin memoria que entrega smbolos del alfabeto S = {A, B, C, D} con una probabilidad de aparicin: P(A) = 0.5 P(B) = 0.25 P(C) = 0.125 P(D) = 0.125 La informacin contenida en cada smbolo, medida en bits por smbolo, ser: I(A) = 1 I(B) = 2 I(C) = 3 I(D) = 3 Como ya comentamos anteriormente, tienen mayor informacin los smbolos menos probables. Si adems tenemos que asociar ms bits del alfabeto binario Sb a los smbolos menos probables y menos a los ms probables por razones de eficiencia, por qu no asociar a cada smbolo un nmero de bits igual a la informacin por smbolo que contienen? Si hacemos esto, la eficiencia del cdigo es mxima, es decir, la longitud media del cdigo coincidir con la entropa de la fuente: 8

Esta resultado es el deseable para todos los casos, pero hay factores que impiden que esto se logre fcilmente, como en este caso. Por ejemplo, en el caso de que la informacin contenida en cada smbolo sea un nmero no entero. Quiz en este caso debiramos utilizar agrupaciones de smbolos. Un problema que se plantea al utilizar cdigos de longitud variable es cmo distinguir unos smbolos de otros. O mejor planteado el problema: cmo asignar los bits a los smbolos para que la secuencia se pueda decodificar unvocamente. Una condicin suficiente (pero no necesaria) para lograr esto es conseguir que ningn smbolo sea prefijo de otro smbolo. Vamos a ver esto con el ejemplo que hemos presentado antes. Las secuencias de bits que asociamos a los smbolos son: A = 0 B = 10 C = 110 D = 111 Vemos que ningn smbolo empieza por la secuencia de A (`0'), ni por la secuencia de B (`10'), y por obviamente ni por la secuencia de C ni la de D. Esta condicin nos garantiza que la secuencia `0110010101100011101111000110010...' puede ser decodificada unvocamente. Para un nmero reducido de smbolos, este proceso puede hacerse manualmente. Pero si el nmero de smbolos crece, es conveniente tener un algoritmo. El algoritmo debe constar de dos parte, un `compresor' que aplique la codificacin y un `descompresor' que decodifique la secuencia recuperando los datos originales. 6. Simulacin de una fuente con memoria En esta simulacin hemos tratado de reproducir el comportamiento de una fuente con memoria con las siguientes caractersticas: La fuente es binaria, es decir, slo entrega dos smbolos. Cada smbolo depende solamente del anterior con una probabilidad dada. Los smbolos entregados por la fuente sern {0, 1}, y las probabilidades condicionadas sern las siguientes:

Con estos datos sobre la probabilidad, es posible hallar el resto de los datos de la siguiente manera:

Podemos representar esta fuente mediante un diagrama de estados:

Mediante un cdigo generamos una secuencia de longitud N con las propiedades estadsticas deseadas. El tamao de la secuencia lo elegiremos adecuadamente ms tarde. Una vez generada la secuencia estimamos la probabilidad de aparicin de los smbolos del alfabeto extendido compuestos por la agrupacin de uno, dos, tres y cuatro smbolos. Esta estimacin se realiza simplemente contando el nmero de veces que aparece cada smbolo. Hay que tener en cuenta que aunque la secuencia se genere a partir de unos parmetros estadsticos bien conocidos, estamos haciendo una estimacin a partir de un nmero finito de muestras, por lo que los parmetros estimados no coinciden con los tericos, aunque s se aproximan. Para aumentar la precisin en la estimacin de las probabilidades podemos, bien generar una secuencia ms larga, o bien realizar la simulacin varias veces y hallar la media de los estimadores. En nuestro caso hemos generado una secuencia lo suficientemente larga para que el nmero de smbolos en el caso peor (agrupacin de cuatro smbolos iniciales) sea representativo. Adems debemos tener en cuenta que la secuencia debe tener una longitud tal que haya un nmero entero de smbolos. En nuestro caso, para que esto se cumpla, basta con que el nmero de elementos de la secuencia sea mltiplo de 12, es decir, . El tamao de la secuencia que hemos elegido es 120.000 elementos, con lo que en el caso pero se dispone de 30.000 smbolos para estimar las probabilidades. Aunque aumentar el tamao de las agrupaciones de smbolos no slo afecta al nmero de smbolos disponibles, sino que, como el nmero de smbolos existentes es mucho mayor, el nmero de smbolos para determinar cada probabilidad es menor. Estos dos efectos afectan perjudicialmente en la precisin de la estimacin. Los resultados obtenidos mediante la simulacin se pueden obtener analticamente a partir de los parmetros estadsticos ideales de la secuencia. Vamos a comparar los resultados analticos con los resultados estimados: Tabla 1: Agrupacin de un smbolo P(0) 0.900 0.897 P(1) 0.100 0.103

Teora Simulacin

Tabla 2: Agrupacin de dos smbolos P(00) 0.855 0.853 P(01) 0.045 0.044 P(10) 0.045 0.045 P(11) 0.055 0.058

Teora Simulacin

Tabla 3: Agrupacin de tres smbolos

10

Teora Simulacin

P(000) 0.8123 0.8094

P(001) 0.0428 0.0430

P(010) 0.0248 0.0197

P(011) 0.0248 0.0261

P(100) 0.0428 0.0430

P(101) 0.0023 0.0024

P(110) 0.0303 0.0242

P(111) 0.0303 0.0323

Hemos podido comparar en este caso los resultados tericos con los reales. Dnde est entonces el sentido de la simulacin? Con esta simulacin pretendemos mostrar el camino a seguir para estimar experimentalmente a entropa de una fuente, bien para fuentes sencillas como esta o para fuentes ms complicadas. En muchos casos, una solucin analtica es impracticable. 6.1. Cdigo y comentarios El cdigo, escrito en MATLAB, es muy sencillo e intuitivo. Aunque se podra haber escrito de forma ms compacta, hemos preferido la claridad a la eficiencia. Hay que tener en cuenta que MATLAB es un lenguaje interpretado y no compilado, por lo que su ejecucin es lenta. Para conseguir un cdigo eficiente, habra que programarlo en un lenguaje compilado (por ejemplo C) y utilizar las funciones y mtodos apropiados. Para nuestra simulacin hemos utilizado una funcin que nos genera la secuencia y un cdigo que la analiza. Estos cdigos son los siguientes: Funcin que genera la secuencia: function z=secuencia(N); %Sintaxis: z=secuencia(N) % % N: Nmero de puntos de la secuencia % z=[]; if rand<0.9, z=0; else z=1; end; for k=2:N, if z(k1)==0, if rand<0.95, z=[z 0]; else 11

z=[z 1]; end; else if rand<0.45 z=[z 0]; else z=[z 1]; end; end; end; Cdigo que analiza la secuencia: %ASUNTO: %Anlisis experimental de la informacinde una fuente con memoria % N=120000; z=secuencia(N); %Para tuplas de k smbolos % psk(n)= probabilidad del smbolo n % Hk = entropa % Hkn = entropa normalizada %%%%%%%%%%%%%%%%%%%%Grupos de un smbolos%%%%%%%%%%%%%%%%%%%%%%% ps1(1)=1sum(z)/N; ps1(2)=sum(z)/N; H1=ps1*log2(ps1)'; H1n=H1; %%%%%%%%%%%%%%%%%%%%Grupos de dos 12

smbolos%%%%%%%%%%%%%%%%%%%%%%% ps2=zeros(1,2^2); for l=1:2:N, if z(l:l+1)==[0 0], ps2(1)=ps2(1)+2/N; elseif z(l:l+1)==[0 1], ps2(2)=ps2(2)+2/N; elseif z(l:l+1)==[1 0], ps2(3)=ps2(3)+2/N; else, ps2(4)=ps2(4)+2/N; end; end; H2=ps2*log2(ps2)'; H2n=H2/2; %%%%%%%%%%%%%%%%%%%%Grupos de tres smbolos%%%%%%%%%%%%%%%%%%%%%%% ps3=zeros(1,2^3); for l=1:3:N, if z(l:l+2)==[0 0 0], ps3(1)=ps3(1)+3/N; elseif z(l:l+2)==[0 0 1], ps3(2)=ps3(2)+3/N; elseif z(l:l+2)==[0 1 0], ps3(3)=ps3(3)+3/N; elseif z(l:l+2)==[0 1 1], ps3(4)=ps3(4)+3/N; 13

elseif z(l:l+2)==[1 0 0], ps3(5)=ps3(5)+3/N; elseif z(l:l+2)==[1 0 1], ps3(6)=ps3(6)+3/N; elseif z(l:l+2)==[1 1 0], ps3(7)=ps3(7)+3/N; else, ps3(8)=ps3(8)+3/N; end; end; H3=ps3*log2(ps3)'; H3n=H3/3; %%%%%%%%%%%%%%%%%%%%Grupos de cuatro smbolos%%%%%%%%%%%%%%%%%%%%%%% ps4=zeros(1,2^4); for l=1:4:N, if z(l:l+3)==[0 0 0 0], ps4(1)=ps4(1)+4/N; elseif z(l:l+3)==[0 0 0 1], ps4(2)=ps4(2)+4/N; elseif z(l:l+3)==[0 0 1 0], ps4(3)=ps4(3)+4/N; elseif z(l:l+3)==[0 0 1 1], ps4(4)=ps4(4)+4/N; elseif z(l:l+3)==[0 1 0 0], ps4(5)=ps4(5)+4/N; elseif z(l:l+3)==[0 1 0 1], 14

ps4(6)=ps4(6)+4/N; elseif z(l:l+3)==[0 1 1 0], ps4(7)=ps4(7)+4/N; elseif z(l:l+3)==[0 1 1 1], ps4(8)=ps4(8)+4/N; elseif z(l:l+3)==[1 0 0 0], ps4(9)=ps4(9)+4/N; elseif z(l:l+3)==[1 0 0 1], ps4(10)=ps4(10)+4/N; elseif z(l:l+3)==[1 0 1 0], ps4(11)=ps4(11)+4/N; elseif z(l:l+3)==[1 0 1 1], ps4(12)=ps4(12)+4/N; elseif z(l:l+3)==[1 1 0 0], ps4(13)=ps4(13)+4/N; elseif z(l:l+3)==[1 1 0 1], ps4(14)=ps4(14)+4/N; elseif z(l:l+3)==[1 1 1 0], ps4(15)=ps4(15)+4/N; else, ps4(16)=ps4(16)+4/N; end; end; H4=ps4*log2(ps4)'; H4n=H4/4; Hn=[H1n H2n H3n H4n];

15

Debemos tener en cuenta que en realidad no existen fuentes digitales. El concepto de fuente digital se fundamenta en la manera de interpretar la seal que entrega la fuente. Comentaremos esto ms detenidamente cuando veamos Fuentes extendidas: agrupacin de smbolos. Veremos tambin esto cuando hablemos de Fuentes extendidas: agrupacin de smbolos. Tambin existe compresin con prdidas principalmente para imgenes y audio, en que una prdida de informacin se traduce en una reduccin de la calidad. Si quiere decir una probabilidad de aparicin de un smbolo es la unidad y el resto son cero, con lo cual los datos no contienen informacin y son unos datos intiles. El algoritmo ms sencillo que implementa este tipo de compresin es el cdigo Huffman. 11 17 p s ( ) I s ( ) p s ( ) 0 0.2 0.4

16

0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6

17

También podría gustarte