Está en la página 1de 9

IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

INSTITUTO POLITÉCNICO NACIONAL

Escuela Superior de Ingeniería Mecánica y Eléctrica

Ingeniería en Comunicaciones y Electrónica

PRÁCTICA 1: Entropía de un texto

Integrantes:
Báez Licona Rogelio Jesús
Montoya Santiago Abraham
Nava Sánchez Jorge

Equipo número:

Asignatura: Teoría de codificación y manejo de información


Grupo: 8CV2
Especialidad: Comunicaciones
Profesor: José Ernesto Rojas Lima

Fecha de entrega:
01-12-2022

1 Prof. José Ernesto Rojas Lima - Academia de comunicaciones


IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

PRÁCTICA 1: ENTROPÍA DE UN TEXTO


1. OBJETIVO
Determinar el valor promedio de la información propia de un texto
2. EQUIPO Y MATERIAL REQUERIDO
 Computadora Personal (PC), software MATLAB, Archivos de texto *txt

3. INTRODUCCIÓN

En el ámbito de la teoría de la información la entropía, también llamada entropía de la


información mide la incertidumbre de una fuente de información.
La entropía también se puede considerar como la cantidad de información promedio que
contienen los símbolos usados.
Los símbolos con menor probabilidad son los que aportan mayor información; por
ejemplo, si se considera como sistema de símbolos a las palabras en un texto, palabras
frecuentes como "que", "el", "a" aportan poca información, mientras que palabras menos
frecuentes como "corren", "niño", "perro" aportan más información. Si de un texto dado
borramos un "que", seguramente no afectará a la comprensión y se sobreentenderá, no
siendo así si borramos la palabra "niño" del mismo texto original. Cuando todos los
símbolos son igualmente probables (distribución de probabilidad plana), todos aportan
información relevante y la entropía es máxima.

La entropía se concibe como una «medida del desorden» o la «peculiaridad de ciertas


combinaciones». La entropía puede ser considerada como una medida de la incertidumbre
y de la información necesaria para, en cualquier proceso, poder acotar, reducir o eliminar
la incertidumbre. Resulta que el concepto de información y el de entropía están
básicamente relacionados entre sí, aunque se necesitaron años de desarrollo de la
mecánica estadística y de la teoría de la información antes de que esto fuera percibido.

El concepto básico de entropía en teoría de la información tiene mucho que ver con la
incertidumbre que existe en cualquier experimento o señal aleatoria. Es también la
cantidad de «ruido» o «desorden» que contiene o libera un sistema. De esta forma,
podremos hablar de la cantidad de información que lleva una señal.

Como ejemplo, consideremos algún texto escrito en español, codificado como una cadena
de letras, espacios y signos de puntuación (nuestra señal será una cadena de caracteres).
Ya que, estadísticamente, algunos caracteres no son muy comunes (por ejemplo, «w»),
mientras otros sí lo son (como la «a»), la cadena de caracteres no será tan "aleatoria"
como podría llegar a ser. Obviamente, no podemos predecir con exactitud cuál será el
siguiente carácter en la cadena, y eso la haría aparentemente aleatoria. Pero la entropía
es la encargada de medir precisamente esa aleatoriedad, y fue presentada por Shannon
en su artículo de 1948, A Mathematical Theory of Communication.

Shannon ofrece una definición de entropía que satisface las siguientes afirmaciones:

-La medida de información debe ser proporcional (lineal continua). Es decir, el cambio
pequeño en una de las probabilidades de aparición de uno de los elementos de la señal
debe cambiar poco la entropía.

-Si todos los elementos de la señal son equiprobables (igual de probables) a la hora de
aparecer, entonces la entropía será máxima

2 Prof. José Ernesto Rojas Lima - Academia de comunicaciones


IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

4. DESARROLLO Y RESULTADOS

4.1 Entropía de textos con caso particular de fuentes discretas con memoria

4.1.1 Desarrollar un programa para obtener la estadística de un archivo de texto en Español. El


programa deberá obtener la cantidad de información propia que lleva cada símbolo x i emitido
por la fuente de información, la cual se define como:

El programa deberá obtener el número de veces que se presenta cada letra del alfabeto español
en el texto analizado, la probabilidad de cada letra, la cantidad de información propia que lleva
cada símbolo xi emitido por la fuente de información así como el valor de la entropía.

En este caso utilizará el archivo “TEXTO_ESPANOL.txt”. Incluir el programa desarrollado y


reportar los valores obtenidos en la tabla 4.1

% Procedimiento determinar la frecuencia con la que se presenta la letra A en un %


texto
clc clear

fid = fopen('TEXTO_ESPANOL.txt');% Abre un canal de lectura binaria


contenido=fscanf(fid,'%c');% carga los caracteres del texto en contenido
X=['A','B','C','D','E','F','G','H','I','J','K','L','M','N',
'Ñ','O','P','Q','R','S','T','U','V','W','X','Y','Z']; % Define la fuente discreta X
for k = 1: length(X)
caracter = X(k);% Asigna a caracter el contenido de X(k)
num_veces_caracter(k)=length(strfind(contenido,caracter)); fprintf('Numero Total de
letras %c = %d\n',X(k),num_veces_caracter(k)); end;
fclose(fid); prob_letras=num_veces_caracter/sum(num_veces_caracter);

fprintf('Presiona cualquier tecla para continuar.');


pause
for k = 1: length(X)
fprintf('Probabilidad de letra %c = %d\n',X(k),prob_letras(k)); end;
H =-sum(prob_letras.*log2(prob_letras))

3 Prof. José Ernesto Rojas Lima - Academia de comunicaciones


IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

Para determinar la información propia promedio o entropía del texto, el programa debe calcular:

 1   1   1 
H ( X )  P( A) log2    P(B) log 2    P(Z ) log2  bits / (4.2)
 P( A) P(B) P(Z ) letra
     

Reportar en la tabla 4.2 el valor obtenido de la entropía del texto en Español

Tabla 4.2 Entropía de un texto en Español


H(X) 4.062 bits/letra

4 Prof. José Ernesto Rojas Lima - Academia de comunicaciones


IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

De acuerdo con los resultados obtenidos para el texto en Español ¿Cuál letra ocurre con mayor
frecuencia y cual letra ocurre con menor frecuencia?
La letra "A" es la que aparece mas veces mientras que la w es la que aparece menos

¿De qué manera impacta lo anterior en la cantidad de información?

de acuerdo a la tabla se puede ver que la letra mas frecuente en este caso la "A" aporta poca
información, mientras que la letra "W" que es menos frecuente aportan más información.

5 Prof. José Ernesto Rojas Lima - Academia de comunicaciones


IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

5. PREGUNTAS

1.- Dibujar el diagrama a bloques simplificado de un sistema de comunicaciones


digitales:
Explicar brevemente la finalidad de cada uno de los bloques: fuente de
información, codificador de fuente, codificador de canal, modulador, canal de
comunicación y su respectiva contraparte en el receptor.
 Dispositivo que genera los mensajes a transmitir y hay 2 tipos F. Analógica y F.

Discreta
 Su objetivo es remover información redundante o redundancias y con esto se logra
comprimir la fuente.
 Este agrega redundancia estructurada para realizar el control de los errores
 Toma el mensaje y lo acomoda sobre una onda o señal portadora para enviarla por
el canal
 Este es el medio por el cual se transfiere el mensaje y este va a encontrarse ruido
o interferencia
 Hace lo contrario a la modulación y está diseñada para minimizar la taza de error
 Este detecta si el mensaje es un cero o uno y su vienen errores se encarga de
corregirlos.
 Recupera el mensaje original a través del flujo bits.

2.- En el contexto de las comunicaciones ¿Cuál es la finalidad del curso de teoría


de información?
Aplica las teorías de codificación aplicables en el diseño de sistemas de comunicación
eficiente y confiable así como simula un sistema de comunicación con los diferentes tipos
de canales y ruidos.
3.- ¿Qué es una fuente de información y como se clasifican las fuentes de
información?
La fuente de información es un dispositivo que genera los mensajes a transmitir y su
clasificación en analógicas y discretas.
4.- ¿Qué es una fuente de información continua?
Es aquello que produce una infinidad de mensajes analógicos como posibles salidas.
Pueden ser señales de voz
5.- ¿Qué es una fuente de información discreta?
Es aquello que produce secuencias de símbolos como posibles mensajes y pueden ser
palabras
6.- ¿Qué es una fuente discreta sin memoria (DMS)? Dar un ejemplo.
Es aquella para la cual un símbolo de salida actual no depende de símbolos previos.
Puede ser una fuente binaria

6 Prof. José Ernesto Rojas Lima - Academia de comunicaciones


IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

7.- Desde el punto de vista matemático ¿Cómo se modela una fuente de


información continua?
Produce una salida X(t) la cual forma parte de un proceso aleatorio X(t)
8.- ¿Qué es un proceso aleatorio?
Un proceso aleatorio es una colección de funciones, muestras o realizaciones
9.- Matemáticamente como se modela una fuente de información discreta.
P(X=Xi)=P(Xi) para i=1,2,3…n
L

∑ P ( Xi )=1
i=1
10.- ¿Cuál es el significado de estacionariedad estadística para una fuente
discreta con memoria?
Una fuente discreta es una memoria estacionaria si las probabilidades conjuntas de 2
secuencias de longitud “n”
11. De qué depende la cantidad de información de un evento y como se
determina. Explicar.
La cantidad de información sola en un evento o su acontecimiento está relacionada con su
probabilidad de que ocurra dicho evento, por ejemplo eventos con alta probabilidad de
ocurrir revelan más información
12.- ¿Qué es la información mutua entre un par de eventos?
La información mutua S(y,v) es media de su incertidumbre mide la información cada que
es transferida y recibida
P ( Xi⃓ Yj) 1
I ( Xi ,Yi )=log ₂ =log ₂ =I (Xi)
P ( Xi ) P ( Xi )
13.- Explicar por qué en comunicaciones nos interesa conocer la información
promedio que produce una fuente de información en lugar de conocer la
información de un solo símbolo
Por qué determina la cantidad de información útil de ciertos datos y transmitidos de
forma eficiente.
14.- ¿Cuál es el significado de la entropía de una fuente de información?
La entropía tiene mucho que ver con la incertidumbre que existe en cualquier proceso y
también es la cantidad de ruido o desorden que contiene o libera un sistema.
15.- ¿Cuál es el significado de la entropía condicional?
Se constituye a partir de dos probabilidades condicionales entre 2 variables (comúnmente
X y Y) aleatorias.
También no permite determinar qué tan seguro es un sistema criptográfico.
Entre más incertidumbre tenga más difícil será de descifrar

6. CONCLUSIONES

Baez Licona Rogelio Jesus:

Al terminar con el desarrollo de esta práctica puedo concluir que se cumplió con el objetivo
ya que logramos determinar el valor promedio de la información propia de un texto. en este
caso fue del texto llamado texto español, el valor promedio se obtuvo por medio de un
programa desarrollado en Matlab y también se obtuvo de forma teórica con ayuda de los
apuntes vistos en clase, los resultados teóricos y prácticos variaron muy poco pero esto lo
atribuyo a que teóricamente dejamos fuera decimales a la hora de hacer el cálculo, pero en
general se concluyó de forma satisfactoria ya que se cumplió con el objetivo, se obtuvo un
aprendizaje que en resumen fue que Los símbolos con menor probabilidad son los que
aportan mayor información y viceversa.

Montoya Santiago Abraham

Se observo mediante el programa como se determina la entropia la cual se comprobó que la


información propia de cada simbolo qué emite en la fuente y también se observa la
7 Prof. José Ernesto Rojas Lima - Academia de comunicaciones
IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

probabilidad que puede tener cada uno de los simbolos en el mensaje emitido.

Nava Sánchez Jorge

Gracias a esta práctica pudimos ver cómo se desarrolla el programa para obtener la
información propia. Nos basamos en la fórmula de entropia para obtener estos valores y así
compararlos con lo visto en clase de manera práctica. Es Interesante ver cómo en este caso,
la entropia nos ayuda en el tema de fuentes discretas con memoria, como en la información
que lleva cada símbolo en un texto así como la información propia promedio.
En conclusión está práctica se llevó a cabo de manera exitosa ya que los valores obtenidos en
MATLAB, coinciden con los requerimientos de la práctica , además de esto pudimos observar
de manera práctica el tema de entropia en un texto y cómpralos con los conocimientos
teóricos de clase.

8 Prof. José Ernesto Rojas Lima - Academia de comunicaciones


IPN ESIME Zacatenco-Teoría de codificació n y manejo de informació n

7. BIBLIOGRAFÍA

[1].- Haykin, Simon. Sistemas de Comunicación , Limusa, México, 2002, 685 págs.
[2].- Sklar, Bernard, Digital Communications Fundamental and Applications,2ª ediciòn, Prentice Hall, USA,
2001 450 págs.
[3]. John G. Proakis, Digital Communications,. 3rd Edition, Mc Graw-Hill, Inc. International Editions 1995,
928 págs.
[4]. Jayant N.S. Noll, Digital Coding of Waveforms, Prentice Hall, Englewood Cliffs, NJ, 1984.
[5]. MATLAB, Manual del usuario

9 Prof. José Ernesto Rojas Lima - Academia de comunicaciones

También podría gustarte