Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Practica 1 Entropia de Idiomas PDF
Practica 1 Entropia de Idiomas PDF
MATERIA
Teoría de La Información
ALUMNOS
PROFESOR
TEMA
Entropía de Idiomas
Grupo 8TM1
06/09/2010
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
Objetivo:
Descripción:
Los Textos que se tomarán como fuente para el análisis provendrán de fragmentos en español (y
de su traducción al inglés, francés, alemán e italiano) de libros de algún género literario en
específico.
Cada equipo (de dos integrantes) trabajará con dos textos, el primero en español de una obra
literaria según el género literario que se haya seleccionado, con al menos 15000 caracteres, y un
segundo texto que será la versión del anterior pero en otro idioma. Siendo un total de 30000
caracteres como mínimo en la suma de ambos textos.
Para cada texto de los dos idiomas, se deberán realizar los siguientes cálculos y estadísticas:
Desarrollo:
Para este ejercicio se eligió el idioma Francés como idioma adicional para análisis, siendo el texto
analizado “El extranjero” del francés Albert Camus, tanto en su versión original en francés así
como su traducción al español; el análisis se basó en el primer capítulo de esta obra, contando
éste con más de 15000 caracteres en ambas versiones.
2
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
Resultados:
%conteo de caracteres
cont=zeros(1,28);
for(i=1:(length(bibi)))
if (bibi(i)==32)
cont(28)=cont(28)+1;
end
if (bibi(i)==241)
cont(27)=cont(27)+1;
end
for(j=97:122)
if(bibi(i)==j)
cont(j-96)=cont(j-96)+1;
end
end
end
cont
proba=cont./length(bibi-1)
total=sum(proba)
3
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
%entropia
for m=1:length(proba)
if(proba(m)~=0)
h(m)=proba(m)*log2(1/proba(m));
end
end
H=sum(h)
4
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
Lo anterior muestra que el idioma español (al menos en este análisis) contiene más información
que el idioma francés, sin embargo, esto podría deberse a la anulación de caracteres especiales
que son muy comunes en el francés como la ç o la comilla simple que es muy utilizada para
contracciones, además de que en el francés se cuenta con tres tipos de acentos mientras que en el
español solo se cuenta con uno, la alteración de estos factores en este caso resulta en una mayor
entropía del idioma español, lo cual puede no ser del todo preciso dado los factores anteriormente
mencionados.
A continuación se muestran graficas de barras que ilustran la aparición de los símbolos en los dos
idiomas:
5
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
En ambos idiomas los símbolos que más ocurrencia presentaron fueron la e y el espacio, sin
embargo valdría la pena hacer notar que la ocurrencia en el idioma francés de la letra e fue mucho
mayor que en el idioma español, de haberse conservado la acentuación podría haberse hecho
notar que la e que más aparece es acompañada de un acento agudo, esto es muy común en la
gramática del idioma francés puesto que es muy utilizada tanto para dar énfasis a la e al final de
palabras puesto que de otro modo no se pronuncia, así como para la conjugación de tiempos
pasados de los verbos del primer grupo (los que terminan en er), que son dentro del idioma
francés de los más comunes. Otra cosa notoria es la falta de ocurrencia en el idioma francés del
carácter ñ, mientras que en ambos idiomas la ocurrencia tanto del carácter k y w es de valor muy
pequeño, lo cual sería diferente de analizar un tercer idioma, como el inglés.
6
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
Para el cálculo de las estadísticas de aparición de los símbolos por pares, se realizó primero el
conteo de apariciones de las combinaciones con el siguiente algoritmo:
%pares
M=zeros(28,28);
probpar=zeros(28,28);
for (k=1:(length(bibi)-1))
if(bibi(k)==32 && bibi(k+1)==32)
M(28,28)=M(28,28)+1;
end
if(bibi(k)==241 && bibi(k+1)==241)
M(27,27)=M(27,27)+1;
end
for (c=97:122)
if(bibi(k)==32 && bibi(k+1)==c)
M(28,c-96)=M(28,c-96)+1;
end
if(bibi(k)==241 && bibi(k+1)==c)
M(27,c-96)=M(27,c-96)+1;
end
for (f=97:122)
if(bibi(k)==f && bibi(k+1)==c)
M(f-96,c-96)=M(f-96,c-96)+1;
if(bibi(k)==f && bibi(k+1)==32)
M(28,c-96)=M(28,c-96)+1;
end
if(bibi(k)==f && bibi(k+1)==241)
M(f-96,27)=M(27,c-96)+1;
end
end
end
end
end
Una vez procesado este algoritmo se realizó la selección de los 10 más repetidos utilizando el
siguiente conjunto de instrucciones:
maxim=zeros(1,28);
maxim=max(M);
maxim=sort(maxim,'descend');
top10p=zeros(1,10);
coord=zeros(10,2);
for l=1:10
[b,d]=find(M==maxim(l));
top10p(l)=maxim(l);
coord(l,1)=b;
coord(l,2)=d;
end
figure(2)
bar(top10p,'r')
7
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
El cual sirve para encontrar los valores máximos de la matriz de apariciones, y posteriormente
ordenarlos de mayor a menor, almacenando posteriormente, en 2 vectores, tanto sus
coordenadas como sus valores, esto para visualizar las coordenadas, y gráficamente utilizar una
matriz para localizar las mismas y así obtener las combinaciones más repetidas, dada dicha matriz.
Por otro lado los valores de los máximos se utilizan para realizar la gráfica de barras que muestra
los valores de dichas combinaciones, los resultados obtenidos se muestran a continuación.
IDIOMA
Español Francés
Posición X Y Combinacion Posición X Y Combinacion
1 28 5 esp,e 1 28 1 esp,a
2 28 4 esp,d 2 1 9 a,i
3 5 14 e,n 3 28 12 esp,l
4 28 12 esp,l 4 18 5 r,e
5 5 18 e,r 5 28 4 esp,d
6 28 13 esp,m 6 5 19 e,s
7 12 1 l,a 7 28 16 esp,p
8 5 19 e,s 8 5 14 e,n
9 28 3 esp,c 9 28 3 esp,c
10 28 16 esp,p 10 28 13 esp,m
8
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
probmat=zeros(28,28);
for i=1:length(M)
for j=1:length(M)
if(cont(i)~=0&&M(i,j)~=0)
probmat(i,j)=M(i,j)/cont(j);
end
end
end
probap=sum(probmat);
Una vez calculadas las probabilidades de transición hacia delante, se utilizaron éstas para calcular
las probabilidades iniciales por medio de la potenciación de la matriz de probabilidades
condicionales, una vez realizada dicha potenciación y conociendo entonces las dos probabilidades,
9
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
procedimos a realizar el cálculo de la entropía por medio de la fórmula de entropía para las
fuentes de información de Markov empleando el siguiente algoritmo:
proinit=(probmat)^30;
h2=zeros(28,28);
for m=1:length(proba)
for n=1:length(proba)
if(probmat(m,n)~=0)
h2(m,n)=proinit(m,n)*probmat(m,n)*log2(1/probmat(m,n));
end
end
end
H2=sum(h2);
H2tot=sum(H2)
Figura 10: Entropía de Fuente con Memoria (Markov 1er Orden FRANCÉS)
Esas fueron las entropías obtenidas, sin embargo consideramos que probablemente sean erróneas
por motivos que se discutirán en las conclusiones y por falta de un parámetro de referencia como
el que se posee para las fuentes sin memoria ( ).
10
Teoría de La Información [PRACTICA 1: ENTROPÍA DE IDIOMAS]
Conclusiones
Durante el desarrollo de esta práctica pudimos observar algunos aspectos sobre la cantidad de
información que poseen dos distintos lenguajes.
El experimento inicial nos mostró que los caracteres que más aparecen en ambos idiomas son el
espacio y la letra e; en el caso del francés como ya se mencionó durante la etapa de resultados
(pág. 6); se omitieron muchos símbolos y acentos que de haber estado presentes hubiesen llevado
a un resultado posiblemente distinto, ya que como se mencionó anteriormente posee una mayor
variedad de caracteres especiales que los que se encuentran en el español, sin embargo bajo las
condiciones del experimento pudimos notar que el idioma español posee una mayor entropía que
el idioma francés, es decir, posee mayor información.
Durante el conteo de los pares, nos encontramos con un resultado que era de esperarse, la gran
mayoría de las combinaciones, tienen en ellas algún símbolo de los de mayor probabilidad
(espacio, e, a), y algunos símbolos dada la redundancia de ambos idiomas (cabe destacar que
ambos provienen de un mismo origen, son parte de las llamadas lenguas romances), suelen
incrementar la probabilidad de aparición de alguna combinación, como el ejemplo de clase, donde
se decía que dado que se emitiera una q, cuál era la probabilidad de obtener una u como siguiente
símbolo, y podíamos observar que era muy alta (P=1).
El incremento de redundancia llevó a otro resultado que era de esperarse: la entropía del sistema
decreció. Sin embargo se llegó a la conclusión de que los resultados que se obtuvieron pudiesen
ser incorrectos, puesto que dado el orden de la fuente de Markov no se esperaba un decremento
tan drástico en la entropía; además de que se realizó el experimento de seguir potenciando la
matriz, más allá del valor para el cual realizamos el cálculo en el programa, observando que la
fuente se comportaba como una fuente no ergódica, es decir, elevada a una potencia muy grande,
los valores de las probabilidades iniciales terminaban siendo cero, lo cual nos llevó a pensar que
muy probablemente los valores de las probabilidades de transición hacia delante fueran erróneos,
puesto que llegamos a la conclusión de que no era coherente que la fuente no fuera ergódica, sin
embargo, no pudimos detectar y corregir el error a tiempo por lo que se decidió reportar los
valores obtenidos puesto que ese fue el trabajo que se realizó y los resultados que se obtuvieron
fueron los que se plasmaron en el reporte. Y en base a ese resultado podemos observar que de
nueva cuenta el idioma español cuenta con mayor información que el idioma francés.
11