Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Tabla de frecuencias
La forma más simple de organizar y presentar datos es una tabla de frecuencia como lo muestra
el Figura ??. Allı́ se supone que los n datos x1 , x2 , . . . , xn presentes en la muestra son clasificados
en k categorı́as C1 , C2 , . . . , Ck con k < n. Las frecuencias de la tabla son las siguientes.
Frecuencia absoluta ni
Corresponde al número de individuos en la muestra que pertenecen a la clase Ci . Tienen la propie-
dad de que n1 + n2 + · · · + nk = n.
Frecuencia relativa fi
Corresponde a la proporción de datos que pertenecen a la clase Ci , esto es fi = ni /n para i =
1, 2, . . . , n. Tienen la propiedad de que f1 + f2 + · · · + fk = 1. Además, fi % = fi × 100 %
Clases % %
% %
% %
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
% %
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
% %
Total 1 100
1
2.1. Variable nominal
La variable nominal o datos medidos en la escala nominal son clasificados en categorı́as o clases
identificadas con letras y/o números. Estas categorı́as se pueden presentar en cualquier orden y no
es posible cuantificar la diferencia entre individuos pertenecientes a distintas clases. Ejemplos de
variables de tipo nominal son Equipo de Fútbol Preferido, Ciudad de Procedencia, Tipo de Música,
etc.
Ejemplo 1. (Proyectos de Energı́a) La Figura ?? muestra los proyectos energéticos en Chile el año
2011 publicados en un especial del diario ESTRATEGIA on-line del 25 de Abril 2011.
a) Rediseñe la tabla considerando las categorı́as Eólica, Hidroeléctrica, Solar y Termoeléctrica. Tam-
bién incluya los respectivos porcentajes
b) Partiendo de esas tablas de frecuencias, mencione algunos aspectos relevantes relacionados con
número de proyectos energéticos en Chile.
Solución
Aquı́ hoy dos variables nominales asociadas a cada proyecto: la primera es el ”Tipo de Proyecto
Energético” clasificado como Eólico, Hidroeléctrico, Solar y Termoeléctrico y la otra es ”El Estado
del Proyecto” clasificado como En Construcción, Aprobado y En Calificación. a) La tabla de frecuen-
cia rediseñada para la variable tipo de proyecto para cada uno de los estados del proyecto aparece
en la Figura ??. Note que las frecuencias acumuladas no tienen sentido en el nivel nominal. ¿Por
qué?.
b)
Se observa un aumento en el número de proyectos Eólicos Aprobados y en Calificación respecto
a los proyectos en Construcción de 7,41 % a 26,39 % y 13,16 % respectivamente.
También se observa un aumento en el número de proyectos Hidroeléctricos Aprobados y en
Calificación respecto a los proyectos en Hidroeléctricos Construcción de 44,44 % a 48,61 % y
52,63 % respectivamente.
El aumento más rápido se observa en el número de proyectos Solares Aprobados y en Califi-
cación respecto a los proyectos Solares en Construcción de 0,00 % a 2,78 % y 18,42 % respecti-
vamente.
2
Se observa una disminución en el número de proyectos Termoeléctricos Aprobados y en Califi-
cación respecto a los proyectos Termoeléctricos en Construcción de 48,15 % a 22,22 % y 15,79 %
respectivamente.
Ejemplo 2. Este ejemplo está basado en el informe de la Encuesta CEP No 63, Estudio Nacional
de Opinión Pública No 34, Tercera Serie Noviembre-Diciembre 2010. Sitio web: www.cepchile.cl
La publicación indica que se diseñó un muestreo con 1800 entrevistas pero que sólo se pudo realizar
el 80 % de ellas. En la página 13 de ese informe aparece el siguiente resultado.
——————————————————————————————————————
..
.
4. De acuerdo a esta escala, ¿cómo calificarı́a UD. su actual situación económica?
(2,8 %) 01 MUY MALA
(16,2 %) 02 MALA
(57,3 %) 03 NI BUENA NI MALA .
(21,8 %) 04 BUENA ..
(1,6 %) 05 MUY BUENA
(0,2 %) 08 No sabe
(0,1 %) 09 No contesta
——————————————————————————————————————
Identifique la variable estadı́stica asociada a esa pregunta y reconstruya una tabla de frecuencias en
el formato dado en la Figura ??.
Solución
Aquı́ lo que varı́a de encuestado en encuestado es la ”calificación de su propia situación económica
actual”. La escala ordinal que se usa incluye las categorı́as Muy Mala, Mala, Ni Buena ni Mala,
Buena y Muy Buena. Estas categorı́as se mezclan con otras dos categorı́as que son de nivel nominal:
No sabe y No contesta.
3
Contestaron la encuesta (no la pregunta) 1800 × 0, 80 = 1440 personas cuyas respuestas aparecen
en la Figura ??. Algunos comentarios son que el 99,7 % de los encuestados contesta esta pregunta
clasificando su propia situación económica entre ”Muy Mala” y ”Muy Buena”. También se nota que
la mayorı́a de los encuestados (825 de los 1440 o el 57,3 %) cree que su propia situación económica
es ”Ni Buena Ni Mala”. También se puede decir que casi un cuarto de los encuestados (23,4 %) cree
que su propia situación económica es ”Buena” o ”Muy Buena”.
Situación Económica % %
4
Solución
Aquı́ la variable de nivel intervalar es ”años de estudios aprobados” y asume valores enteros no
negativos 0, 1, 2, 3, etc. Esos valores son agrupados en los intervalos 0-3, 4-8, 9-12, 13 o más como
muestra la Figura ??. Aquı́ la unidad de distancia es 1 año de estudio aprobado y la diferencia entre
un encuestado y otro se puede expresar en términos de esa unidad. Por ejemplo, la diferencia entre
alguien que aprobó 13 años de estudios y otro que aprobó 8 años es 13-8=5 años. Considerando 8 años
para el ciclo básico y 4 para el ciclo secundario se observa que el 29,0 % de los que participaron en
esta encuesta de opinión pública no alcanzó el nivel secundario, que el 40,7 % de los encuestados tiene
algún nivel de estudios secundarios. Dicho de otro modo, el 69,7 % de las opiniones corresponde a
personas que no tienen estudios superiores. Finalmente, el 28,7 % de los encuestados aprobó al menos
el primer año de educación superior.
Estudios % %
En el Ejemplo ?? los ”años de estudios aprobados” de los 1440 encuestados fueron agrupados en
4 clases con lı́mites 0-3, 4-8, 9-12 y 13 o más. Esto indica que hay dos preguntas claves:
¿Cuál es el número adecuado de clases o intervalos k para agrupar los n datos?
¿Cuáles deben ser los lı́mites de esos k intervalos?
Las respuestas no son únicas ni dogmáticas. Simplemente se trata de adoptar ciertos criterios empı́ri-
cos y razonables que a continuación se exponen.
Número de intervalos k
La idea es que el tamaño de la tabla sea manejable y legible por lo que usualmente el número de
intervalos k es un número entre 4 y 20. Hay dos criterios empı́ricos para determinar k que dan
respuestas muy similares.
Criterio 1 k = 1 + 3, 3logn
Criterio 2 2k ≥ n
En la Figura ?? aparece el k recomendado para distintos tamaños de muestra n.
5
k
1 1,0 1 ----------
10 4,3 4 4
20 5,3 5 5
50 6,6 6 6o7
100 7,6 7 7u8
500 9,9 9 9 o 10
1000 10,9 10 10 u 11
10000 14,2 14 14 o 15
En segundo lugar hay que determinar la amplitud de los intervalos. Un criterio es escoger todos
los intervalos con igual amplitud a de modo que
RM
a≥ (2)
k
Debido a que la fracción RM /k de la ecuación (??) no necesariamente es un número entero estamos
obligados a escoger un número a mayor que esta fracción. El rango de la tabla será RT = ak
donde a es la amplitud que efectivamente será usada. La elección de a debe ser tal que RT ≥ RM
de modo que no queden datos fuera de la tabla y tampoco queden intervalos al principio o al final
de la tabla sin datos. Entonces es posible que se produzca una diferencia ∆ = RT − RM entre el
rango de la tabla y el rango que efectivamente tiene la muestra.
Un criterio para administrar la diferencia ∆ es repartirla por partes iguales al principio y al final
de la tabla para mantener su simetrı́a de modo que los lı́mites de los intervalos resultan ser los
siguientes.
L0 = min{xi } − ∆/2
L1 = L0 + a
L2 = L2 + a
..
.
Lk = Lk−1 + a
6
Intervalos Amplitud Marca % %
; a % %
; a % %
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
; a % %
⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞
; a % %
Total 1 100
101 91 100 87 91 74 88 85 93 96
91 110 87 93 99 93 91 109 86 101
93 74 94 96 106 88 91 103 96 110
75 97 97 100 105 91 99 106 103 89
97 93 103 93 107 109 87 108 105 81
Presente estos datos en una tabla de frecuencias.
Solución
Aquı́ n = 50 y de acuerdo a la tabla de la Figura ?? se deberı́an usar 6 o 7 intervalos. El rango de
muestra es RM = 110 − 74 = 36 y con k = 6 intervalos resulta una amplitud entera a = RM /k =
36/6 = 6. En este caso el rango de tabla será RT = ak = 6(6) = 36 igual al rango de muestra y por
tanto la diferencia es ∆ = RT − RM = 36 − 36 = 0. Ası́, los lı́mites de intervalos sugeridos son:
La propuesta de tabla de frecuencia con intervalos continuos aparece en la Figura ??. Allı́ la frecuen-
cia absoluta ni corresponde a número de carreraa. Por ejemplo, en la primera fila ni = 3 significa
que hay 3 carreras cuyo número de estudiantes con PSU igual o superior a 650 puntos está entre 74
y 79 estudiantes.
Como los datos son números enteros los intervalos también podrı́an tener lı́mites enteros, ¿como
serı́a esa tabla de frecuencias?.
Ejercicios Sección ??
1. La siguiente tabla muestra los volúmenes enviados al exterior y los retornos generados por las
exportaciones de productos del mar en el perı́odo enero-junio de 2010 y 2011, según informó
la Sociedad Nacional de Pesca.
7
Intervalos Ampl. Marca % %
74 80 6 77 3 0,06 6 3 0,06 6
80 86[ 6 83 1 0,02 2 4 0,08 8
86 92 6 89 14 0,28 28 18 0,36 36
92 98 6 95 13 0,26 26 31 0,62 62
98 104 6 101 8 0,16 16 39 0,78 78
104 110] 6 107 11 0,22 22 50 1 100
Total 50 1 100
¿En qué porcentaje varió entre 2010 y 2011 el precio promedio por tonelada de los dos princi-
pales productos de exportación de este sector?
R: Harina y Congelados disminuyeron sus precios por tonelada en 6, 8 % y 7, 8 % respecti-
vamente.
2. Los siguientes datos corresponden a la duración en minutos de la baterı́a de los laptop de 24
estudiantes.
80 70 90 30 45 160 110 30 45 60 90 120 180 0 20 140 160 180 200 100 80 90 150 160
a) Presente estos datos en una tabla de frecuencias de cinco intervalos de igual ancho.
b) ¿Qué porcentaje de Baterı́as dura más de 2 horas?
3. Gráficos estadı́sticos
Una manera distinta pero complementaria a las tablas de frecuencia para presentar datos es la
forma gráfica. Debido al gran desarrollo de las metodologı́as estadı́sticas y la disponibilidad creciente
de software o programas estadı́sticos que implementan esas metodologı́as es que existen practica-
mente ”infinitas” posibilidades gráficas. En esta sección se presentarán algunos gráficos básicos y
algunas directrices generales para construirlos.
Algunos elementos necesarios para que un gráfico sea una representación legible de los datos son:
Titulos y subtı́tulos
Descripción del gráfico
Datos y sı́mbolos evitando la saturación o congestión del gráfico.
Colores adecuados que permitan distinguir los elementos y categorı́as del gráfico
8
Ejes horizontal y vertical con escalas adecuadas
Leyendas o descriptores
Nitidez y buena calidad de impresión
Diagrama de Barras
Proyectos de Energía
9
Diagrama de Cilindros 3D
Proyectos de Energía
fi %. Es decir,
ni
αi◦ = 360◦ = fi 360◦
n
= fi %3, 6◦
i = 1, 2, . . . , k
Diagrama de Torta
Situación Económica de los Encuestados, CEP Nº 63
3.3. Histograma
El histograma es un diagrama de barras adaptado para variables numéricas. La altura de las
barras pueden ser proporcionales a las frecuencias absolutas ni o relativas fi o porcentual fi %. En
la base se deben marcar los intervalos a los que pertenecen los datos.
Cuando la altura de las barras es proporcional a fi /ai para i = 1, 2, . . . , k se obtiene un histograma
normalizado en el sentido de que la suma de las áreas de las barras resulta 1. La Figura ?? presenta
un histograma para los datos del número de estudiantes con puntuación PSU igual o superior a 650
en cada carrera de una Universidad (Ejemplo ??).
10
Histograma
Número de estudiantes por carrera
con puntuación PSU superior a 650 puntos
Figura 13: Número de estudiantes por carrera con PSU superior a 650 puntos
7 | 469
8 | 3678889
9 | 00000111334444667777799
10 | 111223455667789
11 | 00
uno de ellos se divide en dos, uno con ”hojas entre 0 y 4 y el otro con ”hojas” entre 5 y 9 se puede
obtener un diagrama de Tallo y Hoja más detallado como muestra la Figura ??.
La ventaja de este diagrama es que es fácil de hacer a mano y sirve para descubrir caracterı́sticas
iniciales de los datos como centro, variabilidad, sesgo, multimodalidad, outliers, etc. Las desventajas
del diagrama de Tallo y Hojas es que es un gráfico tosco y no sirve para presentaciones finales, sólo
sirve para muestras no muy grandes y no permite una comparación visual de varias poblaciones.
11
Diagrama de Tallo y Hoja
Número de estudiantes por carrera con puntuación
PSU superior a 650 puntos
7|4
7 | 69
8|3
8 | 678889
9 | 00000111334444
9 | 667777799
10 | 1112234
10 | 55667789
11 | 00
Diagrama Acumulado
Número de estudiantes por carrera con puntuación
PSU superior a 650 puntos
PSU
120%
100%
100%
80%
80%
Frecuencia
62%
60%
40% 36%
20% 10%
6%
0%
74-80 80-86 86-92 92-98 98-104 104-110
Clase
3.6. Ojiva
Se emplea en el nivel intervalar de medidas y es una representación de las frecuencias acumuladas
Ni o Fi o Fi % en función de las marcas de clases Xi . La Figura ?? presenta la ojiva para el número
de estudiantes por carrera con puntuación PSU igula o superior a 650 puntos.
Cuando el número de datos n crece y el rango de la muestra es más o menos el mismo, entonces
también crece el número de intervalos o marcas de clase k y la consecuencia es que la ojiva se parece
más y más a una curva continua.
12
Ojiva
Número de estudiantes por carrera con puntuación
PSU superior a 650 puntos
PSU
120%
100%
100%
80%
80%
Frecuencia
62%
60%
36%
40%
20% 10%
6%
0%
74-80 80-86 86-92 92-98 98-104 104-110
Clase
Ejercicios Sección ??
3. La siguiente tabla presenta los resultados del proceso de admisión a una Universidad de tamaño
mediano.
Hombres Mujeres
Carrera Postulantes Aceptados % Postulantes Aceptados %
Administración 480 58 520 68
Ingenierı́a Civil 640 63 250 45
Derecho 320 42 279 35
Psicologı́a 280 37 430 49
Periodismo 280 36 330 42
Arquitectura 370 38 260 46
13