07.b.investigacion Educativa Estadistica

Licenciatura en EGB 1 y 2 – Escuela para la Innovación Educativa - UNSE
EGB
SEMINARIO DE INVESTIGACIÓN EDUCATIVA

(ESTADÍSTICA)
Autores:
Dra. Marta Graciela del Valle Pece
M.Sc. Ing. Margarita Juárez de Galíndez
Lic. María Mercedes Simonetti de Velazquez
2007
1
PROGRAMA
UNIDAD I: Estadística
Concepto. Etapas en el trabajo estadístico. Estadística Descriptiva e
Inferencial. Variable: concepto. Clasificación de variables. Series simples.
Agrupamiento de datos en series de frecuencias. Frecuencias absolutas.
Frecuencias relativas. Porcentajes. Frecuencias acumuladas, frecuencias
relativas acumuladas y porcentajes acumulados. Tasas de uso común: de
escolarización, de analfabetismo, de desgranamiento, de retención.
UNIDAD II: Presentación de datos estadísticos.

Partes funcionales y construcción de tablas estadísticas. Elementos
estructurales de las tablas. Tablas simples, cruzadas. Análisis de tablas
estadísticas. Técnicas de representaciones gráficas. Reglas de construcción.
Gráficos según los distintos tipos de variables.
UNIDAD III: Medidas de resumen.

Medidas de tendencia central. Media aritmética, mediana y moda.
Comparación de media, mediana y moda. Distribuciones simétricas y
asimétricas. Medidas de dispersión. Rango, variancia y desviación estándar y
desviación mediana. Coeficiente de variación. Medidas de localización.
Percentiles y rango percentil. Aplicaciones.
UNIDAD IV :Tablas de Contingencia

Distribución ji-cuadrado. Verificación de hipótesis. Tablas de contingencia.
Pruebas de independencia mediante la prueba χ 2 cuadrado, en tablas de
contingencia de c x f .
2
UNIDADES I y II
INTRODUCCIÓN
La palabra Estadística proviene del latín status (estado). Precisamente

la primera aplicación de la estadística consistió en la recopilación de datos y
la construcción de gráficos para describir el estado de un país. Con el correr
del tiempo esta herramienta fue evolucionando hasta que en la actualidad
podríamos decir que no hay aspectos de la vida cotidiana donde no se
aplique la Estadística. Hogares, gobiernos y negocios se apoyan en datos
estadísticos para dirigir sus acciones.
El objetivo que se persigue con este módulo es proporcionar al docente

herramientas y técnicas para obtener datos, procesarlos para obtener
información que sirva para la interpretación correcta de fenómenos que se
producen en su ámbito de trabajo.
ESTADÍSTICA. CONCEPTOS.
La Estadística es una colección de métodos para planear

experimentos, obtener datos, y después organizar, resumir, presentar,
analizar, interpretar y llegar a conclusiones basadas en ellos (Triola, 2004).
Otra definición considera a la Estadística como una disciplina

perteneciente a la Matemática Aplicada que se dedica al estudio cuantitativo
de fenómenos colectivos. Proporciona los métodos para:
• La recolección de datos
• Su ordenamiento, resumen y presentación,
• Su análisis e interpretación y
• Posterior enunciado de conclusiones.
Los cuatro pasos que se han enumerado constituyen las etapas del
trabajo estadístico.
La primera etapa tiene como objetivo recolectar datos proveniente de

medición, conteo u observación efectuado sobre el material objeto de estudio
en base a un plan formulado según los principios del diseño experimental y
las técnicas de muestreo.
La segunda etapa consiste en ordenar los datos en tablas estadísticas,
presentarlos mediante gráficos y diagramas y resumirlos a través del cálculo
de promedios, porcentajes e índices.
3
En la tercera etapa se analizan los resultados obtenidos en la etapa

anterior, y comienzan a distinguirse las características del fenómeno, lo que
permite utilizar diferentes métodos para analizarlos e interpretarlos.
En la última etapa se debe concluir acerca del estudio realizado.
Si las conclusiones, se refieren exclusivamente a los datos de los que se

dispone (una parte de la población que se desea estudiar), se dice que la
Estadística es Descriptiva.
Si por el contrario, las conclusiones van más allá de los datos que se
dispone y se refieren a un conjunto mayor (población), del cual se extrajeron,
se dice que la Estadística es Inferencial; las conclusiones van de lo
particular (muestra) a lo general (la población).Esta se basa en el estudio de
la teoría de probabilidades que nos permite medir el error de nuestras
afirmaciones.
Las estadísticas (en plural) se obtienen como resultado del trabajo

estadístico y están constituidas por porcentajes, promedios, tablas, gráficos y
otros elementos que describen un fenómeno y ayudan a su comprensión (Ej.:
estadísticas demográficas, estadísticas del fútbol, estadísticas de accidentes
de tránsito, estadísticas universitarias, etc.).
Es necesario definir algunos conceptos importantes: por ejemplo
Población. Se define población como el conjunto de individuos u

objetos que comparten una característica común, en la que
el investigador está interesado.
Muestra. Es un subconjunto de la población. Debe ser representativa,

es decir se deben mantener las mismas características de
la población en estudio.
Una población puede ser finita o infinita.
Población finita Una población finita es aquella que puede ser

físicamente listada
Población infinita. Una población es infinita, cuando en la práctica

no puede ser físicamente listada
Ejemplo. Una población puede ser definida como los alumnos de la

escuela San Francisco. Los alumnos pueden ser listados e
individualizados a través de los registros áulicos. Es un ejemplo de
población finita.
Personas portadoras de SIDA en Santiago del Estero, constituyen

un ejemplo de población infinita.
4
Unidad de observación: es aquélla sobre la cual se efectúan las

mediciones u observaciones. La unidad de observación
puede ser una persona, una familia, una planta, una
parcela, etc.
Dato: es el valor que se obtiene de la medición, observación o conteo

efectuada en la unidad de observación o unidad de
muestreo.
Por ejemplo si el objetivo de una investigación es el rendimiento de

los alumnos, la unidad de observación es el alumno.
El número de materias rendidas contadas en un alumno es el

dato.
El conjunto de datos obtenidos de cada unidad de observación

constituirá la base para el análisis estadístico del rendimiento de los
alumnos de la escuela San Francisco.
Variables. Concepto y tipos.
Variable. Una variable es cualquier característica que varía de una

unidad de muestreo a otra en la población o en la
muestra
Ejemplo 1: Supóngase que interesa conocer la salud de los alumnos,

entonces la variable a observar en cada alumno será el estado de salud, el
que podrá asumir dos valores: sano o enfermo.
Ejemplo 2: Si interesa saber el número de hermanos que posee cada

alumno, se tendrá valores que van desde 0(ningún hermano), 1, 2...,n y se
deberá contar cuantos hermanos posee cada alumno.
Ejemplo 3: Si el objetivo de un estudio fuera la talla alcanzada por

alumnos, se debe medir la variable altura la que, expresada en metros podrá
tener valores mayores a 1 metro.
En los tres ejemplos anteriores, el nombre de la variable y la forma de

obtener sus valores está resaltado en negrita. En el primer ejemplo, los
valores que puede asumir la variable son calidades, por lo que se dice que la
variable es cualitativa. Las calidades o categorías pueden ser naturales
como al definir la variable sexo, o arbitrarias como la clasificación de alturas
en bajas, medianas y altas.
5
Por el contrario, en los otros dos ejemplos los valores que asumen las
variables pueden expresarse mediante números, por lo que las dos últimas
variables son cuantitativas. En el caso de número de hermanos, la variable
toma sólo determinados valores en el intervalo que va de cero a n, por lo que
se la denomina variable cuantitativa discreta o discontinua; cuando la
variable toma los infinitos valores dentro del intervalo se dice que la variable
es cuantitativa continua
Otra forma de clasificación de las variables es mediante el empleo de

cuatro niveles de medición: nominal, ordinal, de intervalo y de razón. Cuando
se manejan datos reales el nivel de medición es importante ya que orienta
sobre el procedimiento estadístico a utilizar.
Un nivel de medición es nominal cuando los valores de variables son

nombres, etiquetas o categorías y no se puede establecer un orden entre
ellos.
Ejemplo: colores de ojos, estado de salud, lugar de nacimiento de un alumno.

Aunque las ciudades pueden ser ordenadas según su tamaño, densidad
poblacional, grado de contaminación del aire, etc., en general, la variable
“lugar de nacimiento” no tiene un orden establecido
Con estos datos no es posible realizar cálculos. A veces se asignan

números a las diferentes categorías; a la variable salud que posee dos valores
sano y enfermo, podemos codificarlas numéricamente de la siguiente manera
1= sano, 2= enfermo pero esto no es nada más que una codificación y tales
números no tienen significado computacional.
Un nivel de medición es ordinal cuando se puede establecer un orden

entre las categorías de la variable. Ejemplo: máximo nivel de instrucción
alcanzado por los padres de los alumnos: analfabeto, primario, secundario,
terciario, universitario.
Lo único que podemos decir es que el nivel de instrucción secundario

es mayor que el primario y que el universitario es mayor que el primario,
secundario o terciario, pero no podemos decir cuanto mayor es una categoría
de la variable respecto a la otra.
Supongamos que se codifican dichos niveles con 1, 2, 3, 4 y 5.
Si bien se podría hacer la diferencia entre 2-1=1 y 4-3=1, este resultado

1 no significa que entre el primario y el analfabeto hay la misma cantidad de
conocimiento que entre el universitario y el nivel terciario.
Otro nivel de medición es el de intervalo. En este nivel la diferencia

entre dos valores de datos tiene un significado. En este nivel no hay un cero
natural, donde nada de la cantidad esté presente. El valor del cero es
convencional
6
Ejemplo: La variable Temperatura está medida en escala de intervalo. Un

termómetro por ejemplo, mide la temperatura en grados que son del mismo
tamaño en cualquier punto de la escala. Aquí no existe un punto de partida
natural, el valor 0° es arbitrario y no representa la ausencia total de calor. La
diferencia entre 20ºC y 21ºC es la misma que entre 12ºC y 13ºC Se pueden
realizar operaciones de suma y resta pero no cociente entre valores.
Por último el nivel de medición de razón o cociente aunque se

parece al nivel de medición de intervalo tiene un punto de partida o cero
inherente (donde cero indica que nada de la cantidad está presente). Para los
valores en este nivel tanto las diferencias como los cocientes tienen
significado. En este nivel se pueden realizar todas las operaciones.
Ejemplo: Los precios de los libros de texto (0$ representa ningún costo y un
precio de $60 es dos veces más costoso que uno de $30).
Datos
Variable Variable
Categórica o numérica o
cualitativa cuantitativa
Escala Escala Escala de Escala de

nominal ordinal intervalo razón
Series de datos. Series simples
El conjunto de valores de una variable constituye una serie de datos.

Se presentan a continuación series de datos referidas a los tres ejemplos que
se dieron para ilustrar tipos de variables:
Ejemplo 1: En el año 2004, se examinan 30 alumnos de un Curso de

EGB1 de la escuela San Francisco y se anota su estado de salud (S=Sano,
E=Enfermo).
7
Generalmente las variables se designan con las últimas letras del

abecedario en mayúscula por ej. X y los valores que toma la variable con x
minúscula; incluso se coloca xi donde el subíndice i indica el número de
individuo observado; de éste modo las 30 observaciones son:
xi : S, S, E, E, E, S, S, E, S, S, S, S, S, E, S, S, S, S, E, S, S, S, S, S, S, S, S,
S, S, S.
El subíndice “ i “ varía de 1 a 30. Así, x1 = S; x7 = S; X14 = E; . . . x30 =S.
Ejemplo 2: Un maestro de la Escuela San Martín interroga a sus 30 alumnos

de primer grado de EGB1 sobre el número de hermanos que poseen.
Xi: 4,1,6,0,0,1,2,3,1,0,2,5,6,4,2,0,1,2,4,3,5,6,1,3,2,4,5,2,6,0.
El subíndice “i“ va desde 1 a 30 y entonces x1 = 4; x5 = 0; x12 = 5; . .; x30
=0.
Ejemplo 3: Un maestro mide la talla de sus 25 alumnos de Sección

Maternal de la Escuela San Francisco la que expresada en cm es la siguiente:
xi(cm):
70,75,74,87,92,89,72,83,84,79,98,99,95,87,84,85,79,78,95,99,97,84,86,78,74.
Ahora “i” va desde 1 a 25, entonces x1 = 70; x2 = 75; . . .;

x25 =74.
Los datos en bruto, tal cual fueron obtenidos, sin agrupar

constituyen una serie simple.
Tablas y gráficos
Organización de datos categóricos o cualitativos.
Cuando la masa de datos obtenidos es muy grande y éstos están

desordenados, no dan información alguna; conviene por lo tanto ordenarlos y
tabularlos, haciendo uso de tablas estadísticas, que deben confeccionarse de
tal modo que los datos resulten fáciles de ser leídos e interpretados. Con los
datos del ejemplo 1 se puede construir una tabla de frecuencias.
Tabla de frecuencias. Una tabla de frecuencias para variable cualitativa, es

una tabla que asocia cada categoría de la variable con el número
de veces que se repite la categoría.
8
Tabla 1. Alumnos de un curso EGB1, de la Escuela San Francisco, según

estado de salud. Año 2004.
Categorías:xi Frecuencias: fi
i (Estado de salud) (nº de alumnos)
1 Sano 24
2 Enfermo 6
Total 30
Fuente: Datos ficticios
Frecuencia absoluta: Es el nº de veces que se repite cada categoría de la

variable. Se la simboliza con fi.
La suma de las frecuencias absolutas, es igual al nº total de observaciones,
2
en éste caso 30 ( ∑ f i = 30 ). Nótese que “ i “ ahora se refiere a las categorías,
i =1
x1 = Sano, f1 = 24; x2 = Enfermo, f2= 6.
La tabla de frecuencias, es la más sencilla de las tablas y es una tabla

de simple entrada pues los individuos se clasifican según una única variable,
estado de salud en el ejemplo.
.
Los datos organizados en tabla de simple entrada para variable
cualitativa, pueden presentarse mediante gráficos, que tiene la finalidad de
que la información entre por los ojos. El gráfico que puede usarse en éste
caso es el gráfico de barras.
Gráfico 1a. Alumnos de un curso EGB1, de la Escuela San Francisco, según

30
25
Nº de alumnos
20
15
10
5
0
Sanos Enfermos
Estado de salud

.
9
Para su construcción se utiliza el sistema de coordenadas ortogonales.

Sobre el eje horizontal se colocan las distintas categorías de la variable en
estudio (estado de salud) y sobre el eje vertical con una escala adecuada, se
representan las frecuencias. Se dibujan barras de ancho constante, una para
cada valor de la variable, con una altura que representa el valor de la
frecuencia que corresponde a cada categoría. Es conveniente que la
separación entre las barras sea menor que el ancho de las mismas.
El ancho de las barras debe elegirse teniendo en cuenta el espacio

disponible, el número de categorías de la variable a representar y la altura
que les corresponde, con el objeto de obtener un gráfico proporcionado. Las
barras pueden dibujarse en sentido vertical u horizontal.
Gráfico 1b. Alumnos de un curso EGB1, de la Escuela. San Francisco, según

Enfermos
Estado de salud
Sanos
0 5 10 15 20 25 30
Nº de alumnos
En algunos trabajos es necesario calcular frecuencias relativas.
Frecuencia relativa de una categoría es la proporción de veces que ocurre

dicha categoría.
Se obtiene dividiendo la frecuencia absoluta de cada categoría entre la suma

de las frecuencias de todas las categorías. La suma en éste caso es f1 + f2 =
24 + 6 = 30, y se expresa literalmente mediante el signo ∑ que se
denomina sumatoria, así
i = 2
∑i = 1
fi = f 1 + f 2 = 24 + 6 = 30
a la frecuencia relativa de la clase i-ésima se la simboliza con fri y se la

calcula de la siguiente manera:
10
fi
fri =
∑f i
La suma de las frecuencias relativas es siempre igual a 1.
∑ fr
i =1
i =1
Si se multiplica las frecuencias relativas por 100 se obtienen porcentajes.

En éste ejemplo sería:
Tabla 2. Alumnos de un curso EGB1, de la Escuela. San Francisco, según

xi fi Porcentajes:
i (Estado de salud) fri %
1 Sano 24 24/30=0,80 80
2 Enfermo 6 6/30=0,20 20
Total 30 1,00 100
Se pueden representar los datos de la tabla 2 mediante un gráfico de

barras, sólo que en el eje vertical van los porcentajes.
Gráfico 2. Alumnos de un curso EGB1, de la Escuela San Francisco, según

% 100
80
60
40
20
0
sanos enfermos
Estado de salud
Otro gráfico adecuado para representar series de frecuencias de

variable cualitativa es el gráfico de sectores circulares, llamado gráfico de
tortas o pie charts.
11
Tabla 3. Alumnos de un curso EGB1, de la Escuela San Francisco, según

sexo. Año 2004.
Sexo fi
fri 360ºxfri
(nº de alumnos)
Varones 15 0,38 137º
Mujeres 25 0,62 223º
Total 40 1,00 360º
Se elige un radio por ej 3cm (el valor del radio se elige según el espacio que se
disponga para el gráfico) y se grafica un círculo. La superficie de dicho
círculo representa el total de alumnos (40), en consecuencia, le corresponde
un ángulo de 360°. Se puede discriminar mediante sectores circulares la
porción que corresponde a las mujeres y a los varones. Los grados
correspondientes a los sectores se obtienen multiplicando la frecuencia
relativa por 360º.
Gráfico 3. Alumnos de un curso EGB1, de la Escuela. San Francisco, según

sexo. Año 2004.
Varones
Mujeres
38%
62%
Variables cuantitativas.
Ejemplo: Nº de hermanos que tienen los alumnos de primer grado de EGB1

de la escuela San Martín
Xi: 4,1,6,0,0,1,2,3,1,0,2,5,6,4,2,0,1,2,4,3,5,6,1,3,2,4,5,2,6,0
Para el caso de variables cuantitativas discretas, la tabla de

frecuencias se construye de la siguiente manera: se ubica el valor mayor y el
menor valor de la variable (en el ejemplo 2 del n° de hermanos por alumno,
el menor valor es cero y el valor mayor 6), se colocan todos los valores
12
correspondientes en la primera columna de la tabla, y luego se cuentan las

veces que se presentan dichos valores. La tabla resultante es:
Tabla 5. Alumnos de primer grado de EGB1 de la escuela San Martín según

Nº de hermanos.
Xi fi Fi fr %
0 5 5 0,17 17
1 5 10 0,17 17
2 6 16 0,20 20
3 3 19 0,10 10
4 4 23 0,13 13
5 3 26 0,10 10
6 4 30 0,13 13
Total 30 1,0 100
La diferencia que existe entre cada clase es constante e igual a 1.
Además de las frecuencias relativas (cuyo cálculo se explicó en párrafos

anteriores) aquí se puede calcular también las frecuencias acumuladas Fi. La
frecuencia acumulada de una clase se obtiene sumándole a la frecuencia de
la clase, la frecuencia de las clases anteriores.
F (0)=5
F (1)=5+5=10
F (2)=5+5+6=16 = Fi (1)+6
La tabla de frecuencias para variables cuantitativas discretas se

representa mediante un gráfico de bastones. En la abscisa se colocan los
valores de la variable y se levanta para cada uno de ellos una línea de altura
igual a su frecuencia.
Gráfico 4. Alumnos de primer grado de EGB1 de la escuela San Martín

según Nº de hermanos.
13
frecuencia 3
0
0 1 2 3 4 5 6
Número de hermanos
Interpretación:
El número 6 en la columna de fi significa que 6 alumnos tienen 2 hermanos.
El número 19 en la columna Fi significa que 19 alumnos tienen 3 hermanos
o menos.
El número 20 en la columna de porcentajes significa que el 20% de los
alumnos tienen 2 hermanos.
Para el caso de variables cuantitativas continuas como los datos del

ejemplo 3 (altura en cm de 25 alumnos de una sección maternal de la
Escuela San Francisco) que fueron obtenidos por medición, se recomienda
construir intervalos de clase, cuya amplitud depende de la cantidad de
intervalos que se deseen construir y la cantidad de datos que posee la serie
simple. Es recomendable que los intervalos de clases sean iguales, es decir
que la amplitud de los mismos (a) sea constante. La técnica a emplear para el
agrupamiento de una serie simple de variable cuantitativa continua es
sencilla.
xi (cm): 70, 75, 74, 87, 88, 89, 72, 83, 84, 79, 98, 99, 95, 87, 84, 85, 79, 78,
95, 99, 97, 84, 86, 78, 74
1. -Se ubica el valor mayor que toma la variable (99 cm) y el valor menor (70
cm).
2. - Se obtiene la diferencia, la que se denomina Rango o amplitud de

variación y se designa con la letra R.
R = xmax − xmin = 99 − 70 = 29
14
3.– El número de intervalos aproximado se puede calcular con la siguiente

fórmula:
log(n + 1)
n° de intervalos =
log(2)
dónde n: n° de valores de la serie o tamaño de la muestra
log: logaritmo decimal
log(25 + 1)
n°de int erv. = = 4,7004 ≈ 5 int ervalos
log(2)
Cuando en la variable que se estudia existen intervalos predeterminados, el

número de clases o intervalos dependerá de la amplitud que se usa
habitualmente.
4. - El rango se divide entre el nº de clases o intervalos de clases, 5 para éste

ejemplo, (se recomienda que el número de intervalos no sea menor que 5, ni
mayor de 15, pues en el primer casos se reduce demasiado la información y
en el segundo no se cumple con el objetivo del agrupamiento) obteniéndose
una idea aproximada de la longitud o amplitud del intervalo de clase.
Rango 29
a= = = 5 .8 ≅ 6
n º de int ervalos 5
Éste valor de amplitud es orientativo, por lo que se decide tomar una

amplitud de intervalo 5 cm para facilitar el agrupamiento.
5.- Se delimitan las clases buscando preferentemente valores enteros para

sus límites. Se debe elegir el límite inferior del 1er intervalo de tal manera
que contenga al menor valor de la serie (70 cm). La elección recae en el 70. El
límite superior del 1er intervalo, se obtiene sumando al Li la amplitud.
Li del 1er intervalo = 70

Ls del 1er intervalo = Li + a= 70 + 5 = 75
El límite inferior del 2do intervalo debe coincidir con el límite superior
del primer intervalo.
Li del 2do intervalo = 75

Ls del 2do intervalo Li + a= 75+ 5 = 80
El límite inferior del 3er intervalo debe coincidir con el límite superior
del 2do intervalo, y así sucesivamente, hasta que el límite superior del último
intervalo, contenga el valor observado más alto de la variable.
6.- Una vez formadas las clases se procede al conteo, que consiste en
determinar el nº de observaciones (frecuencias) de cada clase. Una manera
sencilla de hacerlo es leyendo la serie simple y ubicando mediante marcas
15
cada valor de la variable en su clase correspondiente. De ésta manera

cuando se termine de pasar lista a la serie simple, el agrupamiento ha sido
efectuado.
Tabla 6. Alumnos de Sección maternal de la escuela San Francisco según su

altura.
Intervalo de clase xi
fi fri
(altura en cm) (marca de clase)
70 a 75 72.5 4 0,16
75 a 80 77.5 5 0,20
80 a 85 82.5 4 0,16
85 a 90 87.5 5 0,20
90 a 95 92.5 1 0,04
95 a 100 97.5 6 0,24
Total 25 1,00
Un problema que se puede presentar es el siguiente: si un valor de la

variable coincide con uno de los límites del intervalo, por ejemplo la altura 95
cm ¿dónde se lo ubica? ¿en el quinto o en el sexto intervalo de clase? La
respuesta es: puede ubicarlo en cualquiera de los intervalos, pero si se elige
un criterio se lo debe respetar hasta el final del agrupamiento. En éste
ejemplo al nº 95 se lo ubica en el 6° intervalo, de la misma manera, cuando
aparezca por ejemplo un valor 85, debe ser anotado como perteneciente al
intervalo en el que el nº 85 se encuentra como límite inferior. El intervalo de
clase es cerrado en el límite inferior y abierto en el superior. Esto se indica de
la siguiente forma [75;80 ) los valores del intervalo van desde 75 a 79,9999.
7.- Se agrega una tercera columna, titulada “marca de clase” o “punto medio
de clase” que se designa con xi que contiene los valores correspondientes a
los puntos medios de cada uno de los intervalos y se calcula así:
Li1 + Ls1 70 + 75
x1 = = = 72,5
2 2
Li + Ls 2 75 + 80
x2 = 2 = = 77,5
2 2
También se puede calcular de la siguiente manera
x 2 = x1 + a = 72,5 + 5 = 77,5
Al efectuar el agrupamiento, se pierde detalle de la información ya que,

por ejemplo, de los valores que resultaron ubicados en la primera clase, sólo
se sabe ahora que se encuentran entre 70 y 75. Por eso, en caso de ser
necesario asignar un valor a cada uno de ellos, como es en el cálculo de la
media aritmética a partir de la tabla de frecuencias, se opta por pensar que
16
todos tienen igual valor, que es el correspondiente al punto medio de clase.
Un gráfico adecuado para representar una serie de frecuencias de

variable cuantitativa continua es el histograma (gráfico nº 5). Su
construcción es fácil. Se utiliza el sistema de coordenadas cartesianas
ortogonales. En el eje de las ordenadas (vertical) se marcan las frecuencias (fi)
y en el de las abscisas (horizontal), la variable según la cual se efectuó la
clasificación (altura). Consiste en rectángulos adyacentes (uno por cada
clase) con bases materializadas por la amplitud de clases (5 cm). La altura
está dada por la frecuencia correspondiente a la clase. Cuando las clases son
iguales, el área del histograma es proporcional a la frecuencia total.
Gráfico 5.Alumnos de Sección maternal de la escuela San Francisco según

su altura.
6
5
4
Nº alum.
2
1
0
70 75 80 85 90 95 100
Altura (cm)
Otro gráfico adecuado para representar la serie de frecuencias de

variable cuantitativa continua es el polígono de frecuencias (gráfico 6). Se
emplea para su realización el sistema de coordenadas cartesianas
ortogonales. Se coloca la variable clasificadora en el eje horizontal y las
frecuencias en el vertical.
La construcción es sencilla, se marcan tantos puntos como pares de

valores (xi,fi) o sea marcas de clase, frecuencias haya en la tabla. En la tabla
Nº 6 vemos que hay 6 pares de valores; el primer par tiene abscisa 72,5 y
ordenada 4 y así sucesivamente hasta marcar el sexto par. Luego se unen los
puntos mediante trazos rectos. Algunos autores, en su afán de mantener la
proporcionalidad entre la superficie y la frecuencia aconsejan cerrar el
polígono de frecuencias uniendo el primer punto con la marca de clase
inmediata anterior y el último punto con la inmediata superior; en éstos dos
casos la unión de los puntos se realiza con trazos cortados.
La principal ventaja de los polígonos de frecuencias consiste en que

ellos permiten dibujar en el mismo sistema de eje dos o más polígonos
correspondientes a series diferentes que tengan similar posición sobre el eje
17
de las x, así se puede compararlos, lo cual resulta engorroso efectuar con los
histogramas a causa de la superposición de las superficies de los
rectángulos.
Gráfico 6.Alumnos de Sección maternal de la escuela San Francisco según

su altura.
5
Nº de alumnos
0
65 70 75 80 85 90 95 100 105
Altura(cm)
Como cada miembro de una población presenta diversas

características, se puede necesitar clasificarlos de acuerdo a dos de ellas.
Cuando el número de individuos medidos es pequeño, se enumeran todos
los pares de observaciones, si alguno de ellos aparece dos veces, se lo repite y
la presentación suele hacerse de modo que una de las dos variables esté
ordenada.
Tabla 9. Alumnos de una escuela según su peso y altura.

Peso 39
40 41 42 43 43 44 45 50 52
(kg)
Alt (m) 1,27 1,30 1,30 1,31 1,34 1,35 1,37 1,39 1,45 1,49
Para representar estos datos que corresponden a dos variables

cuantitativas continuas se utilizan los gráficos de dispersión o scatter
plot, que se construye de la siguiente manera: se coloca una de las variables
en las abscisas o eje horizontal, por ejemplo la altura y la otra variable, el
peso, en el eje vertical, con sus escalas correspondientes, luego se marcan
tantos puntos como pares de valores (xi, yi) se tengan.
18
Gráfico 7. Alumnos de una escuela según su peso y altura.

1,55
1,5
1,45
Altura (m)
1,4
1,35
1,3
1,25
35 40 45 50 55
Peso (kg)
Éste gráfico sirve para mostrar la relación entre las dos variables y se
usa cuando para el mismo valor de xi se tiene diferentes valores de yi. Si esto
no ocurre puede utilizarse el gráfico lineal, que se construye de igual manera
que el anterior, con la única diferencia que se unen los puntos. Éste gráfico,
se suele emplear, especialmente, en los casos donde la variable que se
representa en el eje horizontal es el tiempo. De éste modo se puede ver la
evolución de la otra variable en el período considerado. Pueden representar
simultáneamente en el mismo gráfico dos o más variables, como se observará
al representar gráficamente los datos de la tabla Nº 10
Tabla 10. Inasistencias mensuales de alumnos de Segundo grado A de EGB1

de la Escuela San Martín según sexo
N° de inasist.
Meses
Mujeres Varones
Marzo 3 4
Abril 5 7
Mayo 2 4
Junio 6 5
Julio 8 8
Agosto 4 5
Sept. 3 4
Octubre 4 3
Noviem. 5 2
Diciem. 1 6
Gráfico 8. Inasistencias mensuales de alumnos de Segundo grado A de

EGB1 de la Escuela San Martín según sexo
19
9
Mujeres
8 Varones
Nº de inasistencias
6
0
M A M J J A S O N D
Meses
Cuando los pares de valores son muy numerosos, las tablas se

presentan según lo muestra la tabla 11; en éste caso se dice que las tablas
son de doble entrada pues son dos las variables de clasificación.
Tabla 11. Alumnos de la escuela Nº 42 según ocupación de la madre y lugar

de residencia.
Ocupación Barrios Total

de la
Madre A B C
A. de casa 400 500 200 1100
Profesional 200 200 50 450
Empleada 300 400 100 800
Total 900 1100 350 2350
En este ejemplo cada alumno se caracteriza según la variable Ocupación

de la madre (variable cualitativa nominal) y Barrio de residencia (variable
cualitativa nominal).
Los valores que se encuentran en la celda son frecuencias, es decir

representan la cantidad de alumnos que comparten las dos características.
Las partes de una tabla son:
La matriz, formada por la primera fila, lleva los encabezamientos de las

columnas y / o la primera columna que titula a las filas.
El cuerpo constituido por celdas.
20
La información proporcionada por los valores de las celdas se completa

con la suministrada por los encabezamientos de las filas y columnas; en las
celdas se encuentra la frecuencia, es decir la cantidad de elementos o
individuos que poseen las dos características.
Por ejemplo el 100 de la última celda significa que en esa escuela hay 100
alumnos que viven en el Barrio C y cuyas madres son empleadas.
El gráfico que se utiliza para representar éste tipo de tablas es el

gráfico de barras compuestas (gráfico 9) y el gráfico de barras
agrupadas (gráfico 10).
Gráfico de barras compuestas
La construcción del gráfico de barras compuestas es sencilla. Se

comienza dibujando las barras como si fueran simples es decir con las
alturas correspondientes a los totales y luego se yuxtaponen los valores
parciales hasta alcanzar el de su suma. En el ejemplo, Barrio A, se procede
de la siguiente manera: se marca una barra de altura 900, en ella se indica la
subdivisión que corresponde a alumnos cuyas madres son amas de casa con
el valor 400; para marcar el nº de alumnos que es 200, se marca
400+200=600 en el eje vertical lo que queda corresponde nº de alumnos
cuyas madres son empleadas. De igual manera se procede con los barrios B y
C.
Gráfico 9. Alumnos de la escuela Nº 42 según ocupación de la madre y lugar

de residencia
1200
Empleada
Profesional
1000
A. de casa
Nº de alumnos
800
600
400
200
0
A B C
Lugar de residencia

Gráfico de barras agrupadas
Sirven para representar fenómenos similares a los que originan barras

compuestas. La diferencia con éstas estriba en que, para cada valor de la
variable independiente “x” en éste ejemplo lugar de residencia, se dibujan
grupo de barras . El número de barras en cada grupo es el del número de
categorías de la segunda variable, en este ejemplo ocupación de las madres.
21
Gráfico 10. Alumnos de la escuela Nº 42 según ocupación de la madre y

lugar de residencia.
600
A. de casa
Profesional
500
Empleada
Nº de alumnos 400
300
200
100
0
A B C
Lugar de residencia
Otro tipo de gráficos son los gráficos de figuras o pictogramas. Son

los más indicados para publicaciones de divulgación popular, por su fácil e
inmediata interpretación. Consisten en dibujos esquemáticos y relacionados
con el fenómeno a representar. Cada figura es equivalente a una cantidad
determinada, preferentemente entera, de unidades de la variable dependiente
y el número de unidades no su tamaño, es proporcional a la magnitud a
representar.
Cartogramas: Se emplean cuando es importante señalar la

distribución geográfica de un determinado acontecimiento, razón por la cual
se construyen sobre planos o mapas.
Cartogramas de señalización (Gráfico 11): Sirven para indicar la

distribución de una variable cualitativa sobre una base geográfica. Mediante
figuras, colores o diferentes rayados se señala que hay en lugares
determinados.
22
Gráfico 11. Qué es lo que caracteriza a cada provincia argentina.
Fuente: Pensando en Plural. División de educación tributaria. AFIP. Mayo 2005. ISBN
Nº987-9101-26-X
En este mapa, se observa lo que caracteriza a cada provincia argentina.
Por ejemplo en Santiago del Estero las aguas termales; en La Pampa la
producción de trigo, etc...
Cartogramas de densidad: además de indicar que hay y dónde, de

ellos se puede obtener la información de cuánto hay. Mediante diferente
rayado o colores y también utilizando barras sobre la base geográfica, se
puede expresar la cuantía del fenómeno como así también su ubicación.
Suelen utilizarse pictogramas, gráficos de líneas, en general cualquiera de los
descriptos, sobre el mapa o plano.
Resumiendo: los datos se ordenan, clasifican y presentan en formas

de tablas. Las tablas pueden de ser de simple entrada(cuando los individuos
se clasifican según una variable), de doble entrada(cuando los individuos se
clasifican según dos características) y de triple o más entradas (cuando se
clasifican los datos según tres o más variables).Las tablas se complican a
medida que se agregan más variables, por lo tanto es preferible varias tablas
sencillas a una complicada.
Toda tabla debe llevar título, el cuál debe responder a las preguntas
¿Según?, ¿Qué?, ¿Cuándo? y ¿Dónde?.
No se debe olvidar la fuente de datos que indica de donde proviene la

23
información.
Se debe incluir los totales.
En caso de expresar los datos en porcentajes, deben indicarse los

totales de los cuales provienen.
Con respecto a los gráficos, éstos constituyen una de las formas más
útiles de presentación de datos estadísticos. Su importancia reside en las
múltiples formas que pueden adoptar, lo que permite su aplicación a una
amplia gama de finalidades: didácticas, de investigación, etc. Sirven para
mostrar la relación entre una o más variables. La variedad de tipo de
representaciones gráficas exige una cautelosa elección de acuerdo a su
finalidad. La selección de la presentación gráfica debe, por lo tanto tener los
siguientes aspectos:
Tipo de análisis estadístico, características y número de los fenómenos

o variables a representar y público al que va dirigido.
Recomendaciones para la construcción correcta de un gráfico.
Una vez elegido el tipo de gráfico adecuado, es conveniente no

descuidar las siguientes consideraciones:
• Decidir cuál de las variables es la independiente “x” y cuál la

dependiente “y”.
• La representación gráfica debe ser sencilla, simple y explicarse por
sí misma.
• Título se coloca encabezando el gráfico y debe responder a las
preguntas; qué, según, cuándo, dónde?.
• Fuente de datos. Se coloca al pie del gráfico.
• Escalas se elige de tal modo que no alteren la objetividad de la
representación, hecho éste muy utilizado para fines publicitarios
donde es común ver escalas construidas con el propósito de
alterar el fenómeno exagerando ventajas y enmascarando la
realidad, o lo que es peor aún eliminando la graduación de los
ejes, evitando de ésta forma todo patrón de comparación. Las
escalas deben construirse buscando obtener como resultado un
dibujo armónico y proporcionado.
• Debe nominarse los ejes de modo tal que no quede duda alguna
acerca de las variables que en ellos se representan.
• No olvidar el corte de ejes en caso de ser necesario. Éste debe
efectuarse entre el 0 y el valor mínimo a representar.
24
• Aclaración de las unidades de representación.

• Las referencias serán colocadas al pie o al costado del gráfico.
• En caso de usarse abreviaturas, éstas serán aclaradas con la
debida extensión, en el renglón siguiente al correspondiente a las
fuentes.
• En lo posible acompañar los gráficos con las tablas estadísticas
que lo originen.
• Si el trabajo lo requiere y es necesario expresar algunos
valores en %, deben consignarse las cifras de las cuales
provienen éstos porcentajes.
ÍNDICES
El Índice es un indicador útil tanto para fijar situaciones como para

hacer un diagnóstico. Cuando interesa comparar los valores de una
característica de la educación (matrícula, asistencia de alumnos, número de
profesores, etc...) en el tiempo o en el espacio, ya sea comparando dos
valores entre sí o todos con uno de ellos se puede realizar un cociente cuyo
resultado se denomina Índice simple.
Ejemplo: Se desea comparar la matrícula escolar de una escuela en el año

2004 con la matrícula en el año 1994. Si la primera es de 4000 alumnos y la
de 1994 es de 2000, el Indice será:
4000
I 2004/1994 = =2
2000
Lo que indica que la matrícula en el año 2004 es el doble que la
matrícula de 10 años atrás, en esa escuela.
El valor que va en el denominador se llama base.
El Indice del año base es 1:

2000
I1994/1994 =
=1
2000
Con frecuencia se multiplica por 100 los índices con lo que entonces
los índices son los porcentajes correspondientes siendo 100 el porcentaje del
índice base.
25
Los Índices más comunes utilizados en educación son:
• Razón de alumnos matriculados en las escuelas con respecto a la

población en edad escolar.
N °alumnos matriculados
I=
Población en edad escolar
Ejemplo: En el año 2001, en la localidad de La Banda según el INDEC, la
población en edad escolar fue de 88735 y los alumnos matriculados fue de
32613. La razón de alumnos matriculados es entonces en ese año de:
32613
I= = 0.37
88735
Es decir que solo el 37% del total de la población en edad escolar asiste a la
escuela.
• Alumnos por maestro en las escuelas primarias.
N °alumnos
I=
N °maestros
Ejemplo: Si el total de alumnos de una escuela es de 1000 y el plantel
docente informa que hay 40 maestros ( Datos ficticios), la razón alumnos por
maestro es:
1000
I= = 25
40
Es decir que en esa escuela hay 25 alumnos por cada maestro.
• Porcentaje de población analfabeta de 15 años y más.
N °analfabetos.de 15años y más

I= * 100
Población de 15años y más
Ejemplo: En la provincia de Santiago del Estero según el INDEC, en el año

2001 el total de población de 15 años y más fue de 571546 personas. De
ellas, 31625 no tenían ninguna instrucción.
El Porcentaje de población analfabeta para la provincia es entonces,
31625
I= * 100 = 5.53%
571546
26
• Tasa de ausentismo de docentes

Es el porcentaje de ausentismo de docentes en un período de tiempo
determinado.
N º de días de ausencia de todos los docentes en un período

Ta = * 100
N º de días de clase de todos los docentes en ese período
Ejemplo: Si en una escuela hay una planta docente de 115 personas y el
total de inasistencias de los docentes (por diversas causas) en el año es de
3101días, la Tasa de ausentismo se calcula como sigue(considere que los
días de clase en el año son 180):
3101
Ta = * 100 = 14.98%
115 * 180
• Tasa de desgranamiento
Es la proporción de alumnos ingresados al primer grado (o curso) que no
lograron culminar todos los grados (o cursos) correspondientes al nivel, en el
período establecido.
N º de alumnos que no culminaron sus estudios en el período establecido

Td = * 100
N º de alumnos matriculados al inicio del período
Ejemplo: Si en el estudio de la cohorte 1974-1980 el número de alumnos

matriculados en la Argentina en la escuela primaria al inicio del período es
de 729048 y los que no culminaron sus estudios es de 337292 (Fuente:
Estado, sociedad y educación en la Argentina de fin de siglo. D. Filmus.
Troquil-Bs.As.-1996-Pág.87.Citado por Lic,. Julio Zurita: Guía de actividades
de la asignatura: Introducción a la Estadística Educativa. Escuela para la
Innovación Educativa. UNSE. Año 1999)
la Tasa de desgranamiento es: 337292

Td = = 0,46
729048
Es decir que en ese período hay un desgranamiento del 46%.

El 46% de los alumnos matriculados al inicio del período no culminaron sus
estudios al final del mismo.
• Tasa de retención de la cohorte

Es la proporción de alumnos ingresados al primer grado (o curso) que
lograron culminar todos los grados (o cursos) correspondientes al nivel, en el
período establecido.
N º de alumnos que culminaron sus estudios en el período establecido

Tr = * 100
N º de alumnos matriculados al inicio del período
27
Ejemplo: Si en el mismo período considerado en el ejercicio anterior

terminan el 7ª grado 391756 alumnos de los 729048 matriculados, la Tasa
de retención será:
391756
Tr = = 0,5374
729048
Es decir que la Tasa de retención es aproximadamente del 54%.

El 54% de los alumnos matriculados al inicio del período culminaron
sus estudios al final del mismo.
• Tasa de escolarización
Proporción de la población en edad escolar que está efectivamente
escolarizada
N º de alumnos matriculados
Ez = *100
Población en edad escolar
Ejemplo: La población de 5 años y más para Sgo. del Estero en el 2001

según el INDEC es de 706794 habitantes. De ellos asisten a la escuela
237708.
La Tasa de escolarización es:

237708
I= * 100 = 33.63%
706794
Es decir que el 33,63% de la población en edad escolar asiste a la escuela.
28
GUÍA DE EJERCITACIÓN
Actividad 1
Clasifique en base al siguiente listado las variables socio educativas, en
cualitativas nominales u ordinales y cuantitativas discretas o continuas
Variable Tipo
Religión
1-
Nº de alumnos promocionados por curso
2-
Barrios
3-
Nivel de educación alcanzado por el tutor
4-
Edad de los alumnos
5-
Sexo
6-
Nº de inasistencias mensuales
7-
Altura de los alumnos
8-
Lugar de nacimiento
9-
Peso de los alumnos
10-
Horas de estudio diario
11-
Nº de materias que cursan
12-
Nº de hermanos que tiene cada alumno
13-
Grado de satisfacción por la asignatura
14-
Superficie construída por escuela
15
Nº de escuelas por Departamento
16
Categorías de escuela
17
29
Actividad 2
Los siguientes datos corresponden a Nº de inasistencias de los

alumnos de un curso correspondientes al primer cuatrimestre
xi: 8 5 3 4 2 5 4 4 10 6
6 7 5 5 3 9 7 2 6 4
9 4 5 0 8 6 5 1 1 4
5 7 2 7 6 4 9 4 5 3
a) ¿Que indica el subíndice i?

b) ¿Cuál es la variable que se estudia?. Clasifíquela.
c) Ud. debe presentar un cuadro de inasistencias de los alumnos. ¿Cómo
construye el mismo?
d) Incluya en la tabla: frecuencias acumuladas, frecuencias relativas,
porcentaje y porcentaje acumulado correspondiente a cada valor de la
variable.
e) Presente los resultados con el gráfico apropiado.
Actividad 3
En un curso de 50 alumnos de un establecimiento de la Capital del a
Pcia. De Sgo. Del Estero, se empleó la técnica de profundización de temas por
grupo en el desarrollo de contenidos teóricos. Se distribuyó un cuestionario
con la finalidad de determinar la actitud de los mismos ante esta modalidad
de estudio. Una de las preguntas estaba referida al grado de conformidad
sobre el desarrollo de los contenidos teóricos.
Los resultados obtenidos fueron los siguientes:

xi:
MC MD C I C MC D D MC MC
I MC I MC D MC MD C D C
MC D MC D MC D MD I C C
C MD MC I C MC MC D C MC
C MC D MD MC I D MC I MC
Donde:
MC: muy conforme
C: conforme
I: indiferente
D: disconforme
MD: Muy disconforme
a) Indique el tamaño de la muestra

b) Ud. debe representar al establecimiento en una reunión de profesores
en la que participan distintos Colegios de la Capital. ¿Como
presentaría la opinión del alumnado?
c) Que título colocaría a la presentación?
30
d) Incluya en la misma frecuencias relativas y porcentajes

correspondiente a cada valor de la variable.
e) Presente esos mismos resultados con un gráfico de barras simples.
f) Indique si corresponde calcular frecuencia acumulada. En el caso de
respuesta afirmativa obtenga dicha frecuencia.
g) Analice los resultados obtenidos
Actividad 4
En un estudio realizado en el Instituto Santo Tomás de Aquino para
determinar la zona de influencia del mismo según el lugar de residencia de
los alumnos, los resultados obtenidos fueron los siguientes:
Alumnos del Instituto Santo Tomás de Aquino según el barrio en el que

residen.
Barrios Número de alumnos

Barrio Belgrano 300
Barrio Cabildo 150
Barrio Contreras 30
Barrio Ejército Argentino 20
Total 500
a) ¿Que representa el número 500?

b) ¿Cuál es la variable de clasificación? Indique de que tipo de variable se
trata.
c) Obtenga frecuencias relativas y los porcentajes correspondientes.
d) Determine si corresponde calcular frecuencias acumulada.
e) Realice gráfico de tortas.
f) ¿Qué otro gráfico puede emplear para representar estos datos?
Actividad 5
Los siguientes datos corresponden a la edad de los tutores de alumnos que
concurren al EGB de un establecimiento escolar
xi:
44 30 45 48 31 45 33 35 54 44
45 47 38 56 29 43 43 62 60 30
52 36 45 31 31 32 34 32 54 55
55 46 61 39 43 38 47 45 38 37
63 49 34 48 34 64 44 47 36 60
50 52 37 41 29 37 49 37 39 56
39 46 46 31 60 29 53 40 41 58
Presentar los datos:

a) En una tabla con un número aproximado de intervalos de clase.
b) En una tabla con 5 intervalos
c) ¿Que gráficos utilizaría para representar los datos contenidos en estas
tablas?
d) Con la tabla presentada en el item b, realice un histograma.
31
e) Con la tabla presentada en el item a, realice un polígono de

frecuencias.
Actividad 6
Los siguientes datos corresponden a alumnos analfabetos por Departamento
en la Pcia. de Santiago del Estero, discriminados por sexo. Año 2001.
Departamento Total Sexo
Varones Mujeres
Capital 4587 2299 2288
Banda 4752 2461 2291
Río Hondo 3473 1960 1513
Robles 2116 1166 950
FUENTE: INDEC. Censo Nacional de Población, Hogares y Viviendas. 2001.
En base a los datos proporcionados en la tabla anterior realice:

a) Gráfico de barras simples que muestre el número total de alumnos
analfabetos por Departamento. ¿Que otro tipo de gráfico podría
utilizar en la representación?
b) Gráfico de tortas que muestre el número de alumnos analfabetos
discriminados por sexo para el Departamento Robles.
c) Realice un gráfico de barras agrupadas por Departamento
d) Realice un gráfico de barras porcentuales por Departamento
discriminando dentro de cada una de ellas los porcentajes de varones
y mujeres analfabetos.
Actividad 7
Utilice un gráfico lineal para mostrar la evolución de egresados del

Polimodal,
Año Nº de egresados
1980 233
1985 278
1990 321
1995 375
2000 391
FUENTE: Datos ficticios
32
Actividad 8
En base a los datos de la siguiente tabla:
Población en edad escolar, Nº de alumnos matriculados y Nº de maestros

correspondiente a cuatro lugares de la República Argentina.
Lugar Población en Nº de alumnos Nº de alumnos Nº de maestros

edad escolar matriculados no
matriculados
A 300000 248.000 7.000
B 150000 106.000 4.000
C 25000 24.000 1.200
D 160000 142.000 4.750
Fuente: Datos Ficticios
Calcular para cada lugar:

a) Proporción de alumnos matriculados
b) Nº de alumnos por maestro
c) Tasa de escolarización
d) Número de alumnos No matriculados
e) Porcentaje de alumnos No matriculados
Actividad 9
Dada la siguiente tabla, calcule la retención y el desgranamiento de cada
cohorte y en base a los resultados realice el análisis correspondiente
Retención y Desgranamiento de la Escuela Primaria. Su evolución en 3 ciclos

escolares del período 1964-1980.
Ciclo Escolar Alumnos matriculados

1er Grado 7º Grado
1964 - 1970 723.264 321.940
1969 - 1975 751.049 375.723
1974 - 1980 729.048 391.756
Fuente: Estado, sociedad y educación en la Argentina de fin de siglo. D.

Filmus. Troquil-Bs.As.-1996-Pág.87.Citado por Lic,. Julio Zurita: Guía de
actividades de la asignatura: Introducción a la Estadística Educativa.
Escuela para la Innovación Educativa. UNSE. Año
a) Calcule la tasa de desgranamiento

b) Calcule la tasa de retención
c) Interprete los resultados obtenidos
33
Actividad 10
La siguiente tabla fue extraída del Censo Nacional de Población, Hogares y
Vivienda . 2001.
Población de 10 años y más de departamentos de Santiago del Estero, por

condición de alfabetismo y sexo. Año 2001.
Provincia Población Condición de alfabetismo

de 10 Alfabetos Analfabetos
años y Total Varones Mujeres Total Varones Mujeres
más
Total 607.782 571.067 284.309 286.758 36.715 19.030 17.685
Capital 191.311 186.724 87.894 98.830 4.587 2.299 2.288
Banda 97.689 92.937 45.066 47.871 4.752 2.461 2.291
Río 38.435 34.962 17.361 17.601 3.473 1.960 1.513
Hondo
Copo 19.241 17.264 9.156 8.108 1.977 948 1.029
a) Calcular la tasa de analfabetismo de los distintos Departamentos que se

muestran en la Tabla.
b) ¿Cuál es el porcentaje de población de más de 10 años sabiendo que la
población total de Santiago del Estero, según el Censo del año 2001 es de
804.457 ?
c) ¿Cuál es la tasa de analfabetismo de las mujeres en los distintos
departamentos?
d) Calcule la tasa de analfabetismo correspondiente a los varones de los
distintos departamentos.
34
UNIDAD III
MEDIDAS DE POSICIÓN Y DISPERSIÓN
INTRODUCCIÓN
En todo trabajo estadístico luego de recolectar los datos, ordenarlos,

agruparlos en tablas y presentarlos gráficamente, es preciso extraer alguna
información que caracterice a la población de la cual se los extrajo.
Por ello, el objetivo de éste capítulo es interiorizarlos acerca de las

medidas de posición y variación más utilizadas para caracterizar a la
población en estudio, y en que caso se emplea cada una de ellas,
interpretando los resultados a través del pensamiento crítico.
Los métodos de éste capítulo suelen denominarse métodos de

estadística descriptiva, porque su objetivo es resumir o describir las
características importantes de un conjunto de datos. Éstas características se
refieren al centro, variación, distribución, datos distantes y cambios a través
del tiempo.
1. Medidas de posición
Supongamos que una directora está preocupada por las notas

obtenidas en las pruebas de Matemáticas. Lo primero que se le ocurrirá es
tener una idea de si las notas de una muestra de alumnos se ubican cerca de
la calificación cinco o cerca de la calificación nueve. Necesita resumir los
datos y calcular alguna medida que sirva para que, con un único valor
sencillo y representativo pueda establecer si los alumnos se posicionan
cerca de una calificación de 5 puntos o si por el contrario se posicionan
cerca de la calificación de nueve puntos; a estas medidas se las denominan
Medidas de Posición, y si además indican el centro de ése conjunto de
valores, se denominan Medidas de posición y tendencia central.
Se conocen varias formas de determinar el centro de un conjunto de

datos. A continuación, se indicarán tres que son las más comúnmente
utilizadas: media, mediana y modo.
1.1. Media aritmética
La media (aritmética) es la medida de posición y tendencia central más

empleada para describir los datos; constituye lo que la mayoría de la gente
denomina promedio. Es quizás la más conocida y usada.
La media aritmética en una serie simple de datos, se la obtiene al dividir la

suma de todos los valores de la variable entre la cantidad de valores
35
sumados. A la media aritmética se la representa con x :
a) Cálculo de las media aritmética en series simples
¾ Ejemplo 1
Se registró los días de inasistencias en un año, de una muestra de cinco
alumnos del primer ciclo del EGB y se desea averiguar cuál es el promedio de
inasistencias de esa muestra. La variable en estudios es:
X = nº de inasistencias de los alumnos

Los valores de la variable son:
xi : 0; 16; 12; 5; 7
5
0 + 16 + 12 + 5 + 7 x1 + x 2 + x3 + x 4 + x5
∑x
i =1
i
x= = =
5 5 5
y su fórmula de cálculo es la siguiente
n
∑x i
x= i =1
n 2.1
En la fórmula se utiliza la letra griega ∑ (sigma mayúscula) que indica que

los valores de la variable deben sumarse.
El símbolo n denota el tamaño de la muestra, que es el número de alumnos
observados.
Cuando los datos provienen de una muestra el símbolo de la media

aritmética es x (se denomina “x barra”); si se calcula la media aritmética con
los datos de toda la población se simboliza con:
N
∑x i
µ= i =1
N 2.2
∑ denota la sumatoria del conjunto de valores.

xi expresan los diferentes valores que toma la variable.
n tamaño de la muestra, cantidad de valores observados
N tamaño de la población
Como nuestros datos constituyen una muestra para calcular la media

utilizamos la fórmula 2.1
∑x i
0 + 16 + 12 + 5 + 7 40
x= i =1
= = =8
5 5 5
36
Interpretación: Los alumnos tienen en promedio 8 inasistencias por año.
Algunas propiedades de la media aritmética
1-La media aritmética es reproductora del total.
2- Si llamamos desvío a la diferencia entre un valor y la media aritmética
∑ (d ) = ∑ (x
i i )
−x =0
xi d i = xi − x
0 0 – 8 =-8
5 5 - 8 =-3
7 7 - 8 =-1
12 12 – 8 = 4
16 16 – 8 = 8
Total 0
Una desventaja de la media es su sensibilidad a valores extremos, de modo

que un valor excepcional puede afectarla de una manera drástica, en este
caso no representa en forma adecuada al centro de dicho conjunto y tiende a
dirigirse a ese valor extremo.
Si por equivocación al pasar los datos en el ejemplo de las inasistencias de

los 5 alumnos colocamos 66 en vez de 16:
¾ Ejemplo 2
X = inasistencias de alumnos
xi : 0; 66; 12; 5; 7
La inasistencia promedio toma el valor 18, alejándose el promedio

hacia al valor extremo 66.
∑x
i =1
i
0 + 66 + 12 + 5 + 7 90
x == = = = 18
5 5 5
La media aritmética no representa el centro del conjunto de datos. Este

problema o desventaja se resuelve utilizando otra medida de resumen de
datos que se denomina: mediana.
La media aritmética se puede calcular cuando los valores de las

variables son cuantitativos tanto continuos como discretos.
37
1. 2 Mediana.
La mediana (de un conjunto de datos):es una medida de tendencia

central que divide a la serie ordenada de datos en dos partes iguales, de tal
forma que el 50% de los datos son menores o iguales a la mediana y el otro
50% mayores o iguales a ella. La mediana se designa con Me.
a) Cálculo de la mediana en series simples
¾ Ejemplo 3
¾ Se van a considerar dos casos: cuando el tamaño de la muestra
es impar y cuando n es par
¾
Se desea determinar el valor mediano de las inasistencias de los alumnos del
ejemplo 2,
El tamaño de la muestra, “n” es impar.
X: inasistencias de alumnos
xi : 0; 66; 12; 5; 7
Para su cálculo debemos ordenar primero los datos en forma

ascendente o descendente.
Si el número de observaciones es impar, la mediana es el valor de la

variable que se localiza exactamente en la mitad de la lista.
En caso de que el número de observaciones fuera par, el valor de la

mediana se obtiene promediando los dos valores centrales.
Esos valores centrales se posicionan en el lugar

n +1
2
Solución. Primero se ordenan los datos
0; 5; 7; 12; 66.
La muestra posee tamaño impar n = 5 y el valor mediano está posicionado

en el lugar
5 +1 6
= =3
2 2
, o sea que el valor de la mediana es el valor de la variable ubicado en el 3º

lugar.
0; 5; 7; 12; 66.
38
Me = 7 inasistencias
Interpretación: el 50% de los alumnos tiene inasistencia menores o iguales

a 7.
¾ Ejemplo 4
En el caso de que n sea par
Supongamos que contamos las inasistencias de 6 alumnos.
X = inasistencias de alumnos
xi : 0; 66; 12; 5; 7;10
Solución. Primero se ordenan los datos

0; 5; 7; 10; 12; 66.
Las muestra posee tamaño par n = 6,

6 +1 7
Posición de los valores centrales = = 3,5
2 2
Los valores centrales ocupan el tercer y cuarto lugar, la mediana se obtiene

como el promedio de los dos valores centrales:
0; 5; 7; 10; 12; 66
7 + 10
Me =
= 8,5 ≈ 8
2
Interpretación: el 50% de los alumnos tienen inasistencias menores o
iguales a 8.
Deben quedar claro dos conceptos:
Primero: La mediana no se ve influenciada por los valores extremos, ya que

en su cálculo interviene el orden y no la magnitud de los valores.
Segundo: la media aritmética es sensible a valores extremos.
La mediana se puede determinar para variables cuantitativas

continuas discretas y para variables cualitativas que se miden en
escala ordinal.
1. 3. Modo.
El Modo es el valor de la variable que ocurre con mayor frecuencia. Se

designa frecuentemente como Mo.
Se debe hacer notar aquí que el Mo es un valor de variable y la

frecuencia de este valor sugiere su importancia estadística.
39
Cuando dos valores ocurren con la misma frecuencia y ésta es la más

alta, ambos valores son modas, por lo que el conjunto de datos es bimodal.
Cuando más de dos valores ocurren con la misma frecuencia y ésta es

la más alta, todos los valores son modas, por lo que el conjunto de datos es
multimodal.
Cuando ningún valor se repite, se dice que no hay moda.
¾ Ejemplo 5.
Calcule las modas para los siguientes conjuntos de datos:
Serie A: 4,5; 7,6; 2,8; 4,5; 3,6; 2,6

Serie B: 4; 5; 3; 4; 6; 8; 5
Serie C: 27; 27; 27; 55; 55; 55; 88; 88; 99
Serie D: 1; 2; 3; 6; 7; 8; 9; 10
Solución:
En la serie A. El número 4,5 es la moda pues es el valor que ocurre con
mayor frecuencia(2 veces).
En la serie B. Los números 4 y 5 son modas, ya que ambos ocurren con la
frecuencia más alta (2 veces).
En la serie C. Los números 27 y 55 son modas, ya que ambos ocurren con
la frecuencia más alta (3 veces).
En la serie D. No hay moda, ya que ningún valor se repite.
En realidad, la moda no se utiliza mucho con datos numéricos.

Sin embargo, entre las distintas medidas de tendencia central que
consideramos, la moda es la única que puede usarse cuando se trata
de variables cualitativas nominales.
¾ Ejemplo 6.
Una encuesta efectuada a estudiantes mostró que el 84 tiene aparato
de televisión; 76 videocasetera; 39 videojuegos y el 35 reproductor de DVD.
En tanto que el televisor es el aparato más frecuente, es posible afirmar que
la moda es el televisor.
No podemos calcular una media o mediana para datos como éstos,

cualitativos a nivel nominal.
3.- Cálculo de las medidas de posición en series de frecuencias
Veremos como se calculan las medidas de posición y tendencia central

cuando los datos están agrupados en una serie de frecuencias.
3.1. Variables agrupadas en serie de frecuencias simple
40
3.1.a. Media aritmética.

Como en una serie de frecuencias, fi nos indica las veces que se repite el
valor de la variable, debemos considerarlas en el cálculo de la media
aritmética.
¾ Ejemplo 7
Una maestra esta interesada en conocer el número promedio de hermanos de
su alumnos. Para ello tomó de una muestra de 25 alumnos.
Tabla 1. Alumnos de tercer año de polimodal de la Escuela Sarmiento

clasificados según el número de hermanos.
Nº de hermanos Nº de alumnos
(xi) (fi)
0 1
1 9
2 7
3 5
4 3
Total 25
Si aplicamos la fórmula 2.1, deberíamos sumar 1 vez cero, nueve veces

1 y así sucesivamente hasta sumar 3 veces 4 y dividir esa suma entre 25 que
es el tamaño de la muestra.
xi: nº de hermanos
fi : número de alumnos que poseen xi hermanos
25
∑x
i =1
i
0 + 1... + 1 + 2... + 3... + 4... + 4 50
x == = = =2
25 25 25
Pero, este cálculo se podría realizar en forma más simple y es obtener

esa misma suma reemplazándola por la multiplicación. Utilizando la
frecuencia fi que indica las veces que se repite el valor de la variable xi.
xi f1 + x 2 f 2 + ... + x5 f 5
x=
f1 + f 2 + ... + f 5
ahora expresando literalmente la fórmula de la media aritmética tenemos
1 n
x= ∑ xi f i
n i =1
Este promedio se conoce como media aritmética ponderada. Para

poder calcular la media aritmética ponderada correspondiente al ejemplo
planteado, agregamos a la tabla de frecuencias anterior una columna auxiliar
41
que facilitará el cálculo de la media.
Tabla 2. Alumnos de tercer año de polimodal de la Escuela Sarmiento

clasificados según el número de hermanos.
Nº de hermanos Nº de alumnos xi*fi

(xi) (fi)
0 1 0
1 9 9
2 7 14
3 5 15
4 3 12
Total 25 50
x=
1 n
∑ .
xi f i =
1 50 = 2
25
n i =1
Podemos concluir diciendo que los alumnos de tercer año de polimodal

de la Escuela Sarmiento en promedio poseen 2 hermanos.
3.1.b. Mediana
Una maestra esta interesada en conocer la mediana del número de hermanos

de una muestra de 44 alumnos que concurren a una escuela rural.
Tabla 3. Alumnos de una Escuela rural clasificados según el número de

hermanos
Nº de hermanos Nº de alumnos
(xi) (frecuencia, fi)
2 5
3 5
4 30
5 4
Total 44
En esta serie de frecuencias de variable cuantitativa discreta, los datos

ya están ordenados, por lo que solo resta encontrar el valor central, cuya
posición se encuentra en el lugar
n + 1 44 + 1 45
= = = 22,5
2 2 2
O sea el valor mediano será el promedio de los valores de la variable

ubicados en el lugar 22 y 23. Para ello se deben seguir los siguientes pasos:
42
1.-Calcular las frecuencias acumuladas correspondientes a cada valor de la

variable.
2.-Calcular el orden de localización de la mediana efectuando el cociente
n + 1 44 + 1 45
= = = 22,5
2 2 2
donde n = tamaño de la muestra
Tabla 4. Alumnos de una Escuela rural clasificados según el número de

hermanos.
Nº de hermanos Nº de alumnos Frecuencias
(xi) (frecuencia, fi) acumulada (Fi)
2 5 5
3 5 10
4 30 40
5 4 44
Total 44
Como el valor de la mediana se encuentra entre la posición 22 y la

posición 23, se busca en la columna de frecuencias acumuladas, el menor
valor que contiene a 22 (es 40), al que corresponde el valor de variable 4 y el
menor valor que contiene a 23 (es 40), al que corresponde el valor de variable
4.
Por lo que el valor mediano es el promedio de los dos valores centrales.

4+4
Me = =4
2
Interpretación: el 50 % de los alumnos de escuelas rurales, tienen 4
hermanos o menos.
3.1.c. Moda
Ejemplo: Calcular el valor más frecuente del número de hermanos de los

alumnos de tercer año de polimodal de la Escuela Sarmiento (Tabla 2).
Solución: La variable que se estudia es una variable cuantitativa discreta.

Se busca en la columna fi el valor más alto, en este ejemplo es 9.
El valor de la moda es el valor de la variable que tiene frecuencia 9, es decir
Mo = 1
Interpretación: La mayoría de los alumnos de tercer año de polimodal de la

Escuela Sarmiento. poseen un hermano .
43
3.2. Variable agrupada en serie de frecuencias con intervalos de clase,

para variable aleatoria continua
3.2.a. Media aritmética.
¾ Ejemplo
Para realizar un estudio sobre la nutrición de la población infantil que

concurre a la escuela en una localidad rural, se consultaron los pesos, en
kilogramos, de los 50 alumnos de la escuela, los que se muestran en la
Tabla 4. Los datos se agruparon en intervalos de amplitud 2 kg. y con límite
superior abierto. Determine el valor promedio del peso de los alumnos.
Solución
1.- Se calcula las marcas de clase
Al organizar de esta forma los datos, se pierde información, pues la

tabla indica, por ejemplo que hay 12 alumnos que pesan entre 38 kg y 40 kg,
pero no cuanto pesan cada uno. Ahora debemos encontrar un único valor
que represente o resuma a todos los valores del intervalo: ese valor es el
promedio o media aritmética de los límites del intervalo y se denomina punto
medio de la clase o marca de clase. Este valor representará el valor xi de la
fórmula de la media.
38 + 40
x1 = = 39
2
40 + 42
x2 = = 41 = xi + a = 39 + 2 = 41
2
Se introduce una nueva columna en la tabla que la denominaremos xi
Tabla 4. Peso de los alumnos de una escuela rural.
Intervalo Nº de alumnos Marca de clase xi * fi

(kg) fi xi
38 a 40 12 39 468
40 a 42 19 41 779
42 a 44 7 43 301
44 a 46 6 45 270
46 a 48 6 47 282
Total 50 2100
La fórmula para encontrar la media en serie de frecuencias es:
1 n
x= ∑ xi f i
n i =1
44
Pero en este caso xi representa a la marca de clase.

n=tamaño de la muestra= ∑
fi
Ahora ya estamos en condiciones de aplicar la fórmula para el cálculo

de la media aritmética, por ello agregamos una columna que es el producto
de cada marca de clase por su frecuencia (xi*fi).
1 n 1
x= ∑
n i =1
xi f i =
50
* 2100 = 42kg
Interpretación: Los alumnos pesan en promedio 42 kg.
3.2.b. Mediana
¾ Ejemplo
Se desea conocer el peso mediano de los 50 alumnos de una escuela
rural (Tabla 4). El cálculo de la mediana en serie de frecuencias para variable
cuantitativa continua se efectúa utilizando la siguiente fórmula
∑f i
− Fant Me
Me = L inf + 2 *a
f Me
L inf : límite inferior de la clase mediana

∑ fi
2 : Suma de la frecuencia entre 2
F ant Me
: frecuencia acumulada anterior a la clase mediana
f Me : frecuencia absoluta de la clase mediana
a: amplitud del intervalo a = Lsup- Linf
Peso de los alumnos de una escuela rural.

Intervalo Nº de alumnos
(kg) fi
38 a 40 12
40 a 42 19
42 a 44 7
44 a 46 6
46 a 48 6
Total 50
45
Solución
1-En la tabla se agrega una columna para valores de frecuencias
acumuladas.
Peso de los alumnos de una escuela rural.

Intervalo (kg) Nº de alumnos fi Fi
38 a 40 12 12
40 a 42 19 31
42 a 44 7 38
44 a 46 6 44
46 a 48 6 50
Total 50
2 − .Se calcula
∑f i
El tamaño de la muestra se divide entre 2 porque la Mediana es el valor de

la variable que divide la serie ordenada de datos en 2 partes iguales.
∑ f i = 50 = 25
2 2
3- Se busca en la columna Fi el menor valor que contiene a 25. En este

ejemplo el valor que corresponde es 31. Se señala la clase mediana y se
aplica la fórmula.
∑ fi − F
ant Me
Me = L inf + 2 *a
f Me
50
− 12
2 25 − 12 13 * 2
Me = 40 + * 2 = 40 + * 2 = 40 + = 40 + 1,37 = 41,37
19 19 19
Interpretación:
El 50% de los alumnos pesan 41,37 kg o menos.
3.2.c. Moda
¾ Ejemplo
Se desea conocer el peso más frecuente de los 50 alumnos. El cálculo del
modo en serie de frecuencias para variable cuantitativa continua se realiza
utilizando la siguiente fórmula
D1
Mo = Linf Mo + *a
D1 + D2
Donde:
D1 = f Mo − f anterior a la clase Modal
D 2 = f Mo − f posterior a la clase Modal
46
a: amplitud del intervalo
Solución
En la columna fi se busca el valor más alto, en nuestro ejemplo 19, se
señala la fila, ella constituye la clase modal.
Se calcula:
D1 = 19 − 12 = 7
D2 = 19 − 7 = 12
a = 42- 40 = 2
Se aplica la fórmula
7 7 14
Mo = 40 + * 2 = 40 + * 2 = 40 + = 40,74kg
12 + 7 19 19
Interpretación: el peso más frecuente del grupo de alumnos es de 40,74 kg
Relación entre media, mediana y modo
Cuando la media, la mediana y el modo coinciden, la serie de datos presenta

una distribución simétrica unimodal.
µ= Me=Mo
Figura 1. distribución simétrica.
Cuando esa coincidencia no existe, se dice que la distribución

unimodal es asimétrica.
La asimetría es positiva cuando la media es mayor que la mediana y la

mediana mayor que el modo, en éste caso vemos que la media aritmética se
dirige hacia el o los valores extremadamente grandes
47
Mo < Me <µ
Figura 2. Distribución asimétrica positiva.
La distribución presenta asimetría negativa cuando la media es menor

que la mediana y la mediana menor que el modo; en éste caso vemos que la
media aritmética se dirige hacia el o los valores extremadamente pequeños.
µ< Me< Mo
Figura 3. Distribución asimétrica negativa.
La distancia entre la media aritmética y el modo podría usarse como una

medida de asimetría (Ya-Lun Chou, 1990).
Asimetría = media – modo
Cuánto mayor es esta distancia, negativa o positiva, tanto más asimétrica es

la distribución
4- Medidas de localización
Son Medidas de Posición que dividen los valores ordenados de una serie en
cuatro, diez o cien partes iguales y se denominan cuartiles, deciles y
percentiles.
4.1 Cuartiles
Los cuartiles son tres valores Q1, Q2, Q3, que dividen a la serie ordenada en
cuatro partes iguales.
Por debajo del primero quedan el 25% de los datos; por debajo del segundo el
50% de los mismos y por debajo del tercero el 75%. El segundo cuartil
coincide con la Mediana.
4.2 Deciles
Los Deciles son nueve valores de la variable y dividen a la serie ordenada de
datos en 10 partes iguales, el decil 5 coincide con la Mediana, es decir el 50%
48
de los valores son menores o iguales al D5.
4.3 Percentiles
Los percentiles son 99 valores de la variable, que dividen al conjunto de
datos (ordenados de menor a mayor) en cien partes iguales; el percentil 50
coincide con la mediana. Los percentiles se designan con la letra Pi, el
subíndice i, varía de 1 a 99, indicando el valor del percentil, que se desea
calcular.
9 Cálculo de percentiles:
Forma analítica
Para calcular los percentiles de una distribución de frecuencias se procede

del mismo modo que en el caso de la mediana, salvo que ahora dividiremos
n=∑ fi
al tamaño de la muestra en cien partes iguales, en vez de dos.
¾ Ejemplo
Se desea conocer P20 de licencia en las escuelas del centro de la ciudad de
Santiago del Estero en el año 2004.
Tabla 5. Días de inasistencia de los docentes de escuelas de la capital de

Santiago del Estero en el período escolar 2004.
Intervalo de clase Nº de docentes Fi

(días de licencia) (fi)
0 a 10 30 30
10 a 20 60 90
20 a 30 60 150
30 a 40 70 220
40 a 50 90 310
50 a 60 100 410
60 a 70 60 470
70 a 80 40 510
80 a 90 10 520
90 a 100 10 530
Total 530
El cálculo de percentiles para variables agrupadas en serie de

frecuencias con intervalos de clase, se efectúa utilizando la siguiente
fórmula:
i∑ fi
− Fant Pi
Pi = L inf + 100 *a
f Pi
49
L inf : Límite inferior de la clase donde se encuentra el percentil
i = valor del percentil que se busca
Fant Pi: frecuencia acumulada anterior a la clase donde se encuentra el

Percentil i
fPi :frecuencia absoluta de la clase donde se encuentra el Pi
a: amplitud del intervalo a =Lsup- Linf
Solución
Cálculo del percentil 20
Pasos
1.- Se agrega una columna de frecuencias acumuladas (Fi)
2.- Se calcula
i ∑ f i 20 * 530
= = 106
100 100
3.- Se ubica en la columna Fi el menor valor que contiene a 106, en nuestro

ejemplo 150. La clase que tiene una Fi= 150 es la clase que contiene al
Percentil buscado
4.- Se calcula a: Lsup –Linf = 30-20=10

5.- Se aplica la fórmula.
106 − 90 16 *10
P20 = 20 + *10 = 20 + = 22,67 ≈ 23 días
60 60
Interpretación
P20 = 23 días
El 20 % de los docentes toman 23 días de licencia o menos
9 Rango percentil
Forma analítica
Se puede presentar, el problema inverso, es decir, conocer cuántos

docentes toman 52 días de licencia o menos, es decir nos dan como dato un
valor de la variable y nos preguntan que percentil le corresponde; a este
procedimiento se lo denomina calcular el Rango percentil.
50
Es decir el rango percentil de un valor dado es el porcentaje de valores

comprendidos debajo del valor solicitado.
¾ Ejemplo:
Calcular el rango percentil que le corresponde a 52 días de licencia de los
docentes de las escuelas de la ciudad de Santiago del Estero.
Repetimos la tabla 5 para visualizar mejor el cálculo.
Días de inasistencia de los docentes de escuelas de la capital de Santiago del

Estero en el período escolar 2004.
Intervalo de clase Nº de docentes Fi

(días de licencia) (fi)
0 a 10 30 30
10 a 20 60 90
20 a 30 60 150
30 a 40 70 220
40 a 50 90 310
50 a 60 100 410
60 a 70 60 470
70 a 80 40 510
80 a 90 10 520
90 a 100 10 530
Total 530
Solución
1.- Ubicamos en la tabla el intervalo de clase donde se encuentra el valor 52
es el intervalo que va de 50 a 60.
2.- Se calcula la Frecuencia acumulada que le correspondería al valor 52

con la siguiente fórmula:
( x − Linf )
F ( xi ) = i * f int erv + FClase anterior
a
Donde:
F(xi)= frecuencia acumulada correspondiente al valor que se busca
Linf Límite inferior del intervalo de clase donde se encuentra xi
finterv Frecuencia absoluta del intervalo donde se encuentra xi
a amplitud del intervalo
F clase ant. Frecuencia acumulada de la clase anterior al intervalo donde se

encuentra xi
51
(52 − 50) 2 *100

F (52) = *100 + 310 = + 310 = 330
10 10
3.- Se calcula ahora el rango percentil con la siguiente fórmula
F ( xi )
Rp = *100
∑ fi
330
Rp = * 100 = 62.26% ≈ 62%
530
Interpretación:
Xi= 52 días
Pi= 52
El 62% de los docentes toman 52 días de licencia o menos.
(Cálculo gráfico de percentiles y rango percentil
Ejemplo
Calcular gráficamente el percentil 20
Solución
Se debe construir un gráfico de líneas; los pares de valores a graficar
corresponden al límite superior del intervalo con el porcentaje acumulado
correspondiente a dicha clase.
1.- Calcular porcentaje acumulados. Para ello se necesita calcular:
a) frecuencia relativa para cada intervalo
b) porcentaje
c) porcentaje acumulado
2.- Se grafica un polígono (Lsup; %acum.). El gráfico que se obtiene se
denomina ojiva.
52
Días de inasistencia de los docentes de escuelas de la capital de Santiago del

Estero en el período escolar 2004.
Intervalo de clase Nº de docentes fri Porcentaje Porcentaje

(días de licencia) (fi) fri*100 acumulado
0 a 10 30 0,0566 5,67= 6 6
10 a 20 60 0,1132 11,32 = 11 17
20 a 30 60 0,1132 11,32 = 11 28
30 a 40 70 0,1321 13,21 = 13 41
40 a 50 90 0,1698 16,98 = 17 58
50 a 60 100 0,1887 18,87 = 19 77
60 a 70 60 0,1132 11,32 = 11 88
70 a 80 40 0,0755 7,55 = 8 96
80 a 90 10 0,0189 1,89 = 2 98
90 a 100 10 0,0189 1,89 = 2 100
Total 530 100
100
90
80
70
60
%
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
Días
5.-Si deseamos calcular el valor que corresponde al percentil 20. Se ubica el

valor 20 en el eje vertical y se traza una paralela al eje horizontal hasta la
curva y luego se traza una vertical hasta encontrar el valor de días
correspondiente, el que aproximadamente es 23.
Interpretación:
El 20 % los docentes incurren en 23 días de licencia o menos
6.-Si deseamos conocer cual es el rango percentil que corresponde a 52
días, ubicamos ese valor en el eje horizontal y trazamos una paralela al eje
vertical hasta la curva y desde allí una paralela al eje horizontal, leemos en el
eje vertical el valor correspondiente al rango percentil (aproximadamente 60).
53
100
90
80
70
60
%
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
Días
Los valores correctos se obtienen utilizando las fórmulas presentadas

anteriormente.
MEDIDAS DE VARIABILIDAD O DISPERSIÓN
Las Medidas de Posición no son suficientes por si solas para describir

el conjunto de datos es necesario tener además una idea de como se
distribuyen los datos alrededor del centro de la distribución. Para eso surgen
las Medidas de Dispersión o variabilidad.
1.-Medidas de variabilidad en series simple. Su cálculo
1.1. RANGO
Es llamado también amplitud total de variación de la variable. Se lo obtiene
como la diferencia entre el valor máximo y mínimo de la variable.
Distribución A: 1 5 5 5 5 5 5 5 5 9
Distribución B: 1 1 2 4 5 6 7 7 8 9
RA=9-1=8
RB=9-1=8
En este caso el valor del rango es el mismo, a pesar de que notamos

que la variabilidad de las dos distribuciones es diferente.
La desventaja de esta medida es que solo considera los valores

extremos sin tener en cuenta el comportamiento del resto de las
observaciones. Por lo que observamos que a pesar de tener variabilidades
54
diferentes las dos distribuciones, el rango no la capta.
Para solucionar este problema surgen otras medidas de variabilidad

como el desvío medio.
¿Cómo se puede medir la variabilidad de un conjunto de datos? Si por

variabilidad se entiende el grado en que los valores de la distribución difieren
de la media y entre si, entonces la desviación promedio de los valores a partir
de la media puede resultar una medida razonable de variabilidad:
∑ (x i −x )
n
Se denomina desvío a la diferencia entre cada valor de la variabley su

medio.
Cuando el valor de la variable es mayor que el valor medio el desvio es

positivo; cuando el valor de la variable es menor que el valor promedio los
desvíos son negativos.
Pero por propiedades de la media sabemos que la suma de los desvíos

de los valores respecto a la media es siempre es cero, pues las desviaciones
positivas respecto a la media, anulan siempre a las desviaciones negativas,
con lo que resulta siempre una suma igual a cero y por ende el valor
promedio.
Como esta medida de variabilidad parece razonable, debemos redefinir

nuestra medida para evitar los valores negativos. Una manera de hacerlo es
considerar el valor absoluto de los desvíos; la medida que se obtiene se
denomina:
1.2.DESVIO MEDIO: Se define como el promedio del valor absoluto de los

desvíos; se designa con DM.
DM =
∑d i
=
∑x i −x
n n
55
Tabla 6: Distribución de puntajes de un grupo de alumnos.
xi xi − x di
di=
1 -4 4
5 0 0
5 0 0
5 0 0
5 0 0
5 0 0
5 0 0
5 0 0
5 0 0
9 4 4
∑x i = 50 ∑ (d ) = 0
i ∑d i =8
x=5 DM =
8
= 0,8
10
Pero generalmente no se puede operar fácilmente cuando se trabaja

con valor absoluto, por eso se considera una segunda forma de modificar
esos signos negativos y consiste en elevar los desvíos al cuadrado, lo que
dará desvíos al cuadrado positivos. Esta nueva medida de variabilidad se
denomina varianza.
1.3. Varianza es el promedio de los desvíos al cuadrado y se designa con S2

cuando se trata de una muestra y es un mejor estimador de la
varianza poblacional( σ ) cuando la suma de los desvíos al
2
cuadrado se divide entre el tamaño de la muestra menos 1; por

ello para una muestra la fórmula es:
∑ (x − x )
n
2
i
S2 = i =1 Variancia de una muestra, para series simples
n −1
∑ (x − µ )
i
2
Variancia poblacional
σ2 = i =1
N
Cuántos más tiendan los valores a diferir de la media, mayor será la

varianza. El valor numérico de la varianza de una distribución depende de la
unidad de medida que se utilice. Por consiguiente, cuando se compara la
varianza de dos o más distribuciones, hay que estar seguro que la unidad de
medida empleada es igual en todas las distribuciones. En el ejemplo de la
Tabla 7:
56
Distribución de puntajes de un grupo de alumnos.
xi
di=
xi − x (
d12 = xi − x )
2
1 -4 16
5 0 0
5 0 0
5 0 0
5 0 0
5 0 0
5 0 0
5 0 0
5 0 0
9 4 16
∑x = 50 ∑ (d ) = 0 ∑ (x )
2
i i i − x = 32
x=5 32
= 3,56 S2 =
9
∑ (x − x )
n
2
i
32
S2 = i =1
= = 3,56
n −1 9
Otra desventaja es que la varianza se expresa, en unidades al cuadrado

y no en término de las unidades originales de medición, lo que hace difícil la
tarea de relacionar en forma significativa el valor de la varianza con el
conjunto original de datos.
Por eso es conveniente, considerar una medida de variabilidad que se

exprese en unidades originales. Esta nueva medida denominada desviación
estándar se obtiene al extraer a la varianza la raíz cuadrada.
1.4.Desviación estándar muestral
∑ (x − x )
n
2
i
S= i =1
n −1
∑ (x − x )
n
2
i
32
S= i =1
= = 3,56 = 1,89
n −1 9
57
Desviación estándar poblacional
∑ (x − µ )
2
i
σ = i =1
N
Nos debe quedar claro que la desviación estándar mide la variación

entre los valores. Los valores cercanos producirán una desviación estándar
pequeña, mientras que los valores dispersos producirán una desviación
estándar más grande.
2.-Medidas de variabilidad en series de frecuencia simple. Su cálculo
Ejemplo: Calcular la variabilidad de las inasistencias de 32 alumnos.
Tabla N° 7. Inasistencias de 32 alumnos.
Nº de inasistencias Nº de alumnos
(xi) (fi)
11 12
12 9
14 5
15 4
23 2
Total 32
Cuando se trata de variables cuantitativas discretas el Rango se calcula:
2.1 Rango= Valor máximo -Valor mínimo + 1
Rango=R = 23 - 11+1=13 inasistencia
2.2 Desvío medio en serie de frecuencia simple
DM =
∑ d * f ∑ x − x *f
i i i i
∑f i ∑f i
Cálculo:
1) Se calcula la media aritmética
2) Se calcula los desvíos
3) Se obtiene el valor absoluto y se lo multiplica por su frecuencia
4) Se aplica la fórmula
Inasistencias de 32 alumnos.
58
Nº de inasistencias Nº de alumnos xi*fi d i = xi − x d1 di * fi

(xi) (fi)
11 12 132 -2 2 24
12 9 108 -1 1 9
14 5 70 1 1 5
15 4 60 2 2 8
23 2 46 10 10 20
32 416 66
x=
∑ x * f = 416 = 13
i i
∑f 32 i
DM =
∑ d * f = 66 = 2,06 i i
∑f 32 i
2.3. Varianza en serie de frecuencia simple
∑ (x − x ) ∑ (x − x ) f
n n
2 2
i fi i i
S =
2 i =1
= i =1
n −1 ∑ f −1 i
1) Se calcula la media aritmética

3) Se elevan los desvíos al cuadrado
4) Se multiplica cada desvío al cuadrado por su frecuencia
Inasistencias de 32 alumnos.
Nº de inasistencias Nº de alumnos xi*fi d i = xi − x d i2 d i2 * f i
(xi) (fi)
11 12 132 -2 4 48
12 9 108 -1 1 9
14 5 70 1 1 5
15 4 60 2 4 16
23 2 46 10 100 200
32 416 278
∑ (x − x )
n
2
i fi
278 278
S =
2 i =1
= = = 8,97 días 2
n −1 32 − 1 31
2.4 Desviación estándar en serie de frecuencia simple
∑ (x − x ) * f ∑ (x − x ) * f
n n
2 2
i i i i
S= i =1
= i =1
n −1 ∑ f −1 i
59
∑ (x − x ) * f
n
2
i i
278 278
S= i =1
= = = 8,97 = 2,99
n −1 32 − 1 31
3.- Medida de variabilidad en serie de frecuencias con intervalos de clase
Los siguientes datos corresponden a edades de los alumnos de los 2 ciclos de

EGB.
Tabla N°9. Edades de los alumnos de segundo ciclo del EGB.
Clases de Marca de fi xi*fi d i = ( xi − x) d1 d1

edad en año clase (xi) *fi
6 a 8 7 4 28 -4 4 16
8 a 10 9 8 72 -2 2 16
10 a 12 11 11 121 0 0 0
12 a 14 13 12 156 2 2 24
14 a 16 15 2 30 4 4 8
Total 37 407 64
3.1.Rango
L.superior de la última clase – L.inferior de la primera clase. Como los límites
superiores de las clases son abiertos, es decir no toma el valor 16, debemos
colocar el valor 15,99
R = 15,99 – 6 = 9,99 años
1) Se calculan las marcas de clase y luego la media aritmética

3.2. Desvío medio en serie de frecuencia de intervalos
DM =
∑d *f i i
=
64
= 1.73
∑f i 37
x=
∑x * f i i
=
407
= 11
∑f i 37
60

3) Se obtiene el valor absoluto de los desvíos
4) Se multiplica cada desvío absoluto por su frecuencia, se suma
3.3. Variancia serie de frecuencia con intervalos de clase

2) Se calculan los desvíos
Edades de los alumnos de segundo ciclo del EGB.
Clases de Marca de fi xi*fi d i = ( xi − x) d i2 d i2 *fi

edad en año clase (xi)
6 a 8 7 4 28 -4 16 64
8 a 10 9 8 72 -2 4 32
10 a 12 11 11 121 0 0 0
12 a 14 13 12 156 2 4 48
14 a 16 15 2 30 4 16 32
Total 37 407 176
Varianza en serie de frecuencias con intervalos de clase, la única

diferencia con las fórmulas para serie de frecuencias simples es que xi,
representa el punto medio de la clase o marca de clase
∑ (x − x )
n
2
i fi
i =1 176 176
S =
2
= = = 4,89 años 2
n −1 37 − 1 36
3.4 Desviación estándar en serie de frecuencias con intervalos de clase.
∑ (x − x ) * f
n
2
i i
176 176
S= i =1
= = = 4,89 = 2,21 años
n −1 37 − 1 36
61
COEFICIENTE DE VARIACIÓN
Las cuatro medidas de variabilidad enunciadas precedentemente son

medidas de variabilidad absoluta. El coeficiente de variación es una medida
de variabilidad relativa.
Expresa la desviación estándar como un porcentaje de la media. Es

una medida adimensional, se expresa en % y sirve para comparar la
variabilidad entre dos o más distribuciones que provengan de diferentes
unidades de medidas o teniendo igual unidad de medida los valores de
diferente magnitud.
Coeficiente de variación muestral C.V . = S 100

x
Ejemplo
Decir cual de las siguientes distribuciones es más variable:
xi: peso de los alumnos de nivel inicial (kg)

34; 29; 28; 31; 40
yi: altura de los alumnos de nivel inicial (m)

1,24 1,54 1,38 1,37 1,56
x =32,4 kg Sx=4,83kg
y =1,42 m Sy=0,13m
No podemos decir que la variabilidad en peso es mayor que la

variabilidad en altura, ya que las variables están medidas en distintas
unidades, para poder compararlas la debemos expresar como porcentaje de
sus medias
CVx=(4,83/32,4)*100=14,91%
CVy=(0,13/1,42)*100=9,15%
Conclusión: los alumnos tienen menor variabilidad en altura que en peso.
--------------------------------------------------------------------------------------------
Uso de la calculadora científica para el cálculo de Medidas de Posición
y Dispersión Calculadoras Casio modelo fx-82W.
Seguir las siguientes instrucciones:
Debe procurar que la calculadora se encuentre en disposición para

efectuar cálculos estadísticos. Para ello apriete mode 2. En la parte superior
de la pantalla aparece la notación SD.
62
Debe cerciorarse de que no hay nada acumulado en la memoria. Para

ello pulse SHIFT AC = y en su pantalla aparece el número cero. Se está ahora
en condiciones de introducir los datos.
Por ejemplo para serie simple: xi: 1 2 3 4 5
Marque el nº 1 y luego la tecla M+
Así sucesivamente hasta haber cargado todos los datos.
Para cerciorarse de la cantidad de datos introducidos
Pulse ALPHA y la tecla 3 en el cursor aparece la letra n, apriete ahora =

y aparecerá el 5, pues Ud. introdujo los 5 valores.
Para obtener la media aritmética pulse SHIFT y la tecla 1, en la pantalla
aparece x apriete = y en su pantalla aparece el valor 3 que es el valor de la

media.
Para obtener la desviación estándar marque SHIFT y la tecla 3, aparece en
su pantalla
σ n−1 presione = y en su pantalla aparecerá el valor 1,58
Si aprieta ahora la tecla x2 obtendrá 2,50 que es el valor de la varianza

muestral S2.
Si desea obtener la suma de los valores de x presione Alpha y la tecla 2.
Para el caso de que la serie sea de frecuencia simple.
Se coloca la máquina en modo estadística Mode 2.
Presione SHIFT AC =; ya tiene la memoria limpia.
Se introduce el valor xi, luego SHIFT, la tecla que tiene la coma.

Aparece en la pantalla xi; ahora introduzca el valor de fi y una vez que tenga
en la pantalla xi; fi recién apriete M+ ; continúe así hasta introducir todos los
valores de su serie, para el cálculo de la media, desviación estándar y
varianza se procede luego apretando las teclas indicadas anteriormente.
Cuando se trabaja con todos los datos de una población para el cálculo
de la desviación estándar se aprieta SHIFT y la tecla 2
63
GUÍA DE EJERCITACIÓN
Actividad 1
a) Los siguientes son pesos individuales de 10 alumnos de primer año de

EGB:
30, 32, 30.5, 31, 33, 31, 32.9, 34, 34.6, 35
b) En la etapa de diagnóstico destinada a implementar un Plan de Salud

Bucal en alumnos de EGB, en una escuela el odontólogo determinó el
número de caries que presentaba cada alumno. Los siguientes son número
de caries que presentaban 9 de dichos alumnos:
2, 4, 0, 2, 3, 5, 1, 2, 2
c) En un curso se tomó ocho alumnos al azar y se les preguntó cuál era el

salario que percibía mensualmente su padre. Ellos son los siguientes:
3000, 1000, 570, 400, 600, 1500, 500, 570
1.- En cada caso determine y clasifique el tipo de variable que se considera.
2.- ¿Cómo se denomina en cada caso el conjunto de datos obtenidos para la

variable que se estudia?
3.- Determine en cada uno de los incisos a, b y c, la Media Aritmética,

Mediana y Modo.
4.- En cuál de los casos arriba detallados ¿la media no es una Medida de
Posición adecuada?
Actividad 2
a) En cada una de las series de datos de la Actividad 1, calcule Rango,

Desviación Media, Desviación estándar y Coeficiente de Variación.
b) Si Ud. quiere comparar la variabilidad de los datos de cada una de las
series presentadas en la Actividad 1, cuál medida de dispersión emplearía?
Actividad 3
Para realizar una evaluación del Número de puntos obtenidos en una Prueba
de Matemáticas realizada a los 30 alumnos de 6° de EGB, se ordenó dicha
variable en la siguiente serie de frecuencias:
N° de puntos 0 1 2 3 4 5 6 7 8 9 10
xi
N° de alumnos 0 1 0 4 3 8 6 4 1 2 1
fi
64
a) Calcule Media, Mediana y Modo.
b) Determine Desviación Estándar, Varianza y Coeficiente de Variación.
c) Indique si la distribución que se analiza es simétrica o no. En caso de ser

asimétrica, indique que tipo de asimetría presenta.
d) A los fines de la evaluación, cuál de las tres Medidas de Posición sería más
correcta utilizar?
Actividad 4
Los siguientes datos corresponden a Tipo de Deportes que prefieren los

alumnos de una escuela.
Tipo de deportes N° de alumnos

fi
Basquet 220
Fútbol 500
Pelota al cesto 180
Hockey 100
Total 1000
a) Indique qué tipo de variable es.

b) Determine la Medida de Posición que corresponda a este caso.
Actividad 5
Las alturas de alumnos de un curso de Polimodal en una escuela se

muestran en la siguiente Tabla:
altura fi
(m)
1.10-1.15 3
1.15-1.20 4
1.20-1.25 6
1.25-1.30 5
1.30-1.35 9
1.35-1.40 9
1.40-1.45 6
1.45-1.50 2
1.50-1.55 1
1.55-1.60 1
1.60-1.65 1
a) Qué tipo de variable se considera?
b) Encuentre frecuencias acumuladas, porcentajes y porcentajes

acumulados.
c) Encuentre Media Aritmética, Mediana y Modo.
65
d) Calcule Desviación estándar y Coeficiente de variación.
e) Realice el gráfico de la distribución porcentual acumulada.
f) Determine gráfica y analíticamente el rango percentil para las siguientes

alturas:
1.18, 1.47, 1.56, 1.62.
g) Determine gráfica y analíticamente las alturas correspondientes a los

percentiles:
10, 25, 50, 75
66
UNIDAD IV
PROBABILIDADES
1.- INTRODUCCIÓN
La teoría de probabilidad tiene sus orígenes en la teoría de la

casualidad. Históricamente, la teoría de la Probabilidad comenzó con el
estudio de los juegos de azar, tales como la ruleta y las cartas.
La teoría de la Probabilidad no es tan extraña como pudiera pensarse.

Sin duda alguna, en la vida diaria con mucha frecuencia emitimos juicios
probabilísticos, aunque a menudo no lo reconocemos como tales.
Por ejemplo, supongamos que, por razones diferentes, usted no está

preparado para la clase de hoy. Seriamente usted considera faltar a clase.
¿Qué factores influirán en su decisión? Obviamente una consideración será
la probabilidad de que el profesor descubra su falta de preparación. Si el
riesgo es alto, usted decide no ir a clase. Veamos, hay dos alternativas
posibles:
1. Su falta de preparación será descubierta.

2. Su falta de preparación no será descubierta.
Hay incertidumbre en esta situación porque hay más de una

alternativa posible. Su decisión de asistir a clase, dependerá del grado de
certeza asociado con cada una de estas alternativas. Así, si usted está
bastante seguro de que prevalezca la primera alternativa, usted decidirá no ir
a clase.
Supóngase que su profesor con frecuencia pide a los estudiantes que

participen en clase activamente. De hecho, usted ha notado que la mayoría
de los estudiantes son interrogados en cada sesión de clase. Este es un
ejemplo en el cual hay un alto grado de certeza asociada con la primera
alternativa. Dicho de esta manera, la probabilidad del primero es mayor que
la del segundo. Por consiguiente usted decide no ir a clase. Usted ha tomado
una decisión con base en un empleo intuitivo, de la probabilidad.
Antes de estudiar la teoría de la probabilidad, es conveniente

comprender bien uno de los conceptos más importantes de la Inferencia
Estadística: el concepto de azar .
2.- EL CONCEPTO DE AZAR
67
Definimos una población como el conjunto completo de individuos,

objetos o medidas que tienen alguna característica común observable. Muy
rara vez se puede estudiar una población. Seleccionamos muestras de una
población con la esperanza de que los estadísticos de la muestra nos
permitan calcular los parámetros de la población. Para obtener una
correspondencia entre un estadístico y un parámetro, la muestra debe ser
seleccionada al azar utilizando el muestreo al azar simple que se caracteriza
porque cada una de las observaciones tiene la misma probabilidad de ser
seleccionada. Una forma de obtener una muestra aleatoria, es mediante el
Muestreo al Azar Simple, de tal manera que cada individuo, objeto o medida
tenga igual probabilidad de ser seleccionado. Una característica sobre los
sucesos aleatorios, es que ningún suceso tiene efecto predecible sobre el
siguiente. Podremos comprender más clara y fácilmente el concepto de azar
en relación con los “juegos de azar, si suponemos que se juegan
limpiamente. Conocer el resultado del lanzamiento de una moneda al aire,
del lanzamiento de un dado, del resultado de un juego de ruleta, no nos
ayudará en absoluto en la predicción de los resultados por venir. Esta
característica de los sucesos al azar se conoce como independencia. Si la
independencia existe, podemos hablar de sucesos realmente al azar.
3.- PROBABILIDAD Y ESTADÍSTICA
La Estadística Descriptiva, hace referencia a los datos que se tienen en

la mano. Cuando se quiere ir más allá de los datos disponibles, es necesario
inferir o sea utilizar la Estadística Inferencial. Como ella infiere el todo
(población) a partir de la información que da una parte de ese todo (muestra),
el conocimiento que adquiere es incompleto y por lo tanto no “totalmente
cierto” es decir, se debe trabajar con probabilidades. Por ello, antes de
estudiar las aplicaciones de la Estadística Inferencial es necesario estudiar
probabilidades.
4.- TEORIAS DE PROBABILIDAD
Se puede considerar la probabilidad como la teoría que tiene que ver

con los posibles resultados de los experimentos. Estos deben ser
potencialmente repetitivos, es decir, debemos ser capaces de reproducirlos
bajo condiciones similares. Debe ser posible enumerar cada resultado que
pueda ocurrir, y debemos ser capaces de establecer las frecuencias relativas
de estos resultados.
Se distingue el enfoque clásico, frecuencial y axiomático de la teoría de

probabilidad.
4.1.-EXPERIMENTOS ALEATORIOS. ESPACIO MUESTRAL.

EVENTOS.
68
El lanzamiento de un dado, o de una moneda, la extracción de un

naipe de la baraja, de las bolillas de la lotería son experiencias aleatorias,
pues sus resultados dependen del azar. También son aleatorios: el tiempo de
espera de una persona en la parada del autobús, sexo de los hijos en un
matrimonio, el número de hijos que tendrá un matrimonio, etc.
Los primeros (lanzamiento, extracciones) son fáciles de seguir, pues se

pueden repetir tantas veces como se quiera de forma rápida. A partir de ellos
se obtienen leyes que rigen los fenómenos aleatorios y se aplican al estudio
de situaciones aleatorias.
Conceptos necesarios para definir probabilidades
Experimentos aleatorios: son aquellos que, repetidos bajo idénticas

condiciones, no arrojan un único resultado sino un conjunto de ellos.
9 Ejemplos: Arrojar un dado

9 Arrojar una moneda
Espacio muestral. Es el conjunto de los resultados posibles de un

experimento aleatorio y se denota con M.
Ejemplos.
9 Para el caso de arrojar un dado, el espacio muestral resultante es:
M = {1,2,3,4,5,6}
9 Para el caso de arrojar una moneda, el espacio muestral resultante

es:
M={C, S}
9 Para el caso de arrojar una moneda y un dado simultáneamente,

el espacio muestral resultante es:
M = ⎨(cara, 1) , ( cara , 2 ) .....,(cara , 6) , (sello , 1),...(sello, 6)⎬
Evento simple .Es cada uno de los resultados de un experimento aleatorio

que no puede desglosarse en componentes más simples. Se designan
con la letra minúscula
“ ei “.
Ejemplos
69
9 Para el caso de arrojar un dado. Obtener el número 1, es un

evento simple, lo mismo ocurre con los números restantes
e={1}
e={2}
9 Para el experimento aleatorio arrojar una moneda al aire, los evento

simples son
e={c}
e={s}
Evento compuesto. Es un subconjunto del Espacio Muestral. Es el

resultado de la unión de eventos simples. Se lo representa con letra
mayúscula.
9 Para el caso de arrojar un dado. El espacio muestral es

M = {1,2,3,4,5,6}
• Obtener número par, es el resultado de la unión de los eventos

simples 2, 4, 6, y constituyen un subconjunto del espacio
muestral.
P={2, 4, 6}
• Obtener número impar
I={3, 5, 7}
• Obtener un número menor que 4
A={1, 2,3}
70
Suceso seguro: es el conjunto total M(espacio muestral).
Suceso imposible: es el conjunto vacío.
Operaciones con sucesos
En las aplicaciones de la teoría de probabilidades trataremos muchas

veces con eventos relacionados entre sí, más que con un solo evento. Por
esta razón consideraremos ahora un experimento aleatorio, con su espacio
muestral correspondiente M, y cualesquiera dos eventos A y B en el
experimento. Entonces:
*Union de Eventos A ∪ B ( A unión B , A o B ) representa el evento que

ocurre si, y solo si ocurre A u ocurre B o ambos ( Una notación más
antigua que representa a A ∪ B es A + B, y el nombre
correspondiente es suma de dos eventos)
*Intersección de Eventos. A ∩ B ( A intersección B ó A y B ) representa el

evento que ocurre si, y solo si, ocurren A y B simultáneamente, esto es,
si ocurren en la misma ejecución del experimento en consideración.
Eventos mutuamente exclusivos. Son los eventos que no ocurren

simultáneamente. Este caso se representa solamente cuando A ∩ B =
Ø, el evento vacío, de tal manera que A y B no tienen puntos en
común.
El evento A es el complemento del evento A con respecto al espacio

muestral M y contiene a todos los resultados de M que no se encuentran en
A.
¾ Ejemplo Para el caso del arrojar una dado, el espacio muestral es

M = {1,2,3,4,5,6}
71
9 Evento A obtener un nº par
A= {2, 4, 6}
A = {1, 3, 5 }
¾ Ejemplo:
Un experimento consiste en tirar un dado y observar el número de

puntos que aparece en la cara superior. El espacio muestral se puede
describir fácilmente, ya que es finito. Las posibilidades para el dado son seis:
1, 2, 3, 4, 5, 6. Por lo tanto, los posibles resultados son:
M = {1, 2, 3,4, 5, 6}
b) Describir los siguientes eventos:
A: Sale un número par.
B: Sale un número impar.
C: Sale un número menor que 4
D: Sale un número mayor que 3.
E: Sale un número impar o mayor que 3.
F. Sale un número par y menor que 4.
G: Sale un número par y un impar.
Solución
El evento:”Sale un número par” , está representado por la

letra A, su descripción puede realizarse mediante el siguiente
conjunto :
A = {2,4,6} ,
El evento “ Sale un número impar ”, está representado por la

letra B, su descripción puede realizarse mediante el siguiente
conjunto :
B = { 1 , 3 , 5 }.
72
El evento “ Sale un número menor que 4” ”, está

representado por la letra C, su descripción puede realizarse
mediante el siguiente conjunto :
C= ⎨1 , 2 , 3 ⎬
El evento “Sale un número mayor que 3”, está representado

por la letra D, su descripción puede realizarse mediante el
siguiente conjunto :
D= ⎨4 , 5 , 6 ⎬
El evento “ Sale un número impar o mayor que 3”, se

representa por la letra E, está formado por todos los resultado
de B o de D o de ambos. Este evento recibe el nombre de
unión de B y D, se denota por B ∪ D y su descripción puede
realizarse mediante el siguiente conjunto:
B ∪ D = E =⎨1 , 3 , 4 , 5 , 6⎬
El evento “Sale un número par y menor que 4”, se

representa por la letra F, está formado por los resultados
comunes tanto a A como a C. Este evento recibe el nombre de
intersección de A y C, se denota por A ∩ C y su descripción
puede realizarse mediante el siguiente conjunto :
A ∩ C = F = ⎨2 ⎬
El evento “Sale un número par y un número impar”, se

representa mediante la letra G, está formado por la
intersección de los eventos A y B, estos eventos no tienen
nada en común, por lo tanto la intersección de ellos es vacía.
A y B son mutuamente excluyentes o disjuntos..
A ∩ B = G = ⎨⎬ = ∅
73
4.2. DEFINICIÓN CLÁSICA DE PROBABILIDAD (PROBABILIDAD A

PRIORI)
Supóngase que queremos conocer la probabilidad de que una moneda

caiga con la cara hacia arriba. Como hay solo dos posibles resultados (cara o
seca) adoptamos una situación ideal en la cual esperamos que cada
resultado tenga igual probabilidad de ocurrir. Así, la probabilidad de que se
1
P (C ) =
presente una cara, 2
Definición :La probabilidad de un evento A en un experimento aleatorio está

dado por: el cociente entre el número de casos favorables y el número de
casos igualmente posibles
N º de casos favorables a A
P ( A) =
N º total de casos igualmente posibles
9 Por ejemplo, la probabilidad de extraer el as de espada de una

baraja ordinaria de 52 cartas es 1/52.
9 Pero la probabilidad de sacar un as de espada rojo es cero (puesto
que no hay figuras de espadas rojas en la baraja) no hay sucesos
posibles que favorezcan este resultado.
9 Si los eventos son mutuamente excluyentes (esto es, si los dos
eventos no pueden ocurrir simultáneamente), pues A ∩ B = Ø , la
P (Ø ) = 0
4.3. DEFINICIÓN DE PROBABILIDAD FRECUENCIAL (PROBABILIDAD A

POSTERIORI)
Las probabilidades se aproximan después de realizar la experiencia a la

frecuencia relativa. Por ejemplo, para saber cuál es la probabilidad de
obtener el as con un dado determinado, se arroja el dado 600 veces en las
cuales se obtienen 113 veces un as.
La probabilidad de obtener un as con ese dado es estimada por la

frecuencia relativa = 113/600 = 0.1883.
Realice ( u observe) un procedimiento un gran número de veces y

cuente las ocasiones que el suceso A ocurre en realidad. Con base en estos
resultados reales, P(As) se estima de la siguiente forma :
f (As)
P(As) ≈ = f r(As)
∑f
74
4.4. AXIOMAS DE PROBABILIDAD
Sea un experimento aleatorio que genera un espacio muestral M. Sea E1 y E2

eventos de un espacio muestral, se define probabilidad como una función
que asigna a cada evento del espacio un valor comprendido entre [0,1] tal
que se cumplan los siguientes axiomas:
1.- Si E es un evento cualquiera en un espacio muestral M, entonces
P( E ) ≥ 0 la probabilidad es positiva y
0 ≤ P( E ) ≤ 1 la probabilidad de un suceso varía entre 0 y 1.
2.- Al espacio muestral M completo le corresponde
P(M)=1
3.- Si E1 y E2 son eventos mutuamente exclusivos y E1∩E2=∅, entonces se

cumple
P (E1 ∪ E 2) = P (E1 ) + P (E 2 )
Si el espacio muestral es infinito, debemos reemplazar el axioma 3 por
3* .- Si E1 , E 2 ,... son eventos mutuamente exclusivos, entonces tenemos

que
P (E1 ∪ E 2 ∪… ) = P ( E1 ) + P ( E 2 ) +…
4.5. PROPIEDADES:
1.- Si Ø es el conjunto vacío, entonces P (Ø ) = 0 . Imposibilidad.
Por ejemplo, la probabilidad de extraer el as de espada de una baraja

ordinaria de 52 cartas es 1/52. Pero la probabilidad de sacar un as de
espada rojo es cero (puesto que no hay figuras de espadas rojas en la
baraja).no hay sucesos posibles que favorezcan este resultado.
−
2.- Si E es el complemento de un evento E, entonces
−
P ( E ) = 1 – P( E )
3.- Si A ⊂ B , entonces P ( A ) menor o igual a P ( B ).
75
La probabilidad de que ocurra el evento A , es decir que al

lanzar un dado salga un número par , se calcula como
P(A) =3/6 = 1/2
donde:
• el número de resultados favorables es 6, ya que A = ⎨2, 4, 6⎬, tiene

3 elementos.
• el número total de resultados es 6, ya que M= {1 , 2 , 3 , 4 ,5, 6}
tiene 6 elementos.
La probabilidad de que ocurra el evento B, es decir que al

lanzar un dado salga un número impar , se calcula como
P(B) =3/6 = 1/2
donde:
• el número de resultados favorables es 6, ya que B = ⎨1, 3, 5⎬, tiene

3 elementos.
• el número total de resultados es 6, ya que M = {1, 2, 3, 4, 5, 6} tiene
6 elementos.
La probabilidad de que ocurra el evento C, es decir que al

lanzar un dado salga un número menor que 4 , se calcula
como
P(C) =3/6 = 1/2
donde:
• el número de resultados favorables es 3, ya que C= ⎨1, 2, 3 ⎬, tiene

3 elementos.
• el número total de resultados es 6, ya que M = {1 , 2, 3, 4, 5 , 6}
tiene 6 elementos.
La probabilidad de que ocurra el evento D, es decir que al

lanzar un dado salga un número mayor que 3 , se calcula
como
P(D) =3/6 = 1/2
donde:
• el número de resultados favorables es 3, ya que D= ⎨4, 5, 6 ⎬, tiene

3 elementos.
76

6 elementos.
La probabilidad de que ocurra el evento E, es decir que al

lanzar un dado salga un número impar o mayor que 3 , se
calcula como
P(E) =5 / 6
donde:
• el número de resultados favorables es 5, ya que E=⎨1,3,4,5,6 ⎬,

tiene 5 elementos.
• el número total de resultados es 6, ya que M = {1 , 2, 3 , 4 ,5, 6}
tiene 6 elementos.
La probabilidad de que ocurra el evento F, es decir que al tirar

un dado salga un número par y menor que 4 , se calcula
como
P(F) =1 / 6
donde:
• el número de resultados favorables es 1, ya que F = ⎨2 ⎬, tiene 1

elemento.
• el número total de resultados es 6, ya que M = {1,2 , 3 , 4, 5, 6} tiene
6 elementos.
La probabilidad de que ocurra el evento G, esta formado por

la intersección de los eventos A y B que son mutuamente
excluyentes, al lanzar un dado ” obtener un número impar
y par “ , es cero, ya que es imposible de que ocurra dicho
evento. La probabilidad del evento nulo o vacío siempre es 0.
Se calcula como
P(G) = P (Ø ) = 0
donde:
• el número de resultados favorables es vacío, ya que G = ⎨⎬=∅.

6 elementos.
77
4.5.TEOREMA DE LA SUMA DE PROBABILIDADES
Sean A y B dos eventos del espacio muestral M generado por un

experimento aleatorio. El teorema de la suma de probabilidades dice que
la probabilidad de la unión de A y B es la suma de las probabilidades
menos la probabilidad de la intersección. En símbolos:
Sean A y B ⊂ M entonces
P(A∪B)=P(A)+P(B)- P(A∩B)
Si los eventos son mutuamente excluyentes, el último término

desaparece, pues A ∩ B = Ø y P (Ø ) = 0
P(A∪B)=P(A)+P(B)
9 En el ejemplo, calcule la probabilidad del evento “sale cara o sale un

número par” correspondiente al experimento de lanzar
simultáneamente un dado y una moneda, utilizando el teorema de la
suma de probabilidades.
P(C∪P)=P(C)+P(P)- P(C∩P)
6 6 3 9 3
P (C ∪ P ) = + − = = = 0,75
12 12 12 12 4
4.6. PROBABILIDAD CONDICIONAL
Muchas veces necesitamos encontrar la probabilidad de un evento B si

se sabe que ha ocurrido un evento A. Esta probabilidad se llama
probabilidad condicional de B dado A, y se representa como P ( B / A ) . En
este caso A sirve como un espacio muestral nuevo ( reducido ) , y la
probabilidad es la fracción de P( A) que corresponde a A ∩B. Así que
P(A ∩ B )
P ( B / A) =
P ( A)
Del mismo modo, la probabilidad condicional de A dado B es
78
P(A ∩ B )
P( A / B) =
P (B )
Volviendo al ejemplo del dado:
a) halle la probabilidad de que aparezca un número menor que 4 dado que

apareció un número mayor que 3
b) halle la probabilidad de que aparezca un número impar dado que apareció

un número mayor que 3
Solución :
a) P ( C / D ) se denomina probabilidad condicional de C dado que ha

ocurrido el evento D , se define como
P ( C / D ) = P ( C ∩ D ) / P( D )
En este caso M = ⎨1, 2 , 3 , 4 , 5 , 6 ⎬
C = ⎨ 1 , 2 , 3 ⎬ , D = ⎨ 4 , 5 , 6 ⎬ , P( D ) = 3 / 6 = 1 /2 , P( C ∩ ) = 0
P(C/D)= 0/½ =0
b) P ( B / D) es la probabilidad condicional de que aparezca un número impar

dado que apareció un número mayor que 3.
P( D )= 3 / 6 = 1 / 2 P ( B ∩ D ) = 1/6
P ( B / D = P( B ∩ D ) / P( D ) = 1/6 / 12 = 1/3
79
4.7..TEOREMA DEL PRODUCTO DE PROBABILIDADES
En ocasiones, nos encontramos con la necesidad de determinar la

probabilidad de ocurrencia simultánea de dos o mas eventos. Para obtener
este resultado, deberemos aplicar la regla de multiplicación.
Regla de la Multiplicación : Si A y B son eventos contenidos

en un espacio muestral M , y P ( A ) > 0 y P ( B ) > 0,
entonces se cumple que
P ( A y B ) = P(A∩B) = P(A) • P(B /A) = P ( B ) • P ( A / B)
Cuando los eventos son independientes: En el caso especial en el que la

ocurrencia de A no está en absoluto relacionada con la ocurrencia de B y
viceversa, se dice que los sucesos son independientes. La independencia se
representa simbólicamente por
P ( B/ A ) = P(B) y P (A /B)=P(A).
Cuando los eventos son independientes la regla de la multiplicación se

simplifica a: Si A y B son eventos contenidos en un espacio muestral M y
P(A)> 0 y P(B)> 0, entonces “La probabilidad de la intersección es el producto
de las probabilidades” :
P ( A y B ) = P(A∩B) = P(A) • P(B)
En el ejemplo del dado: son A y C independientes?
Si la probabilidad del resultado A no depende de la ocurrencia de un

segundo evento C ( o viceversa) se dice que A y C son eventos
independientes. En términos de probabilidad se expresa que A y C son
eventos independientes si
P (A / C ) = P ( A ) ó bien P ( C / A ) = P ( C )
En caso de que A y C no sean eventos independientes (se denominan

dependientes), debido a que
P(A/C) ≠P(A) o bien P(C/A) ≠P(C)
Al lanzar un dado:
M=⎨1, 2, 3, 4, 5, 6⎬ y
A: número par
80
B: número impar
3
P ( A) =
6
3
P( B ) =
6
1
P( A ∩ B) =
6
1
1
P( A / B ) = 6 =
3 3
6 que no es igual a P ( A ) = 1 / 2 ,
1
1
P ( B / A) = 6 =
3 3
6 que no es igual a P ( B ) = 1/2
Muestreo con y sin reemplazo
Hay dos maneras de extraer objetos para obtener una muestra de la

población, conocido como muestreo de una población; estas son las
siguientes.
1.- Muestreo con reemplazo significa que el objeto que se extrajo al azar se
coloca de nuevo en el conjunto dado, se mezcla completamente y se precede
a extraer al azar el siguiente objeto.
2. Muestreo con reemplazo significa que el objeto que se extrajo se deja

aparte y no se lo introduce nuevamente.
¾ Ejemplo
Una caja contiene 10 juegos para niños de Jardín de Infantes, de los

cuales 3 están con fallas. Dos juegos se extraen al azar sin reemplazo.
Encontrar la probabilidad del evento tal que ninguno de los 2 juegos tenga
fallas.
81
Solución:
Consideremos los eventos
A: El primer juego extraído no tiene fallas.
B: El segundo juego extraído no tiene fallas.
Es claro que P (A) = 7/10, ya que 7 de los 10 juegos no son defectuosos y

estamos muestreando aleatoriamente, por lo cual cada juego tiene la misma
probabilidad ( 1/10 ) de ser escogido.
Si A ocurre, entonces quedan 9 juegos en la caja, 6 de los cuales tienen

fallas, por lo que
P (B / A)= = 6 / 9 = 2 / 3
Y por el teorema de la multiplicación, la respuesta es
P (A ∩ B ) = 7 /10 . 2 / 3 = 0,47
¾ Ejemplo
Si se seleccionan dos cartas de un paquete de naipes bien barajado,

¿cuál es la probabilidad de que ambas sean reinas?
Solución
Hay dos maneras de seleccionar las cartas: 1) Se puede seleccionar

una carta, reponerla en la baraja, barajar y extraer una segunda carta.
(Muestreo con reemplazo); 2) Se pueden seleccionar las dos cartas
consecutivamente sin reemplazar la primera en la baraja (Muestreo
sin reemplazo)
1º. Sea A el suceso de una reina en la primera extracción, y B el suceso

de una reina en la segunda extracción. Cuando el muestreo es con
reemplazo, la probabilidad de extraer una reina permanece igual en
las dos extracciones. Así, puesto que
P (A / B) = P (A) y P (B / A) = P (B), las dos extracciones son

independientes, por lo tanto
P (A ∩ B) = P (A). P (B) = 4/52. 4/52= 16/ 2704
82
2º. Cuando se emplea el muestreo sin reemplazo la probabilidad de

obtener una reina en la segunda extracción se reduce siempre que la
primera carta seleccionada haya sido una reina. En otras palabras ,
cuando P ( B / A ) ≠ P ( B ) o P ( A / B ) ≠ P ( A ) , los sucesos no son
independientes. La probabilidad de extraer una reina en el segundo
intento es 3 / 51. Empleando la fórmula correspondiente, encontramos
que la probabilidad de seleccionar dos reinas en extracciones
consecutivas procedentes de una baraja sin reemplazo, es:
P (A ∩ B) = P (A). P (B / A) = 4 / 52. 3 / 51 = 12 / 2652
Se debe notar que la diferencia entre ambos muestreos es despreciable

cuando la población es grande en relación con el tamaño de la muestra.
¾ Ejemplo: Para un estudio, se obtiene una muestra de padres de

alumnos de un Jardín de Infantes y se los clasifica según ocupación y
grado de compromiso con el mismo, obteniéndose los siguientes
resultados:
Padres de alumnos de un Jardín de Infantes, clasificados según

ocupación y grado de compromiso con el mismo.
Ocupación Grado de compromiso con el establecimiento

No Poco Comprometido Total
comprometido comprometido
Desocupado 20 10 5 35
Trabajo 10 15 10 35
permanente
Trabajo 15 10 5 30
temporario
Total 45 35 20 100
Suponga que se selecciona un padre al azar de este grupo. Obtenga las

probabilidades siguientes
9 Que el padre no se comprometa con la institución.
45
P ( A) = = 0,45
100
9 Que el padre no se comprometa o se comprometa con la institución.
83
45 20 65
P(A ∪ B ) = P ( Α ) + P( Β) = + = = 0,65
P(A∪B)=P(A)+P(B) 100 100 100
9 Que el padre se comprometa poco con la institución.
100 − 35 65
P ( A) = = = 0,65
100 100
9 Que el padre sea Desocupado y no se comprometa.
20
P(A ∩ C ) = = 0,20
100
9 Probabilidad que el padre sea poco comprometido dado que tiene

trabajo permanente
15
P( B I O ) 100 15
P( B / O ) = = = = 0,43
P (O ) 35 35
100
9 Probabilidad que el padre tenga trabajo temporario o sea poco

comprometido
30 35 10 55
P(O ∪ B ) = P( Ο) + P( Β) − P( Ο ∩ B ) = + − = = 0,55
100 100 100 100
84
TABLAS DE CONTINGENCIA
INTRODUCCIÓN
Con alguna frecuencia deseamos verificar la hipótesis de que los datos

observados de una muestra son el resultado del hecho de que os
características de una población no tienen relación entre sí. Por ejemplo,
podemos hacer la hipótesis de que la actitud de la gente hacia un
determinado grupo minoritario no tiene relación con su nivel de educación.
En otra situación, podríamos estar interesados en verificar la hipótesis de
que, en varias poblaciones, la proporción de sujetos que tienen una
determinada característica, es la misma. Podemos, por ejemplo, formular la
hipótesis de que en tres grupos, digamos de recursos económicos bajos,
medios y altos, la proporción de personas con conocimientos altos, y bajos
acerca de la política nacional, es la misma.
1.- DISTRIBUCIÓN JI-CUADRADA
Sean X 1, X 2,..., X n, variables aleatorias normales independientes que

tienen media 0 y variancia 1. La suma de sus cuadrados se representa en
general por χ2 ( ji-cuadrada ), esto es,
χ2 = X 1
2 + X2 2 +.......+ X n
2
A la distribución correspondiente a esta suma se la llama Distribución ji-

cuadrada, cuya función de densidad es
f ( x ) = Kn x (n-2) /2 e –x/2 cuando x > 0
f(x)=0 cuando x< 0
En esta fórmula n es un entero positivo que se llama número de grados de

libertad de la distribución y K n es una constante
K n = 1 / 2n/2 . Γ ( n/2)
Donde Γ ( n/2) es la función gamma.
Grados de libertad: es el número de clases en que las frecuencias pueden

distribuirse libremente.
85
1.1. Propiedades de la distribución del estadístico ji-cuadrada
1. Los valores de ji-cuadrado son mayores o iguales a cero.

No puede tomar valores negativos, ya que es suma de valores
elevados al cuadrado.
2. La distribución ji-cuadrada no es simétrica. Tiene cola

estrecha que se extiende a la derecha; esto es, está sesgada a la
derecha.
3. La forma de una distribución ji-cuadrada depende del grado

de libertad que es igual a n – 1 . En consecuencia hay un
número infinito de distribuciones ji-cuadrada.
4. La distribución ji-cuadrada tiene valor medio µ = n – 1 y

variancia σ 2 = 2(n – 1)
La siguiente figura ilustra tres distribuciones χ2 . Note que el valor modal

aparece en el valor (n-3) = (gl-2).
Hipótesis: La palabra hipótesis se define como:

1. Una afirmación que está sujeta a verificación o comprobación.
2. Una suposición que se utiliza como base para una acción.
Una hipótesis es una afirmación o suposición y no un hecho
establecido.
Una hipótesis estadística es una suposición que se hace acerca de la
distribución de una variable aleatoria. Una prueba estadística de una
hipótesis es un procedimiento en el cual se usa una muestra con el fin de
determinar cuando podemos “no rechazar “ (aceptar ) la hipótesis, es decir,
actuar como si fuera cierta o cuando debemos “rechazar” esta, es decir,
actuar como si fuera falsa.
Las hipótesis estadísticas son de dos tipos. Primero está la hipótesis
nula, que se simboliza con H0 y que es la hipótesis que se debe comprobar.
Para verificar una hipótesis nula, examinamos los datos de la muestra
tomada de la población pertinente y determinamos si son o no compatibles
con la hipótesis nula. Si los datos de la muestra no son compatibles con la
86
hipótesis nula, entonces H0 se rechaza. Si los datos son compatibles con la

hipótesis nula, entonces H0 no se rechaza.
Si la hipótesis nula no se rechaza, decimos que los datos particulares
de la muestra no dan suficiente evidencia como para que concluyamos que
la hipótesis nula es falsa. Si la hipótesis nula se rechaza, decimos que los
datos particulares de la muestra sí dan suficiente evidencia como para
hacernos concluir que la hipótesis nula es falsa y que una segunda hipótesis
es verdadera. Esta segunda hipótesis, de la que hemos concluido que es
verdadera si la hipótesis nula es rechazada, se denomina hipótesis alterna
y se designa con el símbolo H 1
1.2 Tabla de la Distribución ji-cuadrada
Para conocer el valor de χ2, debemos consultar una tabla específica,

que contiene:
- En la matriz de las columnas, los grados de libertad.

- En la matriz de las filas, los valores de probabilidad.
- En el cuerpo de la tabla, los valores de χ2 .
La tabla que se utilizará es la de χ2 , la cual da valores críticos para

valores especiales de α . Para denotar el valor crítico de una distribución χ2
con ( gl ) grados de libertad se usa el símbolo χ2 (gl); este valor crítico
determina a su derecha un área α debajo la curva χ2 y sobre el eje
horizontal. Por ejemplo para encontrar χ2 0.05(6) en la tabla se localiza 6 gl en
el lado izquierdo y α = 0,05 a o largo del lado superior de la misma tabla.
87
2. TABLA DE CONTINGENCIA
Definición: Una tabla de contingencia es una tabla en donde las frecuencias

corresponden a dos variables.( Una variable se utiliza para categorizar
renglones y una segunda variable para categorizar columnas).
En una Tabla de Contingencia, los niveles de un criterio de
clasificación forman las filas y los niveles de otro criterio, las columnas. Las
celdas que se encuentran en las intersecciones de las filas y las columnas
contienen conteos o frecuencias de sujetos que se han clasificados en forma
cruzada con base en los dos criterios. Es importante reconocer que la palabra
contingencia se refiere a dependencia, pero esto solo es una dependencia
estadística, por lo cuál no es posible utilizarla para establecer una cadena
directa de causa-efecto entre las dos variables en cuestión.
Las tablas de contingencia tienen especial importancia, puesto que
suelen utilizarse para analizar resultados de encuestas. Por ejemplo,
podemos hacer una pregunta a los sujetos en la que identifiquen su género (
masculino / femenino), y otra en la que describan la frecuencia de su uso
del control remoto del televisor (frecuentemente / algunas veces / nunca ),
Se puede determinar si el uso del control remoto del televisor es
independiente del género.
La Tabla 1 es una tabla de contingencia generalizada en la que se ha
clasificado en forma cruzada una muestra de n sujetos. La tabla muestra
que el número de sujetos que cae en el nivel i del primer criterio y el nivel j
del segundo, es n ij . Un total de n r . sujetos cae dentro de la categoría r del
primer criterio y n . c sujetos caen dentro de la categoría c del segundo
criterio.
Tabla 1 : Clasificación de doble entrada de una muestra de sujetos.
Primer
criterio de Segundo criterio de clasificación
clasificación Nivel
Nivel 1 2 ..... j ..... c
Total
1 n11 n12 ............ n1j ............. n1c n1.

2 n21 n22 ........... n2j ............ n2c n2.
. . .
. . .
I ni1 ni 2 ............ nij ............ nic ni.
. .
. .
R nr1 nr2 ........... nrj ......... nrc nr.
Total n.1 n.2 n.j n.c n
En general una tabla de contingencia tiene r filas y c columnas, siendo

f y c números mayores o iguales a dos. Una característica importante en el
análisis de las tablas de contingencia es el número de grados de libertad de
88
la tabla, que se define como el número de casillas que pueden fijarse

arbitrariamente cuando los totales por filas y columnas se suponen fijos.
Se presentan dos tipos de prueba de hipótesis que se basan en tablas
de contingencia: Las pruebas de independencia, que se usan para
determinar si una variable de renglón de una tabla de contingencia es
independiente de su variable de columna y Las pruebas de homogeneidad,
que sirven para determinar si situaciones diferentes tienen las mismas
proporciones de alguna característica. Ambos tipos de prueba de hipótesis
utilizan los mismos métodos básicos. Veremos únicamente las pruebas de
independencia.
Se obtiene una tabla de contingencia 2 x 2 debido a que los individuos
se clasifican según dos criterios, y para cada criterio se hace distinción entre
dos categorías. Se habría obtenido una tabla de contingencia 2 x 3 si
hubiéramos usado 3 categorías .
2. PRUEBA DE JI-CUADRADO DE INDEPENDENCIA
Definición: Prueba la hipótesis de que no hay asociación entre la variable de

renglón y la variable de columna en una tabla de contingencia.
Un investigador puede estar interesado en saber, respecto de una
población, si dos criterios de clasificación están probablemente relacionados
o no. Por ejemplo, podemos estar interesados en saber si hay o no asociación
entre la religión , y el interés político en algún grupo de personas. Si
concluimos que dos criterios de clasificación no están relacionados, decimos
que son independientes.
Dos criterios de clasificación son independientes si la distribución de
un criterio no depende de ninguna manera de la distribución del otro. En el
ejemplo, diremos que la participación religiosa y el interés político son
independientes si el hecho de conocer la religión de una persona no
interviene en la predicción de la naturaleza de sus intereses políticos.
Para poder llegar a una decisión sobre la independencia de dos
criterios en una población, generalmente analizamos los datos de la muestra
y sacamos conclusiones acerca de la población a partir de los resultados de
la muestra.
Para este tipo de problemas la técnica que más se emplea es la
denominada Prueba de Ji-Cuadrado de Independencia
Cuando se prueba la hipótesis de independencia entre las variables de
renglón y de columna, en una tabla de contingencia, los supuestos, el
estadístico de prueba y los valores, para aplicar la prueba de ji-cuadrado de
independencia hay que realizar los siguientes pasos:
1.- Tomamos una muestra aleatoria de sujetos de la población de interés.
2.- Plantear las hipótesis. La hipótesis planteada es la afirmación de que las

variables de renglón y de columna son independientes, la otra hipótesis que
se plantea es la afirmación de que las variables renglón y columna son
dependientes, o sea :
89
La hipótesis nula que se va a verificar con la prueba de ji-cuadrado de

independencia es :
H 0 : Los dos criterios de clasificación son independientes
La hipótesis alterna es .
H 1 : Los dos criterios de clasificación no son independientes.
3 . - P resentamos los datos en una Tabla de Contingencia, en la cual los

niveles de un criterio de clasificación forman las filas y los niveles del otro
criterio, las columnas.
4.- Calculamos las frecuencias esperadas para cada una de las celdas de la
tabla de contingencia. Esto lo hacemos suponiendo que la hipótesis nula es
verdadera , es decir, que los dos criterios de clasificación son
independientes.
5.- Comparamos las frecuencias esperadas y observadas calculando el

estadístico de prueba para una prueba de independencia.
(O − E )2
χ2 = ∑ E
donde O ij es la frecuencia observada y E ij es la frecuencia esperada de la

celda ij. Si la hipótesis nula es verdadera, es decir, si los dos criterios de
clasificación son realmente independientes, χ 2 se distribuirá
aproximadamente como una distribución ji-cuadrada.
Definición. Un estadístico de prueba es una cantidad numérica que se

calcula a partir de los datos de una muestra y que se utiliza para tomar la
decisión de rechazar o no rechazar una hipótesis nula.
6.- Escogemos un nivel de significación α ( 5 % , 1% o alguno semejante).
7.- Se determinan los valores críticos.
i) Los valores críticos se encuentra utilizando

grados de libertad = ( r – 1 ) . ( c - 1 )
ii) En una prueba de independencia de una tabla de contingencia, la

región crítica se localiza solo en la cola derecha.
8.- Comparamos el valor calculado de χ 2 c , para su significación, con los

valores tabulados de χ 2 t . Si χ 2 c es igual o mayor que χ 2 t para los
grados apropiados de libertad y el nivel escogido de significación α ,
90
rechazamos la hipótesis nula de independencia y concluimos que los dos

criterios de clasificación no son independientes.
Determinación de frecuencias esperadas. Para determinar las frecuencias

esperadas de las celdas de la tabla de contingencias, en una prueba de ji-
cuadrado de independencia, utilizamos nuestros conocimientos sobre la
probabilidad. Refirámonos a la tabla de contingencia de la Tabla 1.
Supongamos que deseamos estimar la probabilidad de que un sujeto
tomado al azar en esa población esté caracterizado por el nivel 1 del primer
criterio. El estimador de esa probabilidad es n1 . / n , es decir, el número de
sujetos de la muestra caracterizados por el nivel 1 del primer criterio
dividido por el número total de sujetos de la muestra. De igual manera, para
estimar la probabilidad de que un sujeto tomado al azar en esta población se
categorice por el nivel 1 del segundo criterio de clasificación, calculamos n .
1 / n.
Para obtener la frecuencia esperada de una celda determinada,
determinemos la probabilidad de que un sujeto , tomado al azar en esta
población, esté en esta celda. . Por ejemplo, calculemos la probabilidad de
que un sujeto tomado al azar en esa población esté contado en la primera
celda de la Tabla 1. Esto es, en otras palabras, la probabilidad de que un
sujeto tomado al azar en esta población esté caracterizado por el nivel 1 de
ambos criterios de clasificación. Sin ningún conocimiento de la dependencia
o independencia de los dos criterios, estaríamos inclinados a estimar esta
probabilidad calculando la probabilidad conjunta n 11 / n. Siguiendo la
hipótesis que los dos criterios de clasificación son independientes, hacemos
otro razonamiento. En probabilidad vimos, que si dos eventos son
independientes, la probabilidad de su ocurrencia conjunta es igual al
producto de sus probabilidades individuales. Si establecemos esta regla de
modo que se pueda aplicar específicamente a una tabla de contingencia,
podemos hacer el siguiente planteamiento:
En una tabla de contingencia, si dos criterios de clasificación son

independientes, cada una de las probabilidades conjuntas asociadas con la
celda de la tabla es igual al producto de las probabilidades marginales
correspondientes.
Entonces siguiendo la hipótesis de independencia, la probabilidad de

que un sujeto tomado al azar en esta población esté caracterizado por el
nivel 1 de ambos criterios de estima mediante (n1. / n ) . (n . 1 / n ) .
Con el fin de obtener las frecuencias esperadas de las celdas de la tabla de

contingencia , multiplicamos cada una de las probabilidades conjuntas por
el tamaño total de la muestra, n . Por ejemplo, la frecuencia esperada E 11
de la primera celda de la Tabla 1 está dada por :
E 11 = (n1. / n ) . (n.1 / n ) . n
91
E 11 = ( n1. * .n .1 )/n (1)
La forma de este producto sugiere una forma general

para obtener la frecuencia que se espera de una celda:
(total de renglón ) • .(total de columna )

E=
( gran total )
El gran total se refiere al total de todas las frecuencias

que se observan en la Tabla.
Determinación de los grados de libertad: El número de grados de libertad

asociados con valor de χ 2 c calculado a partir de los datos de una tabla de
contingencia es igual al número de celdas que se pueden llenar
arbitrariamente si se han establecidos los totales marginales.
En general, el número de grados de libertad asociados con χ c2 calculado en
una tabla de contingencia es igual :
gl=(f–1).(c–1)
Figura: Región crítica (sombreada) para un contraste con el estadístico .
¾ Ejemplo: Un sociólogo desea saber si es posible concluir que hay

relación respecto al estado de nutrición y desempeño
académico en una población de alumnos pertenecientes al
Nivel Inicial de Escuela de la Capital de la Provincia de Santiago
del Estero. El sociólogo seleccionó una muestra de 500 alumnos.
La prueba de ji-cuadrado resulta adecuada para tomar una decisión.
92
Solución:
1. Los datos muestrales se seleccionan aleatoriamente.
2. Determinar Ho y H1.
La hipótesis nula que se va a verificar con la prueba de ji-cuadrado de
independencia es :
Ho : el estado nutricional y el desempeño académico son

independientes.
H1 : las dos variables no son independientes.
3. Presentación de los datos en una tabla de contingencia
Tabla 2: Estado de nutrición y desempeño académico de

500 niños de una escuela primaria.
ESTADO DE NUTRICIÓN
DESEMPEÑO TOTAL
ACADÉMICO
MALO BUENO
MALO 105 15 120
SATISFACTORIO 80 300 380
TOTAL 185 315 500
4. Calculamos las frecuencias esperadas
Aplicando el procedimiento abreviado, calculamos las

frecuencias que se espera para cada celda, suponiendo
independencia entre las variable de renglón y las variables
de columna de la tabla, empleando la fórmula ( 1 )
E 11 = 120 . 185 / 500 = 44,4 E12 = 120 .

315 / 500 = 75,6
E 21 = 380 . 185 / 500 = 140,6 E 22 = 380. 315 /500 = 239,4
5. Comparamos las frecuencias que se observadas y las frecuencias que se

esperan.
Tabla 3 . Frecuencias observadas y frecuencias esperadas del ejemplo 1
93
ESTADO DE NUTRICIÓN
DESEMPEÑO
ACADÉMICO
Malo Bueno Total
Malo 105 ( 44,4 ) 15 ( 75,6 ) 120
Satisfactorio 80 ( 140,6 ) 300 ( 239,4 ) 380
TOTAL 185 315 500
La tabla muestra las frecuencias esperadas entre paréntesis y las

frecuencias observadas.
Utilizamos los datos de la Tabla 3 y el Estadístico de prueba , que es
(O − E )2
χ2 = ∑ E
para calcular el valor de χ2
χ2 =(105– 44,4 ) 2 / 44,4 + (15 – 75,6 )2 / 75,6 + (80 – 140,6 ) 2 /140,6+ (300-
239,4) 2 / 239,4 = 82.71+48.58+26.12+15.34=172.74
6. Determinación de los grados de libertad. Como el número de grados de

libertad asociado con χ2 calculado en una tabla de contingencia es igual a (c-
1)*(f-1) o sea
g.l. = ( 2 – 1 ) . ( 2 – 1) = 1
El nivel de confianza: 5 %
7. Buscamos el χ2 en la tabla :
Para 1 grado de libertad y un nivel de confianza α = 5 % , el
χ2 t = 3,84
El valor crítico es χ2 t = 3,84, se encuentra en la tabla observando que α =

0,05 en la cola derecha y que el número de grados de libertad es 1.
Comparamos el χ2 c y el χ2 t ( el ji-cuadrado calculado con el ji-
cuadrado de tabla)
χ2 c = 172,74 > χ2 t = 3,84
Como el estadístico de prueba está dentro de la región crítica, rechazamos la

hipótesis H 0 .
Interpretamos: El estado nutricional y el desempeño académico no

son independientes.
94
GUIA DE EJERCITACIÓN
Actividad 1
El Director de una escuela debe establecer turnos para que el

establecimiento siempre tenga dos administrativos durante el mes de enero.
Para ello de los cinco empleados que dispone (A, B, C, D, E) debe formar
grupos de dos seleccionados al azar, sin reemplazo.
Describa el espacio muestral de este experimento aleatorio.
Actividad 2
a) ¿Cómo sería el espacio muestral en la actividad anterior si el muestreo

fuera con reemplazo?
b) ¿Cuál es la forma correcta de efectuar este experimento, para que el
Director del establecimiento siempre tenga dos administrativos en el mes
de enero?
Actividad 3
Dé dos ejemplos de sucesos seguros y dos de sucesos imposibles.
Actividad 4
En el experimento aleatorio de la Actividad N°1,
a) ¿Cuántos grupos de dos personas se formaron?
b) ¿En cuántos está A?
c) ¿En cuántos está B?
d) ¿En cuántos están A y B?
e) ¿En cuántos no ha sido seleccionado C?
f) ¿En cuántos han sido seleccionados A ó B ó C?
g) Calcule la probabilidad de cada uno de estos sucesos.
Actividad 5
Una oficina donde asignan becas para estudio a alumnos de EGB, realiza la
selección de los mismos para dos Becas de distinto origen de fondos; los
resultados posibles son Seleccionado (S) o No Seleccionado (NS). El
experimento consiste en tomar al azar un alumno y observar el resultado en
las dos selecciones.
a) Describa el espacio muestral de este experimento (suponga que todos los
alumnos han estado inscriptos en las dos Becas)
b) ¿Cuál es la probabilidad de que el alumno haya sido seleccionado en las
dos Becas?
c) ¿Cuál es la probabilidad que el alumno no haya sido seleccionado
ninguna de las dos Becas?
d) ¿Cuál es la probabilidad que el alumno haya sido seleccionado en una
Beca por lo menos?
95
e) ¿Cuál es la probabilidad que el alumno haya sido seleccionado a lo sumo

en una Beca?
Actividad 6
Cada uno de los items siguientes representan las probabilidades de cada uno
de tres eventos simples.
Marque el item correcto, justificando al mismo tiempo su respuesta.
a) P(E1) = 0.8 P(E2) = 0.3 P(E3) = 0.1
b) P(E1) = 0.3 P(E2) = 0.2 P(E3) = 0.5
c) P(E1) = -0.6 P(E2) = 0.2 P(E3) = 0.2
d) P(E1) = 1/3 P(E2) = 1/2 P(E3) = 1/6
Actividad 7
En una encuesta realizada a 90 alumnos que egresan del Polimodal en un

establecimiento educativo, se les preguntaba sobre el nivel de instrucción
alcanzado por los padres y si seguirían estudiando o no una carrera superior.
El resultado de la encuesta figura en la tabla siguiente:
Nivel de educación ¿Seguirán Total

de los padres estudiando?
Si No
Superior 20 10 30
Secundario 30 10 40
Primario 15 5 20
Total 65 25 90
Si se selecciona un alumno al azar, cuál es la probabilidad de:

a) ¿Qué el alumno tenga padres con educación superior?
b) ¿Qué el alumno siga estudiando?
c) ¿Qué el alumno siga estudiando y tenga padres con educación primaria?
d) ¿Qué el alumno tenga padres con educación superior o secundaria?
e) ¿Qué el alumno tenga padres que no posean educación superior?
f) ¿Qué el alumno siga estudiando dado que posee padres con educación
primaria?
g) ¿Qué el alumno no siga estudiando dado que posee padres con educación
secundaria?
h) El evento que siga estudiando es independiente del nivel de educación
Superior alcanzado por los padres?
Actividad 8
En un examen de 10 bolillas un alumno no sabe dos de ellas. ¿Cuál es la
96
probabilidad que le toquen justamente las dos bolillas que no sabe?
Actividad 9
Una prueba tiene 2 preguntas con dos opciones: Verdadero (V) o Falso(F).
a) ¿Cuál es la probabilidad de que acierte en las dos?
b) ¿Cuál es la probabilidad de que acierte por lo menos en una?
c) ¿Cuál es la probabilidad de que a las dos las conteste incorrectamente?
97
BIBLIOGRAFÍA
• Benítez, Celia de; Pece, Marta G.; Galíndez, Margarita de. (2003).
Serie Didáctica N°7: “Elementos de Estadística para técnicos en vivero
y plantaciones forestales”, con guía de ejercitación.
• Barbancho, A. (1983). Estadística Elemental Moderna . 9a Edición.

Ariel, S. A. – Barcelona. ISBN 84-344-2005-8.
• Daniel, W.W. (1997) Bioestadística. ISBN 968-18-5196-X.
• Kreyszig, E. (1994). Introducción a la Estadística Matemática .

Principios y métodos. LIMUSA. –Noriega Editores. ISBN 968-18-0729-
4.
• Peña, D. y Romo, J. (1999) . Introducción a la Estadística para las

Ciencias Sociales. ISBN 84-481-1617-8.
• Triola, M.F.(2004). Estadística. Novena edición.ISBN 970-26-0519-9.

Editorial Pearson. México. 837 pags.
• Ya-Lun, Chou. (1990). Análisis Estadístico. ISBN 970-10-0046-3.

pags.808.
98

07.b.investigacion Educativa Estadistica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

07.b.investigacion Educativa Estadistica

Cargado por

Copyright:

Formatos disponibles

Licenciatura en EGB 1 y 2 – Escuela para la Innovación Educativa - UNSE

SEMINARIO DE INVESTIGACIÓN EDUCATIVA

UNIDAD II: Presentación de datos estadísticos.

UNIDAD III: Medidas de resumen.

UNIDAD IV :Tablas de Contingencia

La palabra Estadística proviene del latín status (estado). Precisamente

El objetivo que se persigue con este módulo es proporcionar al docente

La Estadística es una colección de métodos para planear

Otra definición considera a la Estadística como una disciplina

La primera etapa tiene como objetivo recolectar datos proveniente de

En la tercera etapa se analizan los resultados obtenidos en la etapa

En la última etapa se debe concluir acerca del estudio realizado.

Si las conclusiones, se refieren exclusivamente a los datos de los que se

Las estadísticas (en plural) se obtienen como resultado del trabajo

Es necesario definir algunos conceptos importantes: por ejemplo

Población. Se define población como el conjunto de individuos u

Muestra. Es un subconjunto de la población. Debe ser representativa,

Una población puede ser finita o infinita.

Población finita Una población finita es aquella que puede ser

Población infinita. Una población es infinita, cuando en la práctica

Ejemplo. Una población puede ser definida como los alumnos de la

Personas portadoras de SIDA en Santiago del Estero, constituyen

Unidad de observación: es aquélla sobre la cual se efectúan las

Dato: es el valor que se obtiene de la medición, observación o conteo

Por ejemplo si el objetivo de una investigación es el rendimiento de

El número de materias rendidas contadas en un alumno es el

El conjunto de datos obtenidos de cada unidad de observación

Variables. Concepto y tipos.

Variable. Una variable es cualquier característica que varía de una

Ejemplo 1: Supóngase que interesa conocer la salud de los alumnos,

Ejemplo 2: Si interesa saber el número de hermanos que posee cada

Ejemplo 3: Si el objetivo de un estudio fuera la talla alcanzada por

En los tres ejemplos anteriores, el nombre de la variable y la forma de

Otra forma de clasificación de las variables es mediante el empleo de

Un nivel de medición es nominal cuando los valores de variables son

Ejemplo: colores de ojos, estado de salud, lugar de nacimiento de un alumno.

Con estos datos no es posible realizar cálculos. A veces se asignan

Un nivel de medición es ordinal cuando se puede establecer un orden

Lo único que podemos decir es que el nivel de instrucción secundario

Supongamos que se codifican dichos niveles con 1, 2, 3, 4 y 5.

Si bien se podría hacer la diferencia entre 2-1=1 y 4-3=1, este resultado

Otro nivel de medición es el de intervalo. En este nivel la diferencia

Ejemplo: La variable Temperatura está medida en escala de intervalo. Un

Por último el nivel de medición de razón o cociente aunque se

Escala Escala Escala de Escala de

Series de datos. Series simples

El conjunto de valores de una variable constituye una serie de datos.

Ejemplo 1: En el año 2004, se examinan 30 alumnos de un Curso de

Generalmente las variables se designan con las últimas letras del

El subíndice “ i “ varía de 1 a 30. Así, x1 = S; x7 = S; X14 = E; . . . x30 =S.

Ejemplo 2: Un maestro de la Escuela San Martín interroga a sus 30 alumnos

Ejemplo 3: Un maestro mide la talla de sus 25 alumnos de Sección

Ahora “i” va desde 1 a 25, entonces x1 = 70; x2 = 75; . . .;

Los datos en bruto, tal cual fueron obtenidos, sin agrupar

Organización de datos categóricos o cualitativos.

Cuando la masa de datos obtenidos es muy grande y éstos están

Tabla de frecuencias. Una tabla de frecuencias para variable cualitativa, es

Tabla 1. Alumnos de un curso EGB1, de la Escuela San Francisco, según

Frecuencia absoluta: Es el nº de veces que se repite cada categoría de la

La suma de las frecuencias absolutas, es igual al nº total de observaciones,

La tabla de frecuencias, es la más sencilla de las tablas y es una tabla

Gráfico 1a. Alumnos de un curso EGB1, de la Escuela San Francisco, según

Fuente: Datos ficticios

Para su construcción se utiliza el sistema de coordenadas ortogonales.