Está en la página 1de 7

Ciclo Preuniversitario Admisión 2014-1

ESTADÍSTICA
Definición. Nos proporciona un conjunto de métodos, procedimientos o técnicas para recopilar, clasificar,
analizar y presentar datos con el fin de describirlos o de realizar generalizaciones válidas.
El estudio de la estadística puede dividirse en dos áreas principales:
a) Estadística Descriptiva. Comprende las técnicas que se emplean para la recopilación, organización,
resumen y presentación de los datos (o información).
b) Estadística Inferencial. Comprende técnicas que permiten tomar decisiones acerca de una población
a partir del estudio de una muestra (subconjunto de dicha población, sometida a observación o
experimentación).
La inferencia (de muestra a población) no tiene por qué ser cierta en forma absoluta, motivo por el cual es
necesario que ella sea dada con una medida de confiabilidad a la cual se denomina probabilidad.
Población y muestra. Todo estudio estadístico esta siempre referido a un conjunto o colección de
personas o cosas; al cual se le denomina población, la cual puede ser finita o no.
Las personas o cosas que forman la población se denominan unidad elemental o unidad estadística.
Normalmente un estudio estadístico se realiza sobre un subconjunto de la población, al que se le llama
muestra. La muestra debe ser seleccionada adecuadamente de manera que ella sea representativa de la
población, para poder realizar de este modo posibles inferencias..
Variables estadísticas. Al estudiar una población o muestra nos concentramos en una característica
de los individuos u objetos que le conforman; si esta característica tiene variabilidad o variación se
denomina variable estadística y el resultado de las observaciones o mediciones de la característica se
llama dato estadístico.
Cuando la característica o variable en estudio es no numérica o numérica no operable se le denomina
variable cualitativa o atributo. Así por ejemplo: el estado civil de una persona, su nacionalidad, tipo de
automóvil que posee, ciclo en el que se encuentra un alumno, etc. son variables cualitativas.
Cuando la variable de estudio se puede expresar numéricamente y se puede hacer operaciones con
ella, entonces se denomina variable cuantitativa. Así por ejemplo: el saldo de una cuenta bancaria; la
estatura de una persona, el número de hijos en una familia, son variables cuantitativas.
Estas variables cuantitativas pueden ser:
a) Discretas: Cuando se les puede asociar un número entero. Por ejemplo, el número de hijos, número de
empleados de una empresa, número de ruedas de un vehículo, etc; son variables cuantitativas discretas
b) Continuas, Aquellas que por su naturaleza admiten que entre dos valores cualesquiera la variable
pueda tomar cualquier valor intermedio, por ejemplo pesos, tiempo de duración de en proceso y estaturas
de personas, etc.)
Organización y presentación de datos
I. Para datos no agrupados. La información que se ha recopilado pero que aún no se organiza se debe
ordenar. Si los datos incluyen valores repetidos se puede organizar una distribución de frecuencias que
es una tabla o lista de los distintos valores de la variable (x).
A continuación damos las siguientes definiciones:
Sean x1,x2, x3,…., xk los distintos valores que puede tomar la variable x.
Frecuencia absoluta (fi): Designa el número de veces que el valor correspondiente aparece en el
conjunto de datos. Por ejemplo, fi indica el número de veces (frecuencia absoluta) que aparece el valor xi
Frecuencia relativa (h i): Indica la fracción o porcentaje del total, con que aparece el valor x i, dentro del
fi
total de datos. Se calcula como: hi  , i =1,2,....,n
N
Frecuencia Absoluta Acumulada (Fi) es la suma de todas las frecuencias absolutas hasta k = 1 hasta
k = i, obteniéndose Fi  f1  f2  ...  fi
Frecuencia Relativa Acumulada (Hi) Es el cociente entre la frecuencia acumulada absoluta
Fi
correspondiente al dato xi y el número total de datos N. Luego Hi  o también Hi  h1 +h2 +...+hi
N
Ejemplo 1: Se realizó una encuesta entre los 50 empleados de una empresa, consultando sobre el
número de hijos en edad escolar que tenía cada empleado, a fin de estimar el pago de una bonificación
por gastos escolares que proyecta hacer la empresa.

CEPRE-UNI ARITMÉTICA Página 1


Ciclo Preuniversitario Admisión 2014-1

Estos fueron los resultados:

0 2 1 0 3 2 0 1 1 0 0 1 1 2 4 1 0 1 1 0
2 1 0 0 3 0 0 1 2 1 0 0 2 4 1 1 0 1 2 0
1 1 0 3 5 1 2 1 3 2
Organizar los datos en una distribución de frecuencias, enlistando cada valor diferente (x) en una columna,
luego empleamos marcas para contar el número de veces que aparece cada valor de x y al acabar,
anotamos la frecuencia absoluta (f) y luego calculamos la frecuencia relativa (h).
Tabla 1. No de hijos por empleados de una empresa
No de Conteo fi hi Fi Hi
hijos
0 \\\\ \\\\ \\\\ \ 16 16/50 = 0.32 = 32% 16 32%
1 \\\\ \\\\ \\\\ \\\ 18 18/50 = 0.36 = 36% 34 68%
2 \\\\ \\\\ 9 9/50 = 0.18 = 18% 43 86%
3 \\\\ 4 4/50 = 0.08 = 8% 47 94%
4 \\ 2 2/50 = 0.04 = 4% 49 98%
5 \ 1 1/50 = 0.02 = 2% 50 100%
n = 50 Total = 1 = 100%

Se deduce que: El total de frecuencias absolutas debe ser el total de datos y el total de frecuencias
relativas debe ser el 100%.
n n
Propiedad fundamental:  f = N = total de datos ;  h =100%
i=1
i
i=1
i

II. Para datos agrupados. Cuando los datos consisten en muchos valores en su mayoría no repetidos es
conveniente agrupar los datos y determinar las frecuencias absolutas y relativas de cada grupo que
llamaremos clase.
Necesitamos las definiciones:
a) Rango Recorrido (R). Es la diferencia entre el mayor xmáx y el menor de los datos xmin: R = xmax – xmin

CEPRE-UNI ARITMÉTICA Página 2


Ciclo Preuniversitario Admisión 2014-1

b) Intervalo de Clase a i , b i . Son cada una de las categorías excluyentes (o clases) en los que se

pueden clasificar los datos. Los extremos de un intervalo [ai, bi son ai y bi, donde:
ai = límite inferior del intervalo de clase; bi = límite superior del intervalo de clase
c) Marca de Clase (x’i). Son los puntos medios de cada clase, así en el intervalo a i , b i la marca de

clase x’i será: ai  bi
xi 
2

d) Número de Intervalos (k). No existen reglas fijas para establecer el valor de k. Una regla sugiere que
sea un número próximo a N y otra dice que el número ideal es 1 + 3,3 logN (Regla de Sturges), siendo
N el total de datos. En muchos casos, desde 5 hasta 20 intervalos puede ser el número adecuado.
e) Amplitud del Intervalo (A). Es la diferencia entre sus extremos. Por lo general todos los intervalos
tienen la misma longitud A por lo que se cumplirá para estos casos que: R
A
k
Es preferible redondear el valor de “A” por exceso para no perder datos.
f) Frecuencia absoluta (fi). Es el número de datos que corresponden al i-ésimo intervalo de clase.
g) Frecuencia absoluta Acumulada (Fi) Se define para cada i-ésimo intervalo de clase, como la suma de
todas las frecuencias absolutas fi desde el primero hasta el i-ésimo intervalo: Fi  f1  f2  ...  fi
h) Frecuencia relativa (hi). Es el cociente entre la frecuencia absoluta del i-ésimo intervalo y el número

fi
total de datos: hi 
N

i) Frecuencia relativa Acumulada (Hi). Es el cociente entre la frecuencia acumulada absoluta


correspondiente al i-ésimo intervalo y el número total de datos. Fi
H i
N
Organización y presentación de datos para una variable cuantitativa continúa
Ejemplo. Se pesaron a 40 estudiantes y sus pesos en kilogramos fueron:
60 69 50 79 65 71 48 60 86 42 86 64 90 81 78 73
69 64 72 80 65 52 70 47 54 74 53 77 45 66 75 60
63 55 62 72 59 61 67 55
Construir la tabla de distribución de frecuencias
Solución: La variable (x) es el peso de los estudiantes.
a) Determinación del rango: Rango = Dato mayor – Dato menor = 90 – 42 = 48

b) Número de intervalos: k = 40  6
c) Ancho de clase 48 / 6 = 8

CEPRE-UNI ARITMÉTICA Página 3


Ciclo Preuniversitario Admisión 2014-1

La tabla de frecuencias viene dada por: Tabla 2


Ii xi fi Fi hi Hi
42 - 50 46 4 4 0.10 0.100
50 - 58 54 6 10 0.15 0.250
58 - 66 62 11 21 0.275 0.525
66 -74 70 9 30 0.225 0.750
74 -82 78 7 37 0.175 0.925
82 -90 86 3 40 0.075 1.00

Representaciones graficas de un conjunto de datos estadísticos


a) Histogramas. Son gráficos específicos para datos agrupados por intervalos.
Los histogramas asocian a cada intervalo un rectángulo de superficie proporcional a la frecuencia.
Los límites de clase se marcan en el eje horizontal y determinan las bases de los rectángulos y las
frecuencias se anotan en el eje vertical y determinan sus alturas.
b) Polígono de frecuencias. Es la línea que une los puntos correspondientes a las frecuencias de cada
elemento. Si los datos están agrupados por intervalos, se construye de modo similar al histograma, pero
los puntos que se unen son los correspondientes a las marcas de clase.
Histograma de la frecuencia absoluta con el polígono de frecuencias

c) Ojivas. Son gráficos de frecuencias acumuladas. En el eje vertical se anotan la frecuencias acumuladas
asociadas a cada límite superior de clase (acumula frecuencias “menores que” un valor dado).
En algunos casos se grafican las frecuencias acumuladas de todos los valores mayores o iguales al límite
inferior de cada intervalo (ojivas “mayor que”). Siempre que se mencione una ojiva sin especificar su tipo,
se entenderá que es de tipo “menor que”.
Histograma de la frecuencia absoluta acumulada y la OJIVA (Menor que)
Fi
50
40
30
20
10

0 x
42 50 58 66 74 82 90

CEPRE-UNI ARITMÉTICA Página 4


Ciclo Preuniversitario Admisión 2014-1

Observaciones. Si “f” es la frecuencia en el intervalo de clase [a, b> y se considera que los datos se
distribuyen de manera “uniforme” en ese intervalo, entonces podemos considerar por ejemplo que en el
c -a
intervalo [a, c] contenido en [a, b> existen aproximadamente: f / = ( ).f . Igualmente para una
b-a
c -a
frecuencia relativa h: h/ = ( ).h . Por semejanza:
b-a
f f f'
Esta se rige por una simple regla de tres: 
ba c a
f’
a b
c

Ejemplo: En el intervalo [50; 58> la frecuencia es 6, luego en el intervalo [52; 55] habrá
55 - 52 2,25
f = . 6 = 2,25  × 100% = 5,625%
58 - 50 40
Medidas de centralización.
Los números que describen de manera concisa el comportamiento y las características generales de un
conjunto de datos son los parámetros estadísticos.
Los parámetros que miden la tendencia central de los datos se llaman medidas de centralización y son
datos que representan de forma global a toda la población y los más representativos son la media, la
mediana y la moda.
a) Media aritmética. Se calcula dividiendo la suma de los valores de todos los datos entre el número de
datos. Así tenemos:

Para datos no agrupados x 


x i
, Para datos agrupados: x 
 f x'
i i

n n
En la última fórmula fi es la frecuencia de cada intervalo y x’ i es la marca de clase.
Media aritmética ponderada. Se aplica cuando no todos los datos tienen la misma importancia o peso.
Su fórmula es similar a la de los datos agrupados, cambiando f i por los pesos pi y el denominador N por la
suma de todos los pesos; en este caso xi sería el valor de cada dato.

xp 
x pi i

x1p1  x 2p 2  ...  x k pk
p i p1  p 2  ...  pk
b) Mediana (Me). Es el valor del dato que ocupa la posición central cuando éstos se ordenan de menor a
mayor (o viceversa); dividiendo a la lista de datos en dos grupos de igual número de elementos.
Veamos cómo se calcula su valor:
b1) Para datos no agrupados: La mediana está dada por aquel valor que ocupa la posición central,
cuando los datos se ordenan de menor a mayor (o viceversa)
Si el número de datos es par la mediana es la media de los dos que ocupan las posiciones centrales.
Si el número de datos es impar la mediana es el dato central.
Ejemplo. Sean los datos: 9, 7, 8, 10, 8, 11; al ordenar se tiene: 7, 8, 8, 9, 10, 11  Me = (8 + 9)/2 = 8,5
b2) Para datos agrupados. Debe encontrarse primero el intervalo mediano, (que es el intervalo donde se
sobrepasa por primera vez la mitad de los datos) y luego ubicar en dicho intervalo la mediana (Me) con la

N
 Fi1
fórmula : , donde se tiene:
Me  ai  ( 2 ).A
fi
ai = límite inferior del intervalo mediano N = número de datos
N
i = el menor intervalo que cumple Fi  Fi-1 = frecuencia acumulada del intervalo i-1
2
fi = frecuencia absoluta del intervalo mediano A = amplitud del intervalo
CEPRE-UNI ARITMÉTICA Página 5
Ciclo Preuniversitario Admisión 2014-1

Ejemplo: En el caso de los 40 estudiantes, de la tabla 2, la mediana es:


 20 - 10 
Me = 58 + 8   = 65,27
 11 
Es decir, la mitad de los estudiantes tienen 65,27 años o menos y la otra mitad supera esta edad.
c) Moda. Se define como el valor que más veces se repite en el conjunto de datos.
Si hay dos valores que se repiten mayoritariamente y con igual frecuencia, la distribución se llama
bimodal.
Veamos cómo se calcula su valor:
c1 ) Para datos no agrupados:
Ej. Para 1, 2, 3, 3, 5, 100 la moda es 3 (unimodal)
2, 5, 5, 7, 8, 8, 10 la moda es 5 y 8 (bimodal)
3, 5, 7, 9, 10, 13, 15 no tiene moda
c2) Para datos agrupados. Se encuentra primero el intervalo modal (que es el intervalo que tiene la
mayor frecuencia) luego se aplica la siguiente fórmula: d1 , donde se tiene:
Mo  ai  ( ).A
d1  d2
ai :límite inferior de la clase modal (la que tiene la mayor frecuencia)
d1 : exceso de la frecuencia modal sobre la frecuencia de la clase inmediatamente anterior a la clase
modal
d2: exceso de la frecuencia modal sobre la frecuencia de la clase que sigue inmediatamente a la clase
modal
A: amplitud del intervalo de clase modal.
Ejemplo: En el caso de los 40 estudiantes (tabla 2) la clase modal es la tercera; luego:
 5 
Mo = 58 + 8   = 63,71, es decir que la edad más frecuente en el grupo de 40 estudiantes es
5+2
63,71 años.
d) Media geométrica. Tenemos los casos:
d1) Para datos no agrupados: MG  n x1  x2  x3  ...............  xn

d2) Para datos agrupados: MG  n x1f1  x2 f2  ......  xk fk (fi es la frecuencia del dato xi )

e) Media armónica. Tenemos los casos:

n 1
MH  
e1) Para datos no agrupados: 1 1 1 1

x1 x 2
 ... 
xn
x
i

n
e2) Para datos agrupados: MH 
1
f xi
i
Propiedad: MH  MG  MA
Medidas de dispersión
Las medidas de tendencia central determinan el centro de los datos estadísticos, pero no nos indican nada
acerca de la posición respecto al centro. Por lo tanto se necesita una medida que nos indique el grado de
dispersión o variación respecto a un valor central que por lo general es la media aritmética, con la finalidad
de tener una comparación y ampliar la descripción de los datos.

CEPRE-UNI ARITMÉTICA Página 6


Ciclo Preuniversitario Admisión 2014-1

Las principales medidas de dispersión son:


El rango, el rango intercuartil, la varianza, la desviación estándar y el coeficiente de variación
En particular nosotros estudiaremos la varianza y la desviación estándar.
Varianza y Desviación estándar
Definición: La varianza es una medida que en promedio cuantifica el grado de dispersión o variabilidad
de los valores de una variable cuantitativa respecto a la media aritmética.
Si los valores de la variable están alrededor de la media, la varianza es pequeña y si los valores de la
variable tienden a estar lejos de la media, la varianza es grande.
Desde el punto de vista matemático la varianza es la media aritmética de los cuadrados de las diferencias
de los datos respecto a su media aritmética, pero sus unidades están elevadas al cuadrado.
La desviación estándar es la raíz cuadrada positiva de la varianza.
La varianza calculada a partir de una muestra se denota s 2 y la desviación estándar es s2  s
a) Varianza para datos no tabulados
Si x1, x2, ...., xn son variables estadísticas cuantitativas y x es su media, entonces la varianza es:
n


n
(x  x)

2 2
i x i
i1
s 
2
Lo cual es equivalente a s2  i1
 x2  x2  x2
N N

Propiedades fundamentales.
a1) Sea M(X) la media de una variable X, entonces: M(a X + b) = a M(X) + b (a y b constantes)
2
a2) Sea V(X) la varianza de la variable X, entonces: V(aX + b) = a V(x) (a y b constantes)

b) Varianza para datos tabulados por intervalos


Si x1’, x2’,............. xk’, son las marcas de clase de k intervalos, f1, f2,...., fk, son las frecuencias absolutas de

una variable X y x es la media, entonces la varianza s2 es:


n n

 fi (xi  x)2 , lo cual equivale a 


i1
f .x
i i
2

s2  i1 s2  x
N N

CEPRE-UNI ARITMÉTICA Página 7