Separata de Estadistica

CEPRE-UNI ARITMÉTICA
ESTADÍSTICA
1. DEFINICION
Es aquella disciplina que nos proporciona un conjunto de métodos, procedimientos o técnicas

para recopilar, clasificar, analizar y presentar datos con el fin de describirlos o de realizar
generalizaciones válidas.
El estudio de la estadística puede dividirse en dos áreas principales:
 Estadística Descriptiva.- que comprenden las técnicas que se emplean para la

recopilación, organización, resumen y presentación de los datos (o información).
 Estadística Inferencial.- comprende técnicas que con base únicamente en una muestra o
subconjunto de la población sometida a observación o experimentación, se toma decisiones
sobre toda la población. La inferencia puede contener conclusiones que pueden no ser
ciertas en forma absoluta, por lo que es necesario que estas sean dadas con una medida
de confiabilidad que es la probabilidad.
2. POBLACION Y MUESTRA
Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de

personas o cosas. Este conjunto de personas o cosas es lo que denominaremos población.
Las personas o cosas que forman parte de la población se denominan unidad elemental o
unidad estadística.
La población puede ser según su tamaño de dos tipos finita o infinita. Normalmente en un
estudio estadístico, no se puede trabajar con todos los elementos de la población sino que se
realiza sobre un subconjunto de la misma al que se le llama muestra, es decir un determinado
número de elementos de la población. La muestra debe ser seleccionada adecuadamente de
manera que el tamaño de muestra sea representativo de la población para posibles inferencias
a realizar.
3. VARIABLES ESTADISTICAS
Al estudiar una población o muestra nos concentramos en una característica de los individuos
u objetos que le conforman; si esta característica tiene variabilidad o variación se denomina
variable estadística y el resultado de las observaciones o mediciones de la característica se
llama dato estadístico.
Cuando la característica o variable en estudio es no numérica o numérica no operable se le

denomina variable cualitativa o atributo. Así por ejemplo: el estado civil de una persona, su
nacionalidad, tipo de automóvil que posee, ciclo en el que se encuentra un alumno, etc. son
variables cualitativas.
Cuando la variable de estudio se puede expresar numéricamente y se puede hacer

operaciones con ella, entonces se denomina variable cuantitativa. Así por ejemplo: el saldo
de una cuenta bancaria; la estatura de una persona, el número de hijos en una familia, son
variables cuantitativas, estas variables cuantitativas pueden ser:
CICLO PRE-UNIVERSITARIO 1
a. discretas: Aquellas a las que se les puede asociar un número entero, es decir, aquellas que
por su naturaleza no admiten fraccionamiento de la unidad, por ejemplo número de hijos,
número de empleados de una empresa, número de ruedas de un vehículo, etc.
b. continuas, Aquellas que por su naturaleza admiten que entre dos valores cualesquiera la
variable pueda tomar cualquier valor intermedio, por ejemplo pesos, tiempo de duración de
en proceso y estaturas de personas, etc.).
Cuadro de Clasificación de Variables
Variables
Cualitativas Cuantitativas
Discretas Continuas
4. ORGANIZACIÓN Y PRESENTACION DE DATOS
I. DATOS NO AGRUPADOS.
La información que se ha recopilado pero que aún no se organiza se debe ordenar. Si los
datos incluyen valores repetidos se puede organizar una distribución de frecuencias que es
una tabla o lista de los distintos valores de la variable (x). Sean x1,x2, x3,…., xk los distintos
valores que puede tomar la variable x.
La Frecuencia absoluta (fi) designa el número de veces que el valor correspondiente

aparece en el conjunto de datos. Por ejemplo, f1,f2, f3,…., fk indican las respectivas
frecuencias absolutas de los valores x1,x2, x3,…., xk
La Frecuencia relativa (hi) de cada valor, indica la frecuencia expresada como fracción o
porcentaje del total. Si n es el número de datos, la frecuencia relativa del valor xi está dado
por:
fi
hi  , i=1,2,....,k
n
La Frecuencia Absoluta Acumulada (Fi) es la suma de todas las frecuencias absolutas f1,
f2,…, fi :
Fi  f1  f2  ...  fi
La Frecuencia Relativa Acumulada (Hi) Es el cociente entre la frecuencia acumulada

absoluta correspondiente al dato xi y el número total de datos.
F
Hi  i ; Hi  h1  h2  ...  hi
n
Ejemplo 1: Se realizó una encuesta entre los 50 empleados de una empresa, consultando sobre
el número de hijos en edad escolar que tenía cada empleado, a fin de estimar el pago
de una bonificación por gastos escolares que proyecta hacer la empresa. Estos fueron
los resultados:
0 2 1 0 3 2 0 1 1 0
0 1 1 2 4 1 0 1 1 0
2 1 0 0 3 0 0 1 2 1
0 0 2 4 1 1 0 1 2 0
1 1 0 3 5 1 2 1 3 2
Organizar los datos en una distribución de frecuencias, enlistando cada valor diferente (x)
en una columna, luego empleamos marcas para contar el número de veces que aparece
cada valor de x y al acabar, anotamos la frecuencia absoluta (f) y luego calculamos la
frecuencia relativa (h).
Tabla 1. Nro de hijos por empleados de una empresa.
No. Frecuencia Frecuencia

de Frecuencia Frecuencia Absoluta Relativa
Conteo
hijos absoluta (f) relativa (h) Acumulada Acumulada
X
0 \\\\ \\\\ \\\\ \ 16 16/50 = 0.32 = 32% 16 32%
1 \\\\ \\\\ \\\\ \\\ 18 18/50 = 0.36 = 36% 34 68%
2 \\\\ \\\\ 9 9/50 = 0.18 = 18% 43 86%
3 \\\\ 4 4/50 = 0.08 = 8% 47 94%
4 \\ 2 2/50 = 0.04 = 4% 49 98%
5 \ 1 1/50 = 0.02 = 2% 50 100%
n = 50 Total = 1 = 100%
El total de frecuencias absolutas debe ser el total de datos y el total de frecuencias relativas
debe ser el 100%. Ambos totales permiten verificar los cálculos realizados.
II.- DATOS AGRUPADOS
Cuando los datos consisten en solo unos cuantos valores distintos (es el caso de los datos
del ejemplo anterior que tomaba solo los valores 0, 1, 2, 3, 4 y 5), podemos organizarlos
fácilmente y determinar cualquier tendencia, sin embargo cuando los datos consisten en
muchos valores en su mayoría no repetidos es conveniente agrupar los datos y determinar
las frecuencias absolutas y relativas de cada grupo que llamaremos clase.
Necesitamos estas definiciones:
a) Rango Recorrido (R).

Es la diferencia entre el mayor de los datos xmáx y el menor de los datos xmin.
R = xmax – xmin
b) Intervalo de Clase a i , b i

Son cada una de las categorías excluyentes (o clases) en los que se pueden clasificar los
datos. Los extremos de un intervalo [ai, bi son ai y bi, donde
ai = límite inferior del intervalo de clase

bi = límite superior del intervalo de clase
Cada intervalo es cerrado por la derecha y abierto por la izquierda.
c) Marca de Clase (x’i)

Son los puntos medios de cada clase, así en el intervalo a i , b i la marca de clase x’i será:

a  bi
xi  i
2
d) Número de Intervalos (k)

No existen reglas fijas para establecer el valor de k. Una regla sugiere que sea un número
próximo a N y otra dice que el número ideal es 1 + 3,3 logN (Regla de Sturges), siendo
N el total de datos. En muchos casos, desde 5 hasta 20 intervalos puede ser el número
adecuado.
e) Amplitud del Intervalo (A)

Es la diferencia entre sus extremos. Por lo general todos los intervalos tienen la misma
longitud A por lo que se cumplirá para estos casos que:
R
A
k
Es preferible redondear el valor de “A” por exceso para no perder datos.
f) Frecuencia absoluta (fi)
Es el número de datos que corresponden al i-ésimo intervalo de clase.
g) Frecuencia absoluta Acumulada (Fi)

Se define para cada i-ésimo intervalo de clase, como la suma de todas las frecuencias
absolutas fi desde el primero hasta el i-ésimo intervalo:
Fi  f1  f2  ...  fi
h) Frecuencia relativa (hi)

Es el cociente entre la frecuencia absoluta del i-ésimo intervalo y el número total de datos.
fi
hi 
n
i) Frecuencia relativa Acumulada (Hi)

Es el cociente entre la frecuencia acumulada absoluta correspondiente al i-ésimo intervalo y
el número total de datos.
Fi
Hi 
n
Organización y presentación de datos para una variable cuantitativa continúa
Ejemplo
Se pesaron a 40 estudiantes y sus pesos en kilogramos fueron:
60 69 50 79 65 71 48 60
86 42 86 64 90 81 78 73
69 64 72 80 65 52 70 47
54 74 53 77 45 66 75 60
63 55 62 72 59 61 67 55
Construir la tabla de distribución de frecuencias
SOLUCION: La variable (x) es el peso de los estudiantes.
1. Determinación del rango
Como mayor dato es: 90

Menor dato es: 42
 Rango = 90 - 42 = 48 Kg.
2. Número de intervalos : k 40  6
48
3. Ancho de clase  8
6
Tabla 2
Ii xi fi Fi hi Hi
42 - 50 46 4 4 0.10 0.100
50 - 58 54 6 10 0.15 0.250
58 - 66 62 11 21 0.275 0.525
66 -74 70 9 30 0.225 0.750
74 -82 78 7 37 0.175 0.925
82 -90 86 3 40 0.075 1.00
Histograma de la frecuencia absoluta con el polígono de frecuencias
Histograma de la frecuencia absoluta acumulada y la OJIVA (Menor que)
F
50
40
30
20
10
0 X
42 50 58 66 74 82 90
OBSERVACIÓN
Si “f” es la frecuencia en el intervalo de clase [a, b> y se considera que los datos se
distribuyen de manera “uniforme” en ese intervalo, entonces podemos considerar por
ejemplo que en el intervalo [a, c] contenido en [a, b> existen aproximadamente:
ca
f / ( ). f por semejanza:
ba
f
Igualmente para una frecuencia relativa h:

ca f’
h/  ( ).h
ba a b
c
Esta se rige por una simple regla de tres
Ejemplo: En el intervalo [50; 58> la frecuencia es 6, luego en el intervalo [52; 55] habrá
55  52 2, 25
f’ = . 6  2, 25 , en porcentaje  100% = 5,625%
58  50 40
 Histogramas
Son gráficos específicos para datos agrupados por intervalos. Los histogramas asocian a
cada intervalo un rectángulo de superficie proporcional a la frecuencia. Los límites de clase
se marcan en el eje horizontal y determinan las bases de los rectángulos y las frecuencias
se anotan en el eje vertical y determinan sus alturas.
 Polígono de frecuencias
Es la línea que une los puntos correspondientes a las frecuencias de cada elemento. Si los
datos están agrupados por intervalos, se construye de modo similar al histograma, pero los
puntos que se unen son los correspondientes a las marcas de clase.
 Ojivas
Son gráficos de frecuencias acumuladas. En el eje vertical se anotan la frecuencias

acumuladas asociadas a cada límite superior de clase (acumula frecuencias “menores que”
un valor dado). En algunos casos se grafican las frecuencias acumuladas de todos los
valores mayores o iguales al límite inferior de cada intervalo (ojivas “mayor que”). Siempre
que se mencione una ojiva sin especificar su tipo, se entenderá que es de tipo “menor que”.
MEDIDAS DE CENTRALIZACIÓN
Los números que describen de manera concisa el comportamiento y las características generales
de un conjunto de datos son los parámetros estadísticos. Los parámetros que miden la tendencia
central de los datos se llaman medidas de centralización y son datos que representan de forma
global a toda la población y los más representativos son la media, la mediana y la moda.
 MEDIA ARITMÉTICA
Se calcula dividiendo la suma de los valores de todos los datos entre el número de datos.
Para datos no agrupados x 

 x i , Para datos agrupados: x   fi x'i
n n
En la última fórmula fi es la frecuencia de cada intervalo y x’i es la marca de clase.
 MEDIA ARITMÉTICA PONDERADA
Se aplica cuando no todos los datos tienen la misma importancia o peso. Su fórmula es
similar a la de los datos agrupados, cambiando f i por los pesos pi y el denominador N por la
suma de todos los pesos; en este caso xi sería el valor de cada dato.
xp 
 x ipi  x1p1  x 2p 2  ...  x k pk
 pi p1  p 2  ...  pk
 MEDIANA
Para datos no agrupados: Es el valor del dato que ocupa la posición central cuando éstos
se ordenan de menor a mayor (o viceversa). Divide a la lista de datos en dos grupos de igual
número de elementos.
 Si el número de datos es par la mediana es la media de los dos que ocupan las
posiciones centrales.
 Si el número de datos es impar la mediana es el dato central.
Ejemplo:
Sean los datos: 9, 7, 8, 10, 8, 11; al ordenar se tiene: 7, 8, 8, 9, 10, 11.
89
La mediana es:  8,5
2
Para datos agrupados: debe encontrarse primero el intervalo mediano, (que es el intervalo
donde se sobrepasa por primera vez la mitad de los datos) y luego ubicar en dicho intervalo
la mediana (Me) con la fórmula:
n
 Fi1
Me  ai  2 .A
fi
ai = límite inferior del intervalo mediano n = número de datos

n
i = el menor intervalo que cumple Fi  Fi-1 = frecuencia acumulada del intervalo i-1
2
Fi = frecuencia absoluta del intervalo mediano A = amplitud del intervalo
Ejemplo: En el caso de los 40 estudiantes, de la tabla 2, la mediana es:

 20 - 10 
Me  58  8    65,27
 11 
Es decir, la mitad de los estudiantes tienen 65,27 años o menos y la otra mitad supera
esta edad.
 MODA
Para datos no agrupados:

Se define como el valor que más veces se repite en el conjunto de datos. Si hay dos valores
que se repiten mayoritariamente y con igual frecuencia, la distribución se llama bimodal.
Ej. Para 1, 2, 3, 3, 5, 100 la moda es 3 (unimodal)

2, 5, 5, 7, 8, 8, 10 la moda es 5 y 8 (bimodal)
3, 5, 7, 9, 10, 13, 15 no tiene moda
Para datos agrupados

Se encuentra primero el intervalo modal (que es el intercalo que tiene la mayor frecuencia)
luego se aplica la siguiente fórmula.
d1
Mo  a i  .A
d1  d 2
ai = límite inferior de la clase modal (la que tiene la mayor frecuencia)

d1 = exceso de la frecuencia modal sobre la frecuencia de la clase inmediatamente
Anterior a la clase modal
d2 = exceso de la frecuencia modal sobre la frecuencia de la clase que sigue
Inmediatamente a la clase modal
A = amplitud del intervalo de clase modal.
Ejemplo: En el caso de los 40 estudiantes la clase modal es la tercera:

 5 
Mo  58  8    63,71 , es decir que la edad más frecuente en el grupo de 40
5 2
estudiantes es 63,71 años.
 MEDIA GEOMÉTRICA
Para datos no agrupados.
MG  n x 1  x 2  x 3  .......... .....  x n
Para datos agrupados
MG  n x11  x2 2  ......  xk k
f f f
(fi es el número de veces que cada valor xi se repite)
 MEDIA ARMÓNICA
Para datos no agrupados
n 1
MH  
1 1 1 1

x1 x2
 ... 
xn
x
i
Para datos agrupados:
n
MH 
1
f i
xi
(fi es el número de veces que cada valor xi se repite)
Ejemplo: en los datos: 7; 8; 8; 9; 10; 11
53
La media aritmética es  8,833
6
La media geométrica es: 6
7.8.8.9.10.11  8,73
6
La media armónica es:  8,63
1 1 1 1 1 1
    
7 8 8 9 10 11
Propiedad: MH  MG  MA
MEDIDAS DE DISPERSIÓN
Las medidas de tendencia central determinan el centro de los datos estadísticos, pero no nos
indican nada acerca de la posición respecto al centro. Por lo tanto se necesita una medida que
nos indique el grado de dispersión o variación respecto a un valor central que por lo general es la
media aritmética, con la finalidad de tener una comparación y ampliar la descripción de los datos.
Las principales medidas de dispersión son:
El rango,
El rango intercuartil,
La varianza,
La desviación estándar y
El coeficiente de variación
En particular nosotros estudiaremos la varianza y la desviación estándar.
Varianza y Desviación estándar
Definición: La varianza es una medida que en promedio cuantifica el grado de dispersión o

variabilidad de los valores de una variable cuantitativa respecto a la media aritmética. Si los
valores de la variable tienden a acercarse alrededor de la media, la varianza es pequeña y Si los
valores de la variable tienden a estar lejos de la media, la varianza es grande.
Desde el punto de vista matemático la varianza es la media aritmética de los cuadrados de las
diferencias de los datos respecto a su media aritmética, sus unidades están elevadas al cuadrado.
La desviación estándar es la raíz cuadrada positiva de la varianza. La varianza calculada a partir

de una muestra se denota s2 y la desviación estándar es s2  s
Varianza para datos no tabulados

Si x1, x2,…, xn son variables estadísticas cuantitativas y x es su media, entonces la varianza es:
n n
 (xi  x)2
i1

i1
x i
2
s2  Lo cual es equivalente a s2   x2
n n
Entonces diremos: s 2  x2  x 2
Sea M(X) la media de una variable X, entonces: M(a X + b) = a M(X) + b (a y b constantes)
Sea V(X) la varianza de la variable X, entonces: V(a X + b) = a 2 V(X) (a y b constantes)

Ejemplo: Si: 18, 19, 20, 16, 17, 22 son datos no tabulados que representan las edades de los
alumnos del CEPRE-UNI. La varianza y la desviación estándar es:
Resolución
n n
n=6  xi  112
i1
x  18,6 
i 1
x
i
2
 2114
2114 
i1
x i
2
2
Luego la varianza es: s2   18,62  6,373 años2 x 
n 8
La desviación estándar es: S = S  6,373  2,52 años.
2
Varianza para datos tabulados por Intervalos
Si x1’, x2’,... xk’, son las marcas de clase de k intervalos, f 1, f2,..., fk, son las frecuencias absolutas
de una variable x y x es la media, entonces la varianza s2 es:
 fi (x 'i  x)2
k
i1

i 1
f x'
i i
2
x
2
s2 = aplicando propiedades s2 =
n n
Ejemplo:
El siguiente cuadro representa el Ingreso mensual en soles de un grupo de 40 personas tomadas

al azar en una cierta urbanización rural, se desea saber, cuál es la varianza y desviación estándar.
fi
Ii x’i x’i fi fi . x’i2
[ 400,500> 450 15 6750 3 037500
[ 500,600> 550 12 6600 3 630000
[ 600,700> 650 6 3900 2 535000
[ 700,800> 750 4 3000 2 250000
[ 800,900> 850 2 1700 1 445000
[ 900,1000> 950 1 950 902500
40 22900 13 800000
n = 40, k = 6,
k k
22900

i 1
f i xí|  22900 , fx
i 1
i
|2
í 1380000 X 
40
 572.5 soles

i 1
f x'
i
2
13800000 2
832
 x =  3,55 (572
2
Luego la varianza es: s2 = .5) 2 = 17243.75
8,1975
n 40 40
La desviación estándar es: s= s 2  17243.75  131.32 soles.

Separata de Estadistica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Separata de Estadistica

Cargado por

Copyright:

Formatos disponibles

CEPRE-UNI ARITMÉTICA

Es aquella disciplina que nos proporciona un conjunto de métodos, procedimientos o técnicas

El estudio de la estadística puede dividirse en dos áreas principales:

 Estadística Descriptiva.- que comprenden las técnicas que se emplean para la

Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de

Cuando la característica o variable en estudio es no numérica o numérica no operable se le

Cuando la variable de estudio se puede expresar numéricamente y se puede hacer

Cuadro de Clasificación de Variables

4. ORGANIZACIÓN Y PRESENTACION DE DATOS

La Frecuencia absoluta (fi) designa el número de veces que el valor correspondiente

La Frecuencia Relativa Acumulada (Hi) Es el cociente entre la frecuencia acumulada

Tabla 1. Nro de hijos por empleados de una empresa.

No. Frecuencia Frecuencia

II.- DATOS AGRUPADOS

a) Rango Recorrido (R).

ai = límite inferior del intervalo de clase

c) Marca de Clase (x’i)

d) Número de Intervalos (k)

e) Amplitud del Intervalo (A)

Es preferible redondear el valor de “A” por exceso para no perder datos.

f) Frecuencia absoluta (fi)

Es el número de datos que corresponden al i-ésimo intervalo de clase.

g) Frecuencia absoluta Acumulada (Fi)

h) Frecuencia relativa (hi)

i) Frecuencia relativa Acumulada (Hi)

Organización y presentación de datos para una variable cuantitativa continúa

Construir la tabla de distribución de frecuencias

SOLUCION: La variable (x) es el peso de los estudiantes.

1. Determinación del rango

Como mayor dato es: 90

66 -74 70 9 30 0.225 0.750

74 -82 78 7 37 0.175 0.925

82 -90 86 3 40 0.075 1.00

Histograma de la frecuencia absoluta con el polígono de frecuencias

Histograma de la frecuencia absoluta acumulada y la OJIVA (Menor que)

Igualmente para una frecuencia relativa h:

Esta se rige por una simple regla de tres

Son gráficos de frecuencias acumuladas. En el eje vertical se anotan la frecuencias

Para datos no agrupados x 

 MEDIA ARITMÉTICA PONDERADA

ai = límite inferior del intervalo mediano n = número de datos

Ejemplo: En el caso de los 40 estudiantes, de la tabla 2, la mediana es:

Para datos no agrupados:

Ej. Para 1, 2, 3, 3, 5, 100 la moda es 3 (unimodal)

Para datos agrupados

ai = límite inferior de la clase modal (la que tiene la mayor frecuencia)

Ejemplo: En el caso de los 40 estudiantes la clase modal es la tercera:

Para datos no agrupados.

Para datos agrupados

(fi es el número de veces que cada valor xi se repite)

Para datos no agrupados

Para datos agrupados:

(fi es el número de veces que cada valor xi se repite)

Ejemplo: en los datos: 7; 8; 8; 9; 10; 11

En particular nosotros estudiaremos la varianza y la desviación estándar.

Varianza y Desviación estándar

Definición: La varianza es una medida que en promedio cuantifica el grado de dispersión o

La desviación estándar es la raíz cuadrada positiva de la varianza. La varianza calculada a partir

Varianza para datos no tabulados

Sea M(X) la media de una variable X, entonces: M(a X + b) = a M(X) + b (a y b constantes)

Sea V(X) la varianza de la variable X, entonces: V(a X + b) = a 2 V(X) (a y b constantes)

Varianza para datos tabulados por Intervalos

El siguiente cuadro representa el Ingreso mensual en soles de un grupo de 40 personas tomadas

La desviación estándar es: s= s 2  17243.75  131.32 soles.