Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.2.3 Estadistica Descriptiva 2018-I
1.2.3 Estadistica Descriptiva 2018-I
menos datos.
Ejemplo.
UE: Curso semestral que se dictó en el periodo académico 1997 – I, en la EAPE de la FCM de la
UNMSM.
Conjunto de unidades de Observación: Todos los cursos semestrales, dictados en el Periodo
Académico 1997 - I
Variable: Porcentaje de avance del curso(X).
Tipo de variable: cuantitativa continua.
Conjunto de datos: Constituyen los datos poblacionales
{ 45 40 50 50 55 45 40 48 48 45 50 48 50 40 45 48 48 45}
Cómo estos datos, son datos poblacionales y N < 30, entonces las fórmulas a utilizar para hallar los
indicadores son los siguientes:
18
x
i1
i
( Observación: el símbolo porcentaje es la unidad de la variable)
46.6%
18
2. Mediana.
- Ordenamos los datos de menor a mayor
40 40 40 45 45 45 45 45 48 �48 48 48 48 50 50 50 50 55
- Cómo el número de datos es par, entonces el valor de la mediana estará dado por la
semisuma de los datos centrales.
Luego. Me = 48%
3. Moda.
Existen varias modas, porque varios de los datos diferentes se repiten, por lo tanto no tiene
sentido considerar este indicador.
Indicadores de dispersión.
xi xi
1. Longitud de recorrido.
LoR = 55 - 40 = 15% 40 6.6
40 6.6
2. Desviación Media. 40 6.6
45 1.6
18 45 1.6
x i
= 3.15
45 1.6
%
DeM i 1
45 1.6
18 45 1.6
48 1.4
48 1.4
48 1.4
Interpretación.
48 1.4
Observando la columna de las desviaciones, xi , tenemos que 10
48 1.4
datos se alejan de la media en menos 50 3.4 de 3.15 o lo que es equivalente a que
50 3.4 LIC. MARÍA A. ZACARÍAS DÍAZ 30
50 3.4
50 3.4
u = 46.6 % 55 8.4 10 datos
56.8
el 55% de los datos se aleja de la media en menos de 3.15 lo que podríamos interpretar como que los
datos no están muy dispersos.
3. Varianza.
x X
N
i1
i
(a)
X 2
N N
x i
2
2 X xi
N X
X 2 i1 i 1
N N N
x 2
i
(b)
X X
2 2
Por lo tanto, el valor de la varianza puede ser obtenido a partir de las fórmulas (a) o (b).
Para el ejemplo utilizaremos las dos fórmulas.
Cálculos según (a) Cálculos según (b)
xi ( xi ) ( xi ) 2 xi xi2
40 -6.6 43.56 40 1600
40 -6.6 43.56 40 1600
40 -6.6 43.56 40 1600
45 -1.6 2.56 45 2025
45 -1.6 2.56 45 2025
45 -1.6 2.56 45 2025
45 -1.6 2.56 45 2025
45 -1.6 2.56 45 2025
48 1.4 1.96 48 2304
48 1.4 1.96 48 2304
48 1.4 1.96 48 2304
48 1.4 1.96 48 2304
48 1.4 1.96 48 2304
50 3.4 11.56 50 2500
50 3.4 11.56 50 2500
50 3.4 11.56 50 2500
50 3.4 11.56 50 2500
55 8.4 70.56 55 3025
840 270.08 840 39470
270.08 39470
X2 15.004 % 2 X2 (46.6) 2 21.217 % 2
18 18
El valor de la varianza calculada a partir de la fórmula (b) proporciona un valor aproximado de ella.
4. Desviación estándar.
X 3.874 % X 4.6 %
5. Coeficiente de Variación.
CoV = 0.083
Nota. Si tuviera que compararse dos o más conjuntos de datos, puede hacerse en términos de los
indicadores de dispersión absoluta (si los conjuntos de datos están expresados en las mismas
unidades)
CUADRO RESUMEN
Interpretación.
El CoV = 0.099 nos dice que la dispersión de los datos es baja, ahora observamos los indicadores de
tendencia central, como no existe mucha diferencia entre el valor de la media y el valor de la
mediana, se elige la media aritmética como indicador de tendencia central, luego concluimos que la
LIC. MARÍA A. ZACARÍAS DÍAZ 32
mayoría de los datos están en torno a la medía, es decir, en la mayoría de los cursos el avance del
Silabo está en torno al 46.6 % a mitad del periodo académico, es decir hay un ligero atraso.
Calculo de los diferentes indicadores de Tendencia Central y Dispersión, cuando se tiene más de 30
datos.
Ejemplo
La profesora del curso de estadística I, grupo 4 Sem. 2003 – I, de la EAP de Estadística, FCM,
generalmente, al finalizar el semestre obtiene el porcentaje de asistencia de cada uno de sus
alumnos, para posteriormente ver si hubo o no relación con la nota que obtuvieron. Los datos se dan
a continuación:
0.48 0.35 0.42 0 0.26 0.13 0.06 0.16 0.84 0.55 0.74 0.26
0.1 0.71 0.74 0.74 0.45 0.39 0.81 0.68 0.06 0.19 0.23 0.71
0.61 0.1 0.32 0.61 0.71 0.55 0.65 0.65 0.77 0.74 0.61 0.55
Cómo estos datos, son datos poblacionales y N > 30, entonces las fórmulas a utilizar para hallar los
indicadores son los siguientes:
' Xi fi
X i 1 X 'i
0.6 - 0.19 0.125 6
0.19 - 0.32 0.255 4
0.32 - 0.45 0.385 4
0.45 - 0.58 0.515 5
0.58 - 0.71 0.645 6
0.71 - 0.84 0.775 10
�X
m
1 2 2
f
X
N
X i fi 2
1
N
Xi fi
2 i 1
i i
2
i 1 0 X
N
' Xi fi Xif i X i f 2i
X i 1 X 'i
0.7 - 0.19 0.125 6 0.75 0.09375
0.20 - 0.32 0.255 4 1.02 0.2601
0.33 - 0.45 0.385 4 1.54 0.5929
0.46 - 0.58 0.515 5 2.575 1.326125
0.59 - 0.71 0.645 6 3.87 2.49615
0.71 - 0.84 0.775 10 7.75 6.00625
35 17.505 10.775275
2. Cálculo de la mediana.
Procedimiento.
a. Se construye la tabla de frecuencias acumuladas ( absolutas o relativas)
'
X i 1 X i
' Fi
0.6 - 0.19 6
0.19 - 0.32 10
0.32 - 0.45 14
0.45 - 0.58 19
0.58 - 0.71 25
0.71 - 0.84 35
b. Se halla N/2 = 17.5
c. Se busca en la tabla de frecuencias construida, la menor frecuencia absoluta acumulada
que supere a N/2, para el ejemplo es:
F4 = 19 > 17.5, a esta cuarta frecuencia acumulada le corresponde el cuarto intervalo,
es decir [ 0.45 - 0.58), en este intervalo se encontrara el valor de la mediana.
0.5N F3
Utilizando la fórmula, Me X 3 A4
`
d. , obtenemos el valor de la mediana,
F4 F3
Me = 0.45 + 0.13( 17.5 – 14)/ (19 – 14) = 0.541 %
3. Cálculo de la moda.
El comportamiento de la variable nos muestra la presencia de dos valores más frecuentes es decir
dos Modas.
Mo1 = 0.125 % Mo2 = 0.775%
Interpretación.
Del análisis hecho al problema anterior concluimos, que no basta contar con los indicadores, siempre
es conveniente complementar el análisis con la representación gráfica de la distribución de los datos
o comportamiento de la variable.
donde Y = k + X, entonces:
La media aritmética de Y es : Y X k y la varianza es Y X
2 2
donde Y = k ( X) entonces:
La media aritmética de Y es : Y k X , y la varianza es: Y k X
2 2 2
Ejemplo
Se tiene información respecto al peso de los alumnos ingresantes a la facultad de Medicina de la
Universidad AAA.
Posteriormente se supo que la balanza estaba malograda y que daba en exceso un peso adicional de
3 kg. Al obtener los indicadores correctos, las autoridades concluyeron que el peso de las alumnas es
muy bajo. ¿Es cierto lo que dicen las autoridades?
Solución.
Sea la variable X: peso de la alumna.
Donde X = 45 kg. y X = 9 kg2
2
Y X 3 = 45 - 3 = 42 kg.
Y2 X2 = 9 Y 3 kg
Solución.
Sea la variable X : Peso de la alumna
Donde: X = 42 kg. y X = 9 kg2
2
Sea la variable Y : Peso incrementado de la alumna, que está definido como: Y = 1.1X
Por propiedades de la media y la varianza, tenemos que:
Y k X = 1.1 (42) ó 46.2 kg.
C0V = 0.1154
Si bien las alumnas han incrementado su peso pero la variabilidad de los pesos también se a
incrementado, ya que el CoV = 0.11 > 0.071
N 1 12 N 2 22 . . .N k k2 N ( ) 2 N k ( k ) 2 ... N k ( k )2
2 1 1
N N
Intra var ianza Inter var ianza
Esta propiedad nos dice que la variabilidad total de los datos, es decir, X puede deberse tanto a la
2
variabilidad dentro de cada grupo, intravarianza, como a la variabilidad entre los diferentes grupos,
intervarianza.
Ejemplo.
La siguiente tabla contiene la media aritmética y desviación estándar del promedio ponderado de los
alumnos por Escuelas Académicos Profesionales de la Facultad de Ciencias Matemáticas, del periodo
académico 2002 – I que cursaron. (No incluye a los ingresantes 2002).
Solución.
Unidad Estadística: El alumno de la FCM que cursaron el periodo académico 2002 – I (No incluye
ingresantes)
Conjunto de UE: Todos los alumnos de la FCM que cursaron el periodo académico 2002 –I.
Constituyen la población.
Sea la variable X: Promedio Ponderado.
Tipo de variable: Cuantitativa continua.
Conjunto de datos: Vienen a ser datos poblacionales.
a. Hallamos la media aritmética del Promedio Ponderado de todos los alumnos de la facultad.
La varianza se expresa en unidades que son el cuadrado de la unidad de la variable, que no tiene
significado real, por ello es preferible utilizar otra medida de dispersión y esta es la desviación típica o
estándar que se define como la raíz cuadrada positiva de la varianza.
2
Ejemplo.
El siguiente cuadro estadístico y gráfica muestran
Porcentaje Cursos
de avance
40 - 43 3
43 - 46 5
46 - 49 5
49 - 52 4
52 - 55 1
Total 18
Que, la distribución de los datos es casi simétrica, por lo tanto, podemos aplicar las propiedades de la
desviación estándar.
En este caso la variable es: Porcentaje de avance de los cursos, donde μ = 46.6 % y σ = 4.61 %
Podemos observar que no hay ningún curso cuyo avance sea calificado como muy bajo o muy alto, y
en cuanto al porcentaje de cursos dentro de cada categoría, difiere en cuanto a lo establecido, debido
a que el polígono es casi simétrico no es simétrico y porque son pocos los datos.
Los datos de una variable pueden tomar varias apariencias numéricas, dependiendo de la unidad en
la cual es medida. Por ejemplo si se registra el ingreso de los trabajadores en soles o dólares, lo que
da lugar a que, la media aritmética y la varianza con cada una de las unidades sea diferente, pero si se
da en su forma estandarizada, las medias y las varianzas serán iguales en una u otra unidad.
Una variable estandarizada se denota con Z y su definición es:
X X
Z
X
Donde: X es la media y X es la desviación estándar de X
xi X
Esta definición indica que un dato, zi , mide, en cuánto, un dato xi se aleja de su media en
X
términos de su desviación estándar.
Ejemplo
La nota media y la varianza del primer examen parcial del curso de cálculo I de un grupo de
estudiantes es:
X = 10 puntos X2 = 4 puntos2
Donde X: Nota de cálculo I.
En unidades estándar:
x X 11 10
z 0.5
X 2
Ejemplo.
La siguiente tabla muestra información estadística, respecto a las notas del primer examen parcial
del curso de Estadística, de todos los alumnos del curso, los cuales están divididos en dos grupos
LIC. MARÍA A. ZACARÍAS DÍAZ 39
Grupo Nota media Varianza
1 13 9
2 13 4
El alumno Juan obtuvo 12 puntos y pertenece al grupo 1, y la alumna Rosa también obtuvo 12
puntos y pertenece al grupo 2. ¿Quién esta en mejor posición?
Rpta.
Nota estandarizada de Juan: z J = (12 - 13) / 3 = - 0.33
Comparando estas notas estandarizadas, que la nota de Rosa es menor que la nota de Juan, entonces
Juan esta en mejor posición.
PARÁMETRO.
A las medidas resumen obtenidas a partir de todos los datos poblacionales se les llama parámetros,
es el caso de las medidas resumen obtenidas para los problemas dados líneas arriba.
ESTADÍGRAFO.
A las medidas resumen obtenidas a partir de los datos muestrales se les llama estadígrafos.
ESTADÍSTICA.
Definición: Estadística es la ciencia que proporciona métodos por medio de los cuales podemos
recolectar, clasificar, presentar, resumir y analizar datos numéricos relativos a un conjunto de
individuos u objetos, también nos permite extraer conclusiones válidas y efectuar decisiones lógicas
basadas en dichos análisis.
A. Estadística Descriptiva.
Esta relacionada con la recolección, tabulación, presentación de datos y el cálculo de medidas
resumen que permiten obtener información estadística, a partir de ésta se obtendrá conclusiones sea
a nivel de la población o la muestra. Se ha aplicado estadística descriptiva.
B. Estadística Inferencial
Relacionada con el proceso de generalizar conclusiones respecto de la población total, sí la
información con la que se cuenta ha sido obtenida de una parte o muestra de la población. Esta
generalización podrá hacerse, sí el tamaño de muestra y la selección de los individuos integrantes de
la muestra han sido seleccionados utilizando métodos estadísticos.
Ejemplo.
1. El propietario de una fabrica de corbatas, desde hace 2 años cuenta con 50 trabajadores.
Posee información respecto de la producción diaria de ellos, esta algo satisfecho, sin embargo
LIC. MARÍA A. ZACARÍAS DÍAZ 40
cree que sí introduce algunas modificaciones, la producción podría mejorar. Es así que divide el
grupo de trabajadores en dos, en el salón A ubica a 25 trabajadores, quienes trabajan en las
mismas condiciones de siempre, en el salón B ubica a los otros 25 trabajadores, en este
ambiente establece nuevas condiciones de trabajo: Música de ambiente, alfombra y mejor
iluminación. Al día siguiente, después de un mes de esta modificación, registro la producción de
cada trabajador y los resultados son los siguientes:
Salón A Salón B
12 21 13 16 18 36 41 40 44 47
24 32 16 18 20 45 45 44 42 48
28 25 33 26 30 46 48 49 50 49
26 29 35 45 59 51 51 53 54 54
32 31 30 40 30 56 52 55 52 59
Salón A Salón B
12 21 13 16 18 36 41 40 44 47
24 32 16 18 20 45 45 44 42 48
Solución.
Considerando los datos poblacionales
1.c. Al propietario le diría, que del análisis anterior, vemos que la producción de corbatas de los
trabajadores del salón B es más pareja, además la producción promedio de este grupo de
trabajadores es mucho mayor que los trabajadores del grupo A, por lo que concluimos que las
condiciones de ambiente han influido en la producción y se debe implementar las mismas
condiciones en el salón A.
1.d. Las medidas resumen que se ha obtenido se llaman parámetros, porque se han calculado a
partir de todos los datos poblacionales.
2.a. La producción de la muestra de los trabajadores del salón B es más pareja y oscila entre 36 y 48
corbatas, mientras que la producción de la muestra de los trabajadores del salón A es más
dispersa y oscila entre 12 y 32 corbatas, a partir de estas cantidades podemos deducir que la
muestra de trabajadores del salón B produce más que la muestra de trabajadores del salón A.
El coeficiente de variación indica que la muestra de datos de la producción del salón A están
dispersos, en cambio la muestra de datos de la producción de los trabajadores del salón B están
poco dispersos, y el indicador de tendencia central, después de observar la muestra de datos
originales de la producción del salón A, vemos que no hay datos extremos, entonces la media
es el indicador de tendencia central adecuado, es decir la producción media de los
trabajadores de la muestra es de 19 corbatas, y la de los trabajadores de la muestra del salón
LIC. MARÍA A. ZACARÍAS DÍAZ 42
B es de 43.2 corbatas, por lo que concluimos que los trabajadores de la muestra del salón B
producen mucho más que los trabajadores de la muestra del salón A.
2.c. Que a nivel de muestras los trabajadores del salón B producen mucho más que los del salón A.
2.d. Las medidas resumen obtenidas tienen el nombre de Estadígrafos.
2.e. Las medidas resumen obtenidas están en situación de incertidumbre, ya que se han obtenido a
partir de una parte de la población.
2.f. Se utilizó estadística descriptiva, para utilizar la estadística inferencial se debe hacer uso de
probabilidades, dado que las medidas resumen están en situación de incertidumbre.
Ejemplo.
En los siguientes enunciados identifique si en su contenido se encuentra, un estadígrafo, un
parámetro o un dato e indique el nombre, justifique su respuesta. Asimismo diga si se esta utilizando
Estadística descriptiva o inferencial. Interprete la información que proporciona cada enunciado.
a. De los 7 mil 108 docentes que obtuvieron nota aprobatoria en el último examen de la Carrera
Pública Magisterial (2012), 3 mil 122, es decir el 44%, recibió antes capacitación por parte del
Ministerio de Educación, lo que evidencia que las clases de actualización, que se imparten de
manera gratuita, han permitido una mejora en el conocimiento de los maestros y la más alta
nota fue de 19 puntos.
b. Siete de cada diez mujeres no denuncia el maltrato que recibe de su pareja debido a que
siente vergüenza, miedo a más agresión, temor al divorcio, culpa, o no sabe a dónde ir,
informó el director del Instituto Guestalt de Lima, Manuel Saravia Oliver, quien indicó que "la
violencia familiar es un grave problema de salud pública".
Solución “a”
Subpoblación constituida por 7108 docentes que aprobaron el último examen de la Carrera
Pública Magisterial.
U.E: profesor que aprobó el último examen de la carrera pública magisterial.
Variable. X: Recibió o no recibió Capacitación antes del examen por parte del Ministerio de
educación.
Datos: {1, 0, 0, 0, ……, 1, 0, 0, 0} son 7108 datos donde: 0 = No recibió capacitación y 1 = si
recibió capacitación.
Información obtenida.
Capacitación Profesores
Si 3122
No 3986
Solución “b”
Suponemos que el Instituto Guestalt ha llevado a cabo una encuesta por muestreo y no un censo
porque la población constituida por mujeres peruanas que tienen pareja es muy grande. La muestra
es de tamaño n.
U.E es la mujer peruana que tiene pareja.
De la muestra de tamaño n de mujeres que tienen pareja, se considera a la submuestra de mujeres
de tamaño n1 que son maltratadas y en estas se mide la variable, X: Si denuncia o no denuncia el
maltrato que recibe de su pareja.
Datos, {1, 0, 1, 0, ……0, 0} donde 0= No denuncia que recibe maltrato de su pareja, 1= si denuncia que
recibe maltrato.
Información obtenida.
Denuncia de Porcentaje de
Maltrato Mujeres
Si 30
No 70