Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Descriptiva5 08 19 PDF
Descriptiva5 08 19 PDF
i to
Ed
SEMINARIO DE ESTADÍSTICA
APLICADA A GEOLOGÍA
DF
rP
te
as
M
FACULTAD DE INGENIERÍA
UNIVERSIDAD NACIONAL DEL COMAHUE
at
re
r
i to
SEMINARIO DE ESTADÍSTICA
Ed
APLICADO A LA GEOLOGÍA
Equipo Docente
DF
Profesor responsable de Cátedra
rP
Prof. Luis Arenas
luis.arenas@faea.uncoma.edu.ar
te
Jefe de Trabajos Prácticos Módulo 2
Est. Jorge Caliani
as
Lugar de Trabajo:
re
i to
UNIDAD I: ANÁLISIS EXPLORATORIO:
Ed
Población, muestra. Variables, Datos. Distribuciones de
frecuencia y su representación gráfica: centro
dispersión y forma. Estadísticos de posición: Media,
Mediana, Modo, Cuartiles. Estadísticos de dispersión:
DF
Rango, Rango intercuartílico, Variancia: Definición,
propiedades. Desvío Estandar: propiedades.
Coeficiente de variación. Conjuntos de datos
rP
bidimensionales: diagrama de dispersión, covariancia,
coeficiente de correlación muestral.
UNIDAD II: PROBABILIDAD.
te
Espacio muestra. Suceso elemental, suceso aleatorio.
Espacio equiprobable. Unión, intersección y
as
Ed
Muestra aleatoria, muestra observada. Parámetro.
Estimadores. Distribuciones muestrales. Teorema central del
límite. Estimación puntual. Desventajas. Estimación por
intervalos. Variable pivotal. Método de la variable pivotal.
DF
Intervalos de confianza para la Media. Distribución T-
Student. Intervalo para la proporción. Intervalo para la
variancia. Distribución Chi-Cuadrado. Intervalo de confianza
para la diferencia de medias con variancias conocidas y
rP
desconocidas.
UNIDAD V: PRUEBA DE HIPÓTESIS.
te
Hipótesis estadística. Modo de razonamiento. Zona de
Rechazo y no rechazo. Procedimiento general. Definición y
clasificación de errores. Nivel de significación. Valor-P.
as
Transformaciones.
UNIVERSIDAD NACIONAL DEL COMAHUE 4
Departamento de Estadística - Prof. Luis Arenas
ESTADÍSTICA - EST. DESCRIPTIVA : DISTRIB DE FRECUENCIA
r
i to
BIBLIOGRAFÍA
WALPOLE-MYERS.
Ed
“Probabilidad y Estadística para Ingenierías y
Ciencias”. Octava Edición. Pearson Educación.
2007.
DF
MONTGOMERY-RUNGER
“Probabilidad y Estadística aplicadas a la
rP
Ingeniería”. Tercera Edición. Mc. Graw- Hill.
México. 2003. te
CANAVOS, George
“Probabilidad y Estadística - Aplicaciones y
as
Métodos”. McGraw-Hill. 1988.
DEVORE, Jay
M
DAVIS, John C.
ed
r
i to
ANÁLISIS EXPLORATORIO DE DATOS
Ed
Distribuciones de Frecuencia
CONTENIDOS:
DF
• Muestra y población;
rP
• Unidad estadística;
• Variables estadísticas;
te
• Tipo de variables;
as
• Ejemplos.
ed
r
Población (Universo):
i to
Una población estadística es una colección bien
definida de objetos, personas, cosas, etc. que se
Ed
pretende estudiar.
La definición debe ser espacio-temporal, es decir,
que al definir la población debemos tener en
DF
cuenta:
• Que: Qué vamos a estudiar (el objeto, cosa,
persona, etc.);
rP
• Donde: La ubicación geográfica de la
población;
te
• Cuando: ubicación temporal de la población.
Ejemplos
as
r
i to
Unidad Estadística
Es la persona, objeto, elemento en cuyo estudio
estamos interesados. El conjunto completo de
Ed
todas las unidades estadísticas conforma la
población. La unidad estadística también puede
ser una unidad de tiempo, longitud, área, etc.
DF
Variables Estadísticas
Es cualquier característica que puede variar de una
rP
unidad estadística a otra en la población.
Obtenidas por medición o por observación de la
característica bajo estudio.
te
Tipos de Variables
as
Cualitativas:
No admiten valores numéricos sino que
M
Cuantitativas:
Adquieren valores numéricos obtenidos por
medición o por observación de las unidades
at
estadísticas.
re
r
i to
Variable Cuantitativa discreta
Una variable cuantitativa es discreta cuando
Ed
unicamente asume valores enteros.
Generalmente surgen de conteos.
DF
ejemplo : 0, 1, 2, 3, 4...).
Otras pueden tomar un conjunto finito de
valores (por ejemplo : 1, 2, 3).
r
i to
Población
Ed
Es el conjunto
de todos los
individuos que
poseen
DF
información
sobre el
fenómeno que Muestra
se estudia. Es un
rP
subconjunto de
elementos
pertenecientes
te
a una
población.
Variables:
as
Unidad
Estadística
Cada individuo,
in
r
i to
Ejemplo:
En un estudio de ausentismo, se selecciona una
muestra aleatoria de 60 empleados de la cadena de
Ed
hipermercados XX y para cada uno de ellos se observa
la cantidad de días ausente el año pasado.
DF
Datos del estudio:
2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7,
rP
7, 7, 7 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9,
9, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10,
10, 10, 11, 11, 11, 11 12, 12, 13, 14
te
as
seleccionados al azar.
• Unidad Estadística: el empleado del hipermercado
in
XX el año pasado.
• Variable: Cantidad de días ausente el año pasado.
ed
r
Serie Simple de Datos (SSD)
i to
Una serie simple es un conjunto pequeño de
Ed
datos.
Si la cantidad de observaciones que conforman la serie
simple es n, podemos indicarlas como x1 , x2 , ..., xn
DF
Ejemplo:
Serie Simple
rP
2,3 2,5 2,6
2,1
2,4
2,8
te
La cantidad de observaciones de la serie simple es n = 6
as
x1 x2 x3 x4 x5 x6
ed
at
re
r
Distribuciones de Frecuencias Unidimensionales
i to
• Las distribuciones de frecuencia son más fáciles
de interpretar que los datos en bruto.
Ed
• Organizan los datos construyendo tablas de
frecuencias.
• Permiten visualizar la forma de la distribución de
DF
una variable mediante la representación gráfica
de la tabla de frecuencia.
rP
• Para hacer una distribución de frecuencia, se
requiere una muestra de tamaño adecuado,
generalmente, no menor de 40 unidades.
te
Definiciones
Frecuencia absoluta (fi ) es la cantidad de veces
as
hi i
n
La frecuencia absoluta nos dice cuántas veces ocurrió
ed
r
i to
Tablas de Frecuencias: Datos sin Agrupar (DSA)
Construcción de la Tabla
Ed
Luego de recolectados los datos armar una tabla de
frecuencias con las siguientes columnas:
DF
• En la primera columna los valores que asume la
variable ordenados de menor a mayor.
rP
de cada valor de la variable.
muestra (n)
re
r
Ejemplo:
i to
En el estudio del ausentismo del año pasado en el
hipermercado XX, se seleccionó una muestra aleatoria
Ed
de 60 empleados provenientes de todos los
departamentos de la empresa y para cada uno de ellos
se observa la cantidad de días ausente el año pasado.
DF
Datos del estudio:
2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7,
7, 7, 7 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9,
9, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10,
rP
10, 10, 11, 11, 11, 11 12, 12, 13, 14
2 1 0.0167
as
3 2 0.0333
4 2 0.0333 Contar las
M
8 11 0.1833
9 10 0.1667
10 7 0.1167
ed
13 1 0.0167
14 1 0.0167 muestra
re
r
Representación de Frecuencias Simples
i to
• Marque los valores de la variable en una escala
sobre el eje horizontal.
Ed
• Sobre cada valor de la variable, dibuje un bastón
cuya altura sea igual a la frecuencia absoluta (o,
alternativamente, la frecuencia relativa).
DF
rP
te
as
M
in
cantidad de inasistencias
ed
at
re
r
Definición
i to
• La frecuencia relativa expresada como porcentaje
recibe el nombre de frecuencia relativa porcentual
Ed
(hi%).
• Para obtener la frecuencia relativa porcentual
sencillamente se multiplica la frecuencia relativa por
100, es decir hi% = hi*100 .
DF
• Como es más fácil de interpretar un porcentaje que
una proporción, es usual informar resultados en
términos de frecuencias relativas porcentuales.
rP
• Tanto las frecuencias absolutas, como las relativas y
las relativas porcentuales se pueden sumar dando
te
origen a las frecuencias acumuladas.
as
r
i to
Tabla de Frecuencias: Datos sin agrupar (DSA)
Ed
copias
DF
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
rP
7 9 0.1500 15 24 0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
te
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
as
r
i to
Representación de Frec. Acumuladas (DSA)
Ed
horizontal.
• Para cada valor de la variable representar las
frecuencias absoluta acumuladas. Como la
DF
frecuencia acumulada permanece constante de un
valor a otro, uniendo los segmentos verticales se
obtiene el diagrama escalonado.
rP
F(i ) Diagrama Escalonado
70
te
F 60
60
as
50
M
40
30
in
20
ed
10
F 0
0
at
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
re
r
i to
Interpretación
Ed
faltas
DF
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
rP
7 9 0.1500 15 24 0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
te
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
as
f3:
ed
h6 %:
at
re
r
i to
Ed
DF
rP
te
F(i ) Diagrama Escalonado
as
70
60
M
50
in
40
30
ed
20
10
at
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
re
r
Interpretación
i to
Cant. de fi hi hi% Fi Hi Hi%
Ed
faltas
DF
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
rP
7 9 0.1500 15 24 0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
te
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
as
F7:
in
H6 %:
ed
at
re
r
Distribuciones de Datos Agrupados (DA)
i to
Ejemplo:
Ed
En un estudio realizado por C. Davis* sobre imagen
corporal y preocupación por el peso se registraron,
entre otras variables, los pesos de 200 personas (en
kg). Los datos obtenidos son los siguientes:
DF
77 58 53 68 59 76 76 69 71 65 70 166 51 64 52 65 92 62 76 61
119 61 65 66 54 50 63 58 39 101 71 75 79 52 68 64 56 69 88 65
54 80 63 78 85 54 73 49 54 75 82 56 74 102 64 65 66 73 75 57
rP
68 71 71 78 97 60 64 64 52 80 62 66 55 56 50 50 50 63 69 69
61 55 53 60 56 59 62 53 57 57 70 56 84 69 88 56 103 50 52 55
55 63 47 45 62 53 52 57 64 59 84 79 55 67 76 62 83 96 75 65
78 69 68 55 67 52 47 45 68 44 62 87 56 50 83 53 64 62 90 85
te
66 52 53 54 64 55 55 59 70 88 57 47 47 55 48 54 69 59 58 57
51 54 53 59 56 59 63 66 96 53 76 54 61 82 62 71 60 66 81 68
80 43 82 63 70 56 60 58 76 50 88 89 59 51 62 74 83 81 90 79
as
Davis, C. (1990) Body image and weight preoccupation: A comparison between exercising
and non-exercising women. Appetite, 15, 13–21 .
M
r
Distribuciones de Datos Agrupados
i to
Ejemplo:
Ed
X f F h H h% H%
39 1
40 0
41 0
DF
42 0
43 1
: :
: :
119 1
rP
: :
: :
163 0
164 0
te
165 0
166 1
as
Como se puede observar esta forma de organizar los
datos no resulta práctica por las siguientes razones:
• La tabla de frecuencias queda muy extensa.
M
r
Distribuciones de Datos Agrupados
i to
Ejemplo:
Ed
Intervalo f F h H h% H%
35 - 50 18
50 - 65 94
65 -80 52
DF
80 - 95 18
95 - 110 7
110 - 125 5
rP
125 - 140 3
140 - 155 2
155 - 170 1
te
Una tabla de frecuencias organizada utilizando
intervalos o clases de la variable recibe el nombre de
as
tabla de Frecuencias de Datos Agrupados.
En este ejemplo, los intervalos tienen una amplitud de
15kg.
M
Resumiendo:
in
r
i to
Cómo se hace la tabla de Datos agrupados (DA)
Se debe emplear cierto criterio para seleccionar la
cantidad de intervalos de la tabla de frecuencias:
Ed
• La cantidad de intervalos de la tabla depende de la
cantidad de observaciones y de la dispersión de los
datos.
DF
• Una tabla que usa demasiados intervalos o muy
pocos no será de utilidad informativa.
• Usualmente es satisfactorio usar entre 5 y 20
rP
intervalos, pero si hay muchas observaciones puede
haber una cantidad mayor de intervalos.
• En la práctica, elegir el número de intervalos
te
aproximadamente igual a la raíz cuadrada de la
cantidad de observaciones a menudo funciona bien.
as
• Podemos destacar los siguientes pasos:
Paso 1:
M
Paso 2:
Determine la cantidad de intervalos. Utilice la regla de
la raíz cuadrada:
at
r
Paso 3:
i to
Calcule la amplitud aproximada de los intervalos mediante:
Rango
Amplitud
Ed
Cantidad de clases
Paso 4:
Determine los límites de cada clase, de forma tal que el
valor mínimo observado quede incluido en la primera clase
DF
y el valor máximo observado quede en la última clase.
Paso 5:
Construya la tabla de frecuencias clasificando los
rP
datos por comparación con los límites de clase obtenidos
en el punto anterior y calcule las frecuencias absolutas,
relativas, frecuencias acumuladas. La tabla se construye
te
de manera similar a DSA.
as
Intervalos o
Frecuencia Frecuencia
Clases de la
absoluta relativa
variable
M
in
ed
frecuencias relativas hi
re
r
Paso 6:
i to
Representar graficamente la distribución, este
gráfico recibe el nombre de histograma. Sobre cada
Ed
clase dibuje una barra con altura igual a la frecuencia
absoluta/relativa. La relación de aspecto debe ser
adecuada. Se recomienda que la altura de la barra más
alta sea de 0,5 a 2 veces la distancia entre los valores
DF
máximo y mínimo.
Las frecuencias acumuladas se representan en un
gráfico llamado ojiva.
rP
Ejemplo: En una muestra de 40 alumnos de una
carrera resultaron los siguientes promedios:
te
4 - 4,6 - 5,2 - 6 - 6,1 - 6,3 - 6,6 - 6,6 - 6,7 - 6,8 - 5,4
7- 7,4 - 7,5 - 7,6 - 7,6 - 7,7 - 5,8 - 7,7 - 7,7 - 7,8 - 7,8
as
7,9 - 8,5 - 8,1 - 8,1- 8,1- 8,1 - 8,2 - 8,2 - 8,3 - 8,4 –
8,6 - 8,7 - 8,7 - 8,8 - 9,2 - 9,2 - 9,4 - 9,8
M
Amplitud 0,96 1
cant.de clases 6
re
r
i to
Paso 4: Establecer los límites de clase:
Debemos cubrir un rango 5,8 puntos entre los 6
intervalos, si queremos que el mínimo quede en el 1er
Ed
intervalo y el máximo valor en el último:
DF
Paso 5: Completar la tabla de frecuencias
rP
Intervalo
fi hi hi% Fi Hi Hi%
de clase
te
4 - 5 2 0,05 5 2 0,05 5
as
6 - 7 7 12
M
0,175 20 0,30 30
9 - 10 4 0,1 10 40 1 100
at
re
r
Etapa 5: Representar histograma y ojiva
i to
Ed
14 Frecuencia Frecuencia 0,35
absoluta relativa
12 0,30
10 0,25
DF
8 0,20
6 0,15
rP
4 0,10
2 0,05
0 0
te
3 4 5 6 7 8 9 10
as
Ojiva
M
45
40
35
in
30
25
20
15
ed
10
5
0
at
2 3 4 5 6 7 8 9 10 11 12
re
r
Interpretación
i to
Intervalo
fi hi h i%
Ed
de clase Fi Hi H i%
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
f3:
M
Frecuencia
14 absoluta
in
12
10
8
ed
6
4
2
at
0
3 4 5 6 7 8 9 10
re
r
Interpretación
i to
Intervalo
fi hi h i%
Ed
de clase Fi Hi H i%
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
h5%:
M
Frecuencia
14 absoluta
in
12
10
8
ed
6
4
2
at
0
3 4 5 6 7 8 9 10
re
r
Interpretación
i to
Intervalo
fi hi h i% Fi Hi H i%
Ed
de clase
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
F3:
M
Ojiva
45
in
40
35
30
ed
25
20
15
10
at
5
0
2 3 4 5 6 7 8 9 10 11 12
re
r
Interpretación
i to
Intervalo
fi hi h i% Fi Hi H i%
Ed
de clase
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
F5 - F2
M
Ojiva
45
in
40
35
30
ed
25
20
15
10
at
5
0
2 3 4 5 6 7 8 9 10 11 12
re
r
Interpretación
i to
Intervalo
fi hi h i% Fi Hi H i%
Ed
de clase
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
H5%:
M
Ojiva
45
in
40
35
30
ed
25
20
15
10
at
5
0
2 3 4 5 6 7 8 9 10 11 12
re
r
Descripción de una distribución a partir de la
i to
gráfica
Al examinar un histograma o el diagrama de
Ed
bastones debemos identificar las siguientes
características:
Forma: simétrica, asimétrica, otras.
DF
Centro: valor aproximado que
Aspecto deja mitad de los datos por debajo
General y mitad por encima.
rP
Dispersión: mínimo y máximo
(sin contar desviaciones).
te
Observaciones atípicas que
as
Aspecto
in
General
Desviaciones
ed
Desviaciones
at
re
r
Forma: Casos Típicos
i to
Ed
Tipo normal:
Simétrico y en forma
de campana.
DF
rP
Asimétrico a la derecha
(positivo)
te
as
M
Asimétrico a la
in
Izquierda (negativo)
ed
at
re
r
Centro de la Distribución
i to
Valor aproximado que deja mitad de los datos por
Ed
debajo y mitad por encima.
Tipo normal:
Simétrico y en forma
DF
de campana.
rP
Centro te
Asimétrico a la derecha
(positivo)
as
M
Centro
in
Asimétrico a la
Izquierda (negativo)
ed
at
Centro
re
r
i to
Dispersión
Valor mínimo y valor máximo sin contar valores
Ed
atípicos.
Aspecto
General
DF
Valores
atípicos
Valores
atípicos
rP
te
mínimo máximo
as
Dispersión
M
in
ed
at
re
r
i to
Ejemplo
El siguiente histograma presenta la distribución de
los porcentajes de residentes mayores de 65 años en
Ed
los 50 estados de EE UU en 1996.
16
DF
14
12
rP
10
No. of obs.
8
te
6
4
as
2
M
0
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X: porcentaje de mayores de 65 años
13%).
Dispersión: Ignorando los extremos, los
at
r
i to
16
Ed
14
12
10
DF
No. of obs.
rP
4
2
te
0
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X: porcentaje de mayores de 65 años
as
r
i to
ANÁLISIS EXPLORATORIO DE DATOS
Medidas de Posición y Dispersión
Ed
CONTENIDOS:
DF
• Medidas de posición: concepto,
tendencia central.
rP
• Media, Mediana, Modo, Cuartiles.
• Medidas de Dispersión: Concepto.
te
Rango, Rango Intercuartílico, Desvío
as
Estándar.
• Regla empírica.
M
• Coeficiente de Variación.
in
• Diagramas de Caja.
ed
at
re
r
i to
Estadísticos de Posición
Las medidas de posición ayudan a caracterizar un conjunto
de datos pues proporcionan la localización de la
Ed
distribución de frecuencia o el conjunto de datos, sobre el
eje de las abscisas (eje x).
DF
Estadísticos de tendencia central rP
te
La media, el modo y la mediana son conocidas también
como medidas de tendencia central, ya que indican
as
Mínimo Media
in
Máximo Modo
Cuartiles Mediana
ed
Percentiles
Medidas de Medidas de
at
r
Serie Simple de Datos (SSD)
i to
Una serie simple es un conjunto pequeño de datos.
Ed
Si la cantidad de observaciones que conforman la serie
es n, podemos indicarlos como x1 , x2 , ..., xn
Media aritmética
DF
Se calcula como: x
x1 x2 .... xn
n
Que se simboliza como: Media poblacional
rP
n
xi
n
i 1
x i
M ( x) x i 1
te
n N
Ejemplo:
as
Serie Simple
2,3 2,1 2,5
2,4 2,8 2,6
M
x
2,1 2,3 2,4 2,6 2,5 2,8
2,45
in
6
Propiedades de la media
ed
x
i =1
i -x = 0
at
M ( a b x) = a b M(x)
re
i to
Ejemplo (DSA): En la distribución de frecuencia de la
cantidad de días ausentes de los empleados del
Ed
hipermercado XX el año pasado
n
x i
478
DF
x i 1
7,967 8
n 60
Interpretación
rP
El año pasado los 60 empleados tuvieron en promedio 8
días ausentes.
40
x
M
i
302,1
x i 1
7,505
n 40
in
r
i to
La mediana
Es el valor que supera a no más de la mitad de las
observaciones y a la vez es superado por no más de la
Ed
mitad de las observaciones. Conceptualmente es el
valor que deja por debajo el 50% de los datos y por
encima el otro 50%.
DF
Con los datos ordenados de menor a mayor se
calcula como:
rP
mitad del conjunto de datos ordenados.
muestra
Ejemplo: 3,2 2,3
te
2,5
Mna 2,1 2,6
Datos ordenados: 2,4
2,8
as
Datos
ordenados Mna
muestra
ed
2,3
2,5 2,6 2,1 2,3 2,4 2,5 2,6 2,8
2,1
2,4
at
r
La Mediana (DSA)
i to
Para calcular la mediana graficamente, primero se encuentra
el orden de la mediana: n
Ed
2
DF
resultante es la mediana de la distribución.
F(i )
n
rP
n
2
Mna
te
x1 x 2 x 3 .x 4 . . . x.m
as
Fi
M
in
n
30
2
ed
at
Mna 8
re
i to
Cálculo Analítico: Ejemplo (DSA)
En el ejemplo de cantidad de días ausentes de los
Ed
empleados, tenemos una muestra de n = 60.
DF
2 3 3 4 4 5 . . . 8 8 8 8 8 8 8 8 . . . 12 12 13 14
Mitad inferior Mitad superior
30 datos
Mna
rP 30 datos
te
x 30 x 31
Mna
as
2
La Mediana (DA) n
M
2 Mna
el orden de la mediana.
ed
LI LS
r
Ejemplo
i to
Ojiva
Ed
45
40
35
DF
30
25
n
20 20
2 15
rP
10
5
0
2 3 4 5 6 7 8 9 10 11 12
te
4 4,6 5,2 6,1 . . . 7,7 7,7 7,8 7,8 . . . 9,2 9,2 9,4 9,8
as
Mna
20 datos 20 datos
in
7 ,7 7 , 8
Mna
2
ed
Interpretación:
El 50% de los 40 alumnos tiene un promedio inferior
at
r
Cuartiles
i to
Hay dos cuartiles: el inferior o Cuartil 1 y el superior
o Cuartil 3.
Ed
Cuartil 1
Es el valor que supera a no más de la cuarta parte de
las observaciones y a la vez es superado por no más de
DF
las tres cuartas partes de las observaciones.
Conceptualmente es el valor que deja por debajo el
25% de los datos y por encima el otro 75%.
rP
Cuartil 3
Es el valor que supera a no más de las tres cuartas
partes de las observaciones y su vez es superado por
te
no más de la cuarta parte de las observaciones.
Conceptualmente es el valor que deja por debajo el
as
25% 25%
25%
25%
in
ed
Q1 Mna Q3
at
re
r
i to
Cálculo de los Cuartiles
Ed
menor a mayor, hallar la mediana.
2. Q1 se obtiene como la mediana de la mitad inferior.
3. Q3 se obtiene como la mediana de la mitad
DF
superior.
Ejemplo (n es múltiplo de 4) :
2,2 2,3
Q1 2,25
2
M
2,6 2,8
Q3 2. 7
2
in
Q1 Q3
2 2 3 3 3 4 5 5 5 5 6 6 7 9
at
re
r
i to
Cálculo en distribuciones de Frecuencia
Ed
de datos agrupados, el procedimiento de cálculo de los
cuartiles es análoga a la mediana, pero ahora debemos
n
hallar el orden del cuartil 1 = y el orden del cuartil
4
DF
3= 3n
4
rP
Fi
n
Para hallar Q1 graficamente
se traza una proyección desde
te
el orden del cuartil 1 hasta el
n
diagrama escalonado y de allí al
as
r
i to
Cálculo Gráfico de ambos cuartiles
Ed
Fi
DF
3n
45
4
rP
n
15
4 te
Q1 6,5 Q3 9,5
as
Interpretación:
M
i to
Ejemplo (DSA):
Ed
En el ejemplo de cantidad de días ausentes de los
empleados, tenemos una muestra de n = 60.
Como n es múltiplo de 4 , una vez que se han ordenado los
DF
datos:
• Q1 es el promedio de los dos valores entre el 1er y 2do
cuarto
rP
• Q3 es el promedio de los dos valores entre el 3er y 4to
cuarto
Q1 Q3
te
as
233 5.. .6677... 8 8 8 8 . . . . 9 9 10 10. 12 13 14
cuarto cuarto cuarto cuarto
M
6 7
Q1 6,5
2
ed
9 10
Q3 9,5
2
at
re
r
i to
Cálculo Gráfico Q1 (DA)
Ed
F(i )
n
DF
n Q1
4
rP
LI LS
te
Ojiva
as
45
40
35
30
M
25
20
15
in
n
10 10
4 5
0
ed
2 3 4 5 6 7 8 9 10 11 12
Q1= 6,65
at
re
r
i to
Cálculo Gráfico Q3 (DA)
F(i )
Ed
n
3n
4
DF
Q3
rP
LI LS
te
Ojiva
as
45
40
35
3n
M
30 30
Q3 x ; x
4 25
20
in
15
10
5
ed
0
2 3 4 5 6 7 8 9 10 11 12
at
Q3= 8,35
re
r
Intervalo Intercuartílico
i to
El intervalo intercuartílico es el intervalo de
valores de la variable comprendido entre Q1 y Q3 .
Ed
• Este intervalo contiene aproximadamente el 50% de
la distribución.
DF
• Si la distribución es simétrica, el intervalo estará
ubicado en el centro de la misma.
rP
50% 25%
25%
te
as
Q1 Q3
M
Ejemplo
in
Interpretación
Aproximadamente el 50% de los alumnos tienen un
at
r
i to
Ejemplo
En el ejemplo del promedio de los 40 alumnos:
Ed
Q1 = 6,65 y Q3 = 8,35 luego el intervalo
intercuartílico es: [6,65 ; 8,35]
DF
Frecuencia
14 absoluta
12
rP
10
8
6
te
4
2
as
0
3 4 5 6 7 8 9 10
Q 1=6,65 Q 3=8,35
M
Interpretación
in
r
i to
El Modo (DSA)
Es el valor de la variable al que le corresponde la
frecuencia máxima. Gráficamente el modo es el valor de
Ed
la variable al que le corresponde el bastón más alto.
f (i )
f imáx
DF
Mdo
rP
x1 x2 x3 x4. . . . .xm
te
Frecuencia Frecuencia
absoluta relativa
11
as
10 fi máx
9 0.15
8
M
7
6 0.10
5
in
4
3 0.0
5
ed
2
1
0 0
at
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Mdo
re
r
i to
f
El Modo (DA)
El modo se encuentra en el f
i max
Ed
intervalo al que le
fi ant fi sig
corresponde máxima
frecuencia (intervalo modal).
Es posible encontrar un valor
DF
aproximado interpolando LI LS
mediante la fórmula: a
f i max f i ant
rP
Mdo LI a
( f i max f i ant ) ( f i max f i sig )
te
donde:
LI: Límite inferior del intervalo que contiene al Modo.
as
r
i to
Ejemplo
Mdo LI
f i max f i ant a
Ed
( f i max f i ant ) ( f i max f i sig )
Frec. Frecuencia
DF
14 0,35
absoluta relativa
12 0,30
10 0,25
rP
8 Mdo 8 ; 9 0,20
6 0,15
te
4 0,10
2 0,05
as
0 0
3 4 5 6 7 8 9 10
f i max f i ant
M
f i max f i sig
in
....
Mdo ...... ..... .....
.... ....
ed
Interpretación:
Lo más frecuente es que los 40 alumnos tengan un promedio
at
r
Medidas de tendencia central: Ventajas y
i to
desventajas
Media
Ed
• Utiliza en su cálculo todos los valores disponibles
de la muestra.
• Tiene propiedades estadísticas deseables, por eso
DF
es la medida de tendencia central más utilizada.
• La desventaja más importante es que puede ser
afectada de manera adversa por valores extremos
rP
presentes en la muestra.
Mediana
• Requiere ordenar los datos de menor a mayor. Una
te
vez ordenados los datos, es fácil de calcular.
• No se ve afectada por valores extremos, pero sí por
as
• Es fácil de calcular.
• Se puede usar tanto para variable cualitativa como
para variable cuantitativa. La media y Mna solo se
at
r
Relación de las Medidas de tendencia central
i to
Ed
Simétrica
DF
rP
x Mna Mdo
te
as
En distribuciones simétricas la media , el modo y
la mediana son aproximadamente iguales.
M
in
ed
at
re
r
i to
Relación de las Medidas de tendencia central
Ed
el modo se ubica donde hay máxima frecuencia. En
distribuciones asimétricas se verifica la siguiente
relación:
DF
Asimétrica
a la
rP
te derecha
as
Mdo Mna x
M
Asimétrica
a la
in
izquierda
ed
x Mna Mdo
at
re
r
Estadísticos de Dispersión
i to
Otra característica de las distribuciones es la variabilidad
o dispersión de las mismas. Las medidas de dispersión
Ed
miden la intensidad con que se dispersan o concentran los
observaciones de una distribución.
DF
rP
te
as
M
x
in
r
1. Rango
i to
Es la diferencia entre el valor máximo y el valor
mínimo de las n observaciones:
Ed
Rango = máximo - mínimo
DF
muestra
2,5 2,1
2,3 R 2,8 2,1 0,7
rP
2,4 2,8 2,6
te
• El rango es la medida de dispersión de los datos más
simple de calcular.
as
atípicos o extremos.
2. Rango Intercuartílico
ed
RI Q 3 Q1
re
i to
• El Rango Intercuartílico es confiable aún en
presencia de valores atípicos .
Ed
• El cálculo del Rango Intercuartílico da un valor,
no confundir con Intervalo Intercuartílico que son
todos los valores que asume la variable entre Q1 y
Q3 .
DF
Desviaciones
Si xi es un dato cualquiera de la muestra, se llama
desviación respecto de la media a la diferencia
rP
entre el xi y la media:
desviación x i x
Variancia
te
Se calcula a partir de la suma de las desviaciones de
las observaciones respecto de la media elevados al
as
(x
M
i x )2
i 1
s 2 ( x) V ( x) muestral
n 1
in
(x i )2
2 (x) i 1 poblacional
ed
N
at
r
Propiedades de la variancia
i to
1. La variancia de una constante es cero, es decir, si
todas las observaciones son iguales entonces no hay
Ed
variabilidad, luego la variancia es cero.
2. V(a bx) = b2 V(x), a y b constantes
3. Desvío Estándar
DF
Se lo define como la raíz cuadrada de la variancia.
Mide la dispersión de las observaciones respecto de la
media.
rP
Es la medida de dispersión más utilizada.
En su cálculo intervienen todas las observaciones.
Al igual que la media, el desvío se ve afectado por la
te
asimetría de la distribución o por las observaciones
atípicas.
as
Está expresado en la misma unidad de medida que la
variable y su media.
n
M
(x x)i
2
(x ) i
2
s( x) i 1
( x) i 1
n 1 N
in
xi N
n
2
xi
i 1
xi2
n i 1
2
at
s( x) i 1 ( x)
n 1 N
re
r
i to
Ejemplo 1: En los datos de ausentismo tenemos:
n n
xi 478 i 4162
x 2
Ed
i 1 i 1
2
n
n
xi
DF
i 1
xi2 i 1
n
s ( x)
n 1
.......
rP
........2
....
te
s( x)
.......
as
n n
xi 300,2
i 1
i 2320,72
x 2
i 1
in
.......
........2
ed
s ( x) ....
.......
at
re
r
i to
Propiedades del Desvío Estándar
• Cuando todas las observaciones tienen el mismo
Ed
valor s(x) = 0. En caso contrario s(x) > 0. A
medida que las observaciones se separan más de
la media s(x) se hace mayor.
• Regla empírica
DF
En distribuciones simétricas y acampanadas y para
tamaños de muestras suficientemente grandes se
rP
verifica que:
68%
M
in
ed
x s (x ) x x s (x )
at
re
r
i to
Regla Empírica (continuación)
El intervalo x 2 s ( x); x 2 s( x )
Ed
contiene aproximadamente el 95% de la distribución
DF
95%
xrP
te
x 2 s ( x) x 2 s ( x)
x 3 s( x); x 3 s( x)
as
El intervalo
contiene aproximadamente el 99,7% de la distribución
M
99,7%
in
ed
x 3 s ( x) x x 3 s( x)
at
re
r
i to
Ejemplo
Frecuencia Frecuencia
absoluta relativa
Ed
11
10
9 0.15
8
7
DF
6 0.10
5
4
3 0.05
rP
2
1
0 0
te
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
n = 60 x 7,967 s ( x ) 2,449
as
r
Dispersión Relativa: Coeficiente de Variación
i to
Se define al Coeficiente de Variación (CV), como el
cociente entre el desvio estándar y la media. De esta
Ed
manera se eliminan las unidades en que está medida la
variable, resultando un coeficiente adimensional que
suele ser expresado en porcentaje.
s ( x)
CV 100
DF
x
El Coeficiente de Variación mide la dispersión relativa,
es decir, cuán grande es el desvío estandar en relación
rP
a su propia media.
Se lo utiliza para comparar la variabilidad relativa de dos
o más conjuntos de datos en los que se han utilizado
te
unidades de medida diferentes o cuando se comparan
muestras de la misma variable con distintas medias.
as
Ejemplo
s( x) 2,449
CV1 100 100 ........ %
in
x 7,967
s( x) 1,317
CV 2 100 100 ........ %
ed
x 7 ,505
La distribución correspondiente a las calificaciones
at
r
Resumen Numérico de los datos
i to
Los cinco números resumen
Los cinco números resumen de un conjunto de datos
Ed
consisten en la observación mínima, el primer cuartil, la
mediana, el tercer cuartil y la observación máxima. Estos
cinco números proporcionan una descripción
razonablemente completa del centro y de la dispersión
DF
de la distribución. El mínimo y el máximo dan
información de los extremos de la distribución.
De forma simbólica :
rP
mínimo Q1 Mna Q3 máximo
De forma simbólica :
números resumen.
Se utiliza media y desvío en el caso de distribuciones
razonablemente simétricas y que no presenten
at
observaciones atípicas.
re
r
i to
Diagrama de Caja
Los cinco números resumen de una distribución nos
conducen a un nuevo gráfico: el Diagrama de caja.
Ed
Es una representación de los datos que pretende resumir
gráficamente las características más sobresalientes de
los mismos. Se puede utilizar el Diagrama de Caja para
comparar distintos conjuntos de datos respecto a:
DF
• localización • posición
medidas de:
• variabilidad • dispersión
rP
• forma dada por la gráfica
Caja
Izquierdo Derecho
M
in
Mínimo Máximo
ed
r
i to
Diagrama de Caja: Posición
Ed
DF
Mínimo Máximo
Cuartil 1
rP
Mediana Cuartil 3
te
Diagrama de Caja: Dispersión
as
Rango Intercuartílico
Rango
at
re
r
Diagrama de Caja: Forma
i to
Tipo normal:
Ed
Simétrico y en forma de
campana.
DF
rP
La distancia entre Q1 y mediana es la misma que entre mediana y
te
Q3. Los bigotes tienen aproximadamente la misma longitud.
as
Asimétrico a la derecha
(positivo)
M
in
ed
at
r
Diagrama de Caja: Forma
i to
Asimétrico a la Izquierda
Ed
(negativo)
DF
rP
te
La distancia entre Q1 y mediana es mayor que entre
mediana y Q3. El bigote izquierdo tiene mayor longitud
as
que el derecho.
r
Comparación de distribuciones: Dispersión
i to
Ed
DF
rP
Las distribuciones son similares en localización y en
simetría. Difieren en la dispersión.
te
Comparación de distribuciones
as
M
in
ed
r
Ejemplo
i to
Para investigar el efecto que tiene el procedimiento
en la elaboración de hormigón se comparan tres
Ed
métodos de fabricación y se observa la resistencia a
la fractura de los hormigones obtenidos (en kg
fuerza).
DF
• Qué forma presentan las distribuciones.
Justifique su respuesta.
• Ordene las distribuciones de menor a mayor según
rP
su dispersión.
• Ordene los métodos de mayor a menor de acuerdo
te
a la resistencia a la fractura obtenida (posición).
as
M
in
ed
at
re
r
i to
Estrategia para explorar una variable
cuantitativa
Ed
Disponemos ahora de un conjunto de herramientas
gráficas y numéricas para describir distribuciones.
Suponiendo que tenemos una cantidad suficiente de
datos (n 40), podemos seguir el siguiente
DF
procedimiento:
1. Organizar el conjunto de datos en una tabla de
rP
frecuencias de datos agrupados o sin agrupar
según corresponda.
2. Representar la distribución con la gráfica que
te
corresponda (histograma o diagrama de
bastones). Puede acompañarse de un diagrama
as
de caja.
3. Identificar el aspecto general (forma, centro y
M