Descriptiva5 08 19 PDF

r
i to
Ed
SEMINARIO DE ESTADÍSTICA
APLICADA A GEOLOGÍA
DF
rP
te
as
M
Neuquén, Agosto 2019

in
ed
FACULTAD DE INGENIERÍA
UNIVERSIDAD NACIONAL DEL COMAHUE
at
re
r
i to
SEMINARIO DE ESTADÍSTICA
Ed
APLICADO A LA GEOLOGÍA
Equipo Docente
DF
Profesor responsable de Cátedra
rP
Prof. Luis Arenas
luis.arenas@faea.uncoma.edu.ar
te
Jefe de Trabajos Prácticos Módulo 2
Est. Jorge Caliani
as
Jefe de Trabajos Prácticos Módulo 1

M
Prof. Mabel Basanta
Ayudante Graduado (Práctica)

in
Ing. Julian Illescas

ed
Ayudante Alumno (Práctica)

A concurso
at
Lugar de Trabajo:
re
Oficina 12, 1er Piso Facultad de Economía

r
PROGRAMA
i to
UNIDAD I: ANÁLISIS EXPLORATORIO:
Ed
Población, muestra. Variables, Datos. Distribuciones de
frecuencia y su representación gráfica: centro
dispersión y forma. Estadísticos de posición: Media,
Mediana, Modo, Cuartiles. Estadísticos de dispersión:
DF
Rango, Rango intercuartílico, Variancia: Definición,
propiedades. Desvío Estandar: propiedades.
Coeficiente de variación. Conjuntos de datos
rP
bidimensionales: diagrama de dispersión, covariancia,
coeficiente de correlación muestral.
UNIDAD II: PROBABILIDAD.
te
Espacio muestra. Suceso elemental, suceso aleatorio.
Espacio equiprobable. Unión, intersección y
as
complemento de sucesos. Probabilidad: Definición

clásica y frecuencial. Propiedades básicas. Reglas de
M
probabilidad. Probabilidad condicional. Independencia

de sucesos.
in
UNIDAD III: VARIABLES ALEATORIAS Y

DISTRIBUCIONES DE PROBABILIDAD.
Definición de variable aleatoria. Función de cuantía y
ed
de densidad. Función de distribución. Propiedades.

Esperanza. Variancia. Propiedades. Distribución
at
Bernoulli. Modelo Binomial. Modelo Normal. Uso de

tablas.
re
UNIVERSIDAD NACIONAL DEL COMAHUE 3

Departamento de Estadística - Prof. Luis Arenas
r
i to
UNIDAD IV: INFERENCIA ESTADÍSTICA-
ESTIMACIÓN DE PARÁMETROS
Ed
Muestra aleatoria, muestra observada. Parámetro.
Estimadores. Distribuciones muestrales. Teorema central del
límite. Estimación puntual. Desventajas. Estimación por
intervalos. Variable pivotal. Método de la variable pivotal.
DF
Intervalos de confianza para la Media. Distribución T-
Student. Intervalo para la proporción. Intervalo para la
variancia. Distribución Chi-Cuadrado. Intervalo de confianza
para la diferencia de medias con variancias conocidas y
rP
desconocidas.
UNIDAD V: PRUEBA DE HIPÓTESIS.
te
Hipótesis estadística. Modo de razonamiento. Zona de
Rechazo y no rechazo. Procedimiento general. Definición y
clasificación de errores. Nivel de significación. Valor-P.
as
Pruebas de Hipótesis para la Media. Prueba para la

proporción. Prueba de hipótesis para la variancia. Pruebas
M
de Hipótesis para la comparación de Medias con variancias

conocidas y desconocidas.
UNIDAD VI: REGRESIÓN Y CORRELACIÓN.
in
Diagrama de dispersión. Relaciones tipo entre variables.

Concepto de modelo predictivo y modelo de relación.
ed
Modelo de regresión lineal simple. Supuestos. Estimación

del modelo. Variancia del error. Coeficiente de
determinación. Estimación. Inferencia acerca de los
at
coeficientes. Estimación por intervalo de E(Y/x). Intervalo

de predicción. Modelos de regresión curvilínea.
re
Transformaciones.
ESTADÍSTICA - EST. DESCRIPTIVA : DISTRIB DE FRECUENCIA
r
i to
BIBLIOGRAFÍA
WALPOLE-MYERS.
Ed
“Probabilidad y Estadística para Ingenierías y
Ciencias”. Octava Edición. Pearson Educación.
2007.
DF
MONTGOMERY-RUNGER
“Probabilidad y Estadística aplicadas a la
rP
Ingeniería”. Tercera Edición. Mc. Graw- Hill.
México. 2003. te
CANAVOS, George
“Probabilidad y Estadística - Aplicaciones y
as
Métodos”. McGraw-Hill. 1988.
DEVORE, Jay
M
Probabilidad y Estadística para Ingeniería y

Ciencias. Séptima edición. Cengaje Learning
Editores, S.A.. 2008. ISBN13:978-970-686-831-2
in
DAVIS, John C.
ed
Statistics and Data Analysis in Geology. Third

Edition. John Wiley & Sons. 2002.
at
re

ESTADÍSTICA - EST. DESCRIPTIVA : DISTRIB DE FRECUENCIA
r
i to
ANÁLISIS EXPLORATORIO DE DATOS
Ed
Distribuciones de Frecuencia
CONTENIDOS:
DF
• Muestra y población;
rP
• Unidad estadística;
• Variables estadísticas;
te
• Tipo de variables;
as
• Series Simples de datos;
• Tablas de frecuencias para datos sin agrupar;

M
• Tablas de frecuencias para datos agrupados;

in
• Gráficas de las distribuciones;
• Ejemplos.
ed
• Descripción de una distribución a partir de la

gráfica. Aspecto general: forma, centro,
at
dispersión. Desviaciones: casos atípicos.

re

ESTADÍSTICA - EST. DESCRIPTIVA : CONCEPTOS - DEFINICIONES
r
Población (Universo):
i to
Una población estadística es una colección bien
definida de objetos, personas, cosas, etc. que se
Ed
pretende estudiar.
La definición debe ser espacio-temporal, es decir,
que al definir la población debemos tener en
DF
cuenta:
• Que: Qué vamos a estudiar (el objeto, cosa,
persona, etc.);
rP
• Donde: La ubicación geográfica de la
población;
te
• Cuando: ubicación temporal de la población.
Ejemplos
as
• Todos los menores de 18 años de una región en

un momento dado;
M
• Todos los individuos que se recibieron en la

Facultad de Ingeniería en la Universidad del
Comahue durante el periodo 2000-2010;
in
• El volumen total de petróleo producido en un

cierto yacimiento durante un periodo ;
ed
Muestra: Subconjunto de objetos pertenecientes a

la población bajo estudio, seleccionados
at
mediante un método predefinido.

re

Departamento de Estadística - Prof. Luis Arenas 7
r
i to
Unidad Estadística
Es la persona, objeto, elemento en cuyo estudio
estamos interesados. El conjunto completo de
Ed
todas las unidades estadísticas conforma la
población. La unidad estadística también puede
ser una unidad de tiempo, longitud, área, etc.
DF
Variables Estadísticas
Es cualquier característica que puede variar de una
rP
unidad estadística a otra en la población.
Obtenidas por medición o por observación de la
característica bajo estudio.
te
Tipos de Variables
as
Cualitativas:
No admiten valores numéricos sino que
M
representan atributos o categorías observados en

las unidades estadísticas. Ej: clasificación de un
in
fósil (braquiopodo, crinoide, etc.), sexo, raza,

profesión, etc.
ed
Cuantitativas:
Adquieren valores numéricos obtenidos por
medición o por observación de las unidades
at
estadísticas.
re

r
i to
Variable Cuantitativa discreta
Una variable cuantitativa es discreta cuando
Ed
unicamente asume valores enteros.
Generalmente surgen de conteos.
Algunas pueden asumir infinitos valores (por
DF
ejemplo : 0, 1, 2, 3, 4...).
Otras pueden tomar un conjunto finito de
valores (por ejemplo : 1, 2, 3).
Variable Cuantitativa continuarP

te
Una variable cuantitativa es continua cuando
as
los valores posibles abarcan la totalidad de la
recta numérica (el conjunto de los números
reales).
M
Admiten decimales y en general surgen de

mediciones.
in
Análisis Exploratorio de Datos

ed
Conjunto de técnicas que utilizan gráficos y

resúmenes numéricos para describir las variables de
un conjunto de datos y las relaciones entre ellas.
at
re

r
i to
Población
Ed
Es el conjunto
de todos los
individuos que
poseen
DF
información
sobre el
fenómeno que Muestra
se estudia. Es un
rP
subconjunto de
elementos
pertenecientes
te
a una
población.
Variables:
as
Características que se observan

en las unidades estadísticas.
M
Unidad
Estadística
Cada individuo,
in
Cualitativas animal o cosa al

que se le mide u
Cuantitativas discretas observa una o más
ed
Cuantitativas continuas características

at
re

r
i to
Ejemplo:
En un estudio de ausentismo, se selecciona una
muestra aleatoria de 60 empleados de la cadena de
Ed
hipermercados XX y para cada uno de ellos se observa
la cantidad de días ausente el año pasado.
DF
Datos del estudio:
2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7,
rP
7, 7, 7 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9,
9, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10,
10, 10, 11, 11, 11, 11 12, 12, 13, 14
te
as
• Población: empleados de la cadena del

hipermercado XX el año pasado.
• Muestra: el subconjunto de 60 empleados
M
seleccionados al azar.
• Unidad Estadística: el empleado del hipermercado
in
XX el año pasado.
• Variable: Cantidad de días ausente el año pasado.
ed
• Tipo de Variable: Cuantitativa discreta.

• CVO: Campo de variación observado CVO:2 - 14
at
re

ESTADÍSTICA - EST. DESCRIPTIVA: SERIES SIMPLES
r
Serie Simple de Datos (SSD)
i to
Una serie simple es un conjunto pequeño de
Ed
datos.
Si la cantidad de observaciones que conforman la serie
simple es n, podemos indicarlas como x1 , x2 , ..., xn
DF
Ejemplo:
Serie Simple
rP
2,3 2,5 2,6
2,1
2,4
2,8
te
La cantidad de observaciones de la serie simple es n = 6
as
La serie simple es:

M
2.3 2.4 2.1 2.8 2.5 2.6

in
x1 x2 x3 x4 x5 x6
ed
at
re

ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIBUCIONES DE FRECUENCIA
r
Distribuciones de Frecuencias Unidimensionales
i to
• Las distribuciones de frecuencia son más fáciles
de interpretar que los datos en bruto.
Ed
• Organizan los datos construyendo tablas de
frecuencias.
• Permiten visualizar la forma de la distribución de
DF
una variable mediante la representación gráfica
de la tabla de frecuencia.
rP
• Para hacer una distribución de frecuencia, se
requiere una muestra de tamaño adecuado,
generalmente, no menor de 40 unidades.
te
Definiciones
Frecuencia absoluta (fi ) es la cantidad de veces
as
que se observa el valor xi de la variable.

Frecuencia relativa (hi ) Indica la proporción de
M
veces que se observa el valor xi de la variable.

Es el cociente entre la frecuencia absoluta y el
tamaño de la muestra n. f
in
hi  i
n
La frecuencia absoluta nos dice cuántas veces ocurrió
ed
el evento, pero no informa sobre la relación que esto

tiene con el tamaño de la muestra analizada.
at
El contenido de información de la frecuencia relativa

es mucho mayor que el de la frecuencia absoluta.
re

ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA
r
i to
Tablas de Frecuencias: Datos sin Agrupar (DSA)
Construcción de la Tabla
Ed
Luego de recolectados los datos armar una tabla de
frecuencias con las siguientes columnas:
DF
• En la primera columna los valores que asume la
variable ordenados de menor a mayor.
• En la segunda columna las frecuencias absolutas
rP
de cada valor de la variable.
• En la tercera columna las frecuencias relativas de

te
cada valor de la variable.
as
Valores de la Frecuencia Frecuencia
variable absoluta fi relativa hi
M
in
ed
En cada valor dividir la

Contar las
frecuencia absoluta
ocurrencias de cada
valor de la variable por el tamaño de la
at
muestra (n)
re

r
Ejemplo:
i to
En el estudio del ausentismo del año pasado en el
hipermercado XX, se seleccionó una muestra aleatoria
Ed
de 60 empleados provenientes de todos los
departamentos de la empresa y para cada uno de ellos
se observa la cantidad de días ausente el año pasado.
DF
Datos del estudio:
2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7,
7, 7, 7 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9,
9, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10,
rP
10, 10, 11, 11, 11, 11 12, 12, 13, 14
Cantidad Frecuencia Frecuencia

te
de copias absoluta f i relativa h i
2 1 0.0167
as
3 2 0.0333
4 2 0.0333 Contar las
M
5 4 0.0667 ocurrencias de cada

6 6 0.1000 valor de la variable
7 9 0.1500
in
8 11 0.1833
9 10 0.1667
10 7 0.1167
ed
11 4 0.0667 En cada valor dividir la

12 2 0.0333 frecuencia absoluta por
el tamaño de la
at
13 1 0.0167
14 1 0.0167 muestra
re

r
Representación de Frecuencias Simples
i to
• Marque los valores de la variable en una escala
sobre el eje horizontal.
Ed
• Sobre cada valor de la variable, dibuje un bastón
cuya altura sea igual a la frecuencia absoluta (o,
alternativamente, la frecuencia relativa).
DF
rP
te
as
M
in
cantidad de inasistencias
ed
at
re

r
Definición
i to
• La frecuencia relativa expresada como porcentaje
recibe el nombre de frecuencia relativa porcentual
Ed
(hi%).
• Para obtener la frecuencia relativa porcentual
sencillamente se multiplica la frecuencia relativa por
100, es decir hi% = hi*100 .
DF
• Como es más fácil de interpretar un porcentaje que
una proporción, es usual informar resultados en
términos de frecuencias relativas porcentuales.
rP
• Tanto las frecuencias absolutas, como las relativas y
las relativas porcentuales se pueden sumar dando
te
origen a las frecuencias acumuladas.
as
• Fi: Frecuencia absoluta acumulada

Indica cantidad de veces que se observó el valor xi
M
de la variable o uno inferior a él.

• Hi: Frecuencia relativa acumulada
in
Indica la proporción de veces que se observó el valor

de la variable xi o uno inferior a él.
• Hi%: Frecuencia relativa porcentual acumulada
ed
Indica el porcentaje de veces que se observó el valor

xi de la variable o uno inferior a él.
at
re

r
i to
Tabla de Frecuencias: Datos sin agrupar (DSA)
cant. de fi hi hi% Fi Hi Hi%
Ed
copias
2 1 0.0167 1,67 1 0.0167 1,67

3 2 0.0333 3,33 3 0.05 5
DF
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
rP
7 9 0.1500 15 24 0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
te
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
as
12 2 0.0333 3,33 58 0.9667 96,67

13 1 0.0167 1,67 59 0.9834 98,34
M
14 1 0.0167 1,67 60 1 100

in
ed
at
re

r
i to
Representación de Frec. Acumuladas (DSA)
• Marque los valores de la variable en una escala
Ed
horizontal.
• Para cada valor de la variable representar las
frecuencias absoluta acumuladas. Como la
DF
frecuencia acumulada permanece constante de un
valor a otro, uniendo los segmentos verticales se
obtiene el diagrama escalonado.
rP
F(i ) Diagrama Escalonado
70
te
F  60
60
as
50
M
40
30
in
20
ed
10
F 0
0
at
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
re

r
i to
Interpretación
Cant. de fi hi hi% Fi Hi Hi%
Ed
faltas
2 1 0.0167 1,67 1 0.0167 1,67

3 2 0.0333 3,33 3 0.05 5
DF
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
rP
7 9 0.1500 15 24 0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
te
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
as
12 2 0.0333 3,33 58 0.9667 96,67

13 1 0.0167 1,67 59 0.9834 98,34
M
14 1 0.0167 1,67 60 1 100

in
f3:
ed
h6 %:
at
re

PROB. Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA
r
i to
Ed
DF
rP
te
F(i ) Diagrama Escalonado
as
70
60
M
50
in
40
30
ed
20
10
at
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
re

r
Interpretación
i to
Cant. de fi hi hi% Fi Hi Hi%
Ed
faltas
2 1 0.0167 1,67 1 0.0167 1,67

3 2 0.0333 3,33 3 0.05 5
DF
4 2 0.0333 3,33 5 0,0833 8,33
5 4 0.0667 6,67 9 0.15 15
6 6 0.1000 10 15 0.25 25
rP
7 9 0.1500 15 24 0.40 40
8 11 0.1833 18,33 35 0.5833 58,33
9 10 0.1667 16,67 45 0.75 75
te
10 7 0.1167 11,67 52 0.8667 86,67
11 4 0.0667 6,67 56 0.9334 93,34
as
12 2 0.0333 3,33 58 0.9667 96,67

13 1 0.0167 1,67 59 0.9834 98,34
M
14 1 0.0167 1,67 60 1 100
F7:
in
H6 %:
ed
at
re

ESTADÍSTICA : EST. DESCRIPTIVA : DATOS AGRUPADOS
r
Distribuciones de Datos Agrupados (DA)
i to
Ejemplo:
Ed
En un estudio realizado por C. Davis* sobre imagen
corporal y preocupación por el peso se registraron,
entre otras variables, los pesos de 200 personas (en
kg). Los datos obtenidos son los siguientes:
DF
77 58 53 68 59 76 76 69 71 65 70 166 51 64 52 65 92 62 76 61
119 61 65 66 54 50 63 58 39 101 71 75 79 52 68 64 56 69 88 65
54 80 63 78 85 54 73 49 54 75 82 56 74 102 64 65 66 73 75 57
rP
68 71 71 78 97 60 64 64 52 80 62 66 55 56 50 50 50 63 69 69
61 55 53 60 56 59 62 53 57 57 70 56 84 69 88 56 103 50 52 55
55 63 47 45 62 53 52 57 64 59 84 79 55 67 76 62 83 96 75 65
78 69 68 55 67 52 47 45 68 44 62 87 56 50 83 53 64 62 90 85
te
66 52 53 54 64 55 55 59 70 88 57 47 47 55 48 54 69 59 58 57
51 54 53 59 56 59 63 66 96 53 76 54 61 82 62 71 60 66 81 68
80 43 82 63 70 56 60 58 76 50 88 89 59 51 62 74 83 81 90 79
as
Davis, C. (1990) Body image and weight preoccupation: A comparison between exercising
and non-exercising women. Appetite, 15, 13–21 .
M
máximo: 166kg - mínimo: 39 kg
Si quisiéramos organizar los datos en una tabla de

in
frecuencias, deberíamos empezar colocando en la

primera columna los valores de la variable ordenados
de menor a mayor a partir de 39 y continuar hasta 166
ed
como se presenta a continuación (en forma resumida).

at
re

r
Distribuciones de Datos Agrupados
i to
Ejemplo:
Ed
X f F h H h% H%
39 1
40 0
41 0
DF
42 0
43 1
: :
: :
119 1
rP
: :
: :
163 0
164 0
te
165 0
166 1
as
Como se puede observar esta forma de organizar los
datos no resulta práctica por las siguientes razones:
• La tabla de frecuencias queda muy extensa.
M
• Las frecuencias absolutas que resultan son nulas o

de valor muy bajo.
in
• Al representar la tabla en un diagrama de bastones

no es posible apreciar la forma de la distribución.
ed
La solución al problema anterior consiste en construir

una tabla de frecuencia agrupando los datos en
intervalos de igual amplitud.
at
re

r
Distribuciones de Datos Agrupados
i to
Ejemplo:
Ed
Intervalo f F h H h% H%
35 - 50 18
50 - 65 94
65 -80 52
DF
80 - 95 18
95 - 110 7
110 - 125 5
rP
125 - 140 3
140 - 155 2
155 - 170 1
te
Una tabla de frecuencias organizada utilizando
intervalos o clases de la variable recibe el nombre de
as
tabla de Frecuencias de Datos Agrupados.
En este ejemplo, los intervalos tienen una amplitud de
15kg.
M
Resumiendo:
in
• Si la variable es discreta y asume pocos valores,

entonces la tabla de frecuencia se llama de datos
sin agrupar (DSA).
ed
• Si la variable es continua o discreta (pero asume

muchos valores), entonces la tabla de frecuencia se
at
organiza agrupando los datos en intervalos o clases

y la distribución se llama de datos agrupados (DA).
re

r
i to
Cómo se hace la tabla de Datos agrupados (DA)
Se debe emplear cierto criterio para seleccionar la
cantidad de intervalos de la tabla de frecuencias:
Ed
• La cantidad de intervalos de la tabla depende de la
cantidad de observaciones y de la dispersión de los
datos.
DF
• Una tabla que usa demasiados intervalos o muy
pocos no será de utilidad informativa.
• Usualmente es satisfactorio usar entre 5 y 20
rP
intervalos, pero si hay muchas observaciones puede
haber una cantidad mayor de intervalos.
• En la práctica, elegir el número de intervalos
te
aproximadamente igual a la raíz cuadrada de la
cantidad de observaciones a menudo funciona bien.
as
• Podemos destacar los siguientes pasos:
Paso 1:
M
Identifique el valor máximo y el valor mínimo obtenidos

en la muestra. Calcule a continuación la diferencia entre
ellos, denominada Rango:
in
Rango = Valor máximo – valor mínimo

ed
Paso 2:
Determine la cantidad de intervalos. Utilice la regla de
la raíz cuadrada:
at
Cantidad de intervalos  cantidad de observaciones

re

r
Paso 3:
i to
Calcule la amplitud aproximada de los intervalos mediante:
Rango
Amplitud 
Ed
Cantidad de clases
Paso 4:
Determine los límites de cada clase, de forma tal que el
valor mínimo observado quede incluido en la primera clase
DF
y el valor máximo observado quede en la última clase.
Paso 5:
Construya la tabla de frecuencias clasificando los
rP
datos por comparación con los límites de clase obtenidos
en el punto anterior y calcule las frecuencias absolutas,
relativas, frecuencias acumuladas. La tabla se construye
te
de manera similar a DSA.
as
Intervalos o
Frecuencia Frecuencia
Clases de la
absoluta relativa
variable
M
in
ed
Contar las ocurrencias Dividir la frecuencia

en cada intervalo: absoluta por el tamaño
frecuencias absolutas fi de la muestra:
at
frecuencias relativas hi
re

r
Paso 6:
i to
Representar graficamente la distribución, este
gráfico recibe el nombre de histograma. Sobre cada
Ed
clase dibuje una barra con altura igual a la frecuencia
absoluta/relativa. La relación de aspecto debe ser
adecuada. Se recomienda que la altura de la barra más
alta sea de 0,5 a 2 veces la distancia entre los valores
DF
máximo y mínimo.
Las frecuencias acumuladas se representan en un
gráfico llamado ojiva.
rP
Ejemplo: En una muestra de 40 alumnos de una
carrera resultaron los siguientes promedios:
te
4 - 4,6 - 5,2 - 6 - 6,1 - 6,3 - 6,6 - 6,6 - 6,7 - 6,8 - 5,4
7- 7,4 - 7,5 - 7,6 - 7,6 - 7,7 - 5,8 - 7,7 - 7,7 - 7,8 - 7,8
as
7,9 - 8,5 - 8,1 - 8,1- 8,1- 8,1 - 8,2 - 8,2 - 8,3 - 8,4 –
8,6 - 8,7 - 8,7 - 8,8 - 9,2 - 9,2 - 9,4 - 9,8
M
Paso 1 Valor máximo en la muestra= 9,8

Valor mínimo en la muestra= 4
in
Rango= 9,8 - 4= 5,8

Paso 2 Calcular la cantidad de intervalos
ed
Cantidad de intervalos  40  6.3245  6

Paso 3 Calcular la amplitud de los intervalos
Rango 5,8
at
Amplitud    0,96  1
cant.de clases 6
re

r
i to
Paso 4: Establecer los límites de clase:
Debemos cubrir un rango 5,8 puntos entre los 6
intervalos, si queremos que el mínimo quede en el 1er
Ed
intervalo y el máximo valor en el último:
[ 4 , 5 ); [5 , 6); [6 , 7); [7 , 8); [8 , 9); [9, 10)
DF
Paso 5: Completar la tabla de frecuencias
rP
Intervalo
fi hi hi% Fi Hi Hi%
de clase
te
4 - 5 2 0,05 5 2 0,05 5
as
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 12
M
0,175 20 0,30 30
7- 8 11 0,275 27,5 23 0,575 57,5

in
8- 9 13 0,325 32,5 36 0,90 90

ed
9 - 10 4 0,1 10 40 1 100
at
re

r
Etapa 5: Representar histograma y ojiva
i to
Ed
14 Frecuencia Frecuencia 0,35
absoluta relativa
12 0,30
10 0,25
DF
8 0,20
6 0,15
rP
4 0,10
2 0,05
0 0
te
3 4 5 6 7 8 9 10
as
Ojiva
M
45
40
35
in
30
25
20
15
ed
10
5
0
at
2 3 4 5 6 7 8 9 10 11 12
re

PROBABILIDAD Y ESTADÍSTICA - EST. DESCRIPTIVA: DISTRIB DE FRECUENCIA
r
Interpretación
i to
Intervalo
fi hi h i%
Ed
de clase Fi Hi H i%
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
8- 9 13 0,325 32,5 36 0,90 90

te
9 - 10 4 0,1 10 40 1 100
as
f3:
M
Frecuencia
14 absoluta
in
12
10
8
ed
6
4
2
at
0
3 4 5 6 7 8 9 10
re

r
Interpretación
i to
Intervalo
fi hi h i%
Ed
de clase Fi Hi H i%
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
8- 9 13 0,325 32,5 36 0,90 90

te
9 - 10 4 0,1 10 40 1 100
as
h5%:
M
Frecuencia
14 absoluta
in
12
10
8
ed
6
4
2
at
0
3 4 5 6 7 8 9 10
re

r
Interpretación
i to
Intervalo
fi hi h i% Fi Hi H i%
Ed
de clase
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
8- 9 13 0,325 32,5 36 0,90 90

te
9 - 10 4 0,1 10 40 1 100
as
F3:
M
Ojiva
45
in
40
35
30
ed
25
20
15
10
at
5
0
2 3 4 5 6 7 8 9 10 11 12
re

r
Interpretación
i to
Intervalo
Ed
de clase
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
8- 9 13 0,325 32,5 36 0,90 90

te
9 - 10 4 0,1 10 40 1 100
as
F5 - F2
M
Ojiva
45
in
40
35
30
ed
25
20
15
10
at
5
0
2 3 4 5 6 7 8 9 10 11 12
re

r
Interpretación
i to
Intervalo
Ed
de clase
4 - 5 2 0,05 5 2 0,05 5
DF
5 - 6 3 0,075 7,5 5 0,125 12,5
6 - 7 7 0,175 20 12 0,30 30
rP
7- 8 11 0,275 27,5 23 0,575 57,5
8- 9 13 0,325 32,5 36 0,90 90

te
9 - 10 4 0,1 10 40 1 100
as
H5%:
M
Ojiva
45
in
40
35
30
ed
25
20
15
10
at
5
0
2 3 4 5 6 7 8 9 10 11 12
re

ESTADÍSTICA – DESCRIPCIÓN DE DISTRIBUCIONES A PARTIR DE LA GRÁFICA
r
Descripción de una distribución a partir de la
i to
gráfica
Al examinar un histograma o el diagrama de
Ed
bastones debemos identificar las siguientes
características:
Forma: simétrica, asimétrica, otras.
DF
Centro: valor aproximado que
Aspecto deja mitad de los datos por debajo
General y mitad por encima.
rP
Dispersión: mínimo y máximo
(sin contar desviaciones).
te
Observaciones atípicas que
as
Desviaciones quedan fuera del aspecto general

de la distribución.
M
Aspecto
in
General
Desviaciones
ed
Desviaciones
at
re

r
Forma: Casos Típicos
i to
Ed
Tipo normal:
Simétrico y en forma
de campana.
DF
rP
Asimétrico a la derecha
(positivo)
te
as
M
Asimétrico a la
in
Izquierda (negativo)
ed
at
re

r
Centro de la Distribución
i to
Valor aproximado que deja mitad de los datos por
Ed
debajo y mitad por encima.
Tipo normal:
Simétrico y en forma
DF
de campana.
rP
Centro te
(positivo)
as
M
Centro
in
Asimétrico a la
Izquierda (negativo)
ed
at
Centro
re

r
i to
Dispersión
Valor mínimo y valor máximo sin contar valores
Ed
atípicos.
Aspecto
General
DF
Valores
atípicos
Valores
atípicos
rP
te
mínimo máximo
as
Dispersión
M
in
ed
at
re

r
i to
Ejemplo
El siguiente histograma presenta la distribución de
los porcentajes de residentes mayores de 65 años en
Ed
los 50 estados de EE UU en 1996.
16
DF
14
12
rP
10
No. of obs.
8
te
6
4
as
2
M
0
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X: porcentaje de mayores de 65 años
Forma: la distribución es algo asimétrica a la

in
izquierda y tiene un solo pico.

Centro: El centro de la distribución se halla
en el intervalo 12-13 (aproximadamente en el
ed
13%).
Dispersión: Ignorando los extremos, los
at
datos se concentran en un intervalo de una

extensión de 8.
re

r
i to
16
Ed
14
12
10
DF
No. of obs.
rP
4
2
te
0
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
X: porcentaje de mayores de 65 años
as
Observaciones atípicas: dos estados se

hallan en los extremos del histograma. Uno es
M
Florida que tiene un 18,5% de personas con

más de 65 años, el otro es Alaska que tiene
solamente un 5,2%.
in
A veces, como en este caso, las observaciones

atípicas indican la naturaleza especial de
ed
algunas observaciones. Florida por tener un

clima benigno es elegido por muchos jubilados
provenientes de todo el país como lugar de
at
residencia; con Alaska ocurre lo contrario.

re

ESTADÍSTICA - EST. DESCRIPTIVA : MEDIDAS DE POSICIÓN Y DISPERSION
r
i to
ANÁLISIS EXPLORATORIO DE DATOS
Medidas de Posición y Dispersión
Ed
CONTENIDOS:
DF
• Medidas de posición: concepto,
tendencia central.
rP
• Media, Mediana, Modo, Cuartiles.
• Medidas de Dispersión: Concepto.
te
Rango, Rango Intercuartílico, Desvío
as
Estándar.
• Regla empírica.
M
• Coeficiente de Variación.
in
• Diagramas de Caja.
ed
at
re

ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE POSICIÓN
r
i to
Estadísticos de Posición
Las medidas de posición ayudan a caracterizar un conjunto
de datos pues proporcionan la localización de la
Ed
distribución de frecuencia o el conjunto de datos, sobre el
eje de las abscisas (eje x).
DF
Estadísticos de tendencia central rP
te
La media, el modo y la mediana son conocidas también
como medidas de tendencia central, ya que indican
as
sobre qué valor se concentran los datos, es decir, dan un

valor que puede tomarse como representativo del
conjunto de datos.
M
Mínimo Media
in
Máximo Modo
Cuartiles Mediana
ed
Percentiles
Medidas de Medidas de
at
posición tendencia central

re

r
Serie Simple de Datos (SSD)
i to
Una serie simple es un conjunto pequeño de datos.
Ed
Si la cantidad de observaciones que conforman la serie
es n, podemos indicarlos como x1 , x2 , ..., xn
Media aritmética
DF
Se calcula como: x
 x1  x2  ....  xn 
n
Que se simboliza como: Media poblacional
rP
n
 xi
n
i 1
x i
M ( x)  x    i 1
te
n N
Ejemplo:
as
Serie Simple
2,3 2,1 2,5
2,4 2,8 2,6
M
x
2,1  2,3  2,4  2,6  2,5  2,8 
 2,45
in
6
Propiedades de la media
ed
 x
i =1
i -x  = 0
at
M ( a  b x) = a  b M(x)
re

r
i to
Ejemplo (DSA): En la distribución de frecuencia de la
cantidad de días ausentes de los empleados del
Ed
hipermercado XX el año pasado
n
x i
478
DF
x i 1
  7,967  8
n 60
Interpretación
rP
El año pasado los 60 empleados tuvieron en promedio 8
días ausentes.
Ejemplo (DA): En la distribución de los promedios de

te
los alumnos
as
X: promedio de los alumnos de una carrera (en puntos)
40
x
M
i
302,1
x i 1
  7,505
n 40
in
Interpretación: Los 40 alumnos tienen un

promedio de 7,505 puntos.
ed
También: la media de los promedios de los 40

alumnos es 7,505 puntos.
at
re

r
i to
La mediana
Es el valor que supera a no más de la mitad de las
observaciones y a la vez es superado por no más de la
Ed
mitad de las observaciones. Conceptualmente es el
valor que deja por debajo el 50% de los datos y por
encima el otro 50%.
DF
Con los datos ordenados de menor a mayor se
calcula como:
• Si n es impar: la mediana es el valor ubicado en la
rP
mitad del conjunto de datos ordenados.
muestra
Ejemplo: 3,2 2,3
te
2,5
Mna 2,1 2,6
Datos ordenados: 2,4
2,8
as
2,1 2,3 2,4 2,5 2,6 2,8 3,2

M
• Si n es par: la mediana es el promedio de los dos

valores ubicados en la mitad del conjunto de datos
ordenados.
in
Datos
ordenados Mna
muestra
ed
2,3
2,5 2,6 2,1 2,3 2,4 2,5 2,6 2,8
2,1
2,4
at
2,8 2.4  2.5

Mna   2.45
2
re

r
La Mediana (DSA)
i to
Para calcular la mediana graficamente, primero se encuentra
el orden de la mediana: n
Ed
2
Se traza una proyección desde el orden de la mediana

hasta el diagrama escalonado y de allí al eje x. El valor
DF
resultante es la mediana de la distribución.
F(i )
n
rP
n
2
Mna
te
x1 x 2 x 3 .x 4 . . . x.m
as
Fi
M
in
n
 30
2
ed
at
Mna  8
re

r
i to
Cálculo Analítico: Ejemplo (DSA)
En el ejemplo de cantidad de días ausentes de los
Ed
empleados, tenemos una muestra de n = 60.
Como n es par, una vez que se han ordenado los datos, la

mediana será el promedio de los dos valores centrales:
DF
2 3 3 4 4 5 . . . 8 8 8 8 8 8 8 8 . . . 12 12 13 14
Mitad inferior Mitad superior
30 datos
Mna
rP 30 datos
te
x 30   x 31 
Mna  
as
2
La Mediana (DA) n
M
Para calcular la mediana

graficamente, se encuentra n
in
2 Mna
el orden de la mediana.
ed
LI LS
Luego se traza una proyección desde el orden de la

at
mediana hasta la ojiva y de allí al eje x. El valor de

resultante es la mediana de la distribución.
re

r
Ejemplo
i to
Ojiva
Ed
45
40
35
DF
30
25
n
 20 20
2 15
rP
10
5
0
2 3 4 5 6 7 8 9 10 11 12
te
4 4,6 5,2 6,1 . . . 7,7 7,7 7,8 7,8 . . . 9,2 9,2 9,4 9,8
as
Mitad inferior Mitad superior

M
Mna
20 datos 20 datos
in
7 ,7  7 , 8
Mna  
2
ed
Interpretación:
El 50% de los 40 alumnos tiene un promedio inferior
at
a 7,75 puntos; el otro 50% supera ese valor.

re

r
Cuartiles
i to
Hay dos cuartiles: el inferior o Cuartil 1 y el superior
o Cuartil 3.
Ed
Cuartil 1
Es el valor que supera a no más de la cuarta parte de
las observaciones y a la vez es superado por no más de
DF
las tres cuartas partes de las observaciones.
Conceptualmente es el valor que deja por debajo el
25% de los datos y por encima el otro 75%.
rP
Cuartil 3
Es el valor que supera a no más de las tres cuartas
partes de las observaciones y su vez es superado por
te
no más de la cuarta parte de las observaciones.
Conceptualmente es el valor que deja por debajo el
as
75% de los datos y por encima el otro 25%.

M
25% 25%
25%
25%
in
ed
Q1 Mna Q3
at
re

r
i to
Cálculo de los Cuartiles
1. En la lista de las observaciones ordenada de
Ed
menor a mayor, hallar la mediana.
2. Q1 se obtiene como la mediana de la mitad inferior.
3. Q3 se obtiene como la mediana de la mitad
DF
superior.
Ejemplo (n es múltiplo de 4) :
Datos ordenados: 2,1 2,2

rP2,3 2,4 2,5 2,6 2,8 2,9
te
Q1 Q3
as
2,2  2,3
Q1   2,25
2
M
2,6  2,8
Q3   2. 7
2
in
Ejemplo (n NO es múltiplo de 4): n = 14  n /4 = 3,5

ed
Q1 Q3
2 2 3 3 3 4 5 5 5 5 6 6 7 9
at
re

r
i to
Cálculo en distribuciones de Frecuencia
En distribuciones de frecuencia de datos sin agrupar o
Ed
de datos agrupados, el procedimiento de cálculo de los
cuartiles es análoga a la mediana, pero ahora debemos
n
hallar el orden del cuartil 1 = y el orden del cuartil
4
DF
3= 3n
4
Cálculo Gráfico (DSA)
rP
Fi
n
Para hallar Q1 graficamente
se traza una proyección desde
te
el orden del cuartil 1 hasta el
n
diagrama escalonado y de allí al
as
eje X. El valor de resultante es 4

el Q1 de los datos. Q1
x1 x 2 x 3 x4 . . . x m
M
Para hallar Q3 graficamente

in
se traza una proyección desde 3n

el orden del cuartil 3 hasta el 4
diagrama escalonado y de allí
ed
al eje X. El valor de resultante

es el Q3 de los datos.
Q3 x1 x2 . . xm
xi
at
re

r
i to
Cálculo Gráfico de ambos cuartiles
Ed
Fi
DF
3n
 45
4
rP
n
15
4 te
Q1  6,5 Q3  9,5
as
Interpretación:
M
Q1: El año pasado el 25 % de los 60 empleados del

hipermercado XX faltó 6,5 días o menos, el 75%
restante faltó más de esa cantidad de días.
in
Q3: El año pasado el 75 % de los 60 empleados del

hipermercado XX faltó 9,5 días o menos, el 25%
ed
restante faltó más de esa cantidad de días.

at
re

r
i to
Ejemplo (DSA):
Ed
En el ejemplo de cantidad de días ausentes de los
empleados, tenemos una muestra de n = 60.
Como n es múltiplo de 4 , una vez que se han ordenado los
DF
datos:
• Q1 es el promedio de los dos valores entre el 1er y 2do
cuarto
rP
• Q3 es el promedio de los dos valores entre el 3er y 4to
cuarto
Q1 Q3
te
as
233 5.. .6677... 8 8 8 8 . . . . 9 9 10 10. 12 13 14
cuarto cuarto cuarto cuarto
M
15 datos 15 datos 15 datos 15 datos

in
6 7
Q1   6,5
2
ed
9  10
Q3   9,5
2
at
re

r
i to
Cálculo Gráfico Q1 (DA)
Ed
F(i )
n
DF
n Q1
4
rP
LI LS
te
Ojiva
as
45
40
35
30
M
25
20
15
in
n
 10 10
4 5
0
ed
2 3 4 5 6 7 8 9 10 11 12
Q1= 6,65
at
re

r
i to
Cálculo Gráfico Q3 (DA)
F(i )
Ed
n
3n
4
DF
Q3
rP
LI LS
te
Ojiva
as
45
40
35
3n
M
 30 30
Q3  x ; x 
4 25
20
in
15
10
5
ed
0
2 3 4 5 6 7 8 9 10 11 12
at
Q3= 8,35
re

ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DEPOSICIÓN
r
Intervalo Intercuartílico
i to
El intervalo intercuartílico es el intervalo de
valores de la variable comprendido entre Q1 y Q3 .
Ed
• Este intervalo contiene aproximadamente el 50% de
la distribución.
DF
• Si la distribución es simétrica, el intervalo estará
ubicado en el centro de la misma.
rP
50% 25%
25%
te
as
Q1 Q3
M
Ejemplo
in
En el ejemplo del promedio de los 40 alumnos:

Q1 = 6,65 y Q3 = 8,35 luego el intervalo
intercuartílico es: [6,65 ; 8,35]
ed
Interpretación
Aproximadamente el 50% de los alumnos tienen un
at
promedio entre 6,65 y 8,35 puntos.

re

r
i to
Ejemplo
En el ejemplo del promedio de los 40 alumnos:
Ed
Q1 = 6,65 y Q3 = 8,35 luego el intervalo
intercuartílico es: [6,65 ; 8,35]
DF
Frecuencia
14 absoluta
12
rP
10
8
6
te
4
2
as
0
3 4 5 6 7 8 9 10
Q 1=6,65 Q 3=8,35
M
Interpretación
in
Aproximadamente el 50% de los alumnos tienen un

promedio entre 6,65 y 8,35 puntos.
ed
at
re

r
i to
El Modo (DSA)
Es el valor de la variable al que le corresponde la
frecuencia máxima. Gráficamente el modo es el valor de
Ed
la variable al que le corresponde el bastón más alto.
f (i )
f imáx
DF
Mdo
rP
x1 x2 x3 x4. . . . .xm
te
absoluta relativa
11
as
10 fi máx
9 0.15
8
M
7
6 0.10
5
in
4
3 0.0
5
ed
2
1
0 0
at
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Mdo
re

r
i to
f
El Modo (DA)
El modo se encuentra en el f
i max
Ed
intervalo al que le
fi ant fi sig
corresponde máxima
frecuencia (intervalo modal).
Es posible encontrar un valor
DF
aproximado interpolando LI LS
mediante la fórmula: a
 f i max  f i ant 
rP
Mdo  LI  a
( f i max  f i ant )  ( f i max  f i sig )
te
donde:
LI: Límite inferior del intervalo que contiene al Modo.
as
fi max: Frecuencia absoluta máxima.

M
fi ant: Frecuencia absoluta del intervalo anterior.

in
fi sig: Frecuencia absoluta del intervalo siguiente.

ed
a: Amplitud de los intervalos.

at
re

r
i to
Ejemplo
Mdo  LI 
 f i max  f i ant  a
Ed
( f i max  f i ant )  ( f i max  f i sig )
Frec. Frecuencia
DF
14 0,35
absoluta relativa
12 0,30
10 0,25
rP
8 Mdo  8 ; 9 0,20
6 0,15
te
4 0,10
2 0,05
as
0 0
3 4 5 6 7 8 9 10
f i max  f i ant 
M
f i max  f i sig 
in
....
Mdo  ......   .....  .....
....  ....
ed
Interpretación:
Lo más frecuente es que los 40 alumnos tengan un promedio
at
entre 8 y 9 puntos (aproximadamente . . . . . puntos).

re

r
Medidas de tendencia central: Ventajas y
i to
desventajas
Media
Ed
• Utiliza en su cálculo todos los valores disponibles
de la muestra.
• Tiene propiedades estadísticas deseables, por eso
DF
es la medida de tendencia central más utilizada.
• La desventaja más importante es que puede ser
afectada de manera adversa por valores extremos
rP
presentes en la muestra.
Mediana
• Requiere ordenar los datos de menor a mayor. Una
te
vez ordenados los datos, es fácil de calcular.
• No se ve afectada por valores extremos, pero sí por
as
la cantidad de valores extremos.

Modo
M
• Es la medida de tendencia central menos utilizada

pues no siempre existe y cuando existe puede haber
más de un modo.
in
• En conjuntos pequeños no tiene utilidad como

medida de tendencia central.
ed
• Es fácil de calcular.
• Se puede usar tanto para variable cualitativa como
para variable cuantitativa. La media y Mna solo se
at
pueden calcular en variable cuantitativa.

re

r
Relación de las Medidas de tendencia central
i to
Ed
Simétrica
DF
rP
x  Mna  Mdo
te
as
En distribuciones simétricas la media , el modo y
la mediana son aproximadamente iguales.
M
in
ed
at
re

r
i to
Relación de las Medidas de tendencia central
Como la media se ve afectada por valores extremos y
Ed
el modo se ubica donde hay máxima frecuencia. En
distribuciones asimétricas se verifica la siguiente
relación:
DF
Asimétrica
a la
rP
te derecha
as
Mdo  Mna  x
M
Asimétrica
a la
in
izquierda
ed
x  Mna  Mdo
at
re

ESTADÍSTICA - EST. DESCRIPTIVA: MEDIDAS DE DISPERSIÓN
r
Estadísticos de Dispersión
i to
Otra característica de las distribuciones es la variabilidad
o dispersión de las mismas. Las medidas de dispersión
Ed
miden la intensidad con que se dispersan o concentran los
observaciones de una distribución.
DF
rP
te
as
M
x
in
• Puede obtenerse una idea preliminar de la

variabilidad de una variable a partir de la
ed
observación del histograma.

• Las medidas numéricas de dispersión o
at
variabilidad, proveen una estimación cuantitativa

más precisa.
re

r
1. Rango
i to
Es la diferencia entre el valor máximo y el valor
mínimo de las n observaciones:
Ed
Rango = máximo - mínimo
DF
muestra
2,5 2,1
2,3 R  2,8  2,1  0,7
rP
2,4 2,8 2,6
te
• El rango es la medida de dispersión de los datos más
simple de calcular.
as
• Su principal problema es que sólo depende de los

valores extremos, despreciando la influencia de los
M
restantes (n-2) valores.

• El rango es poco confiable en presencia de valores
in
atípicos o extremos.
2. Rango Intercuartílico
ed
Es la diferencia entre el tercer cuartil Q3 y el primer

cuartil Q1:
at
RI  Q 3  Q1
re

r
i to
• El Rango Intercuartílico es confiable aún en
presencia de valores atípicos .
Ed
• El cálculo del Rango Intercuartílico da un valor,
no confundir con Intervalo Intercuartílico que son
todos los valores que asume la variable entre Q1 y
Q3 .
DF
Desviaciones
Si xi es un dato cualquiera de la muestra, se llama
desviación respecto de la media a la diferencia
rP
entre el xi y la media:
desviación  x i  x
Variancia
te
Se calcula a partir de la suma de las desviaciones de
las observaciones respecto de la media elevados al
as
cuadrado y dividido por n -1 .

n
 (x
M
i  x )2
i 1
s 2 ( x)  V ( x)  muestral
n 1
in
 (x i  )2
 2 (x)  i 1 poblacional
ed
N
at

re

r
Propiedades de la variancia
i to
1. La variancia de una constante es cero, es decir, si
todas las observaciones son iguales entonces no hay
Ed
variabilidad, luego la variancia es cero.
2. V(a  bx) = b2 V(x), a y b constantes
3. Desvío Estándar
DF
 Se lo define como la raíz cuadrada de la variancia.
 Mide la dispersión de las observaciones respecto de la
media.
rP
 Es la medida de dispersión más utilizada.
 En su cálculo intervienen todas las observaciones.
 Al igual que la media, el desvío se ve afectado por la
te
asimetría de la distribución o por las observaciones
atípicas.
as
 Está expresado en la misma unidad de medida que la
variable y su media.
n
M
 (x  x)i
2
 (x  ) i
2
s( x)  i 1
 ( x)  i 1
n 1 N
in
Las fórmulas de cálculo respectivas son:

2
 n 
ed


xi  N

n
2
xi 

 i 1

  xi2
n i 1
 2
at
s( x)  i 1  ( x) 
n 1 N
re

ESTADÍSTICA - EST. DESCRIPTIVA: MED. DE DISPERSIÓN
r
i to
Ejemplo 1: En los datos de ausentismo tenemos:
n n
 xi  478  i  4162
x 2
Ed
i 1 i 1
2
 n 
n

  xi 

DF

i 1
xi2   i 1
n

s ( x) 
n 1
....... 

rP
........2
....
te
s( x)  
.......
as
Ejemplo 2: Para los datos correspondientes a las

calificaciones de 40 alumnos de una carrera
universitaria.
M
n n
 xi  300,2
i 1
 i  2320,72
x 2
i 1
in
....... 
........2
ed
s ( x)  .... 
.......
at
re

r
i to
Propiedades del Desvío Estándar
• Cuando todas las observaciones tienen el mismo
Ed
valor s(x) = 0. En caso contrario s(x) > 0. A
medida que las observaciones se separan más de
la media s(x) se hace mayor.
• Regla empírica
DF
En distribuciones simétricas y acampanadas y para
tamaños de muestras suficientemente grandes se
rP
verifica que:
El intervalo x  s ( x); x  s( x)

te
contiene aproximadamente el 68% de la distribución
as
68%
M
in
ed
x  s (x ) x x  s (x )
at
re

r
i to
Regla Empírica (continuación)
El intervalo x  2  s ( x); x  2  s( x )
Ed
contiene aproximadamente el 95% de la distribución
DF
95%
xrP
te
x  2  s ( x) x  2  s ( x)
x  3  s( x); x  3  s( x)
as
El intervalo
contiene aproximadamente el 99,7% de la distribución
M
99,7%
in
ed
x  3  s ( x) x x  3  s( x)
at
re

r
i to
Ejemplo
absoluta relativa
Ed
11
10
9 0.15
8
7
DF
6 0.10
5
4
3 0.05
rP
2
1
0 0
te
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
n = 60 x  7,967 s ( x )  2,449
as
x  s ( x); x  s ( x)   ( 5,51;10,41)  6; 10 

M
Aproximadamente el 68% de los empleados faltaron

entre 6 y10 días el año pasado.
x  2  s( x); x  2  s( x) (3,06; 12,86)  3; 13

in
Aproximadamente el 95% de los empleados faltaron

ed
x  3  s( x); x  3  s( x)  (0,618; 15,31)  1; 15

Aproximadamente el 99,7% de los empleados faltaron
at

re

r
Dispersión Relativa: Coeficiente de Variación
i to
Se define al Coeficiente de Variación (CV), como el
cociente entre el desvio estándar y la media. De esta
Ed
manera se eliminan las unidades en que está medida la
variable, resultando un coeficiente adimensional que
suele ser expresado en porcentaje.
s ( x)
CV   100
DF
x
El Coeficiente de Variación mide la dispersión relativa,
es decir, cuán grande es el desvío estandar en relación
rP
a su propia media.
Se lo utiliza para comparar la variabilidad relativa de dos
o más conjuntos de datos en los que se han utilizado
te
unidades de medida diferentes o cuando se comparan
muestras de la misma variable con distintas medias.
as
Al comparar dos o más distribuciones, aquella con menor

CV es más homogénea.
M
Ejemplo
s( x) 2,449
CV1  100   100  ........ %
in
x 7,967
s( x) 1,317
CV 2  100   100  ........ %
ed
x 7 ,505
La distribución correspondiente a las calificaciones
at
promedio de los alumnos, es más homogénea que la

distribución del ausentismo pues tiene un menor CV.
re

ESTADÍSTICA - EST. DESCRIPTIVA: RESÚMEN NUMÉRICO DE LOS DATOS
r
Resumen Numérico de los datos
i to
Los cinco números resumen
Los cinco números resumen de un conjunto de datos
Ed
consisten en la observación mínima, el primer cuartil, la
mediana, el tercer cuartil y la observación máxima. Estos
cinco números proporcionan una descripción
razonablemente completa del centro y de la dispersión
DF
de la distribución. El mínimo y el máximo dan
información de los extremos de la distribución.
De forma simbólica :
rP
mínimo Q1 Mna Q3 máximo
Otra descripción resumen

te
La descripción mas común de una distribución es la dada
por la combinación de media y desvío estándar. La
as
media como medida del centro y el desvío para medir la

dispersión.
x y s( x)
M
De forma simbólica :
Elección de un resumen numérico

in
Para describir una distribución asimétrica o con

observaciones atípicas, es mejor utilizar los cinco
ed
números resumen.
Se utiliza media y desvío en el caso de distribuciones
razonablemente simétricas y que no presenten
at
observaciones atípicas.
re

ESTADÍSTICA - EST. DESCRIPTIVA: DIAGRAMA DE CAJA
r
i to
Diagrama de Caja
Los cinco números resumen de una distribución nos
conducen a un nuevo gráfico: el Diagrama de caja.
Ed
Es una representación de los datos que pretende resumir
gráficamente las características más sobresalientes de
los mismos. Se puede utilizar el Diagrama de Caja para
comparar distintos conjuntos de datos respecto a:
DF
• localización • posición
medidas de:
• variabilidad • dispersión
rP
• forma dada por la gráfica
Elementos del Diagrama de Caja

te
Bigote Bigote
as
Caja
Izquierdo Derecho
M
in
Mínimo Máximo
ed
Cuartil 1 Mediana Cuartil 3

at
re

r
i to
Diagrama de Caja: Posición
25% 25% 25% 25%
Ed
DF
Mínimo Máximo
Cuartil 1
rP
Mediana Cuartil 3
te
Diagrama de Caja: Dispersión
as
Mínimo Cuartil 1 Cuartil 3 Máximo

M
in
ed
Rango Intercuartílico
Rango
at
re

r
Diagrama de Caja: Forma
i to
Tipo normal:
Ed
Simétrico y en forma de
campana.
DF
rP
La distancia entre Q1 y mediana es la misma que entre mediana y
te
Q3. Los bigotes tienen aproximadamente la misma longitud.
as
(positivo)
M
in
ed
at
La distancia entre Q1 y mediana es menor que entre mediana y

Q3. El bigote izquierdo tiene menor longitud que el derecho.
re

r
Diagrama de Caja: Forma
i to
Asimétrico a la Izquierda
Ed
(negativo)
DF
rP
te
La distancia entre Q1 y mediana es mayor que entre
mediana y Q3. El bigote izquierdo tiene mayor longitud
as
que el derecho.
Comparación de distribuciones: Posición

M
in
ed
Las distribuciones son similares en dispersión y en

at
simetría. Difieren en la localización (posición).

re

r
Comparación de distribuciones: Dispersión
i to
Ed
DF
rP
Las distribuciones son similares en localización y en
simetría. Difieren en la dispersión.
te
Comparación de distribuciones
as
M
in
ed
Las distribuciones son diferentes en localización,

dispersión y en simetría.
at
re

r
Ejemplo
i to
Para investigar el efecto que tiene el procedimiento
en la elaboración de hormigón se comparan tres
Ed
métodos de fabricación y se observa la resistencia a
la fractura de los hormigones obtenidos (en kg
fuerza).
DF
• Qué forma presentan las distribuciones.
Justifique su respuesta.
• Ordene las distribuciones de menor a mayor según
rP
su dispersión.
• Ordene los métodos de mayor a menor de acuerdo
te
a la resistencia a la fractura obtenida (posición).
as
M
in
ed
at
re

ESTADÍSTICA - EST. DESCRIPTIVA: ESTRATEGIA EXPLORATORIA
r
i to
Estrategia para explorar una variable
cuantitativa
Ed
Disponemos ahora de un conjunto de herramientas
gráficas y numéricas para describir distribuciones.
Suponiendo que tenemos una cantidad suficiente de
datos (n  40), podemos seguir el siguiente
DF
procedimiento:
1. Organizar el conjunto de datos en una tabla de
rP
frecuencias de datos agrupados o sin agrupar
según corresponda.
2. Representar la distribución con la gráfica que
te
corresponda (histograma o diagrama de
bastones). Puede acompañarse de un diagrama
as
de caja.
3. Identificar el aspecto general (forma, centro y
M
dispersión) y las desviaciones como las

observaciones atípicas.
4. Calcular los resúmenes numéricos para describir
in
con mayor precisión el centro y la dispersión de

la distribución.
ed
at
re


Descriptiva5 08 19 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Descriptiva5 08 19 PDF

Cargado por

Copyright:

Formatos disponibles

r

Neuquén, Agosto 2019

Jefe de Trabajos Prácticos Módulo 1

Prof. Mabel Basanta

Ayudante Graduado (Práctica)

Ing. Julian Illescas

Ayudante Alumno (Práctica)

Oficina 12, 1er Piso Facultad de Economía

complemento de sucesos. Probabilidad: Definición

probabilidad. Probabilidad condicional. Independencia

UNIDAD III: VARIABLES ALEATORIAS Y

de densidad. Función de distribución. Propiedades.

Bernoulli. Modelo Binomial. Modelo Normal. Uso de

UNIVERSIDAD NACIONAL DEL COMAHUE 3

Pruebas de Hipótesis para la Media. Prueba para la

de Hipótesis para la comparación de Medias con variancias

Diagrama de dispersión. Relaciones tipo entre variables.

Modelo de regresión lineal simple. Supuestos. Estimación

coeficientes. Estimación por intervalo de E(Y/x). Intervalo

Probabilidad y Estadística para Ingeniería y

Statistics and Data Analysis in Geology. Third

UNIVERSIDAD NACIONAL DEL COMAHUE 5

• Series Simples de datos;

• Tablas de frecuencias para datos sin agrupar;

• Tablas de frecuencias para datos agrupados;

• Gráficas de las distribuciones;

• Descripción de una distribución a partir de la

dispersión. Desviaciones: casos atípicos.

UNIVERSIDAD NACIONAL DEL COMAHUE 6

• Todos los menores de 18 años de una región en

• Todos los individuos que se recibieron en la

• El volumen total de petróleo producido en un

Muestra: Subconjunto de objetos pertenecientes a

mediante un método predefinido.

UNIVERSIDAD NACIONAL DEL COMAHUE

representan atributos o categorías observados en

fósil (braquiopodo, crinoide, etc.), sexo, raza,

UNIVERSIDAD NACIONAL DEL COMAHUE 8

Algunas pueden asumir infinitos valores (por

Variable Cuantitativa continuarP

Admiten decimales y en general surgen de

Análisis Exploratorio de Datos

Conjunto de técnicas que utilizan gráficos y

UNIVERSIDAD NACIONAL DEL COMAHUE 9

Características que se observan

Cualitativas animal o cosa al

Cuantitativas continuas características

UNIVERSIDAD NACIONAL DEL COMAHUE 10

• Población: empleados de la cadena del

• Tipo de Variable: Cuantitativa discreta.

UNIVERSIDAD NACIONAL DEL COMAHUE 11

La serie simple es:

2.3 2.4 2.1 2.8 2.5 2.6

UNIVERSIDAD NACIONAL DEL COMAHUE 12

que se observa el valor xi de la variable.

veces que se observa el valor xi de la variable.

el evento, pero no informa sobre la relación que esto

El contenido de información de la frecuencia relativa

UNIVERSIDAD NACIONAL DEL COMAHUE 13

• En la segunda columna las frecuencias absolutas

• En la tercera columna las frecuencias relativas de

En cada valor dividir la

UNIVERSIDAD NACIONAL DEL COMAHUE 14