Está en la página 1de 69

UNIVERSIDAD DE MENDOZA

FACULTAD DE INGENIERÍA

UNIDAD I

ESTADÍSTICA DESCRIPTIVA
ANÁLISIS DE DATOS
ESTADÍSTICA
Es el conjunto de métodos necesarios para
recoger, clasificar, representar y resumir datos, así
como para hacer inferencias (extraer
conclusiones) científicas a partir de ellas.

1. ESTADÍSTICA DESCRIPTIVA
TIENE POR OBJETIVO LA RECOGIDA, CLASIFICACIÓN,
REPRESENTACIÓN Y RESUMEN DE LOS DATOS.

2. INFERENCIA ESTADÍSTICA
CONSISTE EN OBTENER CONCLUSIONES.
CONCLUSIONES VÁLIDAS (POBLACIÓN) A PARTIR DE
UNA INFORMACIÓN INCOMPLETA(MUESTRA).
Algunos conceptos imprescindibles

POBLACIÓN

MUESTRA

UNIDAD DE
ANÁLISIS
Tipos de datos y escala de medición
ESCALAS DE MEDICIÓN

ESCALA NOMINAL: los valores que toma la


variable son nombres sin que exista ningún orden
implícito entre ellas.
ESCALA ORDINAL: los valores que toma la
variable son nombres y además existe orden entre
ellas.

ESCALA DE INTERVALO: en esta escala está


definida la igualdad, el orden y la distancia pero no
el cero absoluto.
ESCALA DE RAZÓN: en esta escala está
definida la igualdad, el orden, la distancia y el cero
absoluto.
Estadística Descriptiva y Análisis de
Datos

Presentación de Datos

*TEXTO
*TABLAS
*GRÁFICOS
DATOS SIN AGRUPAR
VARIABLE CUANTITATIVA
— Sea X: “Número de cuadras caminadas
por 14 alumnos de una escuela rural,
para llegar cada mañana”.
5 5 5 6 8 4 4 2 1 8 6 6 4 5

— Primeramente ordenamos los datos


1 2 4 4 4 5 5 5 5 6 6 6 8 8
Frecuencia absoluta- relativa
— Frecuencia absoluta:
Es el número de veces que se presenta cada valor
de la variable.

— Frecuencia relativa:
Es el cociente entre la frecuencia absoluta fi y el
número total de elementos n de la muestra.
TABLA DE DISTRIBUCIÓN DE
FRECUENCIAS

1 1 0,07 1 0,07
2 1 0,07 2 0,14
4 3 0,21 5 0,35
5 4 0,29 9 0,64
6 3 0,21 12 0,85
8 2 0,15 14 1
Total åf i =14
i
GRÁFICO DE BASTONES
Para una variable cuantitativa con datos sin agrupar

x
GRÁFICO DE ESCALERAS
Para una variable cuantitativa con datos sin agrupar
—
Gráfico de Frecuencias Acumuladas
15

10

0
0 2 4 6 8 10
X
GRÁFICO DE TALLO Y HOJAS
DIAGRAMA DE PUNTOS
VARIABLE CUALITATIVA
En un estudio realizado por el Instituto del hierro y el acero de Estados Unidos
durante el año 1992, se analizó las cantidades (en miles de toneladas) de
importaciones de acero, en distintos países:
GRÁFICOS: variable cualitativa
GRÁFICOS: variable cualitativa
DATOS AGRUPADOS
HISTOGRAMA
POLIGONO DE FRECUENCIAS
OJIVA
MEDIDAS NUMÉRICAS
DESCRIPTIVAS
MEDIDAS NUMÉRICAS
DESCRIPTIVAS

§ MEDIDAS DE TENDENCIA CENTRAL

§ MEDIDAS DE DISPERSIÓN

§ MEDIDAS DE POSICIÓN

§ MEDIDAS DE FORMA
MEDIDAS NUMÉRICAS DESCRIPTIVAS
— Media
— Medidas de tendencia central — Mediana
— Moda

— Rango
— Medidas de dispersión
— Varianza
— Desviación estándar
— Coeficiente de Variación

— Medidas de posición — Cuartiles


— Deciles
— Percentiles
MEDIDAS DE TENDENCIA CENTRAL

— Media: Es el promedio aritmético de los datos.

El valor de la variable que ocupa la


— Mediana: posición central, en un conjunto ordenado
de datos.

— Moda: Es el valor de la variable que se presenta


con mayor frecuencia.
MEDIDAS PARA DATOS
SIN AGRUPAR
EJEMPLO: TALLERES FIX

Los talleres de trasmisión Fix-An están analizando


el tiempo que les toma a los mecánicos retirar,
reparar y volver a colocar una trasmisión.

A continuación se analizará el tiempo en horas


que se tardó en reparar doce transmisiones en
tres sucursales distintas de la empresa.
TALLERES FIX: primer sucursal

¿Cuanto demoraron en promedio


en armar un transmisión?

2 3 4 5 6 7 8 9 10 11 12
TALLERES FIX: segunda sucursal

¿Cuanto demoraron en promedio en armar una transmisión?

2 3 4 5 6 7 8 9 10 11 12
TALLERES FIX: tercera sucursal
¿Cuanto de moraron en promedio en armar una transmisión?

2 3 4 5 6 7 8 9 10 11 12
MEDIA

¿Cuanto demoraron en promedio cada sucursal?

N
2
12
3 4 5 6 7 8 9 10 11
å xi
i =1
x=
n
N 12

åx åx
2 3 4 5 6 7 8 9 10 11 12
i i
x= i =1
= i =1
=8
n 12

2 3 4 5 6 7 8 9 10 11 12
MEDIANA

— Si el conjunto de datos es impar y están


ordenados en forma creciente o decreciente, el
valor de la mediana es el valor central.

— Si el conjunto de datos es par y están ordenados


en forma creciente o decreciente, el valor de la
mediana se calcula como el promedio aritmético
de las dos observaciones centrales.
MEDIANA
— Si n = impar
Ejemplo: 2-4-6-8-9

1- Ubicamos el lugar central L=(n+1)/2=3


2- Observamos el valor que se encuentra
en el lugar central

Xme = 6
MEDIANA






~
x =8 7º
8º ¿Cuál es el valor de la Mediana en cada sucursal?

10º
11º
12º xn + xn
+1
Datos pares ® ~
x=
2 3 4 5 6 7 8 9 10 11 12 2 2
2
~ 9 + 12 7º

x= = 10,5 8º

2º 2 10º
3º 11º
1º 4º 5º 6º 12º Orden de la mediana entre el 6º y 7º
2 3 4 5 6 7 8 9 10 11 12

Mediana: promedio de los valores


4º centrales

6º ~ 8+8
1º 7º 10º x= =8
2º 8º 11º 2
3º 9º 12º
2 3 4 5 6 7 8 9 10 11 12
MODA

¿Cuál es el valor de la moda en cada sucursal?

Moda:8
2 3 4 5 6 7 8 9 10 11 12

Moda:12
2 3 4 5 6 7 8 9 10 11 12

Moda:8
2 3 4 5 6 7 8 9 10 11 12
MODA
¿Cuál es el valor de la moda en esta nueva sucursal?

NO HAY MODA

2 3 4 5 6 7 8 9 10 11 12

Puede haber más de una moda?


DATOS

VARIABLE VARIABLE
CUALITATIVA CUANTITATIVA

ESCALA ESCALA ESCALA DE ESCALA DE


NOMINAL ORDINAL INTERVALO RAZÓN

Moda Moda
Moda Mediana Mediana
Media Aritmética
MEDIDAS DE DISPERSIÓN

§ RANGOS

§ VARIANZA

§ DESVIACIÓN ESTÁNDAR

§ COEFICIENTE DE VARIACIÓN
MEDIDAS DE DISPERSIÓN

— Las medidas de dispersión nos


proporcionan una medida del mayor o
menor agrupamiento de los datos respecto
a los valores de tendencia central.
— Son positivas (mayores o iguales a 0).
— Un valor cero indica ausencia de dispersión.
MEDIDAS DE DISPERSIÓN
Un promedio puede ser engañoso a menos que vaya
acompañado de otra información que nos diga la amplitud
o sus desviaciones con relación al promedio.

Grupo 2 Grupo 3

20 20

15
15

10
f 10
5
5
0
0 1 2 3 4 5 6
1 2 3 4 5 6

R. Correctas R. Correctas

Tienen la misma media aritmética, 2,5 puntos ¿pero


podemos afirmar que hay homogeneidad entre los
grupos?. Gráficamente vemos que el valor de la media
aritmética no es suficiente para describir cada una de las
situaciones.
RANGO

R = xmax - xmin = 12 - 2 = 10

2 3 4 5 6 7 8 9 10 11 12
RANGO – RANGO INTERCUARTIL-
RANGO INTERDECIL

— R = xmax - xmin
— El rango proporciona una rápida
indicación de la variabilidad existente
entre las observaciones de un conjunto
de datos.
— La diferencia entre los percentiles 75avo
y 25avo recibe el nombre de recorrido
intercuartil, sólo incluye el 50% central
de la distribución.
MEDIDAS DE DISPERSIÓN

2
å
nn
(x
ii==11 ii
- x)

( xi - x)

2 3 4 5 6 7 8 9 10 11 12
MEDIDAS DE DISPERSIÓN
DESVIACIÓN
VARIANZA ESTÁNDAR
MUESTRAL MUESTRAL
2 2
åi=1 ( xi - x)
n
åi=1 ( xi - x)
n
2
s = s =
n -1 n -1
( xi - x)

2 3 4 5 6 7 8 9 10 11 12
VARIANZA – DESVIACIÓN
ESTÁNDAR
— La varianza de las observaciones x1, x2,.....,
xn es el promedio del cuadrado de las
distancias entre cada observación y la media
del conjunto de observaciones.
n
å ( xi - x ) 2

s2 = i
n -1

— Desviación estándar
å ( xi - x ) 2

s= i
n -1
DESVIACIÓN ESTÁNDAR
COEFICIENTE DE VARIACIÓN

!
• CV = #"

• Es adimensional
— Permite efectuar comparaciones de
distribuciones de distintas poblaciones.
— Ejemplo: Nos permite compara quién tiene
mayor variabilidad ; “Las alturas de los elefantes
(m)” o “Las alturas de las hormigas (mm)”
— Nos dice que proporción de la media representa
la desviación estándar.
MEDIDAS DE POSICIÓN

§ CUARTILES

§ DECILES

§ PERCENTILES
CUARTILES, DECILES, PERCENTILES




2º 10º Orden de las medidas de posición
3º 11º
1º 4º 5º 6º 12º
2 3 4 5 6 7 8 9 10 11 12

12 + 1 n +1
Q = 1
º
1 = 3,25 ® Q1 = 3 Q =
º
k k
4 4
n +1
Dkº = k
12 + 1 10
D = º
6 = 7,8 ® D6 = 12
6
10 n +1
Pk =
º
k
100
12 + 1
P70º = 70 = 9,1 ® P70 = 12
100
Representación de las Medidas de
Posición
Si bien estas medidas de posición, incluso la mediana
se pueden marcar en el histograma,

D2=160,39 Q3=173,06
Me=167,57 P95=180,25
Medidas de posición en la curva
ojiva
Estas medidas son más fáciles de ubicar en la curva ojiva:

Me=167,57
Representación de deciles y
percentiles
DIAGRAMA DE CAJA
— También se llama diagrama de las cinco letras
porque permite visualizar rápidamente : el valor
mínimo, el valor máximo, y los tres cuartiles.
— También tiene la ventaja de representar a los
llamados valores apartados.
— Los valores apartados, son aquellos que son
muy grandes o muy pequeños en comparación
con el conjunto de datos que se están
analizando.
— Además, nos da una idea de la variabilidad
presente en el conjunto de datos. A mayor
longitud corresponde mayor variabilidad
DIAGRAMA DE CAJA
DIAGRAMA DE CAJA
* * +

+ * *

1 2 3 4 5 6 7 8 9 10
DIAGRAMA DE CAJA
x: Media muestral Referencias:
Me: Mediana Ref 1: Q1 – 3.RI
Q1: Primer cuartil Ref 2: Q1 – 1,5.RI
Q3: Tercer cuartil Ref 3: Q3 + 1,5.RI
RI: Rango intercuartílico Ref 4: Q3 + 3.RI

+ *

x
Ref1 Ref2 Q1 x Q3 Ref3 Ref4
Me
DIAGRAMA DE CAJA

Datos apartados Datos apartados

Anómalos Atípicos Atípicos Anómalos

+ *

x
Ref1 Ref2 Q1 x Q3 Ref3 Ref4

Me
Veamos algunos ejemplos especiales
xi fi Fi Medidas:
— Medidas:
1 1 1 •— Media=1011,486
2 1 2 Me=?
•— Me=1020
1000 100 102
• Q1=1010
1010 120 222
• Q3=1020
1020 180 402
1030 98 500 • RI=10
N=500 • REF1=980
• REF2=995
• REF3=1035
• REF4=1050
MEDIDAS DE FORMA

§ ASIMETRÍA o SESGO

§ APUNTAMIENTO o CURTOSIS
MEDIDAS DE FORMA

§ ASIMETRÍA o SESGO

Si la distribución es unimodal (una sola moda)

%$ − '(
!" =
)

Ap< 0 asimetría negativa


Ap= 0 simétrica
Ap> 0 asimetría positiva
DISTRIBUCIONES UNIMODALES
Distribuciones simétricas y asimétricas

— La simetría es una característica que presenta un grupo de datos en


cuanto a la forma de cómo éstos se distribuyen alrededor de la media.
— La simetría da una idea sobre si existe la misma concentración de datos a
la derecha y a la zquierdadel promedio como se ilustra en la siguiente
figura.
DISTRIBUCIONES UNIMODALES
Distribución simétrica

MEDIA= MEDIANA =MODA


DISTRIBUCIÓN UNIMODAL
DISTRIBUCIÓN ASIMÉTRICA POSITIVA

0.8

0.6

0.4

0.2

0.0

0 2 4 6 8

cantidad de hijos por familia

MODA < MEDIANA < MEDIA


DISTRIBUCIÓN UNIMODAL
DISTRIBUCIÓN ASIMÉTRICA NEGATIVA

MEDIA < MEDIANA < MODA


DISTRIBUCIÓN NO UNIMODAL

Será simétrica si la media = mediana


MEDIDAS DE FORMA

§ APUNTAMIENTO o CURTOSIS
Mide como se concentran los datos alrededor de su
media. Es una medida de qué tan puntiaguda es la
distribución de los valores de la variable.
Ejercicio 1-7
Asimétrica a derecha o positivamente
asimétrica

También podría gustarte