Está en la página 1de 4

Prof.

Carlos Mendiburu

Análisis de Datos II
Herramientas Estadísticas Básicas Control de Lectura 2
para el Análisis de Indicadores
Retroalimentación
Prof. Carlos Mendiburu

Medidas de Localización Relativa y Detección de Outliers

z-Scores
Tarea 3
Regla empírica
Exposición y Discusión
Detección de Outliers

z-Scores Ejemplo: Alquiler de Departamentos


A continuación se presenta una muestra con el precio de alquiler mensual en
z-score : valor estandarizado.
US$ para departamentos de dos dormitorios.
Indica el número de desviaciones estándar que separan a xi de
su media.
425 430 430 435 435 435 435 435 440 440
x x 440 440 440 445 445 445 445 445 450 450
zi  i
s 450 450 450 450 450 460 460 460 465 465
Responda: 465 470 470 472 475 475 475 480 480 480
 Si xi está por debajo de la media, su z-score será: 480 485 490 490 490 500 500 500 500 510
 Si xi está por encima de la media, su z-score será: 510 515 525 525 525 535 549 550 570 570
Si xi es igual a la media, su z-score será:

575 575 580 590 600 600 600 600 615 615

1
Prof. Carlos Mendiburu

Ejemplo: Alquiler de Departamentos Regla Empírica

z-Score del valor mínimo (425) Para datos que tienen una distribución con forma:
x x 425490.80
z i   1.20
s 54.74

-1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93Valores
-0.84 -0.84 -0.84 -0.84 -0.84
Estandarizados -0.75 -0.75
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
-0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20 Aproximadamente el 68% de los valores estarán dentro de una desviación
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35 estándar de la media.
0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

Regla Empírica Regla Empírica

Para datos que tienen una distribución con forma: Para datos que tienen una distribución con forma:

Aproximadamente el 95% de los valores estarán dentro de dos Casi todas (99.7%) las observaciones se ubicarán dentro de tres
desviaciones estandard de la media.
desviaciones estándar de la media.

Detección de Outliers Ejemplo: Alquiler de Departamentos

Un outlier es un valor inusualmente bajo o inusualmente alto en una base de Indicar si esta base de datos presenta outliers.

datos. Valores Estandarizados

Regla: z-score < -3 o > +3. -1.20 -1.11 -1.11 -1.02 -1.02 -1.02 -1.02 -1.02 -0.93 -0.93
-0.93 -0.93 -0.93 -0.84 -0.84 -0.84 -0.84 -0.84 -0.75 -0.75
Error de registro.
-0.75 -0.75 -0.75 -0.75 -0.75 -0.56 -0.56 -0.56 -0.47 -0.47
No pertenece a la base de datos. -0.47 -0.38 -0.38 -0.34 -0.29 -0.29 -0.29 -0.20 -0.20 -0.20
-0.20 -0.11 -0.01 -0.01 -0.01 0.17 0.17 0.17 0.17 0.35
Puede haber sido registrado correctamente y pertenecer a la base de datos. 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45
1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

2
Prof. Carlos Mendiburu

Box Plot Ejemplo: Alquiler de Departamentos

Límites: Q1 y Q3. Lim. Inf: Q1 - 1.5(IQR) = 450 - 1.5(75) = 337.5

Lim. Sup: Q3 + 1.5(IQR) = 525 + 1.5(75) = 637.5


Línea vertical en la mediana.
¿hay outliers?
Límites:
 Inferior: 1.5(IQR) por debajo de Q1.

 Superior: 1.5(IQR) sobre Q3.

375 400 425 450 475 500 525 550 575 600 625

Asimetría y Curtosis Asimetría


Datos Muestrales (Excel)
Asimetría ∑( )

Coeficiente de Asimetría
de Fisher As=
Oscila entre -3 (máxima asimetría negativa) y +3 (máxima asimetría positiva). El valor 0 indica
simetría perfecta.

Curtosis
∑( )
Datos Muestrales (Excel)
Coeficiente de Curtosis:
k=
Coeficiente de Exceso ∑( )
de Curtosis de Fisher
Ek= −3

Ek: Mide concentración de los datos alrededor del centro. Oscila entre los valores: -3 (máximo apuntamiento negativo, forma platicúrtica) y +3
(máximo apuntamiento positivo, forma leptocúrtica). El valor 0 indica apuntamiento nulo (distribución mesocúrtica).

Curtosis Diagramas de dispersión

18%
Un diagrama de dispersión es una representación gráfica
16%
Leptocúrtica de la relación entre 2 variables cuantitativas.
14%

12% Mesocúrtica Una línea de tendencia es una representación estilizada


10%
Platicúrtica de dicha relación.
8%

6%

4%

2%

0%
1 3 5 7 9 11 13 15 17 19 21 23

3
Prof. Carlos Mendiburu

Medidas de Asociación Coeficiente de Correlación: Ejemplo

Covarianza

Coeficiente de Correlación

Tarea 4
Calcule z-scores, identifique observaciones atípicas y calcule medidas de asociación para al menos 2 pares de
variables o indicadores de una base de datos de su elección (puede ser un subconjunto de las variables
Ejercicios en Excel presentadas en tareas previas). Interprete claramente los resultados y describa sus implicancias de negocio.

Esta es una actividad grupal. Sólo un miembro del grupo subirá el documento de texto en formato PDF, sin
carátula, con nombres de los integrantes en la parte superior de la primera página. Extensión máxima del
documento: 2 páginas, incluyendo referencias bibliográficas (formato APA) y anexos, letra Arial Narrow 11,
Archivo: S3.xlsx márgenes por defecto de Word, espacio simple. Enumerar cada página. Citar todas las fuentes utilizadas.
Utilizar tablas y gráficos con título, unidades y fuentes. El documento se entrega a más tardar a las 18:30 horas
• Ejercicio: Precio de Gasolina vs Precio del Petróleo de la fecha indicada en el cronograma del curso, vía Canvas, en la sección creada para tal fin. El grupo deberá
mostrar dominio de las herramientas del curso correspondientes a la unidad vista en esta semana.

Nota: En las actividades grupales (Tareas), poner (Apellido Paterno, Nombre) de todos los integrantes del
grupo en la parte superior de la primera página, y si un integrante no trabajó, escribir [No Trabajó] al costado
de su nombre.

Control de Lectura 3

También podría gustarte