Está en la página 1de 34

ESTADÍSTICA

INTRODUCCIÓN A LA DESCRIPCIÓN
Y ANÁLISIS DE DATOS
ESPECIALIZACIÓN EN INGENIERÍA DE PRODUCCIÓN Y OPERACIONES
UNIVERSIDAD PEDAGÓGICA Y TECNOLÓGICA DE COLOMBIA

SEBASTIÁN TALERO CHAPARRO


Consultor | Ministerio de Transporte
Maestría en Ingeniería Industrial (c)
PRIMERO, UNA
PRESENTACIÓN DEL GRUPO
Universidades Nacionales
Universidades Internacionales
Investigadores Centros del Investigación alrededor del mundo

Ingenierías – Ciencias Sociales – Ciencias Básicas

Estudiantes de:
Investigadores en • Doctorado
Formación • Maestría
• Pregrado

Profesionales Base En varías ciudades del país

Investigadores en el sector
Sector Industrial y de Servicios
productivo
Líneas de
Investigación
AHORA SÍ, ESTADÍSTICA
Una reflexión
Es mucho mejor una respuesta aproximada a la pregunta
correcta, aunque normalmente sea vaga, que la respuesta
correcta a la pregunta errónea, aunque siempre pueda hacerse
de forma precisa.

J. W. Tukey (1962)

La combinación de ciertos datos con un ardiente deseo de


respuesta no asegura que pueda extraerse una respuesta
razonable del cuerpo de datos dado

J. W. Tukey (1986)
Primero, hágase la pregunta
Primero, hágase la pregunta

ANALISIS DESCRIPTIVO

Busca resumir o sintetizar las mediciones de un conjunto de datos sin


interpretación adicional. Ejemplo, resultados del Censo

ANALISIS EXPLORATORIO

Construye a partir del análisis descriptivo, búsquedas de patrones,


correlaciones o relaciones entre las mediciones de múltiples variables para
generar ideas o hipótesis
Primero, hágase la pregunta
Primero, hágase la pregunta

ANALISIS INFERENCIAL

Procura cuantificar si un patrón observado se mantendrá o se presentará en


otro conjunto de datos. Este es el tipo de análisis más común en la literatura
estadística científica.

ANALISIS PREDICTIVO

Mientras que el análisis inferencial cuantifica las relaciones a nivel poblacional,


el análisis predictivo utiliza un subconjunto de mediciones (rasgos o atributos)
para predecir otra medición (resultado) en una sola persona o unidad.
Primero, hágase la pregunta

ANALISIS CAUSAL

Pretende averiguar qué ocurre con una medición si se aplica un cambio a


otra medición. Ejemplo, pruebas clínicas aleatorizadas

ANALISIS MECANÍSTICO

Busca demostrar que el cambio en una medición siempre resultará en un


comportamiento específico y determinístico de otra medición. Ejemplo,
pruebas e ingeniería
Errores comunes
Errores comunes

CONFUNDIR UN ANALISIS
INFERENCIAL COMO CAUSAL

Correlación no implica causación


Errores comunes

CONFUNDIR UN ANALISIS
EXPLORATORIO COMO PREDICTIVO

Overfitting o sobreajuste
Errores comunes

ANALISIS DESCRIPTIVO
vs. INFERENCIAL

Análisis n = 1

CONFUNDIR UN ANALISIS
EXPLORATORIO COMO
INFERENCIAL

Data dredging
Análisis descriptivo

Visualización de distribuciones

Cambios en los precios de una acción

¿Que se puede decir de esta tabla de valores?


Visualización de distribuciones

Histogramas
Visualización de distribuciones

Histogramas

1. Cuántos intervalos?

Fórmula de Sturges:
k = 1 + 3,3 Log10 (n)

2. Contabilizar las frecuencias en cada intervalo


3. Determinar fronteras
Visualización - Forma

Cuando se describe una distribución, se debe poner especial


atención en:

• Su contorno
• Su centro
• Su dispersión

Forma o contorno: en términos de modos, simetría,


gaps o puntos atípicos
Visualización - Forma

Modos:
Picos de un histograma
Una distribución cuyo histograma tiene un pico predominante se
le llama unimodal
Visualización - Forma

• Una distribución cuyo histograma no parece tener modos y las


barras tienen una altura similar, se le llama uniforme
Visualización - Forma

• Simetría
Visualización - Forma

• Simetría
Visualización - Forma

• La selección del ancho de clases afecta el gráfico


Visualización - Forma

• Puntos atípicos (outliers)……

• Pueden afectar el análisis


• Puede ser la parte más informativa
• Puede ser un error
• Debe ser discutido
Visualización - Centro

• MEDIA
MEDIANA


La observación en la mitad de los datos ordenados
ascendentemente. Ideal para datos con sesgos altos
y
y MODA
La observación más repetida
n
Visualización - Dispersión


• VARIANZA
( y  y) 2

s 2

n 1
• DESVIACION ESTANDAR

s
 ( y  y) 2

n 1
Visualización – Otras Medidas

• MINIMO

• MAXIMO

• PERCENTILES

• CUARTILES
Ejercicio

• Desarrollar un histograma
• Calcular los estadísticos que considere
pertinentes
Ejercicio

DEDUCTIVO

INDUCTIVO
Algunas definiciones

• Data set (conjunto de datos)


• Arreglo usualmente rectangular con variables en las columnas y
observaciones en las filas
• Variable (o campo, o atributo)
• Característica de los miembros de una población (altura, género,
ingresos, etc.)
• Observación (o registro)
• Lista de todos los valores de las variables para un solo miembro
de la población
Tipos de Variables

• NUMÉRICA
• Se pueden realizar operaciones aritméticas con ella
• Pueden ser DISCRETAS o CONTINUAS
• CATEGÓRICA
• NO se pueden realizar operaciones aritméticas con ella
• Una variable categórica es ORDINAL si existe un ordenamiento
natural de sus posibles valores
• Si no existe ese ordenamiento natural, la variable es NOMINAL
• DUMMY
• 0-1, para simplificar el análisis
Persona Edad Género Estado Hijos Salario Opinion
1 35 Masculino Minnesota 1 $65,400 5
2 61 Femenino Texas 2 $62,000 1
3 35 Masculino Ohio 0 $63,200 3 Opinión
4 37 Masculino Florida 2 $52,000 5
5 32 Femenino California 3 $81,400 1
6 33 Femenino New York 3 $46,300 5 1 Fuertemente en desacuerdo
7 65 Femenino Minnesota 2 $49,600 1 2 Desacuerdo
8 45 Masculino New York 1 $45,900 5
9 40 Masculino Texas 3 $47,700 4 3 Neutral
10 32 Femenino Texas 1 $59,900 4 4 De acuerdo
11 57 Masculino New York 1 $48,100 4
12 38 Femenino Virginia 0 $58,100 3
5 Fuertemente de acuerdo
13 37 Femenino Illinois 2 $56,000 1
14 42 Femenino Virginia 2 $53,400 1
15 38 Femenino New York 2 $39,000 2
16 48 Masculino Michigan 1 $61,500 2 Ejercicio
17 40 Masculino Ohio 0 $37,700 1
18 57 Femenino Michigan 2 $36,700 4 Elaborar un reporte con un análisis descriptivo de los datos
19 44 Masculino Florida 2 $45,200 3
compartidos.
20 40 Masculino Michigan 0 $59,000 4
21 21 Femenino Minnesota 2 $54,300 2
22 49 Masculino New York 1 $62,100 4 Desarrollar un análisis exploratorio buscando identificar
23 34 Masculino New York 0 $78,000 3 patrones en la muestra.
24 49 Masculino Arizona 0 $43,200 5
25 40 Masculino Arizona 1 $44,500 3
26 38 Masculino Ohio 1 $43,300 1
27 27 Masculino Illinois 3 $45,400 2
28 63 Masculino Michigan 2 $53,900 1
29 52 Masculino California 1 $44,100 3
30 48 Femenino New York 2 $31,000 4

También podría gustarte