Está en la página 1de 38

We make

it happen

Master en Dirección de Márketing y Gestión


Comercial
Curso 2023-2024

Investigación de mercados, gestión de la información y toma


de decisiones

Dra. Sara Fontdecaba

eae.es
Índice
01. ¿Qué es la estadística? La estadística descriptiva

02. Síntesis numérica de datos:


02.01. Medidas de tendencia central
02.02. Medias de dispersión
02.03. Relación entre dos variables

03. Representaciones gráficas


03.01. Histogramas
03.02. Boxplots
03.03. Diagramas bivariantes
03.04. Estratificación

04. Caso práctico


2
01. ¿Qué es la estadística? La estadística
descriptiva

eae.es
3
Estadística

Aspecto clave de la metodología .

Tomar decisiones en base a:

Impresiones
Opiniones
Suposiciones
Prejuicios
? DATOS !

¿Cómo recoger y analizar datos?

4
Para modificar título del PPT, cambiar pie de página

¿Qué es la
estadística?

ESTADÍSTICA
Disciplina que estudia cómo recoger datos y como
analizarlos para obtener la información deseada.

OBJETIVO: Diseño de la recogida de datos y


su transformación en información útil

PARA: La toma de decisiones y el


aprendizaje en presencia de variabilidad

5
Las 2 salidas de un
proceso

Productos
o servicios
Entradas PROCESO

ESTADÍSTICA DATOS

Mejora del
producto y
del proceso

INFORMACIÓN ESTADÍSTICA

6
Estadística
descriptiva
30

20

10

40 43 46 49 52 55 58

378498947362394940
Pareto Chart for C1
274948599876537383
200
932849276732904854 100

80
283928985940903850

Percent
Count
60

239832795059049044 100
40

094385040049850385 20

987897899893222341 0
n
0

s ras a c ió rs
du ina
283928985940903850 Ra
ya
So
pla Fo
rm
T erm Ot
he

239832795059049044
094385040049850385 y = 133,5
987897899893222341 s = 7,41

40
Respuesta
Datos a preguntas
C4

30

20

20 30 40 50
C1

7
02. Síntesis numérica de datos

eae.es
8
Probabilidad e
Inferencia
POBLACIÓN POBLACIÓN

?
Probabilidad Estadística / Inferencia

?
MUESTRA MUESTRA

9
94,95
59,91
63,65
104,21
68,72
Síntesis numérica 71,26
85,39
de datos 77,30
121,43
94,95 94,95 91,52
59,91 59,91 95,52
63,65 63,65 126,74
104,21 104,21 79,08 Medidas de tendencia central
68,72 68,72 130,79
71,26 71,26 109,62 Media, Mediana y Moda
85,39 85,39 65,19
77,30 77,30 126,02
121,43 121,43 137,61
91,52 91,52 63,90
95,52 95,52 94,95

?
126,74
79,08
126,74
79,08
59,91
63,65
Medidas de dispersión
104,21
Rango, Varianza, Desviación
130,79 94,95
130,79
109,62 59,91
109,62 68,72
65,19 63,65
65,19 71,26
126,02 104,21
126,02 85,39 tipo
137,61 68,72
137,61 77,30
63,90 71,26
63,90 121,43
85,39
77,30
91,52
95,52
Medidas de posición
126,74
Cuartilas, percentiles
121,43
91,52 79,08
95,52 130,79
126,74 109,62
79,08 65,19
130,79
109,62
126,02
137,61
Medidas de relación entre dos variables
63,90
65,19
126,02 Covarianza, correlación
137,61
63,90 10
Tendencia central:
media

Frecuencia Valor de la
absoluta ni: variable: Xi

Núm. de Núm. de Número medio de hijos por familia


familias hijos
13 0  ni Xi
21 1
x 
N
  fi Xi  1, 48
15 2
8 3
1 4
Frecuencia
relativa
2 5
N = 60 Número total de datos

En nuestra empresa la edad media es de 40 años para los hombres


y 30 años para las mujeres ¿Cuál es la edad media de los
empleados? 11
Tendencia central:
mediana
No tiene fórmula. Poco influenciable por valores extremos

Ordenar los Número impar de datos: Valor que queda en el centro


valores Número par de datos: Promedio de los 2 centrales
de menor a
mayor:

Ejemplo: Calcular la mediana de: 4, 2, 7, 1, 9

Los ordenamos de menor a mayor: 1, 2, 4, 7, 9

Mediana

0 1 2 3 4 5 6 7 8 9 10 12
Tendencia central:
moda
Valor que más se repite
Apenas se usa con valores numéricos
Puede no haber moda

Distribución bimodal

150

100

50

40 50 60 70

13
Posición: cuartiles
Menor 50
52
57
58
59
60 25 %
61
61 Q1 = 61: Primer Cuartil
61
64
68 75 %
Datos ordenados
69 50 %
de menor a mayor 71
72
73
78
75,5 Mediana
78
80
81 50 %
82 75 %
82
84
86 Q3 = 86: Tercer Cuartil
90
92
93
25 %
94
95
98
Mayor 100 14
Dispersión: rango

Rango = Valor máximo- Valor mínimo


Fácil de usar pero poco informativo
(especialmente si se tienen muchos datos)

Muy influenciable por valores extremos

0 1 2 3 4 5 6 7 8 9 10

15
Dispersión:
varianza (1)
“Promedio” del cuadrado de las distancias de cada valor a la media

MUESTRA POBLACIÓN
n n

  xi  x    xi   
2 2

s2 = i=1 2 = i=1

n- 1 N

Caso más frecuente. Los datos de que


disponemos
No interesa la varianza de los
constituyen toda la
datos que se tienen, sino
población objeto de
estimar la varianza de la
estudio
población de que provienen 16
Dispersión:
varianza (2)

“Promedio” del cuadrado de las


distancias de cada valor a la media

(9 – 4,6) 2 + (7 – 4,6) 2 + (4 – 4,6) 2 + (2 – 4,6) 2 + (1 – 4,6) 2


s2 = =
5-1
(4,4) 2 + (2,4) 2 + (- 0,6) 2 + (- 2,6) 2 + (- 3,6) 2
= = 11,3
4
0,6

2,6 2,4
3,6 4,4

0 1 2 3 4 5 6 7 8 9 10
17
4,6
Dispersión:
desviación tipo
Medida de dispersión de uso cotidiano

MUESTRA POBLACIÓN

s = s2  = 2

Mismas unidades que los datos


Orden de magnitud comparable a los datos

Ejemplo: Pesos de 4 personas (en kg): 65, 94, 81,


72
Varianza: s2 = 156,67 kg2 (!)
Desviación tipo: s = 12,52 kg

Pero la desviación tipo no tiene las propiedades matemáticas de la varianza


18
Medidas de relación
lineal entre 2
variables n

 (x  x)(yi i  y) 10
Cov(X, Y)  i1 Negativa I II Positiva
n1 9 (+ · -) (+ · +)

8
- +
7
Cov (X,Y) > 0: + +
6
Relación positiva
Y 5 Media de Y
- -
4
Cov (X,Y) < 0:
Relación negativa 3
- +
2
1 Positiva Negativa
Cov (X,Y)  0: (- · -) Media de X (- · +)
No hay relación 0 IV III
0 1 2 3 4 5 6 7 8 9 10
X

19
INCONVENIENTE: Depende de las unidades de las variables
Medidas de relación
lineal entre 2
variables
El coeficiente de correlación resuelve los problemas de la covarianza
Cov(X,Y)
rXY 
sX sY
Unidades: Es adimensional

Valores: Se encuentran entre –1 y +1


-1: Correlación negativa perfecta
0: Sin correlación
+1: Correlación positiva perfecta

110

r = 0,779
1500
100

Y=N(1000, 200)
90

80
Peso

1000
70

60

50

r = - 0,160
500
40
150 160 170 180 190 200 500 1000 1500 20
Altura X=N(1000, 200)
Medidas de relación
lineal entre 2
variables
No siempre un coeficiente de correlación bajo significa una falta de
dependencia entre las variables:

Coeficiente de correlación
21
03. Representaciones gráficas

eae.es
22
El caso de la
panadería
Día Ope. Máquina 1 Máquina 2

1 A 220.3 215.5 219.1 219.2 220.3 208.0 214.4 219.2


2 B 215.8 222.0 218.9 213.6 216.9 213.4 217.7 217.7
3 B 220.4 218.7 218.6 219.6 222.9 219.7 209.4 221.6
4 B 221.5 227.0 219.5 222.5 223.1 215.3 220.4 215.6
5 A 215.7 225.3 223.0 218.0 216.0 210.9 221.4 210.9

6 A 222.7 215.1 219.6 217.3 212.1 213.0 218.0 216.5


7 A 216.0 218.8 217.9 213.0 216.9 216.0 213.5 219.2
8 B 219.4 218.3 216.7 224.1 216.2 218.4 216.6 214.9
9 B 219.8 222.6 219.1 217.7 216.2 212.2 216.9 214.9
10 A 220.2 219.5 222.4 219.9 222.9 214.3 219.1 216.7

11 B 218.0 223.9 219.6 221.9 214.9 212.6 219.4 213.3


12 B 219.3 219.6 218.8 219.9 219.0 216.7 216.4 213.5
13 B 220.0 214.1 224.3 217.4 218.0 219.5 219.5 222.3
14 A 223.9 220.6 219.5 219.6 211.8 218.2 218.3 217.4
15 A 218.1 218.8 218.4 217.9 214.6 215.7 218.0 216.4

16 B 216.9 221.6 220.6 222.6 215.6 220.4 217.3 216.2


17 B 217.9 225.7 222.2 216.1 212.5 214.6 209.7 211.3
18 A 224.2 216.2 219.9 220.4 215.8 219.9 216.5 211.9
19 A 214.1 219.7 222.4 224.5 213.7 209.7 216.9 213.1
20 A 221.1 225.0 222.7 222.2 212.5 217.5 217.4 215.7

23
Histogramas:
Visión general

Datos globales Datos globales


Frecuencia Porcentaje
40 35

35 30
30
25
25
20
20
15
15
10
10
5 5

0 0
205 210 215 220 225 230 235 205 210 215 220 225 230 235
Pesos Pesos

24
Histogramas:
Comparación

Operario A Operario B
Porcentaje Porcentaje
35 35

30 30

25 25

20 20

15 15

10 10

5 5

0 0
205 210 215 220 225 230 235 205 210 215 220 225 230 235
Pesos Pesos

25
Histogramas:
Comparación (2)

Máquina 1 Máquina 2
Porcentaje Porcentaje
35 35

30 30

25 25

20 20

15 15

10 10

5 5

0 0
205 210 215 220 225 230 235 205 210 215 220 225 230 235
Pesos Pesos

26
Histogramas:
Ejercicio

¿Producen las máquinas 1 y 3 con la misma dispersión?

Máquina 1 Máquina 3
Porcentaje Porcentaje
35 25

30
20
25

20 15

15
10
10
5
5

0 0
205 210 215 220 225 230 235 212 214 216 218 220 222 224 226 228
Pesos Pesos

27
Histogramas: Tipos

200 120 200

150 150
80

100 100

40
50
50

0 0 0
30 35 40 45 50 55 60 65 70 25 30 35 40 45 50 55 60 65 70 75 0 5 10 15 20 25

Variabilidad natural Bimodal Sesgado a la derecha

200 200 200

150 150 150

100 100 100

50 50 50

0 0 0
35 40 45 50 55 60 65 70 75 80 85 90
30 35 40 45 50 55 60 65 70 35 40 45 50 55 60 65 70 75 80 85 90

Censurado Con anomalías, errores, etc.


28
Histogramas
Utilidad

Muestra la forma que sigue un conjunto de datos y su


dispersión.

Ventajas
• Revela la media, la variabilidad de los datos y la
forma de la distribución

• Permite detectar anomalías, la existencia de datos


que provienen de dos distribuciones distintas, los
valores que aparecen con más frecuencia, etc.

Limitaciones
No refleja la información temporal de los datos
29
Boxplot
Fija la atención en las medidas de posición y los valores extremos

Orden: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

5, 7, 7, 9, 9, 9, 9, 9, 9, 9, 10, 11, 11, 11, 11, 11, 14, 15, 16, 18

Q1 Mediana Q3

Zona Zona Zona Zona


anomalías anomalías anomalías anomalías
extremas moderadas Q1 Q3 moderadas extremas

1,5*IQR 1,5*IQR IQR 1,5*IQR 1,5*IQR

* * * o

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

30
Boxplot: Ejemplos

Peso en función del sexo en un grupo Evolución de la humedad de un producto


de 92 estudiantes (pienso) fabricado a lo largo de una semana

10

200

Humedad
Weight

9
150

100
8

1 2 Lunes Martes Miércoles Jueves Viernes

Sex

31
Diagramas
bivarantes

RELACION TEMPERATURA-RENDIMIENTO
Reactor B Periodo Enero-Febrero 1999 (N=50)
Rendimiento
95.0

94.5

94.0

93.5

93.0

92.5

92.0

91.5

91.0

90.5

100 110 120 130 140 150 160 170 180


Temperatura

32
Diagramas
bivariantes:
correlación causa y
efecto

¡Atención a la diferencia entre


correlación y relación causa-efecto!

Ejemplos:

• Daños provocados por un incendio y número de


bomberos que acuden a apagarlo

• Número de bodas que se celebran en Barcelona y


temperatura media del mes

33
Diagramas
bivariantes:
correlación causa y
efecto
Utilidad
Identifica correlación entre variables. También indica
la intensidad de la correlación.

Ventajas
• Ayuda a identificar que entrada o variable del
proceso puede estar relacionada con una salida del
proceso.

• Permite encontrar anomalías.

El diagrama de correlación muestra correlación entre variables,


! pero no implica relación de causa-efecto (no prueba que una
variable es causa directa de otra) 34
Estratificación: Máquina 1
histogramas Porcentaje
35

30

25

Datos globales 20

Porcentaje 15
35
10

30 5

0
25
205 210 215 220 225 230 235
Pesos
20

15
Máquina 2
Porcentaje
10
35

5 30

25
0
20
205 210 215 220 225 230 235
Pesos 15

10

0
205 210 215 220 225 230 235
Pesos

35
Estratificación:
diagramas
bivariantes

Máquina
1
10 10
2

9 9

Densidad
Densidad

8 8

7 7

6 6
25 30 35 40 25 30 35 40

Grasa (%) Grasa (%)

36
Estratificación

Utilidad

Se usa junto con otras herramientas para sacar más


información de los datos

Ventajas
• Podemos tratar tablas de datos que tienen “peras y
manzanas” separándolas

• Sacamos más información en el análisis de los datos.

Debemos haber recogido los datos pensando ya en que


! luego estratificaremos. Siempre que sea posible, debemos
estratificar.

37
04. Caso práctico

eae.es
38

También podría gustarte