Está en la página 1de 54

We make

it happen

Estadística Descriptiva
Fundamentos de Estadística

Dra. Sara Fontdecaba – sara.fontdecaba@eae.es

Grado en Administración y Dirección de Empresa (ADE)

eae.es
Estadística Descriptiva

Índice

01. ¿Qué es la estadística? La estadística descriptiva


02. Tipos de variables

03. Síntesis numérica de datos:


02.01. Medidas de tendencia central
02.02. Medias de dispersión
02.03. Relación entre dos variables

03. Representaciones gráficas


03.01. Histogramas
03.02. Boxplots
03.03. Series de Tiempo
03.04. Diagramas Bivariantes

2
Estadística Descriptiva

01. ¿Qué es la estadística? La estadística


descriptiva

eae.es
3
Estadística Descriptiva

Introducción. Un poco de historia

• El término estadística comparte raíz con la palabra estado, teniendo ambas un sentido tanto de
situación como un sentido político de nación. Durante siglos, el significado de estadística ha sido la
descripción del estado de la nación.

• La primera noticia que tenemos de un estudio estadístico se remonta a lo que nos explica Herodoto: el
primer censo del que se tiene conocimiento, realizado en Egipto con el fin de la construcción de las
pirámides. Posteriormente, Roma utilizó continuamente la estadística en su administración.

• Para la estadística actual es fundamental el cálculo de probabilidades. Hacia el s. XVI se dieron los
primeros avances con G. Cardano y N. Tartaglia. Grandes estudiosos de la Estadística de este siglo
fueron J. Bernoulli, que ayudó a dar los primeros pasos de esta disciplina y T. Bayes, cuyo teorema
lleva su nombre.

• Ya en el s. XIX, P. S. Laplace publicó “Théorie analityque des probabilités”, que sirvió de base para los
posteriores trabajos de C.F. Gauss o S.D. Poisson, que desarrollaron el cálculo de probabilidades a lo
largo del siglo.

4
Estadística Descriptiva

Introducción. Un poco de historia


• La estadística moderna incluye el término población. Diversos estudios fueron haciendo cada vez más
intensa la relación entre la estadística y el cálculo de probabilidades. Los trabajos culminaron con
L.A.J. Queérelet, cuyas conclusiones determinaron que la información contenida en grandes masas de
datos podrían estudiarse siguiendo como modelo la distribución normal. A él se deben también
algunos de los conceptos que manejaremos, como la media o desviación.

• Cabe destacar la importancia de los trabajos del botánico G. J. Mendel en el campo de la genética, y
los estudios de F. Galton respecto a la correlación y los fundamentos en los que se basa el actual
análisis de regresión.

• Otros grandes exponentes fueron K. Pearson y R.A. Fisher

• Gracias a todos ellos en todos los medios podemos obtener gran cantidad de información estadística.
La estadística forma parte de nuestra vida cotidiana.

5
Estadística Descriptiva

Introducción. Un poco de historia


“La Estadística estudia métodos científicos para recoger, organizar, resumir y analizar datos, así como para
sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis”.
MurrayR.Spiegel

La estadística es una disciplina que recoge un conjunto de técnicas que nos permiten recopilar, organizar,
analizar, interpretar y representar datos (numéricos) para deducir resultados posibles o consecuencias
sobre un fenómeno.

La estadística es una ciencia que trabaja con datos numéricos y que nos ayuda a responder preguntas.
Por ejemplo, en economía y negocios, la información obtenida al reunir datos, analizarlos, presentarlos e
interpretarlos, proporciona a las personas que deben tomar decisiones una mejor comprensión del
negocio o entorno económico, permitiéndoles así tomar mejores decisiones con base en mejor
información.

6
Estadística Descriptiva

¿Qué es la estadística?

Aspecto clave de la metodología .

Tomar decisiones en base a:

Impresiones
Opiniones
Suposiciones
Prejuicios
? DATOS !

¿Cómo recoger y analizar datos?

7
Estadística Descriptiva

¿Qué es la estadística?

ESTADÍSTICA
Disciplina que estudia cómo recoger datos y como
analizarlos para obtener la información deseada.

OBJETIVO: Diseño de la recogida de datos y


su transformación en información útil

PARA: La toma de decisiones y el


aprendizaje en presencia de variabilidad

8
Estadística Descriptiva

Las 2 salidas de un proceso

Productos
o servicios
Entradas PROCESO

ESTADÍSTICA DATOS

Mejora del
producto y
del proceso

INFORMACIÓN ESTADÍSTICA

9
Estadística Descriptiva

Estadística &
Manegment
30

20

10

40 43 46 49 52 55 58

378498947362394940
Pareto Chart for C1
274948599876537383
200
932849276732904854 100

80
283928985940903850

Percent
Count
60

239832795059049044 100
40

094385040049850385 20

987897899893222341 0
n
0

s ras a c ió rs
du ina
283928985940903850 Ra
ya
So
pla Fo
rm
T erm Ot
he

239832795059049044
094385040049850385 y = 133,5
987897899893222341 s = 7,41

40
Respuesta
Datos a preguntas
C4

30

20

20 30 40 50
C1

10
Estadística Descriptiva

Estadística &
Manegment

Contabilidad

Finanzas
Diagnóstico:
Aplicación
Análisis y
Recogida de Inferencia en los
Resumen de
datos estadística negocios y
datos
en
economía Marketing

Producción

Economía

11
Estadística Descriptiva

Estadística &
Manegment

Planteamiento del Problema: Formulamos la PREGUNTA. Definimos el


objetivo y buscarmos la pregunta adecuada que nos provoque los resultados
que buscamos. Definimos las variables y la muestra (que ha de reproducir con
la máxima exactitud posible las características de la población).

Instrumentos: La duda y la pregunta

Recogida de la información: Recopilamos los DATOS. Si ya existen, los


rescatamos (información estadística o administrativa). Si no existen bases de
datos, las creamos.

Instrumentos: Bases de datos (INE), encuestas, TIC, sensores….

12
Estadística Descriptiva

Estadística &
Manegment

Análisis Descriptivo. TRATAMIENTO de datos. Aplicamos las fórmulas


matemáticas para transformar los datos en información numérica, de modo
que nos sirva para DESCRIBIR el fenómeno que estamos analizando.

Instrumentos: Métodos de la estadística

Inferencia estadística: Obtención de RESULTADOS. Expresamos


matemáticamente los resultados obtenidos. Partiendo de los datos analizados,
suponemos un modelo y sus condiciones generales. Empleamos dicho modelo para
establecer PREDICCIONES.

Instrumentos: Tablas, indicadores estadísticos.

13
Estadística Descriptiva

Estadística &
Manegment

REPRESENTACIÓN DE LOS RESULTADOS. Presentando los resultados de


una forma gráfica se hace más fácil y universal su comprensión. Puede crearse a
partir de los datos descriptivos, los de inferencia o ambos.

Instrumentos: Gráficos: histogramas, diagramas de sector, lineales…

Diagnóstico e Interpretación de RESULTADOS. Conclusiones de tipo


sociológico, demográfico, económico o de cualquier otro tipo que ayuden a
entender los resultados obtenidos.

Instrumentos: Interpretación y análisis. Experiencia.

14
1. La estadística descriptiva – Fundamentos de estadística.

Definiciones
La estadística descriptiva.

Universo
Conjunto de individuos que
presentan la característica
Muestra que nos interesa estudiar
Subconjunto representativo
de una población que se
utiliza para explicar (inferir)
características del conjunto
de esta población
Generalmente, se simboliza
con la letra n
Población
Es el conjunto total (finito
o infinito) de individuos u
elementos que
Individuo
presentan una misma
Un individuo o unidad
característica. Son objeto
estadística es cada uno de
de estudio y de los que se
los elementos que
requiere información
componen la población
Generalmente, se
simboliza con la letra N

15
Probabilidad e Inferencia

POBLACIÓN POBLACIÓN

?
Probabilidad Estadística / Inferencia

?
MUESTRA MUESTRA
Fundamentos de Estadística Estadística y Análisis de Datos
16
Estadística Descriptiva

Muestreo para la recogida de datos

17
Estadística Descriptiva

Muestreo para la recogida de datos

Muestra aleatoria simple sistemática


Muestra aleatoria simple casual

Muestra por Muestra por


conveniencia conglomerado
Muestra aleatoria estratificada
(no probabilistico no s
aleatorio)

18
Estadística Descriptiva

02. Tipos de variables

eae.es
19
Estadística Descriptiva

La base de datos

Xi: Variables

ni: Individuos

20
Estadística Descriptiva

Creación de la base de datos: variables


VARIABLE: Características o cualidades que se estudian en los individuos de una población.

Para poder escoger o introducir las variables e estudiar, hay que CONOCERLAS.

VARIABLES

CUALITATIVA CUANTITATIVA
Valores no numéricos Valores numéricos

21
Estadística Descriptiva

Creación de bases de datos: Clasificación de las variables.

Hombre/ mujer
Dicotómicas Propio/ajeno
Dos categorías
Cualitativas Nominal / Ordinal

Esta foto de Autor desconocido está bajo licencia CC BY-ND


CODIFICADA Color
Politómicas Profesión
Estudios
VARIABLES

Más de dos categorías

Discretas Nº hijos
Libros en la mochila
Es un número concreto de Nº corredor de seguros
Cuantitativas valores.

Nominal/ordinal Peso
Categorías Continuas Altura
característica no
numérica Puede tomar cualquier valor. Tiempo
Entre dos valores, siempre hay
un intermedio
Se puede agrupar en intervalos.

22
Estadística Descriptiva

Ejercicio

TIPO DE VARIABLE

La longitud (en mm) de una regla.


El color del cabello de los estudiantes.
El peso de un saco de pienso (en Kg).
Número de trozos en los que se rompe una tiza al caer al suelo.
La edad de una persona.
La cantidad de cigarrillos que alguien se fuma cada día.
La valoración de una comida donde las opciones de respuesta son: muy
malo, no muy bueno, bastante bueno, buenísimo.
Número de hijos de una familia.
Tipo de local (comercial, industrial ...).

23
Estadística Descriptiva

03. Síntesis numérica de los datos

eae.es
24
94,95
59,91 Estadística Descriptiva
63,65
104,21
68,72
Síntesis numérica de datos 71,26
85,39
77,30
121,43
94,95 94,95 91,52
59,91 59,91 95,52
63,65 63,65 126,74
104,21 104,21 79,08 Medidas de tendencia central
68,72 68,72 130,79
71,26 71,26 109,62 Media, Mediana y Moda
85,39 85,39 65,19
77,30 77,30 126,02
121,43 121,43 137,61
91,52 91,52 63,90
95,52 95,52 94,95

?
126,74
79,08
126,74
79,08
59,91
63,65
Medidas de dispersión
104,21
Rango, Varianza, Desviación
130,79 94,95
130,79
109,62 59,91
109,62 68,72
65,19 63,65
65,19 71,26
126,02 104,21
126,02 85,39 tipo
137,61 68,72
137,61 77,30
63,90 71,26
63,90 121,43
85,39
77,30
91,52
95,52
Medidas de posición
126,74
Cuartiles, percentiles
121,43
91,52 79,08
95,52 130,79
126,74 109,62
79,08 65,19
130,79
109,62
126,02
137,61
Medidas de relación entre dos variables
63,90
65,19
126,02 Covarianza, correlación
137,61
63,90 25
Estadística Descriptiva

Tendencia central:
media

Frecuencia Valor de la
absoluta ni: variable: Xi

Núm. de Núm. de Número medio de hijos por familia


familias hijos
13 0  ni Xi
21 1
x 
N
  fi Xi  1, 48
15 2
8 3
1 4
Frecuencia
relativa
2 5
N = 60 Número total de datos
¿Cuáles son sus puntos
débiles?
 En nuestra empresa la edad media es de 40 años para los hombres y 30 años para las
26
mujeres ¿Cuál es la edad media de los empleados?
Estadística Descriptiva

Tendencia central:
mediana
No tiene fórmula. Poco influenciable por valores extremos

Ordenar los
Número impar de datos: Valor que queda en el centro
valores
de menor a Número par de datos: Promedio de los 2 centrales
mayor:

Ejemplo: Calcular la mediana de: 4, 2, 7, 1, 9

Los ordenamos de menor a mayor: 1, 2, 4, 7, 9

Mediana

0 1 2 3 4 5 6 7 8 9 10 27
Estadística Descriptiva

Tendencia central:
moda
Valor que más se repite
Apenas se usa con valores numéricos
Puede no haber moda

Distribución bimodal

150

100

50

40 50 60 70

28
Estadística Descriptiva

Posición: cuartiles
Menor 50
52
57
58
59
60 25 %
61
61 Q1 = 61: Primer Cuartil
61
64
68 75 %
Datos ordenados
69 50 %
de menor a mayor 71
72
73
78
75,5 Mediana
78
80
81 50 %
82 75 %
82
84
86 Q3 = 86: Tercer Cuartil
90
92
93
25 %
94
95
98
Mayor 100 29
Estadística Descriptiva

Posición: Cuartiles, Percentiles, Deciles

Percentiles (Pi)
Dividen en 100 partes
iguales: hay 99
centiles

Deciles (Di)
Dividen en 10 partes
iguales: hay 9
quartiles

Cuartiles (Ci)
Dividen en 4 partes
iguales: hay 3
quartiles

30
Estadística Descriptiva

Dispersión: rango

Rango = Valor máximo- Valor mínimo


Fácil de usar pero poco informativo
(especialmente si se tienen muchos datos)

Muy influenciable por valores extremos

0 1 2 3 4 5 6 7 8 9 10

31
Estadística Descriptiva

Dispersión:
varianza
“Promedio” del cuadrado de las distancias de cada valor a la media

MUESTRA POBLACIÓN
n n

  xi  x    xi   
2 2

s2 = i=1 2 = i=1

n- 1 N

Caso más frecuente. Los datos de que


disponemos
No interesa la varianza de los
constituyen toda la
datos que se tienen, sino
población objeto de
estimar la varianza de la
estudio
población de que provienen 32
Estadística Descriptiva

Dispersión:
varianza

“Promedio” del cuadrado de las


distancias de cada valor a la media

(9 – 4,6) 2 + (7 – 4,6) 2 + (4 – 4,6) 2 + (2 – 4,6) 2 + (1 – 4,6) 2


s2 = =
5-1
(4,4) 2 + (2,4) 2 + (- 0,6) 2 + (- 2,6) 2 + (- 3,6) 2
= = 11,3
4
0,6

2,6 2,4
3,6 4,4

0 1 2 3 4 5 6 7 8 9 10
33
4,6
Estadística Descriptiva

Dispersión:
desviación tipo
Medida de dispersión de uso cotidiano

MUESTRA POBLACIÓN

s = s2  = 2

Mismas unidades que los datos


Orden de magnitud comparable a los datos

Ejemplo: Pesos de 4 personas (en kg): 65, 94, 81,


72
Varianza: s2 = 156,67 kg2 (!)
Desviación tipo: s = 12,52 kg

Pero la desviación tipo no tiene las propiedades matemáticas de la varianza


34
Estadística Descriptiva

Dispersión:
coeficiente de variación
Expresa la relación que hay entre la desviación típica de una muestra y su media aritmética).
Al no tener unidades, nos permite comparar diferentes muestras. Con ello sabremos qué
muestra es más representativa en relación a sus desviaciones a menor Cv, más concentrada
está la muestra y más representativa es.

𝒔
Cv=
𝑿
Estadística Descriptiva

Medidas de relación
lineal entre 2
variables n

 (x  x)(yi i  y) 10
Cov(X, Y)  i1 Negativa I II Positiva
n1 9 (+ · -) (+ · +)

8
- +
7
Cov (X,Y) > 0: + +
6
Relación positiva
Y 5 Media de Y
- -
4
Cov (X,Y) < 0:
Relación negativa 3
- +
2
1 Positiva Negativa
Cov (X,Y)  0: (- · -) Media de X (- · +)
No hay relación 0 IV III
0 1 2 3 4 5 6 7 8 9 10
X

36
INCONVENIENTE: Depende de las unidades de las variables
Estadística Descriptiva

Medidas de relación
lineal entre 2
variables
El coeficiente de correlación resuelve los problemas de la covarianza

Unidades: Es adimensional

Valores: Se encuentran entre –1 y +1


-1: Correlación negativa perfecta
0: Sin correlación
+1: Correlación positiva perfecta

r = 0,779

r = - 0,160
37
03. Representaciones gráficas

eae.es
38
Estadística Descriptiva

¡Un mundo entero! Estadística y Visualización de Datos


Estadística Descriptiva

Histogramas
Utilidad

Muestra la forma que sigue un conjunto de datos y su


dispersión.

Ventajas
• Revela la media, la variabilidad de los datos y la
forma de la distribución

• Permite detectar anomalías, la existencia de datos


que provienen de dos distribuciones distintas, los
valores que aparecen con más frecuencia, etc.

Limitaciones
No refleja la información temporal de los datos
40
Estadística Descriptiva

El caso de la
panadería
Día Ope. Máquina 1 Máquina 2

1 A 220.3 215.5 219.1 219.2 220.3 208.0 214.4 219.2


2 B 215.8 222.0 218.9 213.6 216.9 213.4 217.7 217.7
3 B 220.4 218.7 218.6 219.6 222.9 219.7 209.4 221.6
4 B 221.5 227.0 219.5 222.5 223.1 215.3 220.4 215.6
5 A 215.7 225.3 223.0 218.0 216.0 210.9 221.4 210.9

6 A 222.7 215.1 219.6 217.3 212.1 213.0 218.0 216.5


7 A 216.0 218.8 217.9 213.0 216.9 216.0 213.5 219.2
8 B 219.4 218.3 216.7 224.1 216.2 218.4 216.6 214.9
9 B 219.8 222.6 219.1 217.7 216.2 212.2 216.9 214.9
10 A 220.2 219.5 222.4 219.9 222.9 214.3 219.1 216.7

11 B 218.0 223.9 219.6 221.9 214.9 212.6 219.4 213.3


12 B 219.3 219.6 218.8 219.9 219.0 216.7 216.4 213.5
13 B 220.0 214.1 224.3 217.4 218.0 219.5 219.5 222.3
14 A 223.9 220.6 219.5 219.6 211.8 218.2 218.3 217.4
15 A 218.1 218.8 218.4 217.9 214.6 215.7 218.0 216.4

16 B 216.9 221.6 220.6 222.6 215.6 220.4 217.3 216.2


17 B 217.9 225.7 222.2 216.1 212.5 214.6 209.7 211.3
18 A 224.2 216.2 219.9 220.4 215.8 219.9 216.5 211.9
19 A 214.1 219.7 222.4 224.5 213.7 209.7 216.9 213.1
20 A 221.1 225.0 222.7 222.2 212.5 217.5 217.4 215.7

41
Estadística Descriptiva

Histogramas:
Visión general

Datos globales Datos globales


Frecuencia Porcentaje
40 35

35 30
30
25
25
20
20
15
15
10
10
5 5

0 0
205 210 215 220 225 230 235 205 210 215 220 225 230 235
Pesos Pesos

42
Estadística Descriptiva

Histogramas:
Comparación
Operario A Operario B
Porcentaje Porcentaje
35 35

30 30

25 25

20 20

15 15

10 10

5 5

0 0
205 210 215 220 225 230 235 205 210 215 220 225 230 235
Pesos Pesos

ESTRATIFICACIÓN: Graficar una Debemos haber recogido los datos


variable continua (Pesos Barras) en
función de los valores de una
variable discreta (Operario)
! pensando ya en que
luego estratificaremos. Siempre que
sea posible, debemos estratificar.

43
Estadística Descriptiva

Histogramas:
Comparación (2)

Máquina 1 Máquina 2
Porcentaje Porcentaje
35 35

30 30

25 25

20 20

15 15

10 10

5 5

0 0
205 210 215 220 225 230 235 205 210 215 220 225 230 235
Pesos Pesos

44
Estadística Descriptiva

Histogramas:
Ejercicio

¿Producen las máquinas 1 y 3 con la misma dispersión?

Máquina 1 Máquina 3
Porcentaje Porcentaje
35 25

30
20
25

20 15

15
10
10
5
5

0 0
205 210 215 220 225 230 235 212 214 216 218 220 222 224 226 228
Pesos Pesos

45
Estadística Descriptiva

Histogramas: Tipos

200 120 200

150 150
80

100 100

40
50
50

0 0 0
30 35 40 45 50 55 60 65 70 25 30 35 40 45 50 55 60 65 70 75 0 5 10 15 20 25

Variabilidad natural Bimodal Sesgado a la derecha

200 200 200

150 150 150

100 100 100

50 50 50

0 0 0
35 40 45 50 55 60 65 70 75 80 85 90
30 35 40 45 50 55 60 65 70 35 40 45 50 55 60 65 70 75 80 85 90

Censurado Con anomalías, errores, etc.


46
Estadística Descriptiva

Boxplot (Diagrama de caja / bigotes)


Utilidad

Muestra la forma que sigue una variable continua


considerando medidas de tendencia central y
dispersión
Ventajas
• Revela la media, la variabilidad de los datos y la
forma de la distribución

• Permite detectar anomalías, la existencia de datos


que provienen de dos distribuciones distintas, los
valores que aparecen con más frecuencia, etc.
Limitaciones
No refleja la información temporal de los datos
No consiera el tamaño de la muestra
47
Estadística Descriptiva

Boxplot (Diagrama de caja / bigotes)


Fija la atención en las medidas de posición y los valores extremos

Orden: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

5, 7, 7, 9, 9, 9, 9, 9, 9, 9, 10, 11, 11, 11, 11, 11, 14, 15, 16, 18

Q1 Mediana Q3

Zona Zona Zona Zona


anomalías anomalías anomalías anomalías
extremas moderadas Q1 Q3 moderadas extremas

1,5*IQR 1,5*IQR IQR 1,5*IQR 1,5*IQR

* * * o

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

48
Estadística Descriptiva

Boxplot (Diagrama de caja / bigotes)

Peso en función del sexo en un grupo Evolución de la humedad de un producto


de 92 estudiantes (pienso) fabricado a lo largo de una semana

10

200

Humedad
Weight

9
150

100
8

1 2 Lunes Martes Miércoles Jueves Viernes

Sex

49
Estadística Descriptiva

Serie de Tiempo (Time Series Plot)


Utilidad

Muestra la evolución temporal de una variable


continua o discreta

Ventajas
• Recopilan de manera lineal en períodos de tiempo
adyacentes, potencialmente puede establecer
correlaciones, patrones, tendencias…
• Visión general en aspectos micro/macro económicos

Limitaciones
Escasez de la recogida de datos longitudinales

50
Estadística Descriptiva

Serie de Tiempo (Time Series Plot)

Time

51
Estadística Descriptiva

Otras representaciones gráficas

Diagrama de puntos Diagrama de sectores (Pie Chart)

Pictograma Diagrama de rectángulos

52
Estadística Descriptiva

Diagramas
bivariantes:
correlación causa y
efecto
Utilidad
Identifica correlación entre variables. También indica
la intensidad de la correlación.

Ventajas
• Ayuda a identificar que entrada o variable del
proceso puede estar relacionada con una salida del
proceso.

• Permite encontrar anomalías.

El diagrama de correlación muestra correlación entre variables,


! pero no implica relación de causa-efecto (no prueba que una
variable es causa directa de otra) 53
Estadística Descriptiva

Diagramas
bivarantes

54

También podría gustarte