Está en la página 1de 14

1.

Introducción
2. Análisis básico
2.1. Generalidades
2.2. Gráficos para variables cualitativas
Tema 1 2.3. Variables cuantitativas
2.4. Gráficos para variables cuantitativas
Estadística descriptiva 3. Medidas características
univariable 3.1. Generalidades
3.2. Medidas de tendencia central
3.3. Medidas de dispersión
3.4. Medidas de forma
4. Diagrama de Caja
Carlos Montes – uc3m

1. Introducción 1. Introducción

DATOS (MUESTRA)
¿Qué es la Estadística?
Elementos de información recopilados durante el estudio
(realizaciones de una variable)
Es una herramienta de aprendizaje
a partir de la observación.

Nos ayuda a extraer conclusiones


generalizables a partir de un conjunto de
datos observados  inducción o inferencia. CONCLUSIONES
sobre el fenómeno que los ha originado.
1. Introducción 1. Introducción

* Según su naturaleza, los datos pueden ser: * Según su naturaleza, los datos pueden ser:

 Datos cuantitativos.  Datos cuantitativos o numéricos.


Toman valores numéricos Toman valores numéricos
 Discretos: toman valores finitos.  Discretos: toman valores que se pueden enumerar
 Continuos: toman valores en un intervalo. (finitos o infinitos numerables).
 Continuos: toman valores en un intervalo.
 Datos cualitativos, categóricos o atributos.
No toman valores numéricos  Datos cualitativos, categóricos o atributos.
Su realización concreta es una cualidad o No toman valores numéricos.
modalidad. Su realización concreta es una cualidad o
modalidad.

Carlos Montes – uc3m

1. Introducción 1. Introducción

La cantidad de información
aportada por ambos tipos de variables OBJETIVO:
es muy distinta:
- Variables cualitativas inferir cómo será la población
de la variable de interés
a partir
de la información limitada
que nos aporta la muestra.
+ Variables cuantitativas
2.1. Análisis básico. Generalidades 2.1. Análisis básico. Generalidades

• Frecuencia
A la hora de enfrentarse
– absoluta (f): el número de veces que
a un conjunto de datos
aparece cada dato de la variable.
hay que comenzar realizando
– total (n): número total de datos de
dos operaciones básicas.
la variable (suma de frecuencias
absolutas).
– relativa (fr): cociente entre
ORDENAR RESUMIR frecuencia absoluta y frecuencia total.

Carlos Montes – uc3m

2.1. Análisis básico. Generalidades 2.1. Análisis básico. Generalidades

– acumulada: supuesta la ordenación de 0,4842 0,3789 0,1263


los datos de menor a mayor, la 46 94
frecuencia acumulada de xi es la suma 95 95
de frecuencias hasta el valor xi.
46 36 12
•Absoluta (F)
•Relativa (Fr)

Tabla de distribución de frecuencias


2.2. Gráficos para variables cualitativas 2.2. Gráficos para variables cualitativas

Diagrama de barras Barchart for residencia

Eje 1:valor o categoría 50

de la variable. 40

Eje 2:altura proporcional a

frequency
30

la frecuencia. 20

Encuesta en un periódico local


10

0
Piechart for residencia 1 2 3 4

1,05%
12,63% residencia
1
2
3
4

48,42%
Diagrama de tarta
círculo dividido en sectores
37,89%
proporcionales a la
frecuencia de cada valor.

Carlos Montes – uc3m

2.2. Gráficos para variables cualitativas 2.3. Variables cuantitativas

En variables cuantitativas el análisis de frecuencias se


realiza de la misma manera que en variables cualitativas.

 Absolutas
 Relativas
 Absolutas acumuladas
 Relativas acumuladas

Muchos valores diferentes

valores en clases o intervalos


(generalmente de la misma longitud)
2.3. Variables cuantitativas 2.4. Gráficos para variables cuantitativas

No confundir con el • Rango o recorrido de una variable: diferencia El histograma


rango intercuartílico. entre el mayor y el menor valor de ésta. es una
• Amplitud de un intervalo: diferencia entre representación
el extremo superior e inferior del mismo. para variables
• Marca de clase (mj): punto medio de agrupadas en
cada intervalo o clase, valor representativo intervalos.
de todos los datos del intervalo.
 Abscisas: intervalo de valor de la variable.
El número de clases r debe oscilar  Ordenadas: altura proporcional a la frecuencia,
entre 5 y 20; a menudo se escoge el de manera que las áreas de los rectángulos
entero más próximo a sean proporcionales a las frecuencias.
Carlos Montes – uc3m

2.4. Gráficos para variables cuantitativas 2.4. Gráficos para variables cuantitativas

Muestra las tendencias • Asimetrías: tendencia de los datos


generales de los datos: cuando nos alejamos de las zonas de
• Concentraciones: más de una concentración.
concentración  datos hetero- • Cola de la distribución de los
géneos. datos hacia +∞,  asimetría
• Huecos: indicio de que los positiva.
datos proceden de poblaciones • Cola de la distribución de los
diferentes. datos hacia −∞  asimetría
• Valores atípicos: aquellos que negativa.
se separan mucho del patrón
general que siguen los datos.
2.4. Gráficos para variables cuantitativas 2.4. Gráficos para variables cuantitativas

Números premiados en Euromillones desde su comienzo


Números premiados en Euromillones desde su comienzo
180 200

180

170
160

140
160

120

150 100

80

140
60

40
130

20

120 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

Carlos Montes – uc3m

2.4. Gráficos para variables cuantitativas 2.4. Gráficos para variables cuantitativas

* El polígono de frecuencias es una línea poligonal que * Ambos pueden construirse a partir de las frecuencias
resulta al unir los puntos centrales de la parte superior del acumuladas.
histograma.
3.1. Medidas características. Generalidades 3.1. Medidas características. Generalidades

Podemos distinguir:
* Son aquellas que nos permiten
 Tendencia central o centralización:
resumir con un solo número los rasgos
indican el valor medio de los datos.
fundamentales de la distribución.
 Dispersión: indican la variabilidad
de los datos.
* Deben acompañarse de herramientas
 Forma:
gráficas para evitar errores.
Simetría
Apuntamiento

Carlos Montes – uc3m

3.2. Medidas de tendencia central 3.2. Medidas de tendencia central


x j f (x j )
Media aritmética Propiedades de la media aritmética x= n

n
n n n

x j f (x j ) 1)  ( x − x ) =  x −  x = nx − nx = 0
i i

x= n i =1 i =1 i =1

n 2) y = x+k
n

 (x + k)  x  k  x
m j f (m j ) y= i =1
i
= n
i
+ n
= n
i
+
nk
= x+k
x= n  Error de agrupamiento n n n
n
n n
n  kxi  xi
3) y = kx y= i =1
=k n
= kx
n n
3.2. Medidas de tendencia central 3.2. Medidas de tendencia central

Es muy sensible a los datos atípicos. Es el centro de gravedad de los datos.

1, 2, 4, 5, 7, 9, 11, 13 x = 6,5

1, 2, 4, 5, 7, 9, 11, 130 x = 21,125

Para muestras muy asimétricas o con muchos datos


atípicos, la mediana es mejor medida de tendencia central. Si la distribución es asimétrica, se desplaza
respecto a la clase más frecuente, y deja de ser
una buena medida de centralización.
Carlos Montes – uc3m

3.2. Medidas de tendencia central 3.2. Medidas de tendencia central

Mediana  nº par de datos: media aritmética de


los valores centrales.
Valor de la muestra
que la divide en dos partes iguales. 2, 3, 4, 5, 7, 7, 9, 11

* Para calcular la mediana se ordenan los


datos de menor a mayor:
 nº impar de datos: valor central. 5 7
=6
2
2, 3, 4, 5, 7, 7, 9
3.2. Medidas de tendencia central 3.2. Medidas de tendencia central

 Si tenemos los datos organizados en La mediana NO es sensible a datos atípicos.


forma de tabla.
Accidentes mortales n f F N
0 7 0,039 0,039 7
1 26 0,144 0,183 33 La mediana Robustez
2 33 0,182 0,365 66
3 38 0,210 0,575 104 es el primer valor
4 29 0,160 0,735 133 donde se alcanza la 2, 3, 4, 5, 7, 7, 9
5 20 0,110 0,846 153
frecuencia relativa
6 15 0,083 0,929 168
7 9 0,050 0,978 177 acumulada 0,5. 2, 3, 4, 5, 7, 7, 87
8 2 0,011 0,989 179
9 2 0,011 1,000 181
10 0 0,000 1,000 181
>10 0 0,000 1,000 181
Total 181
Carlos Montes – uc3m

3.2. Medidas de tendencia central 3.2. Medidas de tendencia central

Moda
Es el valor más frecuente de la
distribución. En variables continuas puede que no se
repita ningún valor.
 Es apropiada para datos cualitativos o
cuantitativos discretos.
Pueden existir distribuciones con más de
 Pueden existir una o varias modas.
una moda.
 En una muestra continua solo podemos hablar de
un intervalo modal (el de mayor densidad de
frecuencia)
3.3. Medidas de dispersión 3.3. Medidas de dispersión

Varianza
Medidas de la separación de los datos
(generalmente, respecto a la media).
∑ ( − ̄) ( )
=
medida
+ representativa

- dispersión

Carlos Montes – uc3m

3.3. Medidas de dispersión 3.3. Medidas de dispersión

Propiedades de la varianza
Fórmula de cálculo 1) Es una cantidad acotada y positiva
2) La varianza NO se ve afectada por los cambios de
∑ ( ) origen (transformaciones aditivas)
= −!
 (x − x)
i
2

sx =
2 n
y = x+k
n
(y i − y)2  (x + k − x − k)
i
2
 (x − x)
i
2

sy = = = = sx
2 n n n 2

n n n
3.3. Medidas de dispersión 3.3. Medidas de dispersión

3) La varianza SÍ se ve afectada por los cambios de


escala (transformaciones multiplicativas) Una medida alternativa es la cuasivarianza

 (x − x)i
2

y = kx ̂ =
∑ ( − ̄) ( )
sx =
2 n

n −1
(y i − y)2  (kx − kx )
i
2
k 2  ( xi − x ) 2
sy = = = = k 2 sx
2 n n n 2

n n n
La mayoría de los programas estadísticos calculan la
"# = $ % " cuasivarianza en lugar de la varianza, y la llaman varianza.
Carlos Montes – uc3m

3.3. Medidas de dispersión 3.3. Medidas de dispersión

• La varianza mide el promedio de las desviaciones (al Desviación típica


cuadrado) de las observaciones respecto a la media.

• Al ser un cuadrado, siempre es positiva. Es la raíz cuadrada positiva de la varianza.

• Es muy sensible a datos atípicos. ∑ ( − ̄) ⋅ ( )


=
• Problema: unidades 168 cm2

desviación típica
3.3. Medidas de dispersión 3.3. Medidas de dispersión

Desviación típica Cuasidesviación típica


• Toma siempre valores no negativos.
• Ventaja: tiene las mismas unidades que la
• Para tamaños de
variable. ∑ ( − ̄) ( ) muestra grande, casi no
12,96 cm
̂ = hay diferencia.
−1

• Inconveniente: raíz cuadrada. La varianza es


más fácil de usar en operaciones matemáticas
al evitar la raíz.

Carlos Montes – uc3m

3.3. Medidas de dispersión 3.3. Medidas de dispersión

Cuantiles
Coeficiente de variación

Es una medida de dispersión relativa. Son los valores de la variable


que dividen la distribución en c partes iguales.
s
CV = • 100 x ≠ 0
/x/  Cuartiles (Q) c=4
Nos permite:  Quintiles (K) c=5
1) Comparar la dispersión entre distribuciones.  Percentiles (p) c=100
2) Evaluar la representatividad de la media.
3.3. Medidas de dispersión 3.4. Medidas de forma

Rango intercuartílico (RI)


Coeficiente de asimetría de Fisher
Es la diferencia
entre los percentiles 75 y 25
(o entre los cuartiles 3 y 1)  i
( x − x ) 3

CA = γ 1 = n

Mínimo summarytools
ns 3
Primer cuartil descr ( )
Mediana
Media
Tercer cuartil Ronald Aylmer Fisher
Máximo (1890-1962)
Carlos Montes – uc3m

3.4. Medidas de forma 3.4. Medidas de forma

Coeficiente de apuntamiento o curtosis


() =0  Distribución simétrica
Indica el mayor o menor agrupamiento de los datos
La media es igual que la mediana en torno a la media.
Como referencia se toma el apuntamiento
() >0  Distribución asimétrica positiva de la distribución normal, que cumple:
o asimétrica a derechas
La media es mayor que la mediana 0,4 Mean,Std. dev. CAp =
 (x − x)
i
4

=3
0,3
0,1

ns 4
0,2

 (x − x)
0,1

() <0  Distribución asimétrica negativa 0


4

= i
−3
-5 -3 -1 1 3 5

o asimétrica a izquierdas CAp


ns 4
La media es menor que la mediana (Exceso de curtosis)
3.4. Medidas de forma 4. Diagrama de caja

Representación gráfica de una distribución,


0,4

0,3
Mean,Std. dev.
0,1 construida para mostrar
CAp=0: mesocúrtica 0,2 sus características principales
y señalar los posibles datos atípicos.
0,1

0
-5 -3 -1 1 3 5

CAp>0: leptocúrtica
1,6

1,2

0,8

0,4

0
3,7 4,2 4,7 5,2 5,7 6,2 6,7

1,5
LI= Q1-1,5(Q3-Q1) LS= Q3+1,5(Q3-Q1)
1,2

CAp<0: platicúrtica 0,9

0,6
LIE= Q1-3(Q3-Q1) LSE= Q3+3(Q3-Q1)
0,3

0
0 0,2 0,4 0,6 0,8 1

Carlos Montes – uc3m

4. Diagrama de caja
máx. (no atípico)

Q1 Q3

Q2

mín. (no atípico)

También podría gustarte