Está en la página 1de 8

Estadstica descriptiva

1. Concepto de variable aleatoria y tipos de variables


1. Concepto de variable aleatoria
2. Clculo de medidas resumen para variables cuantitativas: Es una aplicacin que a cada suceso elemental
- de tendencia central: media, mediana, moda le hace corresponder un nmero real
- de dispersi n: rango, variancia, desviaci n tpica
Formalizacin matemtica de las variables
- de posici n: cuartiles, percentiles reales que estamos habituados a tratar
3. Representaciones grficas

Variables cuantitativas: Estudios


Sexo 1.Sin estudios Temperatura Peso, Talla
diagrama de puntos, diagrama de caja, histograma 1. Hombre 2.Primarios 35 C 60 kilos
2. Mujer 3.Secundarios 128 F 175 cm
Variables cualitativas:
4.Universitarios
tabulaci n, diagrama de barras, diagrama de sectores

4. Introduccin al SPSS

1. Tipos de variables

- Cualitativas: estudian una cualidad de las unidades de la


poblacin, como por ejemplo: sexo, color de los ojos, estado civil,
clase de fertilizante...

- Cuantitativas: estudian una caracterstica de la poblacin que


puede ser cuantificada, como por ejemplo: temperatura,
humedad, nmero de especies de una determinada zona...

- Discretas: solo pueden tomar unos determinados


valores, por ejemplo: nmero de hijos
- Continuas: pueden tomar cualquier valor dentro de un
intervalo, por ejemplo: temperatura

1. Tipos de variables Ejercicio

Sea la siguiente encuesta. Decidir, para cada una de


las preguntas o variables, el tipo al que pertenecen:
NOMINALES
1. Edad en aos
CUALITATIVAS 2. Sexo (1= hombre, 2= mujer)
ORDINALES 3. Nmero de hermanos (incluido uno mismo)
4. Lugar de nacimiento (1= Catalunya, 2= resto de Espaa, 3=
Variables
extranjero
estadsticas
DISCRETAS 5. Bronquitis crnica (1= si, 2= no)
6. Nmero de cigarrillos que fuma al da
CUANTITATIVAS 7. Nmero de tazas de caf que toma al da
8. Tiene dolores de cabeza (1= nunca, 2= a veces, 3= muchas veces,
CONTINUAS 4= siempre)
9. Peso en kilogramos
10. Talla en cent metros

1
2. Clculo de medidas resumen 2. Clculo de medidas resumen
Tendencia central: media
n
Medidas de tendencia central:
x
i =1
i
x 1 + x 2 + x3 + ... + x n
x= =
n n
media: x
Ejemplo: calcular la media de los siguientes datos
mediana: md
4, 2, 7, 1, 9
moda
4+2+7+1+9
x= = 4,6
5

0 1 2 3 4 5 6 7 8 9 10

2. Clculo de medidas resumen 2. Clculo de medidas resumen


Tendencia central: media Tendencia central: media

Indica el centro de gravedad de la distribuci n Alguna observaci n a la


izquierda con mucho peso
Tiene presente el valor de todos los datos de la distribuci n

Es un estad stico muy sensible (poco robusto) en presencia de datos


atpicos o extremos. Por esta raz n podemos calcular tambin la media
Alguna observaci n a la
truncada que se obtiene calculando la media de la variable despu s de
derecha con mucho peso
suprimir el 5% de los valores superiores y el 5% de los inferiores (u otro
porcentage). De esta forma, la media que se obtiene es ms robusta
ante la posible presencia de datos atpicos. Si los valores obtinidos son
diferentes, es senyal de presencia de datos atpicos. Si son iguales
puede o no haver datos atpicos. No hay observaciones
atpicas

2. Clculo de medidas resumen 2. Clculo de medidas resumen


Tendencia central: mediana
Tendencia central: mediana
Es el punto medio de los datos ordenados; es el valor que tiene por
enzima i per debajo el 50% de los datos ordenados

Ordena los Nmero impar de datos: Valor que queda en medio Indica el centro de la distribucin
valores
de pequeo Nmero par de datos: Promedio de los 2 centrales
a ms
No tiene en cuenta el valor de las observaciones
grande
Es un estadstico robusto en presencia de datos
Ejemplo: Calcular la mediana de: 4, 2, 7, 1, 9
atpicos
Los ordenamos de menor a mayor: 1, 2, 4, 7, 9

md
Mediana

0 1 2 3 4 5 6 7 8 9 10

2
2. Clculo de medidas resumen EJERCICIO:

Para poder calcular los rendimientos mdicos (horas trabajadas/horas


Tendencia central: moda
contratadas), decidimos averiguar los tiempos de las primeras visitas
Es el valor ms frecuente de la distribucin de los datos. No de Medicina Interna en las consultas externas de un hospital rea lizadas
tiene frmula durante el da de hoy.

Como primera informacin, decidimos llamar a recepcin y pedir que


Podemos tener ms de una moda tomen los tiempos y se los den a Estadstica para que calculen la
media, la mediana y la moda. Estadstica contesta:
Cuando todas las observaciones de una muestra tienen la
misma frecuencia decimos que la muestra no tiene moda n=6, media=62 moda=30 mediana=45
Tiene sentido para variables categricas
Cul de estos tres valores utilizara como medida de tendencia
central?

2. Clculo de medidas resumen 2. Clculo de medidas resumen


CENTRO Y SIMETRA:
CENTRO Y SIMETRA:

Distribuci n de datos
Distribucin de datos simtrica x= Md simtrica

Distribucin de datos sesgada a la derecha x > Md


Distribucin de datos sesgada a la izquierda x < Md Distribuci n de datos
sesgada a la derecha

Distribuci n de datos
sesgada a la izquierda

2. Clculo de medidas resumen 2. Clculo de medidas resumen

Medidas de dispersin: Dispersin: rango o amplitud

Rango = valor mximo valor mnimo


rango o amplitud: R, A
variancia: s 2 Fcil de utilizar pero poco informativo
(especialmente si se dispone de muchos datos)
desviacin tpica: s
Muy influenciable en presencia de valores extremos

R=8

0 1 2 3 4 5 6 7 8 9 10

3
2. Clculo de medidas resumen 2. Clculo de medidas resumen

Dispersin: variancia Dispersin: variancia

Promedio del cuadrado de las distancias de cada valor a


(9 4,6) 2 + (7 4,6) 2 + (4 4,6) 2 + (2 4,6) 2 + (1 4,6) 2
la media s2 = =
5-1
n

( x-x )
2 (4,4) 2 + (2,4) 2+ (- 0,6) 2+ (- 2,6) 2 + (- 3,6) 2
i = = 11,3
s2 = i = 1 4
n-1
0,6

2,6 2,4
La variancia mide el grado de dispersi n (variabilidad ) de los datos 3,6 4,4
alrededor de la media. x
0 1 2 3 4 5 6 7 8 9 10

4,6

2. Clculo de medidas resumen 2. Clculo de medidas resumen

Dispersin: desviacin tpica


Medidas de posicin:
s = s2

Medida de dispersi n de uso ms cuotidiano percentiles: Pq


Mismas unidades que los datos
Orden de magnitud comparable a los datos
cuartiles: Q1, Q2 , Q 3

Ejemplo: Pesos de 4 personas (en kg): 65, 94, 81, 72

Variancia: s2 = 156,67 kg 2 (!)


Desviacin t pica: s = 12,52 kg

Pero la desviaci n tpica no tiene las propiedades matemticas de la variancia

2. Clculo de medidas resumen 2. Clculo de medidas resumen

Posicin: percentiles Posicin: percentiles

Son los valores que dividen una serie ordenada de datos en q Ejemplo: calcular el percentil del 10% de los siguientes datos:
100 partes iguales, se representan por P1, P 2 ... P 99
3, 2, 5, 5, 2, 7, 1, 10, 7, 9, 14, 12, 13, 14, 10

El primer percentil, P1 , es el valor que tiene por debajo el 1% Ordenamos los datos:
de los datos ordenados; el segundo percentil, P2 , es el valor 1, 2, 2, 3, 5, 5, 7, 7, 9, 10, 10, 12, 13, 14, 14
que tiene por debajo el 2% de los datos ordenados...
Lugar que ocupa el P10 : 10x15/100 =1.5

El lugar que ocupa el primer percentil es el N/100 Cogemos el dato de la segunda posici n:

El lugar que ocupa el segundo percentil es el 2N/100 1, 2, 2, 3, 5, 5, 7, 7, 9, 10, 10, 12, 13, 14, 14
El lugar que ocupa el percentil 99 es el 99N/100
P10

4
2. Clculo de medidas resumen
2. Clculo de medidas resumen
Menor 50
52
57
Posicin: cuartiles 58
59 25 %
60
61
El percentil 25 (P 25) representa el 1r cuartil (Q1) 61 Q1 = 61: Primer cuartil
61
64
El percentil 50 (P 50) es la Mediana (Md) o 2do cuartil (Q 2) 68 75 %
Datos ordenados 69 50 %
de menos a m s 71
El percentil 75 (P 75) representa el 3r cuartil (Q3) 72
73 75,5 Mediana
78
78
80
81 50 %
82 75 %
82
84
86 Q3 = 86: Tercer cuartil
90
92
93
25 %
94
95
98
Mayor 100

3. Representaciones grficas

Para variables cuantitativas:


Vamos a recoger datos de nuestra
funcin pulmonar Diagrama de puntos (dot plot)
Diagrama de caja (box plot)
Tabla de frecuencias: histograma

3. Representaciones grficas 3. Representaciones grficas


Diagrama de puntos: dot plot Diagrama de caja: box plot
Fija la atenci n en las medidas de posici n y en los valores extremos
Representa cada dato como un punto encima de un eje
Cuando tenemos pocos datos, un diagrama de puntos es mejor que Orden: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

un histograma 5, 7, 7, 9, 9, 9, 9, 9, 9, 9, 10, 11, 11, 11, 11, 11, 14, 15, 16, 18

Q1 Mediana Q3
Ejemplo. Diagrama de puntos con los datos: 1, 2, 4, 7, 9
ltimos valores antes de entrar en zona de outliers

Zona Zona Zona Zona


0 1 2 3 4 5 6 7 8 9 10
outliers outliers outliers outliers
extremos moderados Q1 Q3 moderados extremos
1,5*IQR 1,5*IQR IQR 1,5*IQR 1,5*IQR
Ejemplo. Diagrama de puntos con los datos: 1, 2, 4, 7, 7, 9

* * * o
0 1 2 3 4 5 6 7 8 9 10

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

5
3. Representaciones grficas 3. Representaciones grficas

Box plot: ejemplos Tabla de frecuencias : Histograma

Ejemplo :
Peso en funci n del sexo en un grupo Evoluci n de la humedad de un producto
de 92 participantes en un estudio de obesidad fabricado en una semana

10

200
Hu med ad
Weig ht

9
150

100
8

1 2 Lunes Martes Mir coles J ueves Vier nes


Sex
TABLA 1: Longitud (cm) de 90 plantas

3. Representaciones grficas
3. Representaciones grficas
Tabla de frecuencias : Histograma
Tabla de frecuencias : Histograma
Necesitamos una solucin
Ejemplo : mejor, cuando tenemos
muchos datos distintos

AGRUPAR LOS DATOS EN


INTERVALOS!!

TABLA 1 bis: Longitud (cm) de 90 plantas (lista ordenada)

3. Representaciones grficas 3. Representaciones grficas


Tabla de frecuencias : Histograma Tabla de frecuencias : Histograma

NMERO DE INTERVALOS:

Tabla de frecuencias: 10 intervalos de clase

6
3. Representaciones grficas 3. Representaciones grficas
Tipos de histogramas (segn distintos datos ):
Tabla de frecuencias : Histograma
200 120 200

150
150
80

100
100

40
50
50

0 0 0
30 35 40 45 50 55 60 65 70 25 30 35 40 45 50 55 60 65 70 75 0 5 10 15 20 25

Variabilidad natural Bimodal Sesgado a la derecha

200 200
200

150 150 150

100 100 100

50 50 50

0 0 0
35 40 45 50 55 60 65 70 75 80 85 90 35 40 45 50 55 60 65 70 75 80 85 90
30 35 40 45 50 55 60 65 70

Censurado Con outliers, errores, etc,

3. Representaciones grficas
Tipos de histogramas (segn distintos datos ): 3. Representaciones grficas
Petit superposament Superposament mitj Superposament gran

100

Para variables cualitativas:


100 1 00
Fre q n ci a
Freq n ci a

Freq n ci a

50 50 50

Tabulacin
0 0 0
90 1 00 110
95 1 05 1 15 95 10 0 105 11 0

100

100
90
80

70
1 00
Diagrama de barras (bar chart)
Fre q n ci a
Freq n ci a

Freq n ci a

60
50
50 40
30
20
50
Diagrama de sectores (pie chart)
10

0 0 0
90 1 00 110
95 1 05 1 15 95 10 0 105 11 0

100 150
10 0
Fre q n ci a
Fre q n ci a

Fre q n ci a

100

50 50

50

0 0 0

95 1 05 1 15 90 10 0 110 95 1 00 105 110

3. Representaciones grficas 3. Representaciones grficas


Tabulacin: Tabulacin:
No tiene en cuenta
los missings en
Frecuencia absoluta: nk los clculos
Autovaloracin estado de salud
Frecuencia absoluta acumulada: Nk Cumulative
Frequency Percent Valid Percent Percent
Frecuencia relativa: fk Valid Excelente 7 4,2 4,2 4,2
Muy buena 30 18,1 18,1 22,3
fk= nk / N , donde N = nmero total de casos Buena 89 53,6 53,6 75,9
Regular 34 20,5 20,5 96,4
Mala
Frecuencia relativa acumulada: Fk Total
6 3,6 3,6 100,0
166 100,0 100,0
Fk= Nk / N
Frecuencia Frecuencia Frecuencia
Sexo nk Nk fk Fk absoluta Relativa relativa
(nk) (fk ) *100 Acumulada (Fk) *100
Hombre 57 57 0,62 (=57/92) 0,62
Mujer 35 92 0,38 (=35/92) 1
SPSS porcentua

7
3. Representaciones grficas 3. Representaciones grficas
Diagrama de barras Diagrama de sectores
Eje horizontal: valores discretos de la variable Cada sector representa un valor de la variable
Eje vertical: frecuencia absoluta o relativa El rea del sector representa su frecuencia relativa
(360 * fk)
Sobre cada valor de la variable se dibuja una barra con
altura igual a su nk o fk Distribuci n sexo

Distribucin sexo 38%


100

80 62%
62
60
38
40

20
0
Hombres Mujeres
Hombres Mujeres

INTRODUCCIN SPSS

También podría gustarte