Está en la página 1de 22

Tema 1: Estadı́stica descriptiva

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 1


Introducción

Objetivo: estudiar una caracterı́stica o variable en una población.

Ejemplos:
• Longitud de los peces de una cierta especie en un lago
• Marca de e-book preferida por un comprador
• Número de libros que un español lee al año

A veces es imposible o demasiado caro observar la variable en toda


la población, ası́ que se extrae una muestra.

Objetivo de la Estadı́stica Descriptiva: Hacer una descripción


sencilla (numérica o gráfica) de la información contenida en la
muestra.

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 2


Clases importantes de variables estadı́sticas

Variables cualitativas

Son cualidades o atributos de los individuos. No son un número:


no podemos operar con sus valores.

Ejemplos:
• Sexo de un individuo: hombre o mujer
• Grado de reacciones secundarias a un tratamiento oncológico (alto,
medio, bajo)
• Tiempo (soleado, lluvioso, parcialmente cubierto, ...) en una zona

A veces se asigna un número a cada una de las cualidades. Por ej.,


si la v. cualitativa es el sexo, podemos asignar a hombres el
número 0 y a mujeres el número 1.

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 3


Tenemos una muestra de tamaño n: hemos observado n datos, que
agrupamos en K categorı́as o clases.
Ejemplo: Variable = Color de los coches que atraviesan un
semáforo.
Categorı́a= Rojo, verde, blanco, negro, otros ⇒ K =
Llamamos frecuencia absoluta al número de coches observados en
cada una de las categorı́as:

n1 = 23, n2 = 5, n3 = 20, n4 = 7, n5 = 15 ⇒ n =
ni
La proporción de datos observados en cada clase fi = se
n
denomina frecuencia relativa. Observemos que siempre fi ≥ 0 y
f1 + f2 + . . . + fK = 1.
Representaciones gráficas: diagrama de barras, diagrama de
sectores.

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 4


Variables cuantitativas
Miden algo cuantificable en cada individuo. Toman valores
numéricos.
Si la variable cuantitativa sólo puede tomar una cantidad finita o
numerable de valores entonces es una variable discreta.
Ejemplos: Número de hijos de una familia, número de goles de un
equipo en cada partido, número de accesos diarios a una página
web.
Las variables continuas pueden tomar una cantidad infinita no
numerable de valores.
Ejemplos: La estatura de una persona, el nivel de alcohol en
sangre de un individuo, el contenido en hierro de un mineral.
En la práctica siempre hay un lı́mite de precisión en el número de
dı́gitos con el que expresamos una variable continua.

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 5


Descripción gráfica de variables cuantitativas
Variables discretas: diagrama de barras
Ejemplo: Se realiza un examen tipo test con 5 preguntas a un
grupo de estudiantes.
No respuestas No estudiantes (n ) Frecuencia Frecuencia
correctas i relativa fi acumulada Fi
0 3 3/50 3
1 11 11/50 14
2 9 9/50 23
3 20 20/50 43
4 5 5/50 48
5 2 2/50 50
n = 50 1

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 6


20

15
Recuento

10

0
0 1 2 3 4 5
Respuestas

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 7


Variables continuas: histograma
Se agrupan los datos en una serie de clases o intervalos A1 , . . . , Ak .
Calculamos la frecuencia absoluta ni de cada intervalo Ai (no de
observaciones en Ai ). Cada dato debe pertenecer a sólo una clase.
Se representan los lı́mites de los intervalos sobre el eje de abscisas.
Luego se dibujan rectángulos cuya base es el intervalo y cuya
altura es la frecuencia absoluta de cada intervalo (ni ).
En la práctica, dadas unas observaciones, elegimos nosotros el
lı́mite inferior del primer intervalo y la amplitud.

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 8


Ejemplo: En 1798 Cavendish estimó la densidad de la tierra
utilizando una balanza de torsión. Sus 29 medidas de la densidad
de la tierra, tomando la densidad del agua igual a 1, fueron

5.50 5.57 5.42 5.61 5.53 5.47 4.88 5.62 5.63 4.07
5.29 5.34 5.26 5.44 5.46 5.55 5.34 5.30 5.36 5.79
5.75 5.29 5.10 5.86 5.58 5.27 5.85 5.65 5.39

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 9


Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 10
Resumen numérico de datos cuantitativos

Medidas de centralización, posición o localización


Informan acerca de la posición alrededor de la cual se “centran” o
distribuyen los datos x1 , . . . , xn (muestra aleatoria).

Pn
x1 +x2 +...+xn i=1 xi
media muestral= x̄ = n = n

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 11


La mediana es el dato que ocupa el lugar central respecto a los
datos ordenados x(1) , x(2) , . . . , x(n) .
Si el tamaño muestral es impar (n = 2m + 1), med = xm+1 .
xm + xm+1
Si el tamaño muestral es par (n = 2m), med = .
2

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 12


Medidas de dispersión o variabilidad
Dispersión respecto a la media
La media es un valor representativo de la variable de interés en la
población o en la muestra. Por tanto, es útil para comparar
poblaciones o muestras entre sı́.
Sin embargo, lo bien o lo mal que la media represente a la muestra
depende de la dispersión de ésta.
Si los datos están agrupados cerca de la media, ésta será muy
representativa de la localización de los datos.
Por el contrario, si los datos están muy dispersos, la media no será
un buen representante de las observaciones.

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 13


Ejemplo:

Nota obtenida
2 3 4 5 6 7 8 9 10
No alumnos grupo A 0 0 0 40 60 0 0 0 0
No alumnos grupo B 1 5 15 24 31 18 4 1 1
No alumnos grupo C 6 12 14 18 24 9 3 5 9
Grupo A Grupo B Grupo C
60 60 60

50 50 50

40 40 40
Frecuencia

Frecuencia

Frecuencia
30 30 30

20 20 20

10 10 10

0 0 0
2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 10
Nota Nota Nota

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 14


Cuantificamos la dispersión de la muestra x1 , . . . , xn en torno a la
media mediante la varianza muestral:

1 Pn 1 Pn
vx = n i=1 (xi − x̄)2 = n
2
i=1 xi − (x̄)2 = x 2 − (x̄)2

La desviación tı́pica se define como la raı́z cuadrada de la varianza.

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 15


Dispersión respecto a la mediana
Ordenamos las observaciones x1 , x2 , . . . , xn de menor a mayor:
x(1) , x(2) , . . . , x(n) .

(
mediana(x(1) , . . . , x( 1 n) ) si n es par
Q1 = Primer cuartil= 2
mediana(x(1) , . . . , x( 1 (n−1)) ) si n es impar
2
Q2 = Mediana
(
mediana(x( 1 (n+2)) , . . . , x(n) ) si n es par
Q3 = Tercer cuartil= 2
mediana(x( 1 (n+1)) , . . . , x(n) ) si n es impar
2

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 16


El rango intercuartı́lico (RI) es la diferencia entre el primer y el
tercer cuartil: RI = Q3 − Q1 .
Si separamos los datos ordenados en cuatro grupos con el mismo
número de observaciones, el RI mide la distancia entre los dos
grupos más extremos.

Para visualizar estas medidas de dispersión respecto a la mediana


se utiliza el diagrama de caja (box plot).
Es especialmente útil para comparar grupos de datos entre sı́.
Para construir el diagrama de caja de la muestra, calculamos Q1 ,
Q2 , Q3 , RI y los lı́mites inferior y superior del diagrama
LI = La menor observación en el intervalo
[Q1 − 1.5 · RI, Q3 + 1.5 · RI]
LS = La mayor observación en el mismo intervalo

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 17


Ejemplo:

5.75

5.5

5.25

4.75

4.5

4.25

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 18


Estadı́stica descriptiva de dos variables (bivariante)

Ahora estamos interesados en dos variables estadı́sticas X e Y o


un vector bidimensional (X , Y ) en cada individuo de una población.

X −→ x1 , x2 , . . . , xn
−→ (x1 , y1 ), . . . , (xn , yn )
Y −→ y1 , y2 , . . . , yn

La covarianza muestral entre X e Y se define como:

1 Pn 1 Pn
covx,y = n i=1 (xi − x̄)(yi − ȳ ) = n i=1 xi yi − x̄ ȳ = xy − x̄ ȳ

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 19


A partir de la información muestral deseamos encontrar una
relación funcional aproximada entre Y y X : Y ' g (X ).

Por ejemplo, podemos estudiar un ajuste lineal entre Y y X . La


recta de regresión de Y sobre X es la recta y = a + bx que
minimiza el error cuadrático medio:
n
1X
ECM = (yi − a − bxi )2 .
n
i=1

En tal caso se obtiene que los valores de a y b que minimizan el


error cuadrático medio son:

covx,y a = ȳ − bx̄
b= vx

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 20


El coeficiente de correlación

cov
√ x,y
r =ρ= vx vy

mide el grado de relación lineal entre X e Y .


Sólo puede tomar valores entre -1 y 1.
Un valor de r cercano a 0 indica ausencia de relación lineal.

−0.2

−0.4
y

−0.6

−0.8

−1

3.2 3.4 3.6 3.8 4


x

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 21


A menudo la relación lineal y = a + bx no será la que mejor
describa la relación entre X e Y , o simplemente no tendrá sentido.
Una solución sencilla es transformar las variables Y y/o X
mediante una función no lineal (log x, x 2 , e x , . . . ) y calcular la
recta de regresión entre las variables transformadas.
Por ejemplo:
• Para encontrar los coeficientes de un ajuste de tipo
logarı́tmico y = a + b ln(x) se calcula la recta de regresión de
y sobre t = ln(x);
• Para encontrar los coeficientes de un ajuste de tipo
exponencial y = ae bx se calcula la recta de regresión de
t = ln(y ) sobre x.

Probabilidad y Estadı́stica (Ing. Informática). Tema 1: Estadı́stica descriptiva 22

También podría gustarte