Está en la página 1de 21

MURCIA ESPAÑA

Capı́tulo 4: Estadı́stica descriptiva


MÉTODOS ESTADÍSTICOS PARA
INTERPRETAACIÓN DE DATOS
(Fundamentos Matemáticos de la Biotecnologı́a)

Departamento de Matemáticas
Universidad de Murcia

UPTC
Capı́tulo 4: Estadı́stica descriptiva

Contenidos

Introducción a la estadı́stica

Tabulación de datos y representaciones gráficas

Medidas de posición y dispersión


La media aritmética y la mediana
La varianza y la desviación tı́pica
La covarianza

Curvas de regresión
La recta de regresión
La regresión exponencial
La regresión potencial
La regresión logarı́tmica
El coeficiente de correlación lineal
Capı́tulo 4: Estadı́stica descriptiva
Introducción a la estadı́stica

Definición de Estadı́stica

¿Qué es la Estadı́stica?
Es la ciencia que se ocupa de recoger, clasificar, representar y resumir los
datos de muestras extraı́das de poblaciones y que, a partir de esas
muestras, valiéndose del cálculo de probabilidades, se encarga de hacer
inferencias acerca de las poblaciones.

1 Estadı́stica descriptiva: es la parte de la estadı́stica que se ocupa de


recoger, clasificar, representar y resumir los datos de muestras
extraı́das de poblaciones.

2 Estadı́stica inferencial: es la parte de la estadı́stica que se ocupa de


sacar conclusiones (inferencias) acerca de las poblaciones a partir de
los datos de las muestras extraı́das de ellas.
Capı́tulo 4: Estadı́stica descriptiva
Introducción a la estadı́stica

Conceptos generales
Población: conjunto de individuos sobre los que se realiza la
investigación estadı́stica.
Muestra: subconjunto de individuos de la población.
Tamaño muestral: número de individuos de la muestra.
Variable: propiedad o cualidad que puede manifestarse bajo dos o
más formas distintas en un individuo de una población.
1 Cuantitativas: se expresan numéricamente. Pueden ser discretas
(toman valores numéricos aislados: edad, no de hijos...) y continuas
(toman cualquier valor dentro de unos lı́mites: altura, peso...).
2 Cualitativas: no se expresan numéricamente. Pueden ser dicotómicas
(sólo aceptan dos posibles resultados: sexo...), ordinales (admiten
una ordenación ascendente: escala militar...) y nominales (ninguno
de los dos tipos anteriores: color...).
Dato o valor: resultado de una variable obtenido en un individuo de
una muestra.
Clases: distintas formas en que se manifiesta una variable.
Capı́tulo 4: Estadı́stica descriptiva
Tabulación de datos y representaciones gráficas

Tabulación de datos

Frecuencia absoluta de la clase i-ésima: fi = número de veces que se


da dicha clase.
fi
Frecuencia relativa de la clase i-ésima: hi = , con n el tamaño
n
muestral.
Porcentaje de la clase i-ésima: %i = hi · 100.
Si k = número de clases distintas, se tiene que:

f1 + f2 + · · · + fk = n,
h1 + h2 + · · · + hk = 1,
%1 + %2 + · · · + %k = 100,
Capı́tulo 4: Estadı́stica descriptiva
Tabulación de datos y representaciones gráficas

Ejemplo de tabulación de datos


Tabla de recogida (no ordenada) de unos datos cualitativos:

francés inglés francés inglés francés alemán ruso español


francés inglés francés inglés español francés español francés
alemán inglés español inglés inglés español inglés francés
español ruso alemán francés inglés español alemán inglés
español francés alemán inglés inglés inglés español francés

La distribución de frecuencias de estos datos es:


clases fi hi %i
alemán 5 0,125 12,5
español 9 0,225 22,5
francés 11 0,275 27,5
inglés 13 0,325 32,5
ruso 2 0,050 5,0
suma 40 1 100
Capı́tulo 4: Estadı́stica descriptiva
Tabulación de datos y representaciones gráficas

Representaciones gráficas de variables cualitativas


Diagrama de barras (vertical): las
clases se sitúan en el eje OX y sobre
cada una de ellas se levanta una
“barra” (o un segmento rectilı́neo...)
de altura igual a la frecuencia o
porcentaje de cada clase. De modo
análogo se representarı́a el diagrama
de barras horizontal.

Gráfico de sectores: se divide el área


de un cı́rculo en sectores circulares
de ángulos proporcionales a las
frecuencias (o porcentajes) de las
clases. Esto implica que las áreas de
los sectores también son
proporcionales a las frecuencias
(porcentajes).
Capı́tulo 4: Estadı́stica descriptiva
Tabulación de datos y representaciones gráficas

Representaciones gráficas de variables cuantitativas

Diagrama de barras: igual que en las variables cualitativas.

Polı́gono de frecuencias o diagrama


de lı́neas: se sitúan en el eje de
abscisas los resultados de la variable
y en el eje de ordenadas sus
frecuencias o porcentajes, uniendo
después los puntos mediante
segmentos rectilı́neos.
Capı́tulo 4: Estadı́stica descriptiva
Medidas de posición y dispersión
La media aritmética y la mediana

Medidas de posición: media aritmética (o media)

La media aritmética
Si x1 , . . . , xn son n valores de una muestra, su media aritmética es:
x1 + x2 + · · · + xn
x= .
n
Notación: Pn
i=1 xi
x=
n

Si los datos son x1 , x2 , . . . , xk , con frecuencias absolutas respectivas f1 ,


f2 , . . ., fk (con f1 + f2 + · · · + fk = n), la media aritmética es:
Pk
i=1 xi fi
x= .
n
Capı́tulo 4: Estadı́stica descriptiva
Medidas de posición y dispersión
La media aritmética y la mediana

Medidas de posición: la mediana

La mediana Me
La mediana es el valor que deja por debajo el 50 % de los datos y por
arriba el 50 % restante, siempre que éstos se hayan ordenado de menor a
mayor.

Si el no de datos es impar, Me es el único dato central.


Si el no de datos es par, Me es la media aritmética de los dos datos
centrales.

Generalización de la mediana: el percentil al r % es el valor que deja


por debajo el r % de los datos y por arriba el (100-r) % restante.
Capı́tulo 4: Estadı́stica descriptiva
Medidas de posición y dispersión
La varianza y la desviación tı́pica

Medidas de dispersión: varianza y desviación tı́pica

Las medidas de dispersión son valores que miden el grado de separación


de las observaciones entre sı́ o con respecto a ciertas medidas de posición.

La varianza y la desviación tı́pica


Si x1 , . . . , xn son n valores de una muestra, se definen la varianza como
Pn
x2
s 2 = i=1 i − x 2 ,
n
y la desviación tı́pica como √
s= s 2.

Si s 2 ≈ 0, los datos están cerca de la media.


Capı́tulo 4: Estadı́stica descriptiva
Medidas de posición y dispersión
La covarianza

Covarianza entre dos variables estadı́sticas


La covarianza
Dadas dos variables X e Y , la covarianza entre X e Y es:
Pn
xi yi
sxy = i=1 − xy .
n

Ejemplo:

xi 61 118 57 123 125 122 122 85 85


yi 15 28 15 30 31 30 30 23 22

898 224
x= = 99.7, y= = 24.8,
9 9
23784 898 224
sxy = − = 159,3086419...
9 9 9
Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión

Representaciones gráficas bidimensionales


La representación gráfica más usual es el diagrama de dispersión o nube
de puntos.
xi 61 118 57 123 125 122 122 85 85 85 83 78 76 76 73 70 97 107
yi 15 28 15 30 31 30 30 23 22 22 23 23 23 21 21 21 25 29

35

30

25

20

15

10

0 X
60 70 80 90 100 110 120 130

¿Podemos construir una curva que la “aproxime”?


Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión

Curvas de regresión

Curva de regresión: curva ideal hacia la que tienden los puntos del
diagrama de dispersión.
Las curvas de regresión se pueden considerar:
1 de Y sobre X , o de X sobre Y (nos centraremos en las de Y sobre
X ; las otras son análogas).
2 de un tipo especial: lineal, parabólica, potencial, exponencial,
logarı́tmica, etc.

Recta de regresión de Y sobre X : lı́nea recta que mejor se aproxima


al diagrama de dispersión cuando los valores de la variable X están
en el eje horizontal y los valores de Y están en el eje vertical (es
decir, X es la variable independiente e Y es la variable dependiente).
Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión
La recta de regresión

Recta de regresión mı́nimo cuadrática

La recta de regresión (mı́nimo cuadrática) de Y sobre X es un ajuste a la


recta y = a + bx (por el “método de mı́nimos cuadrados”).

Regresión lineal
La ecuación de la recta de regresión de Y sobre X que mejor se ajusta
viene dada por
sxy sxy
y = a + bx, donde b= , a=y− x.
sx2 sx2
Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión
La regresión exponencial

Regresión exponencial
La regresión exponencial es el ajuste (por el método de mı́nimos
cuadrados) a una curva
y = ae bx .

Tomamos logaritmos neperianos: ln y = ln a + bx.

Regresión exponencial
Haciendo el cambio y 0 = ln y , A = ln a, queda
y 0 = A + bx,
con lo que se reduce a un ajuste lineal entre las variables Y 0 y X .

También puede considerarse el ajuste a una curva y = abx . En este caso:

ln y = ln a + x ln b,

y haciendo el cambio y 0 = ln y , A = ln a, B = ln b, queda reducido


también al ajuste lineal y 0 = A + Bx.
Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión
La regresión potencial

Regresión potencial

La regresión potencial es el ajuste (por el método de mı́nimos cuadrados)


a una curva
y = ax b .

Tomamos logaritmos neperianos: ln y = ln a + b ln x.

Regresión potencial
Haciendo el cambio y 0 = ln y , A = ln a, x 0 = ln x, queda

y 0 = A + bx 0 ,

con lo que se reduce a un ajuste lineal entre las variables Y 0 y X 0 .


Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión
La regresión logarı́tmica

Regresión logarı́tmica

La regresión logarı́tmica es el ajuste (por el método de mı́nimos


cuadrados) a una curva
y = a + b ln x.

Regresión logarı́tmica
Haciendo el cambio x 0 = ln x, queda

y = a + bx 0 ,

con lo que se reduce a un ajuste lineal entre las variables Y y X 0 .


Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión
La regresión logarı́tmica

Curvas de regresión

Regresión lineal

Regresión exponencial

¿Regresión logarı́tmica?
Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión
El coeficiente de correlación lineal

Coeficiente de correlación lineal de Pearson


El coeficiente de correlación lineal de Pearson de las variables X e Y es:
sxy
r= .
sx sy
1 −1 ≤ r ≤ 1.
2 Si r = 1 (r = −1), existe dependencia lineal positiva (negativa)
exacta entre X e Y .
3 Si r = 0, no existe dependencia lineal entre X e Y .
4 Si r se aproxima a 1 (o a −1), mayor es la dependencia lineal entre
X e Y : los puntos del diagrama de dispersión estarán próximos a la
recta de regresión, que puede usarse para calcular, de forma
aproximada, el valor de Y a partir del valor de X .
5 Si r se aproxima a 0, mayor es la independencia lineal entre X e Y .
6 Si r > 0 (r < 0), al aumentar X aumenta (disminuye) Y .
Capı́tulo 4: Estadı́stica descriptiva
Curvas de regresión
El coeficiente de correlación lineal

Ejemplo
La ley de Hook establece que el alargamiento de un muelle es proporcional a la
fuerza aplicada: L = L0 + αF (L0 = longitud inicial, α = constante del muelle).
Se han obtenido los siguientes datos experimentalmente:
Fuerza xi Longitud yi xi2 yi2 xi yi
2 3 4 9 6 ¿Cuál es la constante
4 6 16 36 24 del resorte? ¿Y la
6 8 36 64 48 longitud inicial?
8 9 64 81 72 y = L0 + αx, ¿L0 , α?
Suma: 20 26 120 190 150
P 2
20 26 13 xi 120
x= = 5, y = = , sx2 = − x2 = − 25 = 5.
4P 4 2 n 4
xi yi 150 65
sxy = − xy = − = 5.
n 4 2
sxy 5 13 3
α = 2 = = 1; L0 = y − αx = −5= .
sx 5 2 2
sxy 5
¿Fiabilidad? r = = √ ≈ 0,975 −→ muy bueno.
sx sy 5 · 5,25

También podría gustarte