Está en la página 1de 29

ESTADÍSTICA

Grado de Biología

Bloque I. ESTADÍSTICA
DESCRIPTIVA

TEMA 5: Análisis bivariante

Prof. Dra. Genoveva Dancausa Millán


Correo: z62damim@uco.es
Índice
1. El Análisis de Datos y la Estadística

2. Escalas de medida
2.1. Variables no numéricas
2.2. Variables numéricas

3. Distribuciones de frecuencias univariantes


3.1. Variables numéricas continuas: histogramas
3.2. Variables numéricas discretas: diagramas de barras
3.3. Variables no numéricas
Índice
4. Medidas descriptivas de variables numéricas
4.1. Medidas de tendencia central
4.2. Medidas de variabilidad
4.3. Cuantiles y otras medidas descriptivas
4.4. Datos temporales
4.5. Medidas de concentración: curva de Lorenz

5. Análisis bivariante
5.1. Correlación
5.2. Regresión.
5.3. Tablas de contingencia.
5. Análisis bivariante
Coeficiente de correlación de Pearson
 Decimos que dos variables, X e Y están correlacionadas cuando hay una
relación cuantitativa entre ellas.
 La relación entre ambas variables puede ser CAUSAL o NO.
Ejemplo: Velocidad que alcanza un coche con la potencia de su motor.
Altura y peso de un niño
 Es una medida de asociación lineal que toma valores en el intervalo
rxy ϵ [-1;+1]
 El grado de asociación lo indica el valor del coeficiente en valores absolutos.
Indicando el signo el tipo de relación directa o inversa.
Ejemplo:
El grado de asociación es el mismo dado que en valores
rxy = -0,8 absolutos este supone el 80%. Pero el tipo de relación es
diferente porque una es directa(signo positivo) y la otra
rxy = 0,8 inversa(signo negativo)
5. Análisis bivariante
Coeficiente de correlación de Pearson
Los procedimientos para determinar la existencia y grado de relación lineal entre dos
variables deben ser también capaces de discriminar entre los tres tipos de relación
lineal que hay.
Supongamos las variables X e Y:

 Relación lineal positiva o directa: cuando los valores altos en Y tienden a emparejarse
con valores altos en X, los valores intermedios en Y tienden a emparejarse con valores
intermedios en X y los valores bajos en Y tienden a emparejarse con valores bajos en X
Ejemplo: motivación y rendimiento
 Relación lineal negativa o inversa: cuando los valores altos en Y tienden a
emparejarse con valores bajos en X, los valores intermedios en Y tienden a
emparejarse con valores intermedios en X y los valores bajos en Y tienden a
emparejarse con valores altos en X

Ejemplo: Tiempo de realización de una tarea y número de errores


Px de un bien con la demanda del mismo
5. Análisis bivariante
Coeficiente de correlación de Pearson
 Relación nula: cuando no hay un emparejamiento sistemático
entre ellas en función de sus valores. El coeficiente de
correlacion, en este caso, seria 0.
Ejemplo: estatura y rendimiento
Veamos los siguientes conjuntos de datos que representan las
relaciones anteriores
SUJ MOTIV RENDIM SUJ TIEMPO ERRORES SUJ ESTATU. INTELI.
(X) (Y) (X) (Y) (X) (Y)
1 9 5 1 7 4
1 7 3
2 12 5 2 11 2
2 8 1
3 6 1 3 5 4
3 5 3
4 9 4 4 5 5
4 12 3
5 7 2 5 6 4
5 8 2
6 9 2 6 9 4
6 9 4
7 5 1 7 13 1
7 7 4
8 9 3 8 8 2
8 6 4
9 7 3 9 4 5
9 6 3
10 3 1 10 9 3
10 9 2
11 10 4 11 6 3
11 9 3
12 6 2 12 10 2
12 6 2
13 11 5 13 11 1
13 10 2
14 4 2 14 9 2
14 10 4
15 13 5 15 7 3
15 8 5
Relación lineal positiva. Relación lineal negativa.
Motivación y rendimiento Tiempo en una tarea y
numero de errores

Ausencia de
relación lineal.
Estatura e
Inteligencia
5. Análisis bivariante
Coeficiente de correlación de Pearson
¿Cómo se calcula?
 Se define a partir de la expresión siguiente donde el numerador Sxy se denomina
covarianza entre X e Y, y el denominador es el producto de las desviaciones típicas
de ambas variables.

Si rxy >0, existirá una relación


lineal positiva o directa
Si rxy <0, existirá una relación
lineal negativa o inversa
5. Análisis bivariante
Coeficiente de correlación de Pearson
S xy
rxy     1, 1
S xS y
5. Análisis bivariante
Se quiere analizar si el PH en sangre esta relacionado con la edad. Para ello se ha
tomado una muestra de 10 pacientes. ¿Están relacionada las variables edad y Ph?
Pacientes Nivel de Ph Edad
de la sangre
Paciente 1 7,2 30
Paciente 2 7,3 24
Dibujar el diagrama de puntos y
Paciente 3 7,5 19
calcular el coeficiente de
Paciente 4 7,5 32 correlación.
Paciente 5 7,4 45
Paciente 6 7,1 27
Paciente 7 7,2 18
Paciente 8 7,1 21
Paciente 9 7,4 47
Paciente 10 7,4 50
5. Análisis bivariante
Pacientes Nivel de Ph Edad
de la
sangre
Paciente 1 7,2 30 7,2-7,31=-0,11 30-31,3=-1,1 0,121
Paciente 2 7,3 24 7,3-7,31=-0,01 24-31,3=-7,3 0,073
Paciente 3 7,5 19 7,5-7,31=0,19 19-31,3=12,3 2,337
Paciente 4 7,5 32 7,5-7,31=0,19 32-31,3=0,7 0,133
Paciente 5 7,4 45 7,4-7,31=0,09 45-31,3=13,7 1,233
Paciente 6 7,1 27 7,1-7,31=-0,21 27-31,3=-4,3 0,903
Paciente 7 7,2 18 7,2-7,31=-0,11 18-31,3=-13,3 1,463
Paciente 8 7,1 21 7,1-7,31=-0,21 21-31,3=-10,3 2,163
Paciente 9 7,4 47 7,4-7,31=0,09 47-31,3=15,7 1,413
Paciente 10 7,4 50 7,4-7,31=0,09 50-31,3=18,7 1,683
5. Análisis bivariante
Se desea obtener el máximo rendimiento de unos microscopios de alta precisión.
Se toma una muestra de 10 microscopios, y se le aplican distintos calibres a las
lentes observándose distintos errores en las mediciones.

MICROSCOPIOS CALIBRE Nº DE ERRORES


1 0,71 12
2 0,67 10
3 1,98 4
4 1,61 2
5 0,67 6
6 1,48 5
7 0,25 16
8 1,44 3
9 1,06 4
10 0,95 8
5. Análisis bivariante
MICROSCOPIOS CALIBRE Nº DE
ERRORES
1 0,71 12 0,71-1,082=-0,372 12-7=5 -1,86
2 0,67 10 0,67-1,082=-0,412 10-7=3 -1,236
3 1,98 4 1,98-1,082=0,898 4-7=-3 -2,694
4 1,61 2 1,61-1,082=0,528 2-7=-5 -2,64
5 0,67 6 0,67-1,082=-0,412 6-7=-1 0,412
6 1,48 5 1,48-1,082=0,398 5-7=-2 -0,796
7 0,25 16 0,25-1,082=-0,832 16-7=9 -7,488
8 1,44 3 1,44-1,082=0,358 3-7=-4 -1,432
9 1,06 4 1,06-1,082=-0,022 4-7=-3 0,066
10 0,95 8 0,95-1,082=-0,132 8-7=1 -0,132
rxy = -0,829
Relación lineal negativa o inversa
5. Análisis bivariante
Modelo de regresión lineal simple
El objetivo de un modelo de regresión lineal simple es tratar de explicar la
relación que existe entre una variable dependiente o endógena (Y) y una sola
variable independiente o predeterminada (X).

y= a+bx +e= 𝒚+e


 a y b son coeficientes de regresión.
 e representa el error o residuo, es la parte de Y no explicada por la variable
X.
 Para estimar los coeficientes se utiliza el método de mínimos cuadrados
ordinarios, el cual pretende minimizar el sumatorio de los errores al
cuadrado.
 Al tener dos coeficientes, la función tendrá dos mínimos, que nos permitirán
obtener las ecuaciones de los coeficientes.
5. Análisis bivariante
Modelo de regresión lineal simple
 PROPIEDADES DESCRIPTIVAS DE LA RECTA DE REGRESION
1) El sumatorio de los errores debe ser igual a 0. ∑e=0
2) La media de la y debe ser igual a la media de la y estimada.
𝒚=𝒚
3) La recta de regresión debe de contener los puntos medios de las
variables que la forman(media de x y media de y). 𝒚=a+b𝒙
4) El sumatorio de la y estimada por el error debe ser igual a 0.
∑𝒚*e=0
5) El sumatorio de la x por el error debe ser igual a 0. ∑x*e=0
5. Análisis bivariante

Cálculo de la pendiente(b) Cálculo de los mínimos cuadrados(ordenada o


punto de partida de la recta)
Σ𝑥𝑦 − 𝑛𝑥 𝑦
𝑏= 2 a= 𝑦 − (𝑏 ∗ 𝑥)
Σ𝑥 − 𝑛𝑥 2

Cálculo del error(e)

𝑒 =𝑦−𝑦
5. Análisis bivariante
Bondad de ajuste. Coeficiente de determinación
El coeficiente de determinación es la proporción de la varianza total de la
variable explicada por la regresión. Es también denominado R cuadrado y sirve
para reflejar la bondad del ajuste de un modelo a la variable que se pretende
explicar.  S 
2
2
S
R 2  R 2xy   xy   1  2   0 ; 1 
S S  Sy
 x y
Ejemplo:

C
C Ĉ  a  b  H

C
H


C  5.65 ; S C2  4.4275 9.975
b   0.3757
SHC  9.975  26.55
a  5.65  0.3757  15.5  0.1733
H  15.5 ; S H  26.55
2
H
El modelo obtenido es: Ĉ  0.1733  0.3757  H
5. Análisis bivariante
Bondad de ajuste. Coeficiente de determinación

Para el ejemplo anterior, el coeficiente de determinación sería:

2
SCH 9.9762
R R
2 2
 2 2   0.8464
SCS H 4.4275  26.55
CH

El modelo explica el 84.64% de la varianza de la Calificación en función del Nº de Horas de


Estudio.

Estimación para un alumno que ha estudiado 23 horas:

Ĉ H  23  0.1733  0.3757  23  8.46


5. Análisis bivariante
Modelo de regresión lineal simple
Use el método de mínimos cuadrados para determinar la ecuación de la recta que mejor se
ajusta para los datos.
Se pide:
1. Representar los datos gráficamente.
2. Determinar la ecuación de la recta.

Individuos Consumo de Presión arterial


tabaco(cigarrilos/dia)

1 20 17
2 22 15
3 4 10
4 2 8
5. Análisis bivariante
Se pide:
1. Representar los datos gráficamente. 2. Determinar la ecuación de la recta.

VALORES Y Consumo Presión ∑x*y ∑x²


20 de arterial(y)
tabaco(x)
15

10 20 17 340 400
5 22 15 330 484
0
0 5 10 15 20 25 4 10 40 16
2 8 16 4
Y en el eje de ∑x=48 ∑y=50 ∑x*y=726 ∑x²=904
ordenadas(vertical)
Xeje de
abcisas(horizontal) b=[726-(4*12*12,5)]/[904-(4*12²)]= 0,3841
5. Análisis bivariante
2. Determinar la ecuación de la recta. y= a+bx +e=> y=7,89+0,3841x+e
Consumo de Presión ∑x*y ∑x² 𝐲 =7,89+0,3841x e=y-𝒚
tabaco(x) arterial(y)

20 17 340 400 𝒚 =7,89+0,3841∗20=15,57 e1=17-15,57=1,43

22 15 330 484 𝒚 =7,89+0,3841∗22=16,34 e2=15-16,34=-1,34

4 10 40 16 𝒚 =7,89+0,3841∗4=9,42 e3=10-9,42=0,58

2 8 16 4 𝒚 =7,89+0,3841∗2=8,66 e4=8-8,66=-0,66

∑x=48 ∑y=50 ∑x*y=726 ∑x²=904 ∑𝒚=49,99 ∑e=0

Una vez que hemos hallado uno


de los mínimos cuadrados(b),
hallamos el otro (a)

a= 12,5-0,3841*12= 7,89
5. Análisis bivariante
Género Nivel de Edad
De una muestra de 12 personas, se analizan
el nivel de oxígeno en sangre en función de oxigeno

las edades de dichas personas. Hombre 99 36


Se pide:
Mujer 97 25
1. Representar los datos gráficamente.
Mujer 91 41
2. ¿Cuáles son los valores de los coeficientes del modelo?
Hombre 92 38
3. Determinar la ecuación de la recta.
4. ¿Se cumplen todas las propiedades? Hombre 99 29

5. ¿Cuál es el modelo estimado y cuál el modelo Hombre 98 30


muestral?
Mujer 90 46

Hombre 97 51
5. Análisis bivariante Tablas de contingencia
Son tablas de doble entrada
en las que se representan la distribución bidimensional de las variables.
Por ejemplo, supongamos que podemos aglutinar las diferentes respuestas a una
cierta pregunta en cuatro categorías W,X,Y y Z, y que intentamos relacionar
estar respuesta al nivel cultural del sujeto a estudiar. La tabla de contingencia
será la siguiente:
Las frecuencias
Estudios observadas se
Estudios
primarios
Bachillerato Total construyen de la
Respuesta siguiente
𝒏𝟏𝟏 𝒏𝟏𝟐 manera: 𝒏𝒇𝒄
W 𝒏𝟏. f=número de la fila
X 𝒏𝟐𝟏 𝒏𝟐𝟐
𝒏𝟐. c=número de la
columna
𝒏𝟑𝟏 𝒏𝟑𝟐
Y 𝒏𝟑.
𝒏𝟒𝟏 𝒏𝟒𝟐
Z 𝒏𝟒.

Total 𝒏.𝟏 𝒏.𝟐 n


5. Análisis bivariante
Tablas de contingencia
Otra forma de disponer los resultados puede ser:

𝒙𝒊 𝒚𝒋 𝒏𝒊𝒋

𝒙𝟏 𝒚𝟏 𝒏𝟏𝟏

𝒙𝒊 𝒚𝒋 𝒏𝒊𝒋

𝒙𝒉 𝒚𝒌 𝒏𝒉𝒌
5. Análisis bivariante Tablas de contingencia
Ejemplo: Se desea analizar la relación que existe entre la variable salario y
sexo. Para ello, se pide contrastar la hipótesis nula de que ambas variables son
independientes, frente a la hipótesis alternativa de que están relacionadas, con
un nivel de significación del 5%.
Sexo
Hombre Mujer Total
Salario
0-900 30 𝒏𝟏𝟏 50 𝒏𝟏𝟐 𝟖𝟎 𝒏𝟏.
901-1200 40 𝒏𝟐𝟏 20 𝒏𝟐𝟐 60 𝒏𝟐.
+1200 60 𝒏𝟑𝟏 10 𝒏𝟑𝟐 70 𝒏𝟑.

Total 130 𝒏.𝟏 80 𝒏.𝟐 𝟐𝟏𝟎


1- Una vez puestas las frecuencias observadas en nuestra
tabla, tenemos que calcular las frecuencias esperadas
5. Análisis bivariante
Tablas de contingencia
2- Para calcular las frecuencias esperadas, tenemos que usar la tabla
anterior para guiarnos con las frecuencias obtenidas:
𝒏𝟏. ∗𝒏.𝟏 80∗130
𝑬𝟏𝟏 = = = 49,5
𝑛 210

Sexo 𝒏𝟏. ∗𝒏.𝟐 80∗80


𝑬𝟏𝟐 = = = 30,47
Hombre Mujer Total 𝑛 210
Salario
𝒏𝟐. ∗𝒏.𝟏 60∗130
𝑬𝟐𝟏 = = =37,14
0-900 49,5 30,47 𝟖𝟎 𝒏𝟏. 𝑛 210

901-1200 37,14 22,85 60 𝒏𝟐. 𝑬𝟐𝟐 =


𝒏𝟐. ∗𝒏.𝟐
𝑛
=
60∗80
210
=22,85
+1200 43,33 26,66 70 𝒏𝟑. 𝒏𝟑. ∗𝒏.𝟏 70∗130
𝑬𝟑𝟏 = = = 43,33
𝑛 210

Total 130 𝒏.𝟏 80 𝒏.𝟐 𝟐𝟏𝟎 𝑬𝟑𝟐 =


𝒏𝟑. ∗𝒏.𝟐
=
70∗80
=26,66
𝑛 210
5. Análisis bivariante
Este coeficiente es un numero del intervalo [0, NT], donde:
T = min {(r  1), (k  1)}.
Cuando mayor sea el valor del coeficiente, mayor será la correlación.
(nij  feij )2
P   2   i  1  j 1  0;nt 
r k

feij
Por último, ha de tenerse en cuenta que si las frecuencias esperadas <10 para algún
i y j o bien el tamaño de la tabla de contingencia es de 2 x 2, entonces para evitar
un distanciamiento con la realidad debe aplicarse la corrección de Yates, que
consiste en restar un factor 0,5 al numerador de cada sumando del χ2 .
5. Análisis bivariante
En un Centro de Salud de una determinada ciudad andaluza, se
analizaron las historias clínicas de 295 hombres y 197 mujeres.
De dicha muestra analizada, se observó que 17 hombres tienen
úlcera y 130 mujeres no.
¿Existe relación entre las variables tener úlcera con el sexo de
la persona?

También podría gustarte