Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Grado de Biología
Bloque I. ESTADÍSTICA
DESCRIPTIVA
2. Escalas de medida
2.1. Variables no numéricas
2.2. Variables numéricas
5. Análisis bivariante
5.1. Correlación
5.2. Regresión.
5.3. Tablas de contingencia.
5. Análisis bivariante
Coeficiente de correlación de Pearson
Decimos que dos variables, X e Y están correlacionadas cuando hay una
relación cuantitativa entre ellas.
La relación entre ambas variables puede ser CAUSAL o NO.
Ejemplo: Velocidad que alcanza un coche con la potencia de su motor.
Altura y peso de un niño
Es una medida de asociación lineal que toma valores en el intervalo
rxy ϵ [-1;+1]
El grado de asociación lo indica el valor del coeficiente en valores absolutos.
Indicando el signo el tipo de relación directa o inversa.
Ejemplo:
El grado de asociación es el mismo dado que en valores
rxy = -0,8 absolutos este supone el 80%. Pero el tipo de relación es
diferente porque una es directa(signo positivo) y la otra
rxy = 0,8 inversa(signo negativo)
5. Análisis bivariante
Coeficiente de correlación de Pearson
Los procedimientos para determinar la existencia y grado de relación lineal entre dos
variables deben ser también capaces de discriminar entre los tres tipos de relación
lineal que hay.
Supongamos las variables X e Y:
Relación lineal positiva o directa: cuando los valores altos en Y tienden a emparejarse
con valores altos en X, los valores intermedios en Y tienden a emparejarse con valores
intermedios en X y los valores bajos en Y tienden a emparejarse con valores bajos en X
Ejemplo: motivación y rendimiento
Relación lineal negativa o inversa: cuando los valores altos en Y tienden a
emparejarse con valores bajos en X, los valores intermedios en Y tienden a
emparejarse con valores intermedios en X y los valores bajos en Y tienden a
emparejarse con valores altos en X
Ausencia de
relación lineal.
Estatura e
Inteligencia
5. Análisis bivariante
Coeficiente de correlación de Pearson
¿Cómo se calcula?
Se define a partir de la expresión siguiente donde el numerador Sxy se denomina
covarianza entre X e Y, y el denominador es el producto de las desviaciones típicas
de ambas variables.
𝑒 =𝑦−𝑦
5. Análisis bivariante
Bondad de ajuste. Coeficiente de determinación
El coeficiente de determinación es la proporción de la varianza total de la
variable explicada por la regresión. Es también denominado R cuadrado y sirve
para reflejar la bondad del ajuste de un modelo a la variable que se pretende
explicar. S
2
2
S
R 2 R 2xy xy 1 2 0 ; 1
S S Sy
x y
Ejemplo:
C
C Ĉ a b H
C
H
C 5.65 ; S C2 4.4275 9.975
b 0.3757
SHC 9.975 26.55
a 5.65 0.3757 15.5 0.1733
H 15.5 ; S H 26.55
2
H
El modelo obtenido es: Ĉ 0.1733 0.3757 H
5. Análisis bivariante
Bondad de ajuste. Coeficiente de determinación
2
SCH 9.9762
R R
2 2
2 2 0.8464
SCS H 4.4275 26.55
CH
1 20 17
2 22 15
3 4 10
4 2 8
5. Análisis bivariante
Se pide:
1. Representar los datos gráficamente. 2. Determinar la ecuación de la recta.
10 20 17 340 400
5 22 15 330 484
0
0 5 10 15 20 25 4 10 40 16
2 8 16 4
Y en el eje de ∑x=48 ∑y=50 ∑x*y=726 ∑x²=904
ordenadas(vertical)
Xeje de
abcisas(horizontal) b=[726-(4*12*12,5)]/[904-(4*12²)]= 0,3841
5. Análisis bivariante
2. Determinar la ecuación de la recta. y= a+bx +e=> y=7,89+0,3841x+e
Consumo de Presión ∑x*y ∑x² 𝐲 =7,89+0,3841x e=y-𝒚
tabaco(x) arterial(y)
4 10 40 16 𝒚 =7,89+0,3841∗4=9,42 e3=10-9,42=0,58
2 8 16 4 𝒚 =7,89+0,3841∗2=8,66 e4=8-8,66=-0,66
a= 12,5-0,3841*12= 7,89
5. Análisis bivariante
Género Nivel de Edad
De una muestra de 12 personas, se analizan
el nivel de oxígeno en sangre en función de oxigeno
Hombre 97 51
5. Análisis bivariante Tablas de contingencia
Son tablas de doble entrada
en las que se representan la distribución bidimensional de las variables.
Por ejemplo, supongamos que podemos aglutinar las diferentes respuestas a una
cierta pregunta en cuatro categorías W,X,Y y Z, y que intentamos relacionar
estar respuesta al nivel cultural del sujeto a estudiar. La tabla de contingencia
será la siguiente:
Las frecuencias
Estudios observadas se
Estudios
primarios
Bachillerato Total construyen de la
Respuesta siguiente
𝒏𝟏𝟏 𝒏𝟏𝟐 manera: 𝒏𝒇𝒄
W 𝒏𝟏. f=número de la fila
X 𝒏𝟐𝟏 𝒏𝟐𝟐
𝒏𝟐. c=número de la
columna
𝒏𝟑𝟏 𝒏𝟑𝟐
Y 𝒏𝟑.
𝒏𝟒𝟏 𝒏𝟒𝟐
Z 𝒏𝟒.
𝒙𝒊 𝒚𝒋 𝒏𝒊𝒋
𝒙𝟏 𝒚𝟏 𝒏𝟏𝟏
𝒙𝒊 𝒚𝒋 𝒏𝒊𝒋
𝒙𝒉 𝒚𝒌 𝒏𝒉𝒌
5. Análisis bivariante Tablas de contingencia
Ejemplo: Se desea analizar la relación que existe entre la variable salario y
sexo. Para ello, se pide contrastar la hipótesis nula de que ambas variables son
independientes, frente a la hipótesis alternativa de que están relacionadas, con
un nivel de significación del 5%.
Sexo
Hombre Mujer Total
Salario
0-900 30 𝒏𝟏𝟏 50 𝒏𝟏𝟐 𝟖𝟎 𝒏𝟏.
901-1200 40 𝒏𝟐𝟏 20 𝒏𝟐𝟐 60 𝒏𝟐.
+1200 60 𝒏𝟑𝟏 10 𝒏𝟑𝟐 70 𝒏𝟑.
feij
Por último, ha de tenerse en cuenta que si las frecuencias esperadas <10 para algún
i y j o bien el tamaño de la tabla de contingencia es de 2 x 2, entonces para evitar
un distanciamiento con la realidad debe aplicarse la corrección de Yates, que
consiste en restar un factor 0,5 al numerador de cada sumando del χ2 .
5. Análisis bivariante
En un Centro de Salud de una determinada ciudad andaluza, se
analizaron las historias clínicas de 295 hombres y 197 mujeres.
De dicha muestra analizada, se observó que 17 hombres tienen
úlcera y 130 mujeres no.
¿Existe relación entre las variables tener úlcera con el sexo de
la persona?