Está en la página 1de 25

Regresin

y
Tablas de contingencia

Regresin lineal y
logstica

Concepto de regression:
introduccion
La regresin, Ley de la regresin universal, termino introducido por
Francis Galton. Cada peculiaridad en un hombre es compartida por sus
descendientes, pero en media, en un grado menor: regresin a la media.
los padres muy altos tienen tendencia a tener hijos que heredan parte de
esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo
mismo puede decirse de los padres muy bajos
Altura del hijo = 85cm + 0,5 x altura del padre (aprox.)

Hoy en da el sentido de regresin es el de prediccin de una medida


basndonos en el conocimiento de otra.
Regresin implica el desarrollo de una ecuacin mediante el cual se puede
estimar el valor medio de una variable aleatoria desde el conocimiento
tomados de otra variable.

Regresion lineal
Se puede formalizar el uso de la relacin entre dos variables para predecir el
valor de una usando el valor de la otra, de tal manera que obtengamos las
mejores predicciones posibles.
Adems, y quiz ms importante, esta metodologa resultar til para explicar
la variacin de una variable como consecuencia de su relacin con otra u otras
variables.
Se tiene dos variables: una dependiente o resultados (Y) y la otra u otras,
variable independiente, regresora o predictoras (X)

Y
X
Los variable o regresora X no son variables aleatorias, ya que no son valores
obtenidos al azar.
La regresin lineal puede ser
Regresin lineal simple (RLS): considera una variable regresora
Regresin lineal mltiple (RLM): considera mas de 1 variable regresora (mas usada)

Regresion lineal
Un fisiologo quiere predecir la concentracion de un determinado farmaco
en la corriente sanguinea, 5 minutos despues de su adminitracion (Y), en
base al conocimiento del tamao de la la dosis inicial (X). En este caso la
variable aleatoria Y es la variable dependiente, X es la variable
independiente. Como es un experimento controlado, la variable X toma
valores predeterminados por el investigador.
Independientemente si el studio es controlado u observacional, el objetivo
de la regression es el mismo: encontrar un ecuacion de regression o
prediccion, los cuales van a tener una representacion grafica.
Los graficos son de las medidas teoricas de la variable dependiente Y para
valores dados de la variable independiente X.
Se les llama tambien: curvas de prediccion.

Regresion lineal

Regresion lineal
Coeficiente
de correlacin (r):

Es una medida que indica el nivel de


asociacin entre las variables
independiente y dependiente en un
modelo de regresin lineal

Coeficiente de determinacin ():


Es una medida que indica
porcentualmente el cambio de la
variable dependiente respecto a la
independiente (que tanto la variable
dependiente explica el comportamiento
de la variable dependiente)

La ecuacin de regresin es: (con el


mtodo de mnimos cuadrados)
y = a + bx (ecuacin de una
curva)
a= intercepto
b= la pendiente

Regresion lineal

Regresion lineal

Regresin logstica
Es una tcnica estadstica multivariante que
nos permite la relacin existente entre una
variable dependiente no mtrica, en
particular dicotmica, y un conjunto de
variables mtricas y no mtricas.
La RL tiene la misma estrategia que la RLM,
en el cual la variable dependiente es
mtrica.
En la RL la variable dependiente es discrete
(los valores van de 0 a 1) y las variables
explicativas pueden ser cualitativas o
cuantitativas.
El objetivo principal de la RL es de modelar
como influyen las variables regresoras en la
probabilidad de ocurrencia de un suceso en
particular.

Regresin logstica
En muchas ocasiones estaremos interesados en predecir los valores de
una variable dicotmica binaria, es decir, una variable que slo puede
tomar dos valores, los valores son complementarios y dichos valores no
son comparables, como sucede en regresin lineal.
El modelo de regresin logstica se utiliza cuando estamos interesados
en pronosticar la probabilidad de que ocurra o no un suceso
determinado. Por ejemplo, a la vista de un conjunto de pruebas
mdicas, que una persona tenga una determinada enfermedad, o bien
que un cliente devuelva un crdito bancario.

Tablas de contingencia
(cuadrado)

cuadrado

Ese una prueba estadstica no paramtrica (variables que no tienen


distribucin normal)
Estudia variables aleatorias (cuantitativas o cualitativas), cuyos datos son
recogidos en tablas de frecuencia. Esta prueba contrasta frecuencias
observadas con las frecuencias esperadas de acuerdo con la hiptesis nula.
La caracterstica principal es de todas ellas es que su tratamiento
estadstico en la misma distribucin terica: distribucin ji-cuadrado
Sirve para abordar tres tipos de problemas:
Prueba de bondad de ajuste: determinar si los datos de cierta muestra corresponden
a la distribucin de cierta poblacional. Las v.a. estn distribuidas en clases de
frecuencias u ocurrencias.
Prueba de independencia: comprobar si dos variables cuantitativas estn
relacionadas entre si. Queremos ver si existe diferencias en dos poblaciones con
respecto a la variable de inters

cuadrado

Supongamos que tenemos un nmero k de clases en las cuales se han ido registrado un total de n
observaciones (n ser pues el tamao muestral). Denotaremos las frecuencias observadas en cada clase
por O1, O2, ..., Ok (Oi es el nmero de valores en la clase Ai). Se cumplir: O1 + O2 + ... + Ok = n
Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas (tericas), a las
que denotaremos por E1, E2, ..., Ek . Se cumplir: E1 + E2 + ... + Ek = n
Se tratar ahora de decidir si las frecuencias observadas estn o no en concordancia con las frecuencias
esperadas (es decir, si el nmero de resultados observados en cada clase corresponde aproximadamente al
nmero esperado). Para comprobarlo, haremos uso de un contraste de hiptesis usando la distribucin Chicuadrado

cuadrado

Es
la sumatoria de nmeros no

negativos. El numerador es la
diferencia entre frecuencia observada y
esperada.
Cuanto mas cerca estn estos valores,
mas pequea ser el numerados o
viceversa. El numerador permite
relativizar al denominador.
En el contraste de hiptesis, se suele
rechazar la hiptesis nula (Ho) si los
valores observados son coherentes con
los esperados, es decir, cuando el
estadstico es mayor que un valor
critico determinado.
El valor de se podra aproximar a una
distribucion chi-cuadrado cuando n>30
y las frecuencias esperadas son >5

cuadrado

En una Expendedora de Refrescos existen 4 canales que expiden el mismo tipo


de bebida. Queremos averiguar si la eleccin de cualquiera de estos canales se
hace de forma aleatoria o si existe algn tipo de preferencia en la seleccin por
los consumidores.
La siguiente tabla muestra el nmero de bebidas vendidas en cada uno de los 4 canales
durante una semana. Contrastar la hiptesis de que los canales son seleccionados al
azar a un nivel de significacin del 5%.

Si la seleccin del canal fuera aleatoria, todos los canales tendran


la misma probabilidad de seleccin y por lo tanto la frecuencia
esperadas de bebidas vendidas en cada uno de ellos debera ser
aproximadamente la misma: 70/4 = 17.5

Este valor debemos compararlo con el valor crtico de la distribucin *(0.95), con (4-1)= 3
grados de libertad.
Este valor es: 0.95 (3) 7.81. ya que el valor del estadstico (2.34) es menor que el valor crtico,
no podemos rechazar la hiptesis nula (Ho), es decir, que los canales son seleccionados

cuadrado

Estamos interesados en comprobar la perfeccin de un dado cbico (un dado


normal de 6 caras). Para esto realizamos 100 lanzamientos del dado anotando los
puntos obtenidos en cada lanzamiento. A la vista de los resultados obtenidos,
podemos concluir que el dado no es perfecto?. Nivel de significacin (5%)

6.5

Valor de chi cuadrado de la tabla para 95%, n-1 = 6 1 = 5 grados de libertad


es igual a 11.0705
Y el valor calculado es 6.5, por lo tanto no hay razones para rechazar Ho de que
todos tienen igual
chance de salir.

Supongamos que un investigador est interesado en evaluar la asociacin


entre uso de cinturn de seguridad en vehculos particulares y el nivel
socioeconmico del conductor del vehculo. Con este objeto se toma una
muestra de conductores a quienes se clasifica en una tabla de asociacin,
encontrando los siguientes resultados:

Permiten estos datos afirmar que el uso del cinturn de seguridad depende
del nivel socioeconmico? Usaremos un nivel de significacin alfa=0,05.
1. En primer lugar se debe plantear las hiptesis que someteremos
a prueba
H0: El uso de cinturn de seguridad es independiente del nivel
socioeconmico.
H1: El uso de cinturn de seguridad depende del nivel socioeconmico.

2. En segundo lugar, obtener


(calcular) las frecuencias esperadas
Estas son las frecuencias que
debieran darse si las variables
fueran independientes, es decir, si
fuera cierta la hiptesis nula.
3. En tercer lugar se debe calcular el
estadstico de prueba
4.-Segn esto, debemos aceptar la
hiptesis nula que plantea que las
variables uso de cinturn de
seguridad y nivel socioeconmico
son independientes.

5.99

Con un nivel de significacin


alfa=0,05. Entonces un valor de
tabla para x2 asociado a 2 grados
de libertad y alfa 0,05 es 5,99.
Por lo tanto, como en el grfico 2
vemos que 5,23 se encuentra a la
izquierda de 5,99, la probabilidad
asociada a valores superiores a
5,23 es mayor que alfa (0,05).

Segn esto, debemos aceptar


la hiptesis nula que plantea
que las variables uso de
cinturn de seguridad y nivel
socioeconmico son
independientes.