Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GUÍA R COMMADER
1. Instalación: Esto sólo deberemos hacerlo la primera vez que queramos usar R Commander.
a. Paquetes > Seleccionar espejo CRAN > Seleccionar Spain (A Coruña o Madrid)
1
2. IMPORTAR FICHEROS DE DATOS
1. Abrir R commander
2. Datos > Importar datos > Desde un archivo de Excel (normalmente)
a. Seleccionamos el archivo desde nuestro explorador de archivos
1. Datos > Conjunto de datos activo > Guardar el conjunto de datos activo
a. Lo guardamos en nuestro explorador de archivos
2
4. UNIR FICHEROS DE DATOS
Ejemplo: Observamos que tenemos dos bases de datos que aportan información: FEVA.xlsx y
FEVB.xlsx. Cargaremos ambas bases de datos en nuestra sesión de R Commander, indicando que la
primera columna (ID) corresponde al nombre de la fila.
Ambos ficheros contienen diferente información sobre los mismos individuos, por lo tanto, la fusión
se hará con columnas:
● Datos > Fusionar conjunto de datos
3
5. ANÁLISIS DESCRIPTIVO DEL FICHERO DE DATOS
● Numéricas: Son las variables que se definen con números (cuantitativas) y a las que tiene
sentido aplicar operaciones algebraicas (suma, multiplicación etc.); altura o peso.
● Factores: Son las variables definidas como factores (cualitativas) y hacen referencia a
variables categóricas las cuales no se definen numéricamente; el sexo (hombre o mujer) o
ser fumador (sí o no).
1. Datos > Modificar variables del conjunto de datos activo > Convertir variable numérica en
factor
Seleccionar datos
Seleccionar datos: Obtener un subgrupo de nuestra base de datos que contenga únicamente a los
individuos que tengan alguna característica o condición.
4
● Ejemplo: De la base de datos fusionada del FEV, seleccionemos únicamente a los individuos
fumadores. Para seleccionar casos o filtrar:
Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo
Ordenar datos
Ordenar datos: Procedimiento que nos permite estructurar el archivo en función del orden de los
valores de una o más variables. Es un procedimiento importante, ya que algunas técnicas
estadísticas precisan de una previa ordenación de los valores.
● Ejemplo: Ordenemos la base fusionada FEV en función de la altura de cada individuos
Datos > Conjunto de datos activo > Ordenar el conjunto de datos activo
* Nota: una ordenación por múltiples variables, siempre es de forma anidada. Si ordenamos por sexo
(0 y 1) y edad, el fichero va a presentar primero los casos de las mujeres (0) ordenados por edad y
luego los casos de los hombres (1) ordenados por edad.
6. TRANSFORMACIÓN DE DATOS
Calcular una nueva variable: Muy útil en muchos procedimientos analíticos, se utiliza para crear
nuevas variables con las ya existentes en la base de datos.
Un ejemplo clásico es el cálculo del IMC (índice de masa corporal) a partir de la altura y el peso
disponibles en nuestra base de datos; división entre el peso y el cuadrado de la altura en metros.
5
Otro ejemplo clásico, es el cambio de unidades de las variables.
● Ejemplo: Siguiendo con la base de datos del FEV, pasemos la altura de los individuos de cm
a m; es decir, dividamos la altura entre 100.
Datos > Modificar variables del conjunto de datos activo > Calcular una nueva variable
Categorizar una variable numérica: Muy utilizado en la vida real, nos permite dividir una variable
numérica por intervalos y crear el número de categorías que queramos.
● Ejemplo: Volviendo a la base de datos del FEV, estamos ahora interesados en categorizar la
variable EDAD en dos grupos ≤ 9 años y > 9 años. Llamaremos a esta nueva variable
EDADC.
Datos > Modificar variables del conjunto de datos activo > Recodificar variables
* Para indicar el rango de valores de la edad utilizamos “:”, y lo indica “lower” y hi indica “Higher”. El
valor 9 que se repite en ambas expresiones irá incluido en la primera expresión.
Categorizar (segmentar) variables numéricas: Nos permite dividir una variable numérica por
intervalos y crear el número de categorías que queramos.
Datos > Modificar variables del conjunto de datos activo > Recodificar variables
6
Método de segmentación: Permite realizar la categorización en base a diferentes metodologías.
Recodificar una variable: Útil para combinar categorías; se puede recodificar una variable en la
misma (cambiar sus categorías) o crear una nueva variable. La recomendación es hacerlo siempre en
una nueva variable.
● Ejemplo: Se realiza un estudio de las apneas del sueño. Carguemos la base de datos de
APNEA. Tenemos una variable llamada TABACO que hace referencia al número de paquetes
que cada paciente fuma en un año, pero está categorizada 0 = “No fumador”; 1 = “1-11
paquetes/año”; 2 = “11-20 paquetes año” y 3 = “>20 paquetes año”. Calculemos una nueva
variable que indique si el paciente es fumador o no lo es. Para ello recodificaremos esta
variable incluyendo la categoría 0 por un lado (no fumador) y las categorías 1, 2 y 3 por el
otro (fumador).
Datos > Modificar variables del conjunto de datos activo > Recodificar variables
7
TALLER 2.2: ESTADÍSTICA DESCRIPTIVA
1. Introducción
2. Tipos de variables
3. Tablas de frecuencias
4. Medidas analíticas
5. Resumen conjunto de todas las variables
6. Gráficos
1. INTRODUCCIÓN
Estadística descriptiva
2. TIPOS DE VARIABLES
● Tal y como hemos estudiado en el Taller 2.1, existen diferentes tipos de variables (columnas)
que han de ser correctamente definidas en R Commander para evitar absurdos.
● Muy importante tener conocimiento de la naturaleza de cada una de las variables a estudiar.
○ Por ejemplo, no tiene sentido hablar sobre la media de una variable categórica como
el pueblo de procedencia de cada individuo.
● Cuando recogemos datos de un fenómeno, estamos recopilando valores de variables
aleatorias, variable porque varían de individuo a individuo y, aleatoria porque la variación
depende del azar.
○ Por ejemplo, el número de caras en 10 lanzamientos de una moneda.
● Las variables aleatorias pueden ser de dos tipos: categóricas (cualitativas) o cuantitativas.
8
Variables categóricas (cualitativas / factores)
3. TABLAS DE FRECUENCIA
9
Aplicación en R commander
● Aparecerá una ventana en la que tendremos que seleccionar la variable categórica que
queremos analizar (FUMAR).
4. MEDIDAS ANALÍTICAS
● Una medida analítica es una cantidad numérica que resume cierta característica de una
variable aleatoria.
○ Si la variable aleatoria hace referencia a la población, la medida analítica se
denomina parámetro.
○ Si la variable aleatoria hace referencia a la muestra, la medida analítica se denomina
estadístico.
● Por lo general, nunca tendremos acceso a toda la muestra, por lo tanto, no tendremos acceso
a los parámetros.
10
● Usaremos nuestro fichero de datos para calcular los estadísticos y tratar de aproximar los
parámetros (siguientes talleres).
● Los estadísticos se clasifican por el tipo de característica de la variable aleatoria que
describen:
○ Estadísticos de centralización
○ Estadísticos de posición
○ Estadísticos de dispersión
○ Estadísticos de forma
● Percentiles: valores que dividen la muestra analizada en 100 pedazos iguales. Ej: percentil
75% → LOS PACIENTES TIENEN UN fev DE 3,12 O MENOR
○ Pi hace referencia al percentil i-ésimo , es decir, el valor que deja a su izquierda un
i% de los valores de la muestra.
○ Deciles: valores que dividen la muestra analizada en 10
● Cuartiles: percentiles que dividen la muestra en 4 trozos de igual tamaño
○ Son los percentiles más usados en la práctica y se denotan como:
■ Q1: primer cuartil, deja el 25% de los datos por debajo
■ Q2 / Me / D5: mediana, deja el 50% de los datos por debajo
■ Q3: tercer cuartil, deja el 75% de los datos por debajo
11
4.3. Estadísticos de dispersión
Indican el grado en que una variable se concentra o se estira. Es un número real no negativo, igual a
0 si todos los datos son iguales y aumenta a medida que los datos se vuelven más dispersos. Los
estadísticos de dispersión se contrastan con los de centralización, y ambos dos son los más usados.
2
● Varianza: Dispersión de los datos respecto a la media, denotada como 𝑠 se define como la
media de las desviaciones al cuadrado.
2
2 Σ(𝑥1−𝑥)
𝑠= 𝑛
X1: Valor de cada variable
● Desviación estándar: con el fin de establecer la unidad original de la variable, se considera
la raíz cuadrada de la varianza. Es una estimación de la desviación media. Se multiplica x2 y
si es igual o superior a la mediana, se utilizan: 25%, 50%, 75% 100%
● Rango: Diferencia entre valor mínimo y máximo. Unidades hay desde el valor máximo al
valor mínimo
● Rango intercuartílico: Diferencia entre Q1 y Q3. En cuántas unidades se mueve la gente
“normal”
● Coeficiente de variación (CV): Cociente entre la desviación estándar y la media aritmética.
Elimina las unidades. Se hace cuando hay distintas unidades (kg y cm) o distintos grupos
(hombres y mujeres)
𝐷𝐸
𝐶𝑉 = 𝑋
Ejm: Tenemos una máquina que mide tornillos y una máquina que mide distancias entre
planetas
● Máquina que mide tornillos: variación de 1 mm
● Distancia entre planeta: variación de 1 km
La variación de 1 km aparentemente es mucho más grande pero si lo comparas con lo que
está midiendo cambia. El coeficiente de variación compara cuál de las dos tiene más
dispersión.
12
● Coeficiente de curtosis: indica si hay gran agrupación de datos hacia el centro (distribución
leptocúrtica) o si hay agrupación de los extremos (distribución platicúrtica). mirar la
concentración de la información
Existe una forma directa en R Commander de obtener un análisis descriptivo de todas las variables
en un base de datos.
Diferencia entre variables categóricas y cuantitativas. Muy útil para detectar variables que aún siendo
categóricas, han sido codificadas numéricamente y R Commander considera cuantitativas.
13
6. GRÁFICOS
Las gráficas son bastante simples y “feas”. Podemos modificar los parámetros:
14
Gráficos→ Histograma
15
TALLER 2.3: INFERENCIA ESTADÍSTICA PARA UNA POBLACIÓN
Índice
● Introducción
● Estimación e intervalos de confianza
● Contraste de hipótesis
● Tamaño muestral
Introducción
CENSO
Los proyectos de investigación estudian ciertas características de una población. Para disponer de
información de toda la población hace falta realizar un censo, esto es, si pudiéramos estudiar todas la
poblaciones de todo lo que nos interesa, estaríamos continuamente haciendo censos y la estadística
no tendría ningún sentido, porque no tendríamos ninguna incertidumbre. ¿Pero es posible realizar
todo el rato censos? No. Realizar un censo tiene sus aspectos positivos como negativos.
Aspectos positivos:
● Acceso a toda la población.
● No hay margen de error.
● Resultados 100% fiables.
Aspectos negativos:
● Poblaciones grandes
● Tiempo
● Costes
● Falta de recursos
● ¿Si se quieren resultados rápidos?
MUESTRA
Aleatoria = que todos los sujetos tengan la misma probabilidad de ser seleccionados, la elección se
suele hacer con un software o personas que no puedan influir en la decisión
Es muy importante que la muestra tenga dos características, tiene que ser aleatoria y representativa.
P.e: Si me interesa estudiar la población mayor a 18 años, no puedo estudiar solo a mujeres de más
de 18 años, tendré que estudiar a hombres mayores de 18 años también.
16
O si quiero estudiar una población de niños entre 9 y 11, no puedo estudiar solo niños de 9 años,
sino que tienen que haber de todas las edades entre 9 y 11 años.
Inferencia estadística: Métodos que permiten obtener resultados y medir su grado de confianza.
ESTIMACIÓN PUNTUAL
Estimación puntual: Asignar un valor a una cantidad de interés. Son un trozo de información.
¿Si realizo el mismo estudio en diferentes muestras, obtendré el mismo valor? No dice nada sobre
la confianza de cada estimación
Necesitamos una medida que indique la certidumbre (o confianza) de toda estimación puntual
*En los artículos científicos, al lado de cada estimación puntual hay unos intervalos de confianza, que
serán la información que falta para saber la confianza que tengo alrededor de esta estimación
puntual.
INTERVALOS DE CONFIANZA
La línea de abajo, al ser más corta, tiene más certidumbre de lo que se está diciendo que la tercera
línea. Es probable que la línea de más abajo (más certidumbre), tenga un tamaño muestral (n) mayor.
→ Los cuerpos de los aviones son diferentes estimaciones puntuales, las alas son los intervalos de
confianza alrededor de estas estimaciones puntuales.
→ Cuanto más estrechos sean los intervalos de confianza, más seguridad tengo alrededor de esta
estimación puntual.
17
→ Normalmente los intervalos de confianza más estrechos se producen cuando hay más datos (más
participantes). También existen otros datos que pueden condicionar el rango de los intervalos de
confianza.
Este tipo de intervalos de confianza no se presentan para cada uno de los datos de la base de datos,
solamente para el resultado final, para el objetivo principal, lo que nos interesa estudiar, no para
todas las variables.
Los intervalos de confianza suelen ser simétricos (existen asimétricos).
He hecho un estudio, he conseguido x porcentaje, pero si repito el experimento muchas veces los
resultados van a variar entre estos intervalos.
FEV (forced expiratory volume) es una prueba que mide el funcionamiento de los pulmones. Se
realiza un estudio sobre esta prueba, que recogen los datos sobre mediciones de FEV (en litros)
realizadas a 654 niños. Se quiere obtener el valor medio del FEV y los intervalos de confianza al
95%
18
EJEMPLO R COMMANDER: >Estadísticos >Proporciones> Test de proporciones para una muestra
La base de datos de FEV recoge además información sobre el género. Interesa estimar la proporción
de los niños varones y su intervalo de confianza.
Estadísticos>proporciones>test de
proporciones para una
muestra>Sexo>proporcion de poblacion !=p0
y aproximación normal>intervalo de confianza
→ .95
Esta proporción pertenece al primer grupo, en este caso a los niños varones. Si quisiéramos la
proporción de las mujeres, tendríamos que recodificar una variable. Siempre asegurarnos que la
proporción pertenece al grupo que nos interesa.
Contraste de hipótesis
Los investigadores cuando realizan un trabajo de investigación tienen unas hipótesis, o unas ideas
previas.
● Los investigadores, basándose en la intuición o experiencias previas, formulan hipótesis
sobre las que diseñan un plan de trabajo. (La hipótesis siempre va ligada a un número)
19
● La Estadística nos proporciona métodos adecuados para aceptar o rechazar las hipótesis.
Siempre estamos buscando o comprobar una hipótesis o rechazarla, si es que los datos no la
apoyan.
Ejemplo: FEV (forced expiratory volume) es una prueba que mide el funcionamiento de los
pulmones. Se realiza un estudio sobre esta prueba, que recogen los datos sobre mediciones de FEV
(en litros) realizadas a 654 niños. Queremos contrastar la hipótesis de si en población infantil la
media del FEV es de 2 litros, tal y como dice la literatura.
¿Cuál es la herramienta para comprobar estas hipótesis?
* Es importante que la persona que hace los análisis estadísticos sepa lo que está haciendo
Es importante que la persona que hace los análisis estadísticos sepa lo que está haciendo
Errores:
Ejemplo: Siguiendo con el ejemplo del FEV (forced expiratory volume) en población infantil,
queremos contrastar la hipótesis de si la media del FEV es de 2 litros.
Datos: muestra de n = 654
Variable: FEV cuantitativa = 2.64; s = 0.86; n = 647
20
Contraste de hipótesis paso a paso:
Idea:
- Si el valor del test observado no es usual (un valor que va hacia las colas de la
distribución)→ Rechazo H0
- Si el valor del test obtenido se presenta comúnmente (valor que cae cerca del valor
0) → No rechazo H1
21
Supuestos teóricos: variable con distribución normal.
EJEMPLO EN R COMMANDER: > Estadísticos > Medias > Prueba T para una muestra
Ejemplo: Siguiendo con el ejemplo del FEV (forced expiratory volume) realizada en 654 niños,
además de la variable FEV también se recogía la edad de cada niño, la cual oscilaba entre 3 y 19
años. Queremos contrastar la hipótesis de si el porcentaje de individuos de 9 años o menores es del
50%.
● Datos: muestra de n = 654
● Variable: EDADC cualitativa dicotómica→ Con esta variable queremos comprobar
si la probabilidad de
Estadístico pivote:
22
p valor:
Si p < 0.05 → Rechazamos H0
Si p ≥ 0.05 → No rechazamos H0
EJEMPLO EN R COMMANDER: > Estadísticos > Proporciones > Test de proporciones para una
muestra
Interpretación:
● La proporción de niños ≤ 9 años en nuestra muestra:
● El valor p del contraste: p = 0.1711 > 0.05 → No rechazamos H0 → Podemos
aceptar la hipótesis de que la proporción de niños ≤9 años es igual a la de > 9 años.
● El p valor es mayor que 0.05 por lo tanto, NO es estadísticamente significativo.
● El intervalo de confianza del 95% para dicha proporción:
Si la hipótesis nula se acepta, el valor p va a variar en el 95% de los casos entre el intervalo de
confianza, en el 5% del resto se saldrá de esos intervalos.
Tamaño muestral
23
PARA UNA MEDIA POR IC95%
Queremos obtener un intervalo de confianza del 95% alrededor de la media estimada en nuestro
ámbito con una precisión d = 0.2. ¿Qué n necesitamos reclutar?
Ejemplo: Interesa estimar la prevalencia de pacientes con EPOC en la CAPV. Un estudio de otra
comunidad estima una prevalencia de 12%.
Queremos que el IC95% de la estimación obtenida en nuestra muestra tenga una precisión de 2%.
¿Qué n necesitamos reclutar?
24
PARA UNA PROPORCIÓN POR CONTRASTE
25
TALLER 2.4: INFERENCIA ESTADÍSTICA PARA DOS POBLACIONES → Variables continuas
Índice
● Introducción
● Inferencia para dos medias independientes
○ Comparación de dos medias
○ Contraste preliminar de igualdad de varianzas
○ Aplicación en R Commander
● Inferencia para dos medias relacionadas
○ Comparación de dos medias
○ Aplicación en R Co
● Supuestos teóricos
1. INTRODUCCIÓN
EJEMPLOS →
1. Poblaciones independientes: (Se utilizan personas diferentes, los que están en un grupo,
no están en el otro)
2. Poblaciones relacionadas : (Se utilizan las mismas personas (misma población) en ambos
casos)
a. Se realiza un estudio para investigar el efecto de un programa de ejercicio físico en el
nivel de colesterol.
b. Objetivo: Analizar si existen diferencias en el nivel de colesterol antes y después del
programa. (Para ver la efectividad del programa)
c. Datos: Tenemos una muestra de 40 sujetos a los que se les toma una muestra de
sangre antes y después del programa (para medir el colesterol)
i. Población 1 (Antes de ejercicio): N=40
ii. Poblacion 1 (Despues de ejercicio): N=40
26
2. INFERENCIA PARA DOS MEDIAS INDEPENDIENTES (Muestras independientes)
Hay que hacer un contraste preliminar en el ordenador para ver si las varianzas son iguales o
distintas.
c. p-valor:
i. p < 0.05 → Rechazamos H0 asumiendo que las varianzas son distintas
ii. p ≥ 0.05 → No rechazamos H0 asumiendo que las varianzas son iguales
27
APLICACIÓN EN R COMMANDER →
● Análisis descriptivo:
A priori la capacidad pulmonar parece más grande en niños que en niñas, pero nos tenemos que
hacer la pregunta de si es estadísticamente significativo.
Interpretación:
-Valor estadístico pivote (Fp) = 2.3859
-p-valor (es en el que nos tenemos que fijar): 1.976*10⁻¹⁴ < 0.0001→
Rechazamos la hipótesis nula, no pudiendo asumir varianzas del FEV
iguales en niños y niñas. Asumimos varianzas distintas.
Interpretación:
Valor del estadístico pivote: t=5.559
28
p-valor < 0.0001→ Rechazamos la H0, concluyendo que existen diferencias significativas en el nivel
del FEV dependiendo del género, siendo superior la capacidad pulmonar en los niños.
Intervalo de confianza de la diferencia del valor medio (de las 2 medias)= (0.237,0.495) → No
contiene al 0, con lo que rechazaremos H0 (es otra manera de rechazar la hipótesis nula).
1. Comparación dos medias relacionadas: (Estadísticos > Medias > Test T para datos
relacionados)
29
Estadísticos > Medias > Test t para datos relacionados
ELEGIR→
● Primera variable: Colesterol_pre
● Segunda variable: Colesterol_post
● Nivel de confianza: .95
Interpretación→
-Valor estadístico pivote: t=4.1773
-p=0.0001606<0.001→ Rechazamos la H0, concluyendo
que existen diferencias significativas en el nivel del colesterol
antes y después del ejercicio.
-Media de la diferencia: 30.65
-Intervalo de confianza de la diferencia de medias
(15.809,45.491): Como no contiene al 0, se rechaza H0.
4. SUPUESTOS TEÓRICOS
OPCIONES →
● Inferencia para dos medias independientes
○ Estadísticos→ Varianzas→Test F para dos varianzas (Contraste preliminar igualdad
varianzas)
○ Estadísticos→ Medias→ Test t para muestras independientes (Contraste
comparación medias)
● Inferencia para dos medias relacionadas
○ Estadísticos→ Medias→ Test t para datos relacionados (Planteamiento de contraste
= comparación de dos medias)
→Cuando hay *, hay diferencias entre los grupos (fijarse entre qué grupos hay diferencias y la
cantidad. Cuantos más *, más diferencias)
30
Taller 2.5. Inferencia para más de dos poblaciones: Variables continuas
Índice
1. Introducción
2. Análisis de la varianza
3. Comparaciones múltiples
4. Aplicación en R Commander
5. Supuestos teóricos
1. Introducción
Ejemplo 1: Se realiza un estudio sobre el FEV (forced expiratory volume), que es una prueba que
mide el funcionamiento de los pulmones, en población infantil.
Objetivo: analizar si existen diferencias en la capacidad pulmonar dependiendo del grupo de edad:
<9 años, 9 – 12 años y >12 años.
Datos: se dispone de una muestra de 647 niños de los que se dispone del FEV y edad.
2. Análisis de varianza
Ejemplo 1: En el estudio del FEV queremos analizar si existen diferencias en la capacidad pulmonar
dependiendo del grupo de edad.
● Datos: 647 niños de los que se dispone del FEV y edad.
● Variables:
○ FEV: Nivel del FEV Cuantitativa
○ EDAD3C:
Contraste Anova:
● Planteamiento del contraste:
○ H0 : Media FEV (<9 años) = Media FEV (9 – 12 años) = Media FEV (>12 años)
○ H1 : Alguna de las medias es distinta
31
● Estadístico pivote:
Comparaciones múltiples
3. Comparaciones múltiples
32
4. Aplicación en R Commander
Ejemplo 1: En el estudio del FEV queremos analizar si existen diferencias en lacapacidad pulmonar
dependiendo del grupo de edad.
Análisis descriptivo:
Ejemplo:
33
Interpretación:
● El valor del estadístico pivote: Fp = 332.
● El p-valor < 0.0001 Rechazamos la H0 , concluyendo que existen diferencias significativas
en el nivel medio del FEV dependiendo del grupo de edad.
Interpretación: método de Tukey detecta diferencias entre todos los grupos (*)
● Comparación del FEV entre < 9 años y 9 - 12 años: p < 0.0001
● Comparación del FEV entre < 9 años y > 12 años: p < 0.0001
● Comparación del FEV entre 9 - 12 años y > 12 años: p < 0.0001
5. Supuestos teóricos
34
TALLER 2.6: INFERENCIA PARA DOS O MÁS POBLACIONES: VARIABLES CUALITATIVAS
Índice
● Introducción
● Tablas de contingencia
● Pruebas de homogeneidad e independencia
○ Prueba Chi-cuadrado
○ Prueba exacta de Fisher T
● Tablas 2x2
○ Riesgo relativo
○ Odds ratio
1. INTRODUCCIÓN
● En muchas ocasiones, las mediciones resultantes de los estudios suelen ser de carácter
cualitativo o categórico.
● Áreas de actuación: Ciencias de la Salud, Epidemiología y Salud Pública, Educación.
● Evaluando una única variable: Listado de las categorías indicando el número de sujetos que
caen en cada nivel.
● Estudiar simultáneamente dos variables aleatorias categóricas → Se construye una tabla de
doble entrada
● Ejemplo: Estudiar si el hábito tabáquico (no fumador, exfumador, fumador) está relacionado
con desarrollar una enfermedad pulmonar (sí/no).
2. TABLAS DE CONTINGENCIA
● Situaciones
○ Tablas r x s: asociación entre el nivel de estudio y el provincia donde se habita.
○ Tablas 2 x 2: relación entre dos variables dicotómicas (sexo vs mortalidad, HTA vs
ingreso).
○ Tablas 2 x 2 x k: tablas 2x2 estratificadas por cada categoría de una tercera variable.
● Preguntas a responder
○ Las variables A y B, ¿son independientes? ¿están asociadas?
○ ¿Cómo evaluar la asociación entre A y B?
○ Si lo están, ¿cuál es su medida de asociación y su magnitud?
35
Tablas R X S
HTA (Y)
Si No
10 100 No fumador
60 1 Fumador
- Para saber qué variable va en columna y cual en fila, hay que saber que variable influencia
en cual
- sabemos que el hábito tabáquico influye en la HTA
- variable X en filas hábito tabáquico
- variable Y HTA en columnas
- hay que mirar en cada variable cuántos tienen el evento y ver en distintos niveles cómo va
variando
● Elementos de la tabla r x s:
○ n21: nº de sujetos observados que cumplen las características de la modalidad 2 de
la variable X y de la modalidad 1 de la variable Y.
○ n2+: nº de sujetos totales que pertenecen a la categoría 2 de la variable X (total
marginal).
○ n+2: no de sujetos totales que pertenecen a la categoría 2 de la variable Y (total
marginal).
○ N: no total de sujetos con datos disponibles en las variables X e Y.
Ejemplo: Se realiza un estudio para determinar la relación entre la hipertensión arterial (normal vs.
hipertensión) y la existencia de apneas patológicas (No, Si). Se selecciona una muestra aleatoria
consistente en 298 pacientes y se les clasifica de acuerdo con las dos variables. Los datos se recogen
en el fichero de datos APNEA. Queremos obtener la tabla de contingencia que nos relacione las dos
variables.
36
Apnea (Y)
Si No
2. Resultado:
● De los 298 pacientes que conforman la muestra,
245 tienen una tensión arterial normal.
● Entre los que tienen TA normal, 193 (78.8%)
presentan apnea nocturna patológica.
● De los 53 pacientes que son hipertensos, 46
(86.8%) presentan apneas patológicas.
37
● Prueba de homogeneidad: uno de los totales marginales esta establecido por el
investigador y el otro puede variar
H0: Proporciones iguales en ambas poblaciones (no asociación).
H1: Proporciones distintas en las poblaciones (asociación)
Prueba Chi-cuadrado
Ejemplo 1: Siguiendo con el ejemplo de la APNEA del sueño compuesta por 298 pacientes, se quiere
determinar si hay alguna asociación aparente entre la circunferencia de cuello (<40 cm; 40-44 cm;
>44 cm) y la existencia de apneas patológicas (No, Si).
Apnea (Y)
Si No
Pasos:
1. Contraste de hipótesis:
● H0 → CC y apnea son independientes
● H1 → CC o la presencia de apnea están relacionadas
38
2. Se seleccionan las variables de interés. En este caso, seleccionamos las variables CC_cat (en
filas) y APNEA2 (en columnas). 133. Pruebas de homogeneidad e independencia
3. Se calculan los porcentajes de fila, y activaremos las opciones del test de independencia de
la Chi-cuadrado
4. Resultados:
● El 74.2% de los pacientes con circunferencia de cuello más pequeño, presentan más
de 10 apneas.
● El 93.4% de aquellos que presentan una circunferencia superior a 44 cm, tienen
apneas patológicas.
● El tipo de circunferencia de cuello y la presencia de apneas patológicas están
relacionadas.
Ejemplo 2: Se realiza un estudio para determinar si existe asociación entre el género del paciente y el
tipo de ronquido. Se selecciona una muestra de 240 hombres y otra de 53 mujeres y se determina el
tipo de ronquido (normal/leve, moderado y severo) de cada uno.
39
3. Resultado:
● Las mujeres mayormente presentan una tipología de ronquido
normal-leve(35.8%) o moderado (43.4%)
● Un 52.9% de los hombres reflejan ronquidos de carácter severo.
● p = 0.00003736 → Existen diferencias estadísticamente significativas (se
rechaza H0 ) en el tipo de ronquido entre hombres y mujeres.
Ejemplo: Se quiere determinar si hay diferencias en el tipo de apneas (patológicas o no) entre los
pacientes que fuman menos de 30 paquetes/año (0-30) y más de 30 paquetes/año (a partir de 31),
todos pertenecientes al estudio APNEA
Apnea (Y)
Si No
2. Se
seleccionan las variables de interés. En este caso, seleccionamos las variables PAQUETESC
(en filas) y APNEA2 (en columnas).
40
3. Se calculan los porcentajes de fila, y activaremos las opciones del test de exacto de Fisher
4. Resultados:
● Todos los pacientes que fuman más de 30 paquetes/año (n = 16), presentan apneas
patológicas (100%)
● El 79.1% de los que fuman menos de 30 paquetes/año también tienen esta patología.
● El hábito tabáquico medido en paquetes/año y el tener apneas patológicas no son
independientes (p = 0.04837).
4. TABLAS 2X2
Medias de asociación
● Tablas 2 x2 Tablas de doble entrada de 2 filas y 2 columnas
● Se usan en estudios epidemiológicos.
● Objetivo: Medir la fuerza de la asociación entre una enfermedad y un factor de riesgo.
41
RR > 1 → Indica que la presencia del factor de exposición es un factor de riesgo para la enfermedad.
RR < 1 → Indica que la presencia del factor de exposición es un factor protector para la enfermedad.
RR = 1 → Indica que no hay asociación entre el factor de exposición y la enfermedad.
Ejemplo: Se quieren hallar el riesgo relativo de tener una apnea patológica de tener ronquidos
severo frente al resto.
3. Resultados:
Tipo apneas
136/(136 + 2)
● Interpretación: Riesgo Relativo: 100/(100+ 55)
= 1. 528
○ Los pacientes roncadores severos tienen 1.528 veces más de riesgo de padecer una
apnea patológica respecto al resto de los pacientes con otra tipología de ronquido.
42
NOTA: en estudios caso-control donde uno de los totales marginales están prefijados por el
investigador, no podemos utilizar el RR y solo podemos utilizar el OR.
> 30 416 / 16
RR = </= 30 = 223 / 280
= 1.26
Resumen:
OPCIONES →
● Tablas R X S→
○ >Estadísticos> Tablas de contingencia> Tabla de doble entrada.
● Prueba Chi cuadrado → Tabla más que 2x2
○ Analizar > tablas de contingencia > Tabla de doble entrada
● Prueba exacta de Fisher → Tabla 2x2
○ Analizar > tablas de contingencia > Tabla de doble entrada
● Medidas de asociación
○ Analizar > tablas de contingencia > Tabla de doble entrada
43
TALLER 2.7: PRUEBAS DE AJUSTE Y PRUEBAS NO PARAMÉTRICAS
Índice
● Introducción
● Pruebas de bondad de ajuste a la normal
● Prueba de los rangos con signo de Wilcoxon
● Prueba de la suma de los rangos de Wilcoxon
● Prueba de Kruskal-Wallis
● Conclusiones
1. INTRODUCCIÓN
Variables:
● FEV: Nivel del FEV → Cuantitativa
● SEXO:
○ 0 = Niña
○ 1 = Niño → Cualitativa dicotómica
44
Métodos:
● Si la variable FEV sigue una distribución normal en cada una de las dos poblaciones→
Prueba t para comparación de dos medias.
● Si la variable FEV no sigue una distribución normal en alguna de las dos poblaciones→ ¿?
(en este taller se explica)
Estudio: Siguiendo con el estudio del FEV (forced expiratory volume) en población infantil, en esta
ocasión queremos ver si existe relación entre el FEV y edad considerada categórica: <9 años, 9 – 12
años y >12 años.
Objetivo: contrastar si el nivel del FEV es
diferente dependiendo del grupo de edad.
Datos: muestra de 647 niños de los que se
dispone del FEV (litros) y la edad
Variables:
● FEV: Nivel del FEV → Cuantitativa
● EDAD3C:
○ 1 = “<9 años”
○ 2 = “9 – 12 años” → Cualitativa politómica porque hay 3 o más grupos)
○ 3 = “>12 años”
Métodos:
● Si la variable FEV sigue una distribución normal en cada una de las poblaciones→ Análisis
de la varianza (ANOVA)
● Si la variable FEV no sigue una distribución normal en alguna de las poblaciones→ ¿? (en
este taller se explica)
¿CÓMO ACTUAR?
45
2. PRUEBAS DE BONDAD DE AJUSTE A LA NORMAL
Nos permiten saber si la muestra es normal o no. No hay que fijarse únicamente en el gráfico,
también hay que llevar a cabo este tipo de pruebas.
MÉTODO
Análisis descriptivo:
● Histograma: forma acampanada.
*Una forma de comprobar si tenemos una distribución normal es: gráficos>
histograma y ver si obtenemos esta forma de campana→ significa que media=
mediana
● Estadísticos de tendencia central: Media, Mediana, Moda similares
● Estadísticos de distribución: Coeficiente de Kurtosis y Asimetría próximos a 0
*Hacer todo esto es bastante laborioso, por eso, cuando trabajamos con muestras grandes→
contraste de hipótesis.
Contraste de hipótesis:
● Consiste en realizar una prueba de contraste para ver si hay evidencia estadística de que los
datos proceden de una distribución normal. Existen muchas pruebas pero trabajaremos dos:
○ Prueba de Kolmogorov-Smirnov (útil para muestras pequeñas). En su día se
desarrolló para muestras pequeñas pero hoy en día se utiliza mucho.
○ Prueba de Shapiro-Wilks (más frecuentemente con muestras grandes)
CONTRASTE A LA NORMAL
Concepto general: Consiste en realizar una hipótesis sobre la distribución de la población que nos
interesa y contrastar si esta hipótesis se puede sostener en base a los datos de la muestra.
Decisión:
➔ Si p ≥ 0.05 → No rechazamos H0 → Tenemos que aceptar que los datos vienen de
distribución normal
➔ Si p < 0.05 → Rechazamos H0 → No podemos aceptar que la distribución de los datos es la
normal
APLICACIÓN EN R COMMANDER
Ejemplo 1: Contrastar si el nivel del FEV se encuentra en 2 litros. Necesitamos contrastar si el FEV
sigue una distribución normal.
Descriptiva: > Gráficas > Histograma
46
*solo con esto no podemos saber si es una distribución normal o no, por eso hacemos lo siguiente:
R Commander: > Estadísticos > Resúmenes > Test de normalidad
Interpretación:
El p-valor < 0.001 → Rechazamos la H0 → No podemos aceptar que el FEV siga una distribución
normal.
Ejemplo 2: contrastar si el nivel del FEV es distinto según el sexo. Necesitamos contrastar si el FEV
sigue una distribución normal en cada una de las poblaciones. Hay que verlo para saber si aplicar
una prueba paramétrica o no paramétrica
Descriptiva: > Gráficas > Histograma
47
Interpretación:
Vemos que los resultados salen segmentados según el grupo que hemos considerado.
● Niños: p < 0.0001 ***(mirar aclaración Kalliopi abajo) → Rechazamos la H0 → FEV no sigue
distribución normal.
● Niñas: p < 0.05 → Rechazamos la H0 → FEV no sigue distribución normal.
Ejemplo 3: contrastar si el nivel del FEV es distinto según el grupo de edad: <9años, 9 12 años y
>12 años. Necesitamos contrastar si el FEV sigue una distribución normal en cada una de las
poblaciones.
Descriptiva: > Gráficas > Histograma
Interpretación:
● <9 años: p = 0.0056 Rechazamos la H0 FEV no sigue distribución normal
● 9 – 12 años: p = 0.0222 Rechazamos la H0 FEV no sigue distribución normal
● >12 años: p = 0.1454 No rechazamos H0 FEV si sigue distribución normal
En este caso no se puede utilizar el test paramétrico, porque 2 de los 3 casos no sigue una
distribución normal. Para usar el test paramétrico todas las categorías deben tener una
distribución normal, es decir, en los casos que no rechazamos H0. Por tanto, vamos a pasar a las no
paramétricas para ver la comparación entre los 3.
48
Aclaración Kalliopi a pregunta realizada (por qué en este caso el pvalue tiene que ser mayor de 0.0001 para aceptar la
H0 y normalmente la aceptamos a partir de 0.05?
● El punto de corte para un pvalue es siempre de 0.05. Como sabemos, cuando es <0.05 siempre rechazamos la H0.
Muchas veces, en la literatura veremos que los pvalues son menores de 0.0001. Esto no quiere decir que no
estemos buscando que sea <0.05, sino que significa que un pvalue sea tan pequeño se describe de otra forma. Pero,
debemos recordar que el punto de corte es el 0.05.
● En este caso de arriba, si decimos que el pvalor es menor de 0.0001, damos más información que diciendo que el
pvalue es menor de 0.05. Es simplemente la cantidad de información que proporcionas al que lee tu artículo
● En algunos análisis no va a ser lo mismo un pvalue<0.0001 que un pvalor<0.05. Si utilizamos más decimales,
damos más información.
● Por tanto, en la mayoría de los casos se aplica el corte de 0.05 salvo que el artículo diga otra cosa
Ejemplo 3: contrastar si el nivel del FEV es distinto según grupo de edad (<9 años, 9 – 12 años, >12 años).
● La variable FEV no normal → No debemos utilizar el ANOVA
● Prueba alternativa: Prueba de Kruskal-Wallis
INTRODUCCIÓN
● Prueba alternativa a la Prueba t de inferencia para una media es distinta cuando la variable
no proviene de población de distribución normal.
● Método de distribución libre (no se define), ya que no supone normalidad de la variable a
analizar Prueba no-paramétrica → esta va a ser la que vamos a utilizar.
● El procedimiento para el contraste se basa en la mediana o rangos, en vez de en la media.
○ Cuando no podemos asumir una distribución normal, la media no tiene demasiado
sentido ya que en una distribución normal la media cae justo detrás del punto
máximo de la campana
○ En este caso la media no tiene mucho sentido porque la puede desviar valores muy
extremos.
○ Aquí hablamos de la mediana porque un valor muy extremo no va a cambiar tanto el
resultado como la media.
49
Ejemplo 1: contrastar si en nuestra población de niños el nivel del FEV también se encuentra en 2
litros (hablamos de la mediana)
Planteamiento del contraste: bilateral
● H0: Mediana FEV = 2
● H1: MediaDa FEV ≠ 2
APLICACIÓN EN R COMMANDER
R Commander: >Estadísticos > Test no paramétricos >Test de Wilcoxon para una muestra
Interpretación:
● La mediana del FEV: M = 2.556
● p < 0.0001 → Rechazamos H0 → No podemos asumir que la mediana del FEV sea 2 litros.
Es lógico, porque M nos da 2.556 ( ≠ 2)
INTRODUCCIÓN
Ejemplo 2: Contrastar si en nuestra población de niños el nivel del FEV es distinto dependiendo del
sexo.
Planteamiento del contraste: bilateral
● H0 : Mediana FEV (niños) = Mediana FEV (niñas)
● H1 : Mediana FEV (niños) ⧣ Mediana FEV (niñas)
50
R COMMANDER
R Commander: >Estadísticos > Test no paramétricos >Test de Wilcoxon para dos muestras (a pesar
de que estos 2 test tienen nombres muy parecidos uno es para 2 muestras y otro para 1)
Interpretación:
● Las medianas del FEV: M (niños) = 2.620; M (niñas) = 2.487
● p < 0.001 → Rechazamos H0 → Podemos decir que existen diferencias significativas en las
medianas del nivel del FEV según el sexo. El pvalor nos dice que las medianas de los 2
grupos no se pueden asumir como iguales.
INTRODUCCIÓN
APLICACIÓN EN R COMMANDER
51
Interpretación:
● Las medianas: M (<9 años) = 1.790; M (9 – 12 años) = 2.754; M (>12 años) = 3.519
● p < 0.0001 Rechazamos H0 Podemos decir que existen diferencias significativas en el nivel
del FEV según el grupo de edad.
6. CONCLUSIONES
INCONVENIENTES
52
OPCIONES → (PRUEBAS NO PARAMÉTRICOS→ Cuando la distribución no es normal))
● Pruebas de bondad ajuste a la normal→ EJEMPLO 1 (Prueba de los rangos con signo de
Wilcoxon)
○ >Estadísticos> Resúmenes > Test de normalidad (Para saber si tienen una
distribución normal)
○ 1 población → >Gráficos > Histograma
○ Shapiro wilk y lilliefors (Kolmogorov-Smirnov)
○ >Estadísticos> Test no paramétricos >Test de Wilcoxon para una muestra
● Pruebas de bondad ajuste a la normal→ EJEMPLO 2 (Prueba de la suma de los rangos de
Wilcoxon)
○ 2 poblaciones → >Gráficos > Histograma
○ >Estadísticos> Resúmenes > Test de normalidad
○ Lilliefors (Kolmogorov-Smirnov)
○ >Estadísticos> Test no paramétricos >Test de Wilcoxon para dos muestras
● Pruebas de bondad ajuste a la normal→ EJEMPLO 3 (Prueba de Kruskal-Wallis)
○ Más de 2 poblaciones → >Gráficos > Histograma
○ >Estadísticos> Resúmenes > Test de normalidad
○ Lilliefors (Kolmogorov-Smirnov)
○ >Estadísticos> Test no paramétricos >Test de Kruskal-Wallis
53
TALLER 2.8: CORRELACIÓN Y REGRESIÓN LINEAL
Índice:
● Introducción
● Descripción de los datos
● Correlación
● Regresión lineal simple
● Regresión lineal múltiple
● Modelo lineal general
1. INTRODUCCIÓN
Correlación y regresión
Correlación: coeficiente que mide la magnitud de la fuerza de la relación lineal entre dos variables
cuantitativas.
Ej: Datos de la altura de los padres y la altura de los hijos. Queremos ver cómo se relaciona la altura
de los hijos con la de los padres. Cada uno de los puntos es cada pareja: altura del hijo - altura del
padre. Cada punto es una observación de la muestra, una fila de la base de datos.
Viendo el gráfico diríamos que según aumenta la altura del padre, aumenta la altura del hijo. Eso
sería la correlación, que mide la magnitud de la relación.
Regresión: una ecuación matemática que estima / resume el valor medio de una variable
dependiente, desde los valores de otras variables.
Vamos a poder decir la altura media del hijo a partir de la altura media del padre, es decir, si
sabemos la altura del padre, damos valores en la ecuación y podemos predecir cuál va a ser la altura
del hijo.
Altura del hijo = 28.63 + 0.595 altura del padre
54
2. DESCRIPCIÓN DE LOS DATOS
Variables Y & X
Ej anterior: Dependiendo de la altura del padre → toma valores la altura del hijo
- Y: altura del hijo
- X: altura del padre
Ejemplo: Se está estudiando la influencia de la edad en la capacidad pulmonar medida a través del
FEV (forced expiratory volume) en población infantil. Se disponen datos de 654 niños/as.
Objetivo: explorar la relación entre edad (variable explicativa) y FEV (variable explicada).
Va a influir la edad sobre el FEV.
55
Gráficas > Diagrama de dispersión > Variable X (Edad) / Variable Y (FEV)
3. CORRELACIÓN
CORRELACIÓN DE PEARSON:
● Magnitud de relación lineal entre variables (cuantitativas)
● Coeficiente de correlación lineal que puede tomar valores entre -1 y 1.
- 0 → correlación nula (no tiene nada que ver una con la otra)
- Cuanto más cerca al 1 o -1 → correlación más fuerte:
- 1: según aumenta la X aumenta la Y
- -1: según aumenta la X disminuye la Y
→ Lo que nos importa es el valor absoluto del coeficiente
56
Los puntos de corte que utilizamos para la interpretación:
● 0 - 0.5 → débil
● 0.5 - 0.9 → moderado
● + 0.9 → fuerte
*Distinto de 0 no quiere decir que el coeficiente de correlación sea alto. Ej: 0.15, no es alto, pero
como tengo mucha N es significativamente distinto de 0, pero eso no es relevante, no deja de ser un
valor pequeño. No hay que darle mucha importancia al contraste de hipótesis para el coeficiente de
correlación. Tenemos que fijarnos sobre todo en la magnitud.
● Función de X e Y
Si X e Y están relacionados, una relación parabólica (ej anterior: café y azúcar), nos puede dar 0. No
porque no estén relacionados, sino porque no están relacionados de forma lineal. Es decir, no implica
que no haya algún tipo de relación entre las variables, solo que no es una relación lineal.
57
Interpretación:
● El coeficiente de correlación lineal es r=0.756(MODERADO)
● El p-valor < 0.0001 Rechazamos la hipótesis nula, aceptando que el coeficiente de
correlación es significativamente distinto a 0.
→
- Se estiman por los datos y definen la línea.
- Línea recta: método de mínimos cuadrados.
- Se elige la línea más próxima a todos los puntos simultáneamente.
𝑒𝑖 : Error aleatorio. Ej: Punto de arriba tiene con 15 años, 6 de FEV y al hacer la recta, predecimos un FEV de 3, 5, cometemos un error
- Residuos: distancia entre dato puntual y dato estimado por la recta de regresión.
● La pendiente de la recta.
● El cambio esperado en la Y por cada unidad de cambio de la X.
58
Test de Wald
2
Coeficiente de determinación: 𝑅
Ejemplo: Seguimos con el ejemplo sobre la influencia de la edad sobre FEV en población infantil.
Realizamos el modelo de regresión lineal y solicitamos los IC95%.
Estadísticos > Ajuste de modelos > Regresión lineal > Variable explicada (FEV) / explicativa (Edad)
Modelos > Intervalos de confianza
Interpretación:
59
5. REGRESIÓN LINEAL MÚLTIPLE
El modelo de regresión lineal múltiple tiene la siguiente forma: Y= β0 + β1X1 + β2X2 + … + βpXp +ε
donde: X1 , X2 ,…,Xp : variables explicativas continuas;
Cuando p=1 → modelo lineal simple
● β0 + β1X1 + β2X2 + … + βpXp : parte sistemática
● ε: parte aleatoria o perturbación
Igual que antes el modelo estima los paramentos mediante el método de mínimos cuadrados
Ejemplo: Seguimos con el estudio de la FEV en población infantil, en el que se recogen además datos
de la edad y la altura de 654 pacientes pediátricos. Se considera que ambas variables conjuntamente
pueden predecir mejor el valor FEV.
Objetivo: explorar el efecto de la edad (x1 ) y de la altura (x2 ) sobre el valor FEV(y).
> Gráficas > Diagramas de dispersión
Asumimos que la relación del FEV con la edad y la altura se resume por la ecuación:
FEV=β0 + β1*EDAD + β2 *ALTURA + ε
60
6. MODELO LINEAL GENERAL
El modelo lineal general se aplica cuando la variable dependiente sigue siendo cuantitativa, pero la
variable explicativa es cualitativa. Se acerca mucho más a la realidad porque tenemos todo tipo de
variables. Cuando queremos ver o explicar el efecto de diferentes variables que son cuantitativas y
cualitativas, conjuntamente, sobre una variable dependiente cuantitativa, tenemos que aplicar el
modelo lineal general. Es el caso más generalizado de todos.
Es decir, se trata de un modelo cuyas variables explicativas (X) son tanto continuas, como
categóricas (cualitativas). Este tipo de modelos también se denominan análisis de la covarianza
(ANCOVA).
Ej: fumar tabaco (fumar sí / no). No fumadores (referencia). Comparamos fumadores con no
fumadores.
61
Ej: Nivel de gravedad (leve / moderado / grave). Leve (referencia). Comparamos moderado contra leve
y grave contra leve.
Ejemplo: Seguimos con el estudio del FEV y suponemos que además de la edad y la altura se
dispone también el sexo (cualitativa) de los pacientes pediátricos.
Objetivo: Estimar el FEV en función de la edad, la altura y el sexo de los pacientes (Efecto conjunto
sobre FEV).
*Tenemos 2 cuantitativas (edad + altura), pero hay 1 cualitativa (sexo) → no se puede aplicar
regresión lineal múltiple. → REGRESIÓN LINEAL GENERAL.
Estadísticos > Ajuste de modelos > Modelo lineal →
62
Interpretación:
● 𝛽1(𝑒𝑑𝑎𝑑): 1 año de aumento, aumenta el valor medio del FEV 0.062 litros, para valores fijos
de la altura y del sexo (ajustando por altura y sexo).
● 𝛽2 (𝑎𝑙𝑡𝑢𝑟𝑎): 1 cm de aumento, aumenta el valor medio del FEV 0.041 litros, para valores fijos
de la edad y del sexo (ajustando por edad y sexo).
● 𝛽3 (𝑠𝑒𝑥𝑜): Las mujeres presentan un FEV medio 0.162 menor que los hombres, para valores
fijos de la edad y de la altura
63
TALLER 2.9: REGRESIÓN LOGÍSTICA
ÍNDICE:
● Introducción
● Regresión logística
○ Propiedades del modelo
○ Estimación de los parámetros
○ Intervalos de confianza
○ Contraste de hipótesis
● Regresión logística múltiple
1. INTRODUCCIÓN
● Regresión lineal→ Variable dependiente (Y) es cuantitativa. (Anterior taller, lo que ocurría
era que x podía ser continua o categórica pero Y tenía que cumplir la condición de ser
continua)
● Regresión logística→ Variable dependiente es categórica.(en este caso vamos a hacer un
añadido en el análisis cualitativo, en análisis cualitativo siempre hacemos hincapié en
analizar dos variables categóricas y una de ellas normalmente solía ser la consecuencia de la
otra (la que colocábamos por columnas). Ahora vamos a tener una variable Y que es
categórica dicotómica)
2. REGRESIÓN LOGÍSTICA
64
● En estadística a la hora de desarrollar la regresión logística nos basamos en la regresión
lineal pero lo que ocurre es que la variable resultado tiene que ser continua y nos
enfrentamos a una variable categórica ¿Como vamos a relacionar nosotros una variable que
es dicotómica a una ecuación que realmente requiere tener una variable continua?
● Punto de partida (regresión lineal):
● Para ello tenemos que definir la p =Probabilidad de
presencia de evento (en lugar de definir si o no pondremos
la probabilidad de que Y es igual a 1)
● Modelizamos que está probabilidad de presencia de
evento mediante una ecuación que no es lineal, (tenemos una exponencial). Al despejar está
ecuación
● Aplicando el logaritmo, se obtiene el modelo final: Permite hacer una transformación (para
conseguir más o menos una línea recta)
65
ESCENARIO 1: VARIABLE INDEPENDIENTE DICOTÓMICA (Categórica)
Ejemplo: En la base de datos APNEA, nos gustaría determinar si los hombres tienen más o menos
riesgo de padecer apneas patológicas respecto a las mujeres (categoría de referencia, lo que viene
detrás del respecto siempre)
Variables:
Ecuación:
● Cuando tenemos una variable categórica hay que decirle a R quien es la categoría de
referencia. (Ya que en él OR medimos el riesgo de tener el evento en una categoría concreta
que queremos medir respecto a la de referencia). En este caso, como la variable de referencia
son las mujeres (porque tienen el valor más bajo en R → 0), en la ecuación representamos el
caso de los hombres EN REFERENCIA A las mujeres.
PREGUNTA EXAMEN →
Recuadro izq → variable dependiente (APNEA 2)
tiene que estar seleccionado logit y familia binomial
(Nombrar nombre de el modelo: GLM-1)
66
Las variables independientes tienen que estar en modo factor.
PREGUNTA EXAMEN →
Recuadro izq → variable dependiente (APNEA 2)
tiene que estar seleccionado logit(la transformación que estamos haciendo) y familia binomial
(porque variable resultado es dicotómica)
En el resultado podemos ver el número de codificación 1 (son los hombres)
Interpretación:
● Se trata de una asociación positiva, dado que el coeficiente que está multiplicando al sexo
es positivo.
●
● El riesgo de padecer apneas patológicas en hombres es 2.03 veces mayor respecto a las
mujeres.
67
CONTRASTE DE HIPÓTESIS:
Test de Wald
INTERVALOS DE CONFIANZA:
68
(la última línea del último párrafo)
Conclusión:
● El riesgo de padecer apneas patológicas en hombres es 2.03 veces mayor respecto a las
mujeres.
● El 1 no se encuentra dentro del intervalo de confianza → El OR es significativamente distinto
a 1 → El sexo influye de forma significativa sobre padecer apneas. El sexo (ser hombre) SÍ
es un factor de riesgo.
EJEMPLO:
- p-value: 0.15
- Intervalo de confianza 95%: 1 no está contenido en el intervalo
- Odds ratio: 2.5
→ No puede ser que si el 1 no está contenido en el intervalo de confianza el p-valor sea de 0.15,
los dos tienen que estar en concordancia.
ESTIMACIÓN DE PARÁMETROS
Ejemplo: En la base de datos APNEA, nos gustaría determinar si las personas con una circunferencia
de cuello de entre 41-44 cm y aquellos con una circunferencia de cuello superior a 44 cm tienen más
o menos riesgo de padecer apneas patológicas respecto a los sujetos con un circunferencia de cuello
menor que 40 cm (variable de referencia → Categoría de menor riesgo).
Ecuación:
69
Valores que nos da R:
➔ La constante (B0)=1.05
➔ B1=0.3
➔ B3=1.6
Interpretación:
● Están positivamente relacionados.
● Para interpretar el riesgo de las CC para desarrollar apneas, es mejor que pasemos los
valores a Odds ratios:
○ 𝛃40<CC≤44 vs CC≤= 0.30 → OR40<CC≤44 vs CC≤40 = e0.30= 1.35 → Los pacientes con una CC
entre 40 y 44 cm tienen 1.35 veces más de riesgo respecto a los que tienen una CC
menor que 40 cm
○ 𝛃CC>44 vs CC≤40= 0.30 → ORCC>44 vs CC≤40 = e1.60= 4.96 → Los pacientes con un CC superior
a 44 cm tienen 4.96 veces más de riesgo respecto a los que tienen un CC menor que
40 cm
CONTRASTE DE HIPÓTESIS
70
● Contraste 𝛃1: p=0.03287
○ Como p > 0.05, no hay diferencias significativas en el riesgo de padecer apneas entre
los de 40<CC≤ 44 vs los de CC ≤ 40 (no es estadísticamente significativa)
INTERVALOS DE CONFIANZA
Ejemplo: En la base de datos APNEA, nos gustaría determinar si la edad influye en la determinación
del riesgo de padecer apneas patológicas.
solo una beta en las continuas
Ecuación:
71
Interpretación:
CONTRASTE DE HIPÓTESIS
● H0: 𝛃edad=0
● H1:𝛃edad≠0
○ Como p < 0.05, la edad influye de forma significativa sobre padecer apneas
72
● Planteamiento de hipótesis:
● Contraste para 𝛃1: p= 0.00000745, por lo tanto tenemos que rechazar la hipótesis nula
planteada anteriormente ya que es estadísticamente significativo.
○ La edad sí que está positivamente relacionado con aderes apneas. Con el aumento
de un año de edad aumentará el riesgo de padecer apneas un tanto porciento→
cuanto aumentara lo calcularemos con el Odds ratio.
INTERVALOS DE CONFIANZA
(En las variables continuas es: a medida que aumenta una unidad. Ej: edad.)
● El riesgo de padecer apneas patológicas es 1.067 veces mayor a medida que aumenta 1 año
la edad.
○ Otra forma de decir: “A medida que aumenta un año la edad, el riesgo de padecer
apneas aumenta un 6.7%” (se le quita la unidad y lo multiplicamos por 100)
○ (1.067-1)x100=0.67%
■ % Positivo → aumenta
■ % Negativo → disminuye
○ Si fuese un valor menor al 1, tenemos que restarle al uno ese valor, y multiplicarlo
por 100 para saber cuánto disminuye el riesgo, ya que sería un factor protector.
○ Si fuese dos no se utilizará esta forma → mejor la del principio porque si no se nos
complica
73
3. REGRESIÓN LOGÍSTICA MÚLTIPLE
➔ Las variables independientes X1, … Xp pueden ser tanto cuantitativas como categóricas.
➔ La variable dependiente dicotómica en vez de continua.
EJEMPLO
Ejemplo: Nos gustaría determinar si la circunferencia de cuello (establecido en 3 categorías: ≤40 cm;
entre 40 y 44 cm; > 44 cm) y la edad del paciente de manera conjunta son relevantes para
determinar el riesgo de padecer apneas patológicas.
Hemos visto que cada una por su lado sí que tenían su efecto, pero ahora lo que nos interesa es que
si las metemos juntas en una misma ecuación provocarán el mismo efecto o si ha cambiado. Si las
analizamos por separado estamos mirando la asociación de esa variable sobre la enfermedad no
ninguna más, no estamos teniendo en cuenta otras variables que pueden estar influyendo en la
enfermedad. Por lo que para reducir ese riesgo o para valorar ese riesgo “real” utilizamos la
regresión logística múltiple.
Ecuación:
74
R COMMANDER: MODELO
- β0=-1.58
- β40<cc≤ vs cc≤40=0.228 → OR40<cc≤4 vs cc≤40 = e0.228= 1.256
→ Los pacientes con una CC entre 40 y 44 cm tienen
1.256 veces más de riesgo respecto a los que tienen
una CC menor que 40 cm.
- βcc>44 vs cc≤40=1.388 → ORcc>44 vs cc≤40 = e1.388= 4.008→
Los pacientes con una CC superior a 44 cm tienen
4.008 veces más de riesgo respecto a los que tienen
una CC menor que 40 cm.
- βEDAD=0.0603 → OREDAD = e0.0603= 1.062 → A medida
que aumenta una unidad la edad, el riesgo de
padecer apneas patológicas es 1.062 veces mayor.
75
● Contraste para 𝜷EDAD: p = 0.0000356
○ Como p < 0.05, la edad influye de forma significativa sobre padecer apneas
(ajustando por CC).
RESUMEN
INTERVALO DE
ODDS RATIO (OR) INTERPRETACIÓN
CONFIANZA
76
● Directamente relacionado → Factor de riesgo
● Inversamente relacionado → Factor protector
Pasos a seguir:
● Variable dependiente → Tiene que estar 1 como evento (Nos dan en la hoja del examen)
● Variables (saber si estan como factor o como continua)
● Aumentar → % o 1,5 veces
● Si tenemos OR entre 1 y 2 podemos utilizar ambas situaciones (porcentaje o numero).
Siempre tenemos que comparar (ej: fumadores contra no fumadores).
● Si el OR es >2 nos olvidamos del % y utilizamos en número tal cual.
● Regresión logística 4 escenarios distintos → para el examen ayuda enumerarlos en los
apuntes.
ESQUEMA→ (REGRESIÓN LOGÍSTICA: Objetivo (Estudiar el efecto de una variable sobre otra))
REGRESIÓN LOGÍSTICA →
● Propiedades del modelo:
○ Regresión lineal
○ Logit (Formula → Obtener modelo final)
● Estimación de los parámetros
1. (X) Variable independiente dicotómica ( (Estadística>Ajustes de modelo>Modelo
lineal generalizado)
2. (X) Variable independiente > 2 categorías (Estadística>Ajustes de
modelo>Modelo lineal generalizado)
3. (X) Variable independiente continua (Edad) (Estadística>Ajustes de
modelo>Modelo lineal generalizado
➔ PASOS A SEGUIR: (Interpretación)
● Indicar las variables que tenemos (P. e → Apnea2 (1 Si, 0 No) ; Sexoc (1 Hombre, 0 Mujer)
● Ecuación (Logit)
77
● Interpretación→
○ Estimación de parámetros: Indicar (teniendo en cuenta el OR) cuántas veces mayor
es el riesgo en uno que en otro (P.e Mujer y hombre) → A veces tenemos que
comparar de 2 en 2.
○ Intervalos de confianza (Modelos > Intervalos de confianza) :
■ Teniendo en cuenta si contiene el 1 o no, sabemos si el efecto es
estadísticamente significativo o no.
● 1 no dentro del IC : OR significativamente ≠ 1, efecto
estadísticamente significativo.
● 1 dentro del IC: OR significativamente = 1, efecto no es
estadísticamente significativo.
○ Contraste de hipótesis: (Test de wald)
REGRESIÓN LOGÍSTICA MÚLTIPLE → Tanto variable cuantitativa como categórica (Mezclamos las
opciones anteriores)
1 → evento / 0 → no evento
Recta de regresión: variable de referencia bien tomada
Si aumenta en %
OR entre 1-2 ambas situaciones,
- Ej. el hecho de ser fumador aumenta un %59 de muerte respecto a los no fumadores
Si es mayor de 2, no lo decimos con porcentajes.
En variables continuas poner: a medida que aumenta una unidad…
78
TALLER 2.10: ELECCIÓN DE TÉCNICA PARA RESOLUCIÓN DE PREGUNTA CIENTÍFICA
ÍNDICE:
1. Ficheros de datos
2. Creación de nuevas variables
3. Análisis descriptivo
4. Análisis de la normalidad
5. Inferencia para 1 población
6. Inferencia para dos o más poblaciones
1. FICHERO DE DATOS
Principales funciones:
• Importar: Datos > Importar datos (de un archivo excel)
• Fusionar: Datos > Fusionar conjunto de datos
→ por filas: diferentes personas mismas variables→ las columnas tienen que llamarse iguales
→ por columnas: mismas personas diferente información → el ID tiene que ser igual→ esa variable
se queda en gris porque hemos clicado la opción del medio también
• Cargar: Datos > Cargar conjunto de datos (cuando ya está en formato RD)
• Guardar (.Rdata): Datos > Conjunto de datos activo > Guardar el conjunto de datos activo (tenemos
que guardar cada vez que: importamos, creamos variables, fusionamos ficheros etc.)
• Ordenar: Datos > Conjunto de datos activo > Ordenar el conjunto de datos activo… (para comprobar
que se haya hecho bien la recodificación o cuando piden valor mayor y menor de una variable )
• Seleccionar datos: Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo… (doble
signo igual). Cuando cambiemos de ariketa→ cambiar a la base de datos anterior para no trabajar
con la filtrada (normalmente da igual pero por si acaso)
• Cambiar el tipo de variables: Datos > Modificar variables del conjunto de datos activo > Convertir
variable numérica en factor…
→ hay que decirle al ordenador cuáles son cualitativas y cuales numéricas
→ cuando convertimos una numérica en factor→ se puede mantener el número o ponerle etiquetas
Ejemplos:
• Calcular la variable IMC a partir de la Altura y Peso: IMC = Peso (kg) / Altura2(m2)
• Calcular la variable Altura en metros a partir de la Altura en cm: Altura (m) = Altura (cm) / 100
79
Recodificar una variable:
Ejemplos:
• A partir de una variable TABACO que mide en número de paquetes/año en 4 categorías: 0 = “No
fumador”, 1 = “1-11 paquetes/año”, 2 = “11-20 paquetes año” y 3 = “>20 paquetes año”, calcular una
variable dicotómica que clasifica los pacientes en 0 = “No fuma” y 1 = “Si fuma”
*Evitar los signos <|> porque dan problemas→ poner texto en su lugar
El que lleve un igual→ siempre el primero
80
3. ANÁLISIS DESCRIPTIVO
Resumen de todas las variables: > Estadísticos > Resúmenes > Conjunto de datos activo…
El programa ya sabe qué tiene que hacer porque tiene en cuenta el tipo de variable que es
Variables categóricas:
• Gráfico de barras: > Gráficas > Gráficas de barras…
• Gráfico de sectores: > Gráficas > Gráficas de sectores…
*en el examen no entra pero sí: ¿Qué gráfico utilizarías para…?
Variables cuantitativas:
• Histograma: > Gráficas > Histograma…
• Diagrama de caja: > Gráficas > Diagrama de caja…
→ raya horizontal gruesa→ mediana
→ la caja de q1 a q3
→ los bigotes son: o el mínimo y el máximo o 1.5 por el rango
intercuartílico (cuando hay puntitos por encima o debajo del bigote)
4. ANÁLISIS DE LA NORMALIDAD
La parte descriptiva con el histograma nos puede dar pistas pero hacemos Prueba de
Kolmogorov-Smirnov.
Análisis descriptivo:
• Histograma: forma acampanada.
• Estadísticos de tendencia central: Media, Mediana, Moda similares
• Estadísticos de distribución: Coeficiente de Kurtosis y Asimetría
próximos a 0.
81
Contraste de hipótesis: > Estadísticos > Resúmenes > Test de normalidad
● Prueba de Kolmogorov-Smirnov (siempre usamos esta)
Contraste para una proporción: > Estadísticos > Proporciones > Test de proporciones para una
muestra
Ejemplo: Queremos contrastar la hipótesis de si el porcentaje de individuos de 9 años o menores es
del 50%. Cuando son porcentajes
• Si la variable no sigue una distribución normal: >Estadísticos > Test no paramétricos >Test de
Wilcoxon para una muestra
82
Herramientas: >Estadísticos> Tablas de contingencia> Tabla de doble entrada.
*da igual que en filas y que en columnas→ hay que saber qué porcentaje es el que nos interesa
Tablas de contingencia
Pruebas de independencia / homogeneidad
Test Chi-cuadrado / Test exacto de Fisher→ nos da el OR
*clicamos: frecuencias esperas y Fisher también
Chi-cuadrado→ cuando en una 2x2 las frecuencias esperadas sean > 5
Test exacto de Fisher → cuando en una 2x2 las frecuencias esperadas sean < 5
Herramientas:
• Si la variable cuantitativa sigue una distribución normal: (por grupos: en casos y controles)
1. Prueba preliminar de igualdad de varianzas: > Estadísticos > Varianzas > Test F para dos
varianzas (hay un clic en opciones de varianza para poner SI o NO)
Ejemplo: comparar el nivel de homocisteína dependiendo del hábito tabáquico considerado como
fumador, no fumador o exfumador.
Herramientas:
● Si la variable cuantitativa sigue una distribución normal:
○ Análisis de la varianza (ANOVA) + Comparaciones múltiples (Tukey, …)
○ > Estadísticos > Medias > ANOVA de un factor
83
*con que sea distinta en algún caso→ suficiente para rechazar H0→ comparaciones múltiples
Ejemplo: analizar si la edad (X) y nivel de vitamina B12(X) influyen sobre el nivel de homocisteína (Y)
→Herramienta: Modelo de regresión lineal
→R Commander: >Estadísticos > Ajustes de modelos > Regresión lineal
Ejemplo: analizar si la edad (X) y el sexo (X) influye sobre el nivel de homocisteina (Y)
→Herramienta: Modelo lineal general
→R Commander: >Estadísticos > Ajustes de modelos > Modelo lineal
Ejemplo: analizar si la edad (X) y el fumar (X) (si/no) influyen en la mortalidad (Y)
Herramientas:
• Modelo de regresión logística
• R Commander: >Estadísticos > Ajustes de modelos > Modelo lineal generalizado
84