Está en la página 1de 84

TALLER 2.1.

GUÍA R COMMADER

1. ABRIR R COMMANDER DESDE R

1. Instalación: Esto sólo deberemos hacerlo la primera vez que queramos usar R Commander.
a. Paquetes > Seleccionar espejo CRAN > Seleccionar Spain (A Coruña o Madrid)

b. Paquetes > Instalar paquetes > Rcmdr

c. Paquetes > Cargar paquete > Rcmdr

1
2. IMPORTAR FICHEROS DE DATOS

1. Abrir R commander
2. Datos > Importar datos > Desde un archivo de Excel (normalmente)
a. Seleccionamos el archivo desde nuestro explorador de archivos

3. Introducir nombre de la nueva base de datos que vamos a importar

4. En el caso de tener que fusionar 2 bases de datos:


a. Importamos la primera marcando la casilla del medio (Nombre de las variables en la
primera columna de la hoja de cálculo) y la nombramos
b. Importamos la segunda base de datos siguiendo el mismo procedimiento

3. GUARDAR FICHEROS DE DATOS

1. Datos > Conjunto de datos activo > Guardar el conjunto de datos activo
a. Lo guardamos en nuestro explorador de archivos

2
4. UNIR FICHEROS DE DATOS

Los ficheros de datos se pueden unir de dos formas:


1. Por filas: Si los ficheros a unir tienen las
mismas columnas (variables) pero
diferentes individuos (filas)
a. Contienen la misma
información (columnas o
variables) sobre dos grupos de
individuos diferentes

2. Por columnas: Si los ficheros tienen los


mismos individuos (filas) pero diferentes
columnas (variables)
a. Contienen información diferente
sobre los mismos individuos

Ejemplo: Observamos que tenemos dos bases de datos que aportan información: FEVA.xlsx y
FEVB.xlsx. Cargaremos ambas bases de datos en nuestra sesión de R Commander, indicando que la
primera columna (ID) corresponde al nombre de la fila.

Ambos ficheros contienen diferente información sobre los mismos individuos, por lo tanto, la fusión
se hará con columnas:
● Datos > Fusionar conjunto de datos

3
5. ANÁLISIS DESCRIPTIVO DEL FICHERO DE DATOS

Tipos de variables en R Commander: En R existen dos tipos de variables: numéricas y factores.

● Numéricas: Son las variables que se definen con números (cuantitativas) y a las que tiene
sentido aplicar operaciones algebraicas (suma, multiplicación etc.); altura o peso.

● Factores: Son las variables definidas como factores (cualitativas) y hacen referencia a
variables categóricas las cuales no se definen numéricamente; el sexo (hombre o mujer) o
ser fumador (sí o no).

Problema: Muchas veces las categorías vienen codificadas mediante números.

● Ejemplo: En el fichero FEVA.xlsx, el sexo viene codificado como 0 (mujer) o 1 (hombre) y el


fumar como 1 (fumador) o 2 (no fumador). Por defecto, al contener números R identifica
que estas variables son numéricas. Para una apropiada interpretación y desarrollo de los
análisis que desarrollaremos, debemos de definir estas variables como corresponde, en
forma de factor.

Para cambiar la clase de las variables en un fichero de datos:

1. Datos > Modificar variables del conjunto de datos activo > Convertir variable numérica en
factor

Seleccionar datos

Seleccionar datos: Obtener un subgrupo de nuestra base de datos que contenga únicamente a los
individuos que tengan alguna característica o condición.

4
● Ejemplo: De la base de datos fusionada del FEV, seleccionemos únicamente a los individuos
fumadores. Para seleccionar casos o filtrar:
Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo

Ordenar datos

Ordenar datos: Procedimiento que nos permite estructurar el archivo en función del orden de los
valores de una o más variables. Es un procedimiento importante, ya que algunas técnicas
estadísticas precisan de una previa ordenación de los valores.
● Ejemplo: Ordenemos la base fusionada FEV en función de la altura de cada individuos

Datos > Conjunto de datos activo > Ordenar el conjunto de datos activo

* Nota: una ordenación por múltiples variables, siempre es de forma anidada. Si ordenamos por sexo
(0 y 1) y edad, el fichero va a presentar primero los casos de las mujeres (0) ordenados por edad y
luego los casos de los hombres (1) ordenados por edad.

6. TRANSFORMACIÓN DE DATOS

Calcular una nueva variable

Calcular una nueva variable: Muy útil en muchos procedimientos analíticos, se utiliza para crear
nuevas variables con las ya existentes en la base de datos.

Un ejemplo clásico es el cálculo del IMC (índice de masa corporal) a partir de la altura y el peso
disponibles en nuestra base de datos; división entre el peso y el cuadrado de la altura en metros.

5
Otro ejemplo clásico, es el cambio de unidades de las variables.
● Ejemplo: Siguiendo con la base de datos del FEV, pasemos la altura de los individuos de cm
a m; es decir, dividamos la altura entre 100.

Datos > Modificar variables del conjunto de datos activo > Calcular una nueva variable

Categorizar una variable numérica

Categorizar una variable numérica: Muy utilizado en la vida real, nos permite dividir una variable
numérica por intervalos y crear el número de categorías que queramos.
● Ejemplo: Volviendo a la base de datos del FEV, estamos ahora interesados en categorizar la
variable EDAD en dos grupos ≤ 9 años y > 9 años. Llamaremos a esta nueva variable
EDADC.

Datos > Modificar variables del conjunto de datos activo > Recodificar variables

* Para indicar el rango de valores de la edad utilizamos “:”, y lo indica “lower” y hi indica “Higher”. El
valor 9 que se repite en ambas expresiones irá incluido en la primera expresión.

Segmentar variables numéricas

Categorizar (segmentar) variables numéricas: Nos permite dividir una variable numérica por
intervalos y crear el número de categorías que queramos.

Datos > Modificar variables del conjunto de datos activo > Recodificar variables

6
Método de segmentación: Permite realizar la categorización en base a diferentes metodologías.

● Segmentos equidistantes: Divide el rango de los datos en intervalos de igual longitud.


● Segmentos de igual cantidad: Usa los percentiles para categorizar.
● Segmentos naturales: Usa un método de agrupación basado en la clusterización K-medias.

Recodificar una variable

Recodificar una variable: Útil para combinar categorías; se puede recodificar una variable en la
misma (cambiar sus categorías) o crear una nueva variable. La recomendación es hacerlo siempre en
una nueva variable.

● Ejemplo: Se realiza un estudio de las apneas del sueño. Carguemos la base de datos de
APNEA. Tenemos una variable llamada TABACO que hace referencia al número de paquetes
que cada paciente fuma en un año, pero está categorizada 0 = “No fumador”; 1 = “1-11
paquetes/año”; 2 = “11-20 paquetes año” y 3 = “>20 paquetes año”. Calculemos una nueva
variable que indique si el paciente es fumador o no lo es. Para ello recodificaremos esta
variable incluyendo la categoría 0 por un lado (no fumador) y las categorías 1, 2 y 3 por el
otro (fumador).

Datos > Modificar variables del conjunto de datos activo > Recodificar variables

7
TALLER 2.2: ESTADÍSTICA DESCRIPTIVA

1. Introducción
2. Tipos de variables
3. Tablas de frecuencias
4. Medidas analíticas
5. Resumen conjunto de todas las variables
6. Gráficos

1. INTRODUCCIÓN

Estadística descriptiva

● Técnica matemática que obtiene, organiza y describe un conjunto de datos.


● Se usa en el proceso de investigación, en la etapa donde el investigador necesita operar y
analizar los datos recolectados.
● Describe el fichero de datos, no trata de generalizar los resultados obtenidos.
● Conceptos importantes:
○ Población: Todas las personas con la característica/enfermedad/dolencia a estudiar.
○ Variables: Características de los miembros de la población que cambian de individuo
en individuo.
○ Muestra: Porción de la población a la que tenemos acceso en nuestro fichero de
datos.
● Trata de analizar y obtener resultados acerca de la muestra; nos centramos únicamente en
entender el comportamiento y relaciones que se dan en nuestra base de datos.
● La parte inferencial, generalizar los resultados, se estudiará en los capítulos siguientes.

2. TIPOS DE VARIABLES

● Tal y como hemos estudiado en el Taller 2.1, existen diferentes tipos de variables (columnas)
que han de ser correctamente definidas en R Commander para evitar absurdos.
● Muy importante tener conocimiento de la naturaleza de cada una de las variables a estudiar.
○ Por ejemplo, no tiene sentido hablar sobre la media de una variable categórica como
el pueblo de procedencia de cada individuo.
● Cuando recogemos datos de un fenómeno, estamos recopilando valores de variables
aleatorias, variable porque varían de individuo a individuo y, aleatoria porque la variación
depende del azar.
○ Por ejemplo, el número de caras en 10 lanzamientos de una moneda.
● Las variables aleatorias pueden ser de dos tipos: categóricas (cualitativas) o cuantitativas.

8
Variables categóricas (cualitativas / factores)

● Representan datos con un número limitado de valores posibles o categorías.


● Cuidado: Como vimos en el Taller 2.1, los números de variables categóricas no representan
una cantidad numérica, sino que son códigos.
● En el nivel más básico tendríamos las variables dicotómicas: dos posibles valores.
● Si representan más de dos categorías hablaríamos de variables politómicas. Las variables
categóricas pueden dividirse en dos subfamilias:
○ Tipo nominal: No hay ninguna relación entre sus categorías (sexo o pueblo de
procedencia). (las que no tienen un orden, por ejemplo el color de pelo)
○ Tipo ordinal: Sus categorías pueden ser ordenadas en función de algún criterio
(nivel de satisfacción o nivel de gravedad). (las que tienen un orden, por ejemplo
“contento”, “sin más” y “no contento”)

Variables numéricas (cuantitativas)

● Representan datos que:


○ Pueden tomar muchos valores.
○ Pueden ser manipulados aritméticamente.
○ Tienen un orden establecido.
○ El concepto de distancia entre los valores tiene sentido.
● Por ejemplo, el peso sería una variable aleatoria cuantitativa, ya que, cumple las cuatro
condiciones anteriores.
● Las variables cuantitativas pueden dividirse en dos subfamilias:
○ Variables discretas: Sólo pueden tomar valores que sean números enteros (número
de hijos). (se pueden contar)
○ Variables continuas: Pueden tomar cualquier valor (peso, altura, capacidad
pulmonar). (no se puede contar)

3. TABLAS DE FRECUENCIA

Variables categóricas: Tablas de frecuencia

● Útiles para representar variables categóricas.


● Una tabla de frecuencias es una representación numérica en forma de tabla donde
observamos cuántas veces se repite en el fichero de datos cada una de las categorías de la
variable categórica.
● Ejemplo: Se realiza un estudio sobre el FEV (forced exporatory volume), prueba que mide el
funcionamiento de los pulmones, en población infantil. Del fichero FEV, fusionado en el
anterior taller, queremos saber como se distribuye el número de niños que son fumadores
oque no lo son, es decir, que frecuencia y proporción de niños analizados fuma o no fuma.
○ Usaremos una tabla de frecuencia para lograr ese objetivo.

9
Aplicación en R commander

Estadísticos → Resúmenes → Distribución de frecuencias

● Aparecerá una ventana en la que tendremos que seleccionar la variable categórica que
queremos analizar (FUMAR).

● Los resultados los veremos en la pantalla principal de R commander:

Resultados del ejemplo:


● 65 fumadores (10.11%)
● 578 no fumadores (89.89%)

4. MEDIDAS ANALÍTICAS

Variables cuantitativas: Medidas analíticas

● Una medida analítica es una cantidad numérica que resume cierta característica de una
variable aleatoria.
○ Si la variable aleatoria hace referencia a la población, la medida analítica se
denomina parámetro.
○ Si la variable aleatoria hace referencia a la muestra, la medida analítica se denomina
estadístico.
● Por lo general, nunca tendremos acceso a toda la muestra, por lo tanto, no tendremos acceso
a los parámetros.

10
● Usaremos nuestro fichero de datos para calcular los estadísticos y tratar de aproximar los
parámetros (siguientes talleres).
● Los estadísticos se clasifican por el tipo de característica de la variable aleatoria que
describen:
○ Estadísticos de centralización
○ Estadísticos de posición
○ Estadísticos de dispersión
○ Estadísticos de forma

4.1. Estadísticos de centralización

● Medidas que resumen la localización de los datos, su localización central.


● El más conocido: media aritmética, denominado como x , se calcula como la suma de todos
los valores entre el número de valores
○ Representa el centro de masa:
○ La media es la suma de todos los valores entre el
número de valores

● Otro de los más usados; la mediana, valor situado en el medio de


todos los valores ordenados
○ Representa el valor central:

● Ambas medidas son complementarias

4.2. Estadísticos de posición

● Valores de la variable que dejan un porcentaje de datos a cada lado.


○ Por ejemplo, la mediana es el valor que deja el 50% de los datos a cada lado, por lo
que también se puede considerar como estadístico de posición.

● Percentiles: valores que dividen la muestra analizada en 100 pedazos iguales. Ej: percentil
75% → LOS PACIENTES TIENEN UN fev DE 3,12 O MENOR
○ Pi hace referencia al percentil i-ésimo , es decir, el valor que deja a su izquierda un
i% de los valores de la muestra.
○ Deciles: valores que dividen la muestra analizada en 10
● Cuartiles: percentiles que dividen la muestra en 4 trozos de igual tamaño
○ Son los percentiles más usados en la práctica y se denotan como:
■ Q1: primer cuartil, deja el 25% de los datos por debajo
■ Q2 / Me / D5: mediana, deja el 50% de los datos por debajo
■ Q3: tercer cuartil, deja el 75% de los datos por debajo

11
4.3. Estadísticos de dispersión

Indican el grado en que una variable se concentra o se estira. Es un número real no negativo, igual a
0 si todos los datos son iguales y aumenta a medida que los datos se vuelven más dispersos. Los
estadísticos de dispersión se contrastan con los de centralización, y ambos dos son los más usados.
2
● Varianza: Dispersión de los datos respecto a la media, denotada como 𝑠 se define como la
media de las desviaciones al cuadrado.
2
2 Σ(𝑥1−𝑥)
𝑠= 𝑛
X1: Valor de cada variable
● Desviación estándar: con el fin de establecer la unidad original de la variable, se considera
la raíz cuadrada de la varianza. Es una estimación de la desviación media. Se multiplica x2 y
si es igual o superior a la mediana, se utilizan: 25%, 50%, 75% 100%
● Rango: Diferencia entre valor mínimo y máximo. Unidades hay desde el valor máximo al
valor mínimo
● Rango intercuartílico: Diferencia entre Q1 y Q3. En cuántas unidades se mueve la gente
“normal”
● Coeficiente de variación (CV): Cociente entre la desviación estándar y la media aritmética.
Elimina las unidades. Se hace cuando hay distintas unidades (kg y cm) o distintos grupos
(hombres y mujeres)
𝐷𝐸
𝐶𝑉 = 𝑋
Ejm: Tenemos una máquina que mide tornillos y una máquina que mide distancias entre
planetas
● Máquina que mide tornillos: variación de 1 mm
● Distancia entre planeta: variación de 1 km
La variación de 1 km aparentemente es mucho más grande pero si lo comparas con lo que
está midiendo cambia. El coeficiente de variación compara cuál de las dos tiene más
dispersión.

4.4. Estadísticos de forma

Caracterizan la forma de la gráfica de una distribución de


datos. No son muy utilizadas, por lo general.
● Coeficiente de asimetría: indica si la distribución de
los datos es simétrica o no:
○ Coef.=0→ simétrica.
○ Coef.<0 → asimétrica a la izquierda (número
de ingresos)
○ Coef.>0 → asimétrica a la derecha (% de
saturación en sangre)
Mirar si la cola está hacia la izquierda o hacia la derecha

12
● Coeficiente de curtosis: indica si hay gran agrupación de datos hacia el centro (distribución
leptocúrtica) o si hay agrupación de los extremos (distribución platicúrtica). mirar la
concentración de la información

Estadísticos → Resúmenes → Resúmenes numéricos

1. Realicemos un análisis descriptivo de las variables continuas de la base de datos.

2. Obtenemos la siguiente respuesta en la salida:

3. R Commander también nos ofrece la oportunidad de calcular los estadísticos de variables


cuantitativas divididas por categorías de variables categóricas.

5. RESUMEN CONJUNTO DE TODAS LAS VARIABLES

Existe una forma directa en R Commander de obtener un análisis descriptivo de todas las variables
en un base de datos.
Diferencia entre variables categóricas y cuantitativas. Muy útil para detectar variables que aún siendo
categóricas, han sido codificadas numéricamente y R Commander considera cuantitativas.

Estadísticos → Resúmenes → Conjunto de datos activo

13
6. GRÁFICOS

Proporcionan información general de una forma visual, rápida y fácil de


interpretar. Un gráfico debe de ser interpretable por sí solo (sin necesidad
de texto). Tal y como hacemos en el análisis numérico, para graficar
variables debemos de tener en cuenta su naturaleza (categórica o
cuantitativa).

GRÁFICA DE BARRAS (VARIABLES CATEGÓRICAS)


Útiles para representar variables categóricas. Se representan las
categorías en un eje y las frecuencias (absolutas o relativas) en
el otro mediante barras. El diagrama de barras representa
gráficamente una tabla de frecuencias.

Gráficos→ Gráfica de barras

Las gráficas son bastante simples y “feas”. Podemos modificar los parámetros:

GRÁFICAS DE SECTORES (VARIABLES


CATEGÓRICAS)
Útiles para representar variables categóricas.
Representan gráficamente una tabla de
frecuencias. Se divide el área de un círculo en
sectores proporcionales a las frecuencias
(absolutas o relativas) de las categorías.

Gráficos→ Gráfica de sectores

HISTOGRAMA (VARIABLES CUANTITATIVAS)


Útil para representar variables cuantitativas continuas.
Representan en forma de barras donde la altura de cada barra representa la
frecuencia de los valores que se encuentran en el intervalo que define su
base. Visión general de la distribución de los valores de la muestra.

14
Gráficos→ Histograma

Al igual que con las gráficas anteriores podemos cambiar el


nombre de los ejes, títulos, colores…
En este caso particular, también podemos seleccionar el número
de barras que formará nuestra gráfica.

DIBUJAR UNA VARIABLE NUMÉRICA DISCRETA


Útil para representar variables cuantitativas discretas. Mismas características
que un histograma, sin agrupación por intervalos.

Gráficos→ Dibujar una variable numérica discreta

R Commander no da también la opción de dibujar la distribución de una


variable discreta diferenciando entre una variable categórica.

DIAGRAMA DE CAJAS (VARIABLES CUANTITATIVAS)


Los diagramas de cajas o box-plots son una representación visual de las
características de una distribución de la muestra de datos.
Útil para representar la dispersión o la asimetría de los datos.
● Caja rectangular, donde los lados muestran el rango
intercuartílico (Q3 - Q1).
○ La caja se divide por un segmento vertical, indicando dónde se posiciona la mediana.
○ Los extremos de la caja muestran el primer cuartil, Q, y tercer
cuartil, Q3.
● Los bigotes se extienden hasta los valores máximo o mínimo de los
datos o hasta 1.5 veces el rango intercuartílico. Los bigotes tienen un
límite de propagación, de modo que cualquier dato que no se encuentre
dentro de ese rango es marcado e identificado individualmente.

Gráficos→ Diagrama de cajas

R Commander nos permite dibujar diagramas de cajas de variables cuantitativas


diferenciando entre las categorías de otra variable categórica. Para ello seguiremos
los pasos anteriores, pero seleccionaremos Gráfica por puntos y clicaremos sobre la
variable categórica.

15
TALLER 2.3: INFERENCIA ESTADÍSTICA PARA UNA POBLACIÓN

Índice
● Introducción
● Estimación e intervalos de confianza
● Contraste de hipótesis
● Tamaño muestral

Introducción

CENSO
Los proyectos de investigación estudian ciertas características de una población. Para disponer de
información de toda la población hace falta realizar un censo, esto es, si pudiéramos estudiar todas la
poblaciones de todo lo que nos interesa, estaríamos continuamente haciendo censos y la estadística
no tendría ningún sentido, porque no tendríamos ninguna incertidumbre. ¿Pero es posible realizar
todo el rato censos? No. Realizar un censo tiene sus aspectos positivos como negativos.

Aspectos positivos:
● Acceso a toda la población.
● No hay margen de error.
● Resultados 100% fiables.

Aspectos negativos:
● Poblaciones grandes
● Tiempo
● Costes
● Falta de recursos
● ¿Si se quieren resultados rápidos?

MUESTRA

Para sacar la muestra se elige aleatoriamente un


grupo de personas dentro de una población, las
separan y se trabajan aparte. Una vez se estudia
la muestra hay que sacar las conclusiones y
aplicarlas sobre la población, esto es, se estudia la
muestra y siempre concluimos sobre la población.

Aleatoria = que todos los sujetos tengan la misma probabilidad de ser seleccionados, la elección se
suele hacer con un software o personas que no puedan influir en la decisión
Es muy importante que la muestra tenga dos características, tiene que ser aleatoria y representativa.

P.e: Si me interesa estudiar la población mayor a 18 años, no puedo estudiar solo a mujeres de más
de 18 años, tendré que estudiar a hombres mayores de 18 años también.

16
O si quiero estudiar una población de niños entre 9 y 11, no puedo estudiar solo niños de 9 años,
sino que tienen que haber de todas las edades entre 9 y 11 años.

Inferencia estadística: Métodos que permiten obtener resultados y medir su grado de confianza.

Estimación puntual e intervalos de confianza

ESTIMACIÓN PUNTUAL

Estimación puntual: Asignar un valor a una cantidad de interés. Son un trozo de información.

Tengo estos tres proyectos de investigación, 3 diferentes, se hacen los 3 independientemente en


Bilbao, el 10, el 85 y el 4 son la estimación puntual del resultado de interés. Si replico el mismo
estudio, con las mismas condiciones, pero no en Bilbao sino en otras ciudades probablemente no se
encuentre los mismos porcentajes y/o medias. La estimación puntual puede variar.

● ¿Qué porcentaje de la población padece EPOC? → 10%


● ¿Qué porcentaje de las IQ de cataratas son efectivas? → 85%
● Media estancia hospitalaria tras una cesárea → 4 días

¿Si realizo el mismo estudio en diferentes muestras, obtendré el mismo valor? No dice nada sobre
la confianza de cada estimación

Necesitamos una medida que indique la certidumbre (o confianza) de toda estimación puntual

*En los artículos científicos, al lado de cada estimación puntual hay unos intervalos de confianza, que
serán la información que falta para saber la confianza que tengo alrededor de esta estimación
puntual.

INTERVALOS DE CONFIANZA

● Los límites de la estimación puntual


● Indican un rango de posibles valores
● Cuando más estrechos más confianza
● Convencionalmente IC al 95%

La línea de abajo, al ser más corta, tiene más certidumbre de lo que se está diciendo que la tercera
línea. Es probable que la línea de más abajo (más certidumbre), tenga un tamaño muestral (n) mayor.

→ Los cuerpos de los aviones son diferentes estimaciones puntuales, las alas son los intervalos de
confianza alrededor de estas estimaciones puntuales.

→ Cuanto más estrechos sean los intervalos de confianza, más seguridad tengo alrededor de esta
estimación puntual.

→ La primera estimación puntual no da tanta confianza, porque el intervalo de confianza es muy


grande.

17
→ Normalmente los intervalos de confianza más estrechos se producen cuando hay más datos (más
participantes). También existen otros datos que pueden condicionar el rango de los intervalos de
confianza.

→ Buscamos siempre intervalos de confianza estrechos.

→ Convencionalmente, cuando hablamos de intervalos de confianza hablamos de intervalos del


95% (pueden existir también de 80,85 y 90%)
Los IC tienen que acompañar la estimación puntual del resultado de interés…

● ¿Qué porcentaje de la población padece EPOC? → 10% (IC95%: 5-15%)


● ¿Qué porcentaje de las IQ de cataratas son efectivas? → 85% (IC95%: 70-100%)
● Media estancia hospitalaria tras una cesárea → 4 días ((IC95%: 2-6 días)

Este tipo de intervalos de confianza no se presentan para cada uno de los datos de la base de datos,
solamente para el resultado final, para el objetivo principal, lo que nos interesa estudiar, no para
todas las variables.
Los intervalos de confianza suelen ser simétricos (existen asimétricos).
He hecho un estudio, he conseguido x porcentaje, pero si repito el experimento muchas veces los
resultados van a variar entre estos intervalos.

EJEMPLO R COMMANDER: >Estadísticos >Medias> Test t para una muestra

FEV (forced expiratory volume) es una prueba que mide el funcionamiento de los pulmones. Se
realiza un estudio sobre esta prueba, que recogen los datos sobre mediciones de FEV (en litros)
realizadas a 654 niños. Se quiere obtener el valor medio del FEV y los intervalos de confianza al
95%

Estadísticos> medias> test t para una muestra>FEV>


media poblacional !=mu0> nivel de confianza → .95

18
EJEMPLO R COMMANDER: >Estadísticos >Proporciones> Test de proporciones para una muestra

La base de datos de FEV recoge además información sobre el género. Interesa estimar la proporción
de los niños varones y su intervalo de confianza.

Estadísticos>proporciones>test de
proporciones para una
muestra>Sexo>proporcion de poblacion !=p0
y aproximación normal>intervalo de confianza
→ .95

En esta muestra la proporción de los niños


varones de de 51%
La mayoría de las veces estaría en el intervalo
48-55%

Esta proporción pertenece al primer grupo, en este caso a los niños varones. Si quisiéramos la
proporción de las mujeres, tendríamos que recodificar una variable. Siempre asegurarnos que la
proporción pertenece al grupo que nos interesa.

Contraste de hipótesis

Los investigadores cuando realizan un trabajo de investigación tienen unas hipótesis, o unas ideas
previas.
● Los investigadores, basándose en la intuición o experiencias previas, formulan hipótesis
sobre las que diseñan un plan de trabajo. (La hipótesis siempre va ligada a un número)

● Estas hipótesis consisten en asignar valores numéricos a determinados parámetros de la


población “por ejemplo: se espera que la altura media de los niños de 12 años será x”

19
● La Estadística nos proporciona métodos adecuados para aceptar o rechazar las hipótesis.
Siempre estamos buscando o comprobar una hipótesis o rechazarla, si es que los datos no la
apoyan.

Ejemplo: FEV (forced expiratory volume) es una prueba que mide el funcionamiento de los
pulmones. Se realiza un estudio sobre esta prueba, que recogen los datos sobre mediciones de FEV
(en litros) realizadas a 654 niños. Queremos contrastar la hipótesis de si en población infantil la
media del FEV es de 2 litros, tal y como dice la literatura.
¿Cuál es la herramienta para comprobar estas hipótesis?

* Es importante que la persona que hace los análisis estadísticos sepa lo que está haciendo

Hay que hacer un contraste de hipótesis:


- Hipótesis nula (H0): hipótesis que desea ser contrastada (no diferencia)
- Hipótesis alternativa (H1 ): negación o hipótesis complementaria de H0

Es importante que la persona que hace los análisis estadísticos sepa lo que está haciendo

Objetivo: decidir si la prueba tiende a apoyar o a refutar H0.

Errores:

Tipos de errores (Probabilidades que están contempladas en toda prueba estadística)


α =Probabilidad del error de tipo I = nivel de significación = probabilidad de rechazar la hipótesis
nula cuando es cierta → queremos que sea lo más pequeña posible
β = Probabilidad del error de tipo II= probabilidad de aceptar la hipótesis nula cuando es falsa.

Contraste de hipótesis para la media

Ejemplo: Siguiendo con el ejemplo del FEV (forced expiratory volume) en población infantil,
queremos contrastar la hipótesis de si la media del FEV es de 2 litros.
Datos: muestra de n = 654
Variable: FEV cuantitativa = 2.64; s = 0.86; n = 647

20
Contraste de hipótesis paso a paso:

1. Establecer la hipótesis nula y la alternativa:contraste bilateral


H0 : Nivel medio del FEV = 2 → Valor medio del FEV es igual a 2l
H1 : Nivel medio del FEV ≠ 2 → Valor medio del FEV es distinto a 2l

2. Establecer el estadístico pivote y la distribución asociada: estadístico pivote → no lo


hacemo nosotros, lo hace el software

Idea:
- Si el valor del test observado no es usual (un valor que va hacia las colas de la
distribución)→ Rechazo H0
- Si el valor del test obtenido se presenta comúnmente (valor que cae cerca del valor
0) → No rechazo H1

3. Establecer la región de aceptación y crítica de acuerdo con un α prefijado


Suponiendo H0 cierta → Un valor usual para t sería próximo a 0

→Debemos establecer la frontera a partir de la cual


considero que un valor de t es usual o no
Para ello utilizamos el nivel de significación α, para saber
que es cerca del 0 y lejos de 0

α = 0.05 = Probabilidad de rechazar H0 cuando es cierta


→ Existen alphas de diferentes cantidad pero nosotros
hablaremos todo el rato de esto.

- Si t está en Región de aceptación → No rechazo H0


- Si t está en la Región crítica → Rechazo H0

4. Calcular el valor del estadístico en la muestra y tomar la decisión

=18,93 → Región crítica → Rechazamos H0, hipótesis de la igualdad

p-valor: Probabilidad de obtener un resultado tan extremo o más


que el observado. Cuanto mayor sea el valor de t menor será el
p-valor
- Decisión
Si p < 0.05 → Rechazamos H0
Si p ≥ 0.05 → No rechazamos H0
- En este caso: p < 0.05 Rechazamos la hipótesis de que el
nivel del FEV sea 2 litros

21
Supuestos teóricos: variable con distribución normal.

EJEMPLO EN R COMMANDER: > Estadísticos > Medias > Prueba T para una muestra

H0 (nula) : Nivel medio del FEV = 2


H1 (alternativa): Nivel medio del FEV ≠ 2

*Importante seleccionar variable que nos


interesa

Asegurarse de cambiar la hipótesis nula y marcar media poblacional !=mu0


Interpretación:

● Valor del estadístico: t (pivote)= 18.795; grados


libertad (df): n – 1 = 646
● p-valor < 0.05 → No se acepta la H0 de que el nivel
medio del FEV sea de 2 litros
También se puede mirar si el valor 2 está dentro del
intervalo de confianza. Si el valor no está dentro del
intervalo de confianza, también se rechaza
● I95% (Media FEV) = (2.57, 2.71) → El I95% no contiene al
2 → No se acepta H0

*Intervalos de confianza y p-valores tienen que estar siempre de acuerdo.

CONTRASTE DE HIPÓTESIS PARA LA PROPORCIÓN:

Ejemplo: Siguiendo con el ejemplo del FEV (forced expiratory volume) realizada en 654 niños,
además de la variable FEV también se recogía la edad de cada niño, la cual oscilaba entre 3 y 19
años. Queremos contrastar la hipótesis de si el porcentaje de individuos de 9 años o menores es del
50%.
● Datos: muestra de n = 654
● Variable: EDADC cualitativa dicotómica→ Con esta variable queremos comprobar
si la probabilidad de

Planteamiento del contraste: contraste bilateral


H0: p (Edad ≤ 9 años) = 0.50
H1: p (Edad ≤ 9 años) ≠ 0.50

Estadístico pivote:

22
p valor:
Si p < 0.05 → Rechazamos H0
Si p ≥ 0.05 → No rechazamos H0

EJEMPLO EN R COMMANDER: > Estadísticos > Proporciones > Test de proporciones para una
muestra

H0: p (Edad ≤ 9 años) = 0.50


H1: p (Edad ≤ 9 años) ≠ 0.50

Interpretación:
● La proporción de niños ≤ 9 años en nuestra muestra:
● El valor p del contraste: p = 0.1711 > 0.05 → No rechazamos H0 → Podemos
aceptar la hipótesis de que la proporción de niños ≤9 años es igual a la de > 9 años.
● El p valor es mayor que 0.05 por lo tanto, NO es estadísticamente significativo.
● El intervalo de confianza del 95% para dicha proporción:

● Como el intervalo contiene al 0.50, podemos aceptar la H0.

Si la hipótesis nula se acepta, el valor p va a variar en el 95% de los casos entre el intervalo de
confianza, en el 5% del resto se saldrá de esos intervalos.

Tamaño muestral

23
PARA UNA MEDIA POR IC95%

EJEMPLO EN GRANMO: > Medias > Estimación Poblacional

Ejemplo: Interesa estimar el valor medio de la hemoglobina glicosilada (HbA1) en pacientes


diabéticos >65 años en la CAPV. Un estudio anterior en pacientes similares reporta que la variable
de interés tiene una desviación estándar de 1.2.

Queremos obtener un intervalo de confianza del 95% alrededor de la media estimada en nuestro
ámbito con una precisión d = 0.2. ¿Qué n necesitamos reclutar?

EJEMPLO EN GRANMO: > Proporciones > Estimación Poblacional

Ejemplo: Interesa estimar la prevalencia de pacientes con EPOC en la CAPV. Un estudio de otra
comunidad estima una prevalencia de 12%.
Queremos que el IC95% de la estimación obtenida en nuestra muestra tenga una precisión de 2%.
¿Qué n necesitamos reclutar?

PARA UNA MEDIA POR CONTRASTE

EJEMPLO EN GRANMO: > Medias > Observada respecto a una de referencia

Ejemplo: Interesa comprobar el valor


medio FEV (en litros) en niños con asma.
Publicaciones anteriores indican que es 2.4
l, con una DE=1.3.
Queremos estimar el valor en nuestra
población, y además poder captar una
posible diferencia mínima de 0.2 l, frente al
valor anterior, en caso de que esta
diferencia exista. Se establece riesgo
α=0.05 y β=0.20

24
PARA UNA PROPORCIÓN POR CONTRASTE

EJEMPLO EN GRANMO: > Proporciones >


Observada respecto a una de referencia

Ejemplo: Interesa comprobar % de fragilidad en


personas >65 años. Otros estudios sugieren un
10%, pero se espera que en nuestro entorno
esta estimación será 15%.
Se establece riesgo α=0.05 y β=0.20. ¿Qué n
necesitamos reclutar?

25
TALLER 2.4: INFERENCIA ESTADÍSTICA PARA DOS POBLACIONES → Variables continuas

Índice
● Introducción
● Inferencia para dos medias independientes
○ Comparación de dos medias
○ Contraste preliminar de igualdad de varianzas
○ Aplicación en R Commander
● Inferencia para dos medias relacionadas
○ Comparación de dos medias
○ Aplicación en R Co
● Supuestos teóricos

1. INTRODUCCIÓN

EJEMPLOS →
1. Poblaciones independientes: (Se utilizan personas diferentes, los que están en un grupo,
no están en el otro)

a. Se realiza un estudio sobre el FEV (prueba que mide el funcionamiento de los


pulmones) en población infantil.
b. Objetivo: Analizar si existen diferencias en la capacidad pulmonar dependiendo del
género en población infantil.
c. Datos: Tenemos una muestra de 647 niños y niñas.
i. Población 1 (Niños) : N=332
ii. Población 2 (Niñas) : N=315

2. Poblaciones relacionadas : (Se utilizan las mismas personas (misma población) en ambos
casos)
a. Se realiza un estudio para investigar el efecto de un programa de ejercicio físico en el
nivel de colesterol.
b. Objetivo: Analizar si existen diferencias en el nivel de colesterol antes y después del
programa. (Para ver la efectividad del programa)
c. Datos: Tenemos una muestra de 40 sujetos a los que se les toma una muestra de
sangre antes y después del programa (para medir el colesterol)
i. Población 1 (Antes de ejercicio): N=40
ii. Poblacion 1 (Despues de ejercicio): N=40

26
2. INFERENCIA PARA DOS MEDIAS INDEPENDIENTES (Muestras independientes)

1. Comparación de dos medias: (Estadísticos>Medias>Test t para muestras independientes)


a. Se realiza un estudio sobre el FEV (prueba que mide el funcionamiento de los pulmones) en
población infantil y queremos analizar si existen diferencias dependiendo del género.
b. Datos: 647 niños de los que se dispone del FEV y sexo.
c. Objetivos: Contrastar la hipótesis de si existen diferencias en el FEV dependiendo del sexo.
d. Variables:
i. (1) Nivel de FEV (cuantitativa)
ii. (2) SEXO: 0=niña; 1=niño (cualitativa dicotomica→ porque estamos comparando dos
medias )
e. Relacionamos la variable cuantitativa con la cualitativa dicotómica
f. Planteamiento del contraste: Bilateral

Hipótesis nula (H0) → Igualdad


Hipótesis alternativa (H1) → Diferencia

i. H0 (igualdad) → Nivel medio FEV (niños) = Nivel medio FEV (niñas)


ii. H1 (diferencia) → Nivel medio FEV (niños) ≠ Nivel medio FEV (niñas)

g. Estadístico pivote: Depende si podemos asumir varianzas iguales o no en el FEV en ambas


poblaciones. Sirve para ver cuánto nos alejamos de la hipótesis nula.
i. Varianzas iguales → No nos alejamos mucho de la hipótesis nula, el numerador será
pequeño.
ii. Varianzas distintas
h. p-valor:
i. p < 0.05 → Rechazamos H0
ii. p ≥ 0.05 → No rechazamos H0

Hay que hacer un contraste preliminar en el ordenador para ver si las varianzas son iguales o
distintas.

2. Contraste preliminar igualdad de varianzas: (Estadísticos>Varianzas>Test F para dos


varianzas) → Es un paso que hay que hacer antes de la comparación de medias, para
saber si la varianza es igual o distinta.

a. Planteamiento del contraste: Bilateral


i. H0→ Nivel medio FEV (niños) = Nivel medio FEV (niñas)
ii. H1→ Nivel medio FEV (niños) ≠ Nivel medio FEV (niñas)
b. Estadístico pivote

c. p-valor:
i. p < 0.05 → Rechazamos H0 asumiendo que las varianzas son distintas
ii. p ≥ 0.05 → No rechazamos H0 asumiendo que las varianzas son iguales

27
APLICACIÓN EN R COMMANDER →

Ejemplo 1: Volviendo al ejemplo 1, donde el objetivo es estudiar si existen


diferencias en el nivel medio del FEV segun sexo en poblacion infantil.

● Análisis descriptivo:

A priori la capacidad pulmonar parece más grande en niños que en niñas, pero nos tenemos que
hacer la pregunta de si es estadísticamente significativo.

● Contraste preliminar igualdad varianzas: (Paso 1, para poder hacer la comparación de


medias)
○ H0 : Var.FEV (niños) = Var.FEV (niñas)
○ H1: Var.FEV (niños) ≠ Var.FEV (niñas)

Estadísticos > Varianzas > Test F para dos varianzas


(queremos comparar 2 varianzas)
ELEGIR →
● Grupos : Sexo
● Variable explicada: FEV
● Opciones: Bilateral

Interpretación:
-Valor estadístico pivote (Fp) = 2.3859
-p-valor (es en el que nos tenemos que fijar): 1.976*10⁻¹⁴ < 0.0001→
Rechazamos la hipótesis nula, no pudiendo asumir varianzas del FEV
iguales en niños y niñas. Asumimos varianzas distintas.

● Contraste comparación medias:


○ H0: Media FEV (niños) = Media FEV (niñas)
○ H1: Media FEV (niños) ≠ Media FEV (niñas)

Estadísticos > Medias > Test t para muestras independientes


ELEGIR:
● Grupos: Sexo
● Variable explicada: FEV
● H1: Bilateral
● Nivel de confianza: .95
● Suponer varianzas iguales: No (Porque hemos dicho antes que las varianzas eran distintas)

Interpretación:
Valor del estadístico pivote: t=5.559

28
p-valor < 0.0001→ Rechazamos la H0, concluyendo que existen diferencias significativas en el nivel
del FEV dependiendo del género, siendo superior la capacidad pulmonar en los niños.
Intervalo de confianza de la diferencia del valor medio (de las 2 medias)= (0.237,0.495) → No
contiene al 0, con lo que rechazaremos H0 (es otra manera de rechazar la hipótesis nula).

3.INFERENCIA PARA DOS MEDIAS RELACIONADAS

1. Comparación dos medias relacionadas: (Estadísticos > Medias > Test T para datos
relacionados)

Ejemplo 2: Se realiza un estudio para investigar el efecto de un programa de ejercicio físico en el


nivel de colesterol.
a. Datos: 40 sujetos a los que se les toma muestras de sangre para medir el nivel de colesterol
antes y después de las semanas que dura el programa de ejercicio.
b. Objetivo: Contrastar hipótesis de si existen diferencias en el nivel medio del colesterol antes
y después del programa.
c. Variables:
i. COLESTEROL_PRE: Antes (Cuantitativa)
ii. COLESTEROL_POST: Después (Cuantitativa)
d. Relacionamos la misma variable cuantitativa medida en dos momentos distintos
e. Planteamiento del contraste: Bilateral
i. H0 (igualdad): Nivel medio colesterol (pre) = Nivel medio colesterol (post)
ii. H1 (diferencia): Nivel medio colesterol (pre) ≠ Nivel medio colesterol (post)
f. Estadístico pivote : En este caso no es grupo 1 y grupo 2, sino momento 1 y momento 2.
Si me alejo mucho, el estadístico va a tender a ser grande. Si nos alejamos poco, va a tender
a ser pequeño (cerca del 0).
g. p-valor:
i. p < 0.05→ Rechazamos H0
ii. p ≥ 0.05 → No rechazamos H0

APLICACIÓN EN R COMMANDER→ Cargamos colesterol

● Análisis descriptivo: Estadísticos → resúmenes numéricos


→…

● Planteamiento del contraste: (Hacemos el contraste para ver si ese cambio es


estadísticamente significativo)
○ H0: Nivel medio colesterol (pre) = Nivel medio colesterol (post)
○ H1: Nivel medio colesterol (pre) ≠ Nivel medio colesterol (post)

29
Estadísticos > Medias > Test t para datos relacionados
ELEGIR→
● Primera variable: Colesterol_pre
● Segunda variable: Colesterol_post
● Nivel de confianza: .95

Interpretación→
-Valor estadístico pivote: t=4.1773
-p=0.0001606<0.001→ Rechazamos la H0, concluyendo
que existen diferencias significativas en el nivel del colesterol
antes y después del ejercicio.
-Media de la diferencia: 30.65
-Intervalo de confianza de la diferencia de medias
(15.809,45.491): Como no contiene al 0, se rechaza H0.

4. SUPUESTOS TEÓRICOS

Estamos comparando variables cuantitativas todo el rato.

1. Supuestos teóricos a cumplir: Tanto en la comparación de dos medias independientes como


relacionadas, donde toman parte variables cuantitativas, la condición que han de cumplir es
que estas deben provenir de poblaciones de distribución normal (Campana de Gauss)

OPCIONES →
● Inferencia para dos medias independientes
○ Estadísticos→ Varianzas→Test F para dos varianzas (Contraste preliminar igualdad
varianzas)
○ Estadísticos→ Medias→ Test t para muestras independientes (Contraste
comparación medias)
● Inferencia para dos medias relacionadas
○ Estadísticos→ Medias→ Test t para datos relacionados (Planteamiento de contraste
= comparación de dos medias)

→Cuando hay *, hay diferencias entre los grupos (fijarse entre qué grupos hay diferencias y la
cantidad. Cuantos más *, más diferencias)

30
Taller 2.5. Inferencia para más de dos poblaciones: Variables continuas

Índice
1. Introducción
2. Análisis de la varianza
3. Comparaciones múltiples
4. Aplicación en R Commander
5. Supuestos teóricos

1. Introducción

Ejemplo 1: Se realiza un estudio sobre el FEV (forced expiratory volume), que es una prueba que
mide el funcionamiento de los pulmones, en población infantil.
Objetivo: analizar si existen diferencias en la capacidad pulmonar dependiendo del grupo de edad:
<9 años, 9 – 12 años y >12 años.
Datos: se dispone de una muestra de 647 niños de los que se dispone del FEV y edad.

2. Análisis de varianza

Ejemplo 1: En el estudio del FEV queremos analizar si existen diferencias en la capacidad pulmonar
dependiendo del grupo de edad.
● Datos: 647 niños de los que se dispone del FEV y edad.
● Variables:
○ FEV: Nivel del FEV Cuantitativa
○ EDAD3C:

● Objetivo: contrastar la hipótesis de si


existen diferencias en el nivel medio del
FEV entre los grupos de edad.
Relacionamos variable cuantitativa con cualitativa politómica

Contraste Anova:
● Planteamiento del contraste:
○ H0 : Media FEV (<9 años) = Media FEV (9 – 12 años) = Media FEV (>12 años)
○ H1 : Alguna de las medias es distinta

31
● Estadístico pivote:

𝑉𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝐼𝑁𝑇𝐸𝑅 / (𝐾−1)


○ 𝐹p = 𝑉𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝐼𝑁𝑇𝑅𝐴 / (𝑁− 𝑘)
≈ 𝐹𝑘−1, 𝑁−𝐾 Suponiendo 𝐻0 cierta

Descomposición variabilidad total:


Variabilidad TOTAL = Variabilidad INTER + Variabilidad INTRA

Intuitivamente: compara la variabilidad explicada por el factor con la aleatoria.


● Si H0 no es cierta Var. INTER grande Fp grande p-valor pequeño
● Si H0 es cierta Var. INTER pequeña Fp pequeño p-valor grande
p-valor:
● p ≥ 0.05 No rechazamos H0
● p < 0.05 Rechazamos H0

Existen diferencias significativas


entre al menos dos de los grupos

¿Entre qué grupos?


¿Dónde están las diferencias?

Comparaciones múltiples

3. Comparaciones múltiples

Comparaciones múltiples: sólo se utilizan si se rechaza H0 en el ANOVA

● Bonferroni: es una solución muy conservadora


● Tukey: uno de los más potentes. Originalmente diseñado para muestras de igual tamaño,
pero existen variaciones.
● Scheffe: conservador y se puede utilizar en cualquier caso.
● Duncan: uno de los más antiguos.

32
4. Aplicación en R Commander

Ejemplo 1: En el estudio del FEV queremos analizar si existen diferencias en lacapacidad pulmonar
dependiendo del grupo de edad.

Análisis descriptivo:

Planteamiento del contraste:


● H0 : Media FEV (<9 años) = Media FEV (9 – 12 años) = Media FEV (>12 años)
● H1 : Alguna de las medias es distinta

Ejemplo:

R COMMANDER: > Estadísticos > Medias > ANOVA de un factor

33
Interpretación:
● El valor del estadístico pivote: Fp = 332.
● El p-valor < 0.0001 Rechazamos la H0 , concluyendo que existen diferencias significativas
en el nivel medio del FEV dependiendo del grupo de edad.

Comparaciones múltiples: ¿Entre qué grupos se dan las diferencias?

> Estadísticos > Medias > ANOVA de un factor

Interpretación: método de Tukey detecta diferencias entre todos los grupos (*)
● Comparación del FEV entre < 9 años y 9 - 12 años: p < 0.0001
● Comparación del FEV entre < 9 años y > 12 años: p < 0.0001
● Comparación del FEV entre 9 - 12 años y > 12 años: p < 0.0001

5. Supuestos teóricos

● Las K muestras son independientes.


● La variable cuantitativa a comparar entre las K muestras proviene de distribuciones
normales.
● La variable cuantitativa a comparar entre las K muestras presenta homogeneidad de
varianzas.

34
TALLER 2.6: INFERENCIA PARA DOS O MÁS POBLACIONES: VARIABLES CUALITATIVAS

Índice
● Introducción
● Tablas de contingencia
● Pruebas de homogeneidad e independencia
○ Prueba Chi-cuadrado
○ Prueba exacta de Fisher T
● Tablas 2x2
○ Riesgo relativo
○ Odds ratio

1. INTRODUCCIÓN

● En muchas ocasiones, las mediciones resultantes de los estudios suelen ser de carácter
cualitativo o categórico.
● Áreas de actuación: Ciencias de la Salud, Epidemiología y Salud Pública, Educación.
● Evaluando una única variable: Listado de las categorías indicando el número de sujetos que
caen en cada nivel.
● Estudiar simultáneamente dos variables aleatorias categóricas → Se construye una tabla de
doble entrada
● Ejemplo: Estudiar si el hábito tabáquico (no fumador, exfumador, fumador) está relacionado
con desarrollar una enfermedad pulmonar (sí/no).

2. TABLAS DE CONTINGENCIA

● Representar datos conjuntos de dos factores A y B:


○ Filas → Factor A (r modalidades)
○ Columnas → Factor B (s modalidades)

● Situaciones
○ Tablas r x s: asociación entre el nivel de estudio y el provincia donde se habita.
○ Tablas 2 x 2: relación entre dos variables dicotómicas (sexo vs mortalidad, HTA vs
ingreso).
○ Tablas 2 x 2 x k: tablas 2x2 estratificadas por cada categoría de una tercera variable.

● Preguntas a responder
○ Las variables A y B, ¿son independientes? ¿están asociadas?
○ ¿Cómo evaluar la asociación entre A y B?
○ Si lo están, ¿cuál es su medida de asociación y su magnitud?

35
Tablas R X S

HTA (Y)

Si No

10 100 No fumador

50 50 Exfumador Hábito tabáquico (X)

60 1 Fumador

- Para saber qué variable va en columna y cual en fila, hay que saber que variable influencia
en cual
- sabemos que el hábito tabáquico influye en la HTA
- variable X en filas hábito tabáquico
- variable Y HTA en columnas
- hay que mirar en cada variable cuántos tienen el evento y ver en distintos niveles cómo va
variando

● Elementos de la tabla r x s:
○ n21: nº de sujetos observados que cumplen las características de la modalidad 2 de
la variable X y de la modalidad 1 de la variable Y.
○ n2+: nº de sujetos totales que pertenecen a la categoría 2 de la variable X (total
marginal).
○ n+2: no de sujetos totales que pertenecen a la categoría 2 de la variable Y (total
marginal).
○ N: no total de sujetos con datos disponibles en las variables X e Y.

Ejemplo: Se realiza un estudio para determinar la relación entre la hipertensión arterial (normal vs.
hipertensión) y la existencia de apneas patológicas (No, Si). Se selecciona una muestra aleatoria
consistente en 298 pacientes y se les clasifica de acuerdo con las dos variables. Los datos se recogen
en el fichero de datos APNEA. Queremos obtener la tabla de contingencia que nos relacione las dos
variables.

36
Apnea (Y)

Si No

193 (78.8%) 52 (21.2%) Tensión normal (242)

46 (86.8%) 7 (13.2%) Hipertensión (53) TA (X)

Hipertensión → 86,8% tienen apnea


Tensión normal → 78,8% tienen apnea
- ¿La diferencia de % es significante? → Chi-cuadrado

1. Ruta: >Estadísticos > Tablas de contingencia > Tabla de doble entrada

2. Resultado:
● De los 298 pacientes que conforman la muestra,
245 tienen una tensión arterial normal.
● Entre los que tienen TA normal, 193 (78.8%)
presentan apnea nocturna patológica.
● De los 53 pacientes que son hipertensos, 46
(86.8%) presentan apneas patológicas.

3. PRUEBAS DE HOMOGENEIDAD E INDEPENDENCIA

PRUEBAS DE INDEPENDENCIA/ HOMOGENEIDAD

● Prueba de independencia: todos los totales marginales pueden variar


H0: A y B son factores independientes (no asociación).
H1: A y B son factores dependientes (asociación).

37
● Prueba de homogeneidad: uno de los totales marginales esta establecido por el
investigador y el otro puede variar
H0: Proporciones iguales en ambas poblaciones (no asociación).
H1: Proporciones distintas en las poblaciones (asociación)

Prueba Chi-cuadrado

Estadístico: comparar valores observados (los de la tabla) y esperados bajo la


hipótesis de no asociación
NOTA: Todos los valores esperados deben ser > 5

¿Cómo actuar cuando los valores esperados son <5?


● Agrupar categorías de manera coherente hasta conseguir >5.
● En caso de que no se consiga, aplicar el test correspondiente, considerando las limitaciones
obtenidas.

Ejemplo 1: Siguiendo con el ejemplo de la APNEA del sueño compuesta por 298 pacientes, se quiere
determinar si hay alguna asociación aparente entre la circunferencia de cuello (<40 cm; 40-44 cm;
>44 cm) y la existencia de apneas patológicas (No, Si).

Apnea (Y)

Si No

89 (74.2%) 31 < 40 (T: 120)

93 (79.5%) 24 40-44 (T: 117) CC (X)

57 (93.4%) 4 > 44 (T: 61)

Pasos:
1. Contraste de hipótesis:
● H0 → CC y apnea son independientes
● H1 → CC o la presencia de apnea están relacionadas

2. Verificar las frecuencias esperadas → todas > 5


a) Si todas son > 5 → Chi-cuadrado
b) Si alguna frecuencia esperada < 5 → ?
→ Fusionar conjunto de datos activo (reagrupar categoría)→ fusionar por filas (Reagrupamos
hasta que todos dan > 5, todas las veces que se pueda)

1. Ruta: >Analizar> Tablas de contingencia> Tabla de doble entrada

38
2. Se seleccionan las variables de interés. En este caso, seleccionamos las variables CC_cat (en
filas) y APNEA2 (en columnas). 133. Pruebas de homogeneidad e independencia

3. Se calculan los porcentajes de fila, y activaremos las opciones del test de independencia de
la Chi-cuadrado

4. Resultados:
● El 74.2% de los pacientes con circunferencia de cuello más pequeño, presentan más
de 10 apneas.
● El 93.4% de aquellos que presentan una circunferencia superior a 44 cm, tienen
apneas patológicas.
● El tipo de circunferencia de cuello y la presencia de apneas patológicas están
relacionadas.

Ejemplo 2: Se realiza un estudio para determinar si existe asociación entre el género del paciente y el
tipo de ronquido. Se selecciona una muestra de 240 hombres y otra de 53 mujeres y se determina el
tipo de ronquido (normal/leve, moderado y severo) de cada uno.

1. Ruta: >Analizar> Tablas de contingencia> Tabla de doble entrada


2. Se seleccionan las variables : SEXOC (0 = Mujer, 1 = Hombre) y RONQUIDO2 (niveles de
ronquido en 3 categorías: normal-leve, moderado y severo)

39
3. Resultado:
● Las mujeres mayormente presentan una tipología de ronquido
normal-leve(35.8%) o moderado (43.4%)
● Un 52.9% de los hombres reflejan ronquidos de carácter severo.
● p = 0.00003736 → Existen diferencias estadísticamente significativas (se
rechaza H0 ) en el tipo de ronquido entre hombres y mujeres.

Prueba exacta de Fisher


● Pruebas de independencia u homogeneidad → Estadístico Chi-cuadrado
● Condición: Las muestras han de ser grandes → Todas las frecuencias
esperadas ≥ 5 .
● Si no se cumple colapsar categorías. En caso de que no se pueda realizar la agrupación →
Test Exacto de Fisher.
● Mayormente aplicado a las Tablas 2x2 (2 filas y 2 columnas).

Ejemplo: Se quiere determinar si hay diferencias en el tipo de apneas (patológicas o no) entre los
pacientes que fuman menos de 30 paquetes/año (0-30) y más de 30 paquetes/año (a partir de 31),
todos pertenecientes al estudio APNEA

Apnea (Y)

Si No

16 (100%) 0 > 30 (T: 16)

223 (79,1%) 59 <= 30 (T: 282) Fumar (X)

● > 30 → grupo de riesgo → más probabilidad de desarrollar apnea (100% en los 16


estudiados)
● Como es una tabla de 2x2 → Fisher. (No hace falta hacer Chi-cuadrado (para tablas
grandes), que tiene menor fiabilidad)

1. Ruta: >Analizar> Tablas de contingencia> Tabla de doble entrada

2. Se
seleccionan las variables de interés. En este caso, seleccionamos las variables PAQUETESC
(en filas) y APNEA2 (en columnas).

40
3. Se calculan los porcentajes de fila, y activaremos las opciones del test de exacto de Fisher

4. Resultados:

● Todos los pacientes que fuman más de 30 paquetes/año (n = 16), presentan apneas
patológicas (100%)
● El 79.1% de los que fuman menos de 30 paquetes/año también tienen esta patología.
● El hábito tabáquico medido en paquetes/año y el tener apneas patológicas no son
independientes (p = 0.04837).

4. TABLAS 2X2

● Tablas especiales (pequeñas) → 2X2


● Tablas grandes → 2x X 2x (= o > 3 columnas / filas)

Medias de asociación
● Tablas 2 x2 Tablas de doble entrada de 2 filas y 2 columnas
● Se usan en estudios epidemiológicos.
● Objetivo: Medir la fuerza de la asociación entre una enfermedad y un factor de riesgo.

RIESGO RELATIVO (RR)

41
RR > 1 → Indica que la presencia del factor de exposición es un factor de riesgo para la enfermedad.
RR < 1 → Indica que la presencia del factor de exposición es un factor protector para la enfermedad.
RR = 1 → Indica que no hay asociación entre el factor de exposición y la enfermedad.

Ejemplo: Se quieren hallar el riesgo relativo de tener una apnea patológica de tener ronquidos
severo frente al resto.

1. Ruta: >Analizar> Tablas de contingencia> Tabla de doble entrada


2. Se seleccionan las variables de interés ya recodificadas. En este caso, seleccionamos las
variables RONQUIDO_2CAT (en filas) y APNEA3 (en columnas).

3. Resultados:

Tipo apneas

Factor exposición Patológico No patológico

Severo a = 136 b=2 a + b = 138

No severo c = 100 d = 55 c + d = 155

Total a + c = 236 b + d = 57 n = 293

136/(136 + 2)
● Interpretación: Riesgo Relativo: 100/(100+ 55)
= 1. 528
○ Los pacientes roncadores severos tienen 1.528 veces más de riesgo de padecer una
apnea patológica respecto al resto de los pacientes con otra tipología de ronquido.

ODDS RATIO (OR)

OR > 1 → Indica que la presencia del factor de


exposición es un factor de riesgo para la enfermedad.
OR < 1 → Indica que la presencia del factor de
exposición es un factor protector para la enfermedad.
OR = 1 → Indica que no hay asociación entre el factor de
exposición y la enfermedad

42
NOTA: en estudios caso-control donde uno de los totales marginales están prefijados por el
investigador, no podemos utilizar el RR y solo podemos utilizar el OR.

Ejemplo de Paquetes (fumar) x Apnea:


Los fumadores con > 30 paquete / año tienen 1.26 veces más de riesgo de padecer una apnea
patológica respecto a aquellos que fuman < 30 pq / año.

> 30 416 / 16
RR = </= 30 = 223 / 280
= 1.26
Resumen:

OPCIONES →
● Tablas R X S→
○ >Estadísticos> Tablas de contingencia> Tabla de doble entrada.
● Prueba Chi cuadrado → Tabla más que 2x2
○ Analizar > tablas de contingencia > Tabla de doble entrada
● Prueba exacta de Fisher → Tabla 2x2
○ Analizar > tablas de contingencia > Tabla de doble entrada
● Medidas de asociación
○ Analizar > tablas de contingencia > Tabla de doble entrada

43
TALLER 2.7: PRUEBAS DE AJUSTE Y PRUEBAS NO PARAMÉTRICAS

Índice
● Introducción
● Pruebas de bondad de ajuste a la normal
● Prueba de los rangos con signo de Wilcoxon
● Prueba de la suma de los rangos de Wilcoxon
● Prueba de Kruskal-Wallis
● Conclusiones

1. INTRODUCCIÓN

EJEMPLO 1: INTERFERENCIA PARA UNA MUESTRA (1 población)


Estudio: Se realiza un estudio sobre el FEV (forced expiratory volume), que es una prueba que mide
el funcionamiento de los pulmones, en población infantil. En la literatura hemos leído que el nivel del
FEV se encuentra en 2 litros en población menor de edad.
Objetivo: contrastar si en nuestra población de niños el nivel del FEV también se encuentra en 2
litros
Datos: se dispone de una muestra de 647 niños de los que se dispone del FEV (litros)
Métodos:
● Si la variable FEV sigue una distribución normal → Prueba t para una media (para ver -en
este caso- si la media = 2)
● Si la variable FEV no sigue una distribución normal → ¿? (en este taller se explica)

EJEMPLO 2: INTERFERENCIA PARA DOS MUESTRAS (2 poblaciones)

Estudio: Siguiendo con el estudio del FEV (forced expiratory


volume) en población infantil, en esta ocasión queremos ver
si existe relación entre el FEV y el sexo.
Objetivo: contrastar si el nivel del FEV es diferente
dependiendo del sexo.
Datos: muestra de 647 niños de los que se dispone del FEV
(litros-variable cuantitativa) y sexo- variable cualitativa
dicotomica.

Variables:
● FEV: Nivel del FEV → Cuantitativa
● SEXO:
○ 0 = Niña
○ 1 = Niño → Cualitativa dicotómica

Relacionamos variable cuantitativa con cualitativa dicotómica

44
Métodos:
● Si la variable FEV sigue una distribución normal en cada una de las dos poblaciones→
Prueba t para comparación de dos medias.
● Si la variable FEV no sigue una distribución normal en alguna de las dos poblaciones→ ¿?
(en este taller se explica)

EJEMPLO 3: INTERFERENCIA PARA MÁS DE DOS MUESTRAS (>2 poblaciones)

Estudio: Siguiendo con el estudio del FEV (forced expiratory volume) en población infantil, en esta
ocasión queremos ver si existe relación entre el FEV y edad considerada categórica: <9 años, 9 – 12
años y >12 años.
Objetivo: contrastar si el nivel del FEV es
diferente dependiendo del grupo de edad.
Datos: muestra de 647 niños de los que se
dispone del FEV (litros) y la edad

Variables:
● FEV: Nivel del FEV → Cuantitativa
● EDAD3C:
○ 1 = “<9 años”
○ 2 = “9 – 12 años” → Cualitativa politómica porque hay 3 o más grupos)
○ 3 = “>12 años”

Relacionamos variable cuantitativa y cualitativa politómica

Métodos:
● Si la variable FEV sigue una distribución normal en cada una de las poblaciones→ Análisis
de la varianza (ANOVA)
● Si la variable FEV no sigue una distribución normal en alguna de las poblaciones→ ¿? (en
este taller se explica)

¿CÓMO ACTUAR?

45
2. PRUEBAS DE BONDAD DE AJUSTE A LA NORMAL

Nos permiten saber si la muestra es normal o no. No hay que fijarse únicamente en el gráfico,
también hay que llevar a cabo este tipo de pruebas.

MÉTODO

Análisis descriptivo:
● Histograma: forma acampanada.
*Una forma de comprobar si tenemos una distribución normal es: gráficos>
histograma y ver si obtenemos esta forma de campana→ significa que media=
mediana
● Estadísticos de tendencia central: Media, Mediana, Moda similares
● Estadísticos de distribución: Coeficiente de Kurtosis y Asimetría próximos a 0

*Hacer todo esto es bastante laborioso, por eso, cuando trabajamos con muestras grandes→
contraste de hipótesis.

Contraste de hipótesis:
● Consiste en realizar una prueba de contraste para ver si hay evidencia estadística de que los
datos proceden de una distribución normal. Existen muchas pruebas pero trabajaremos dos:
○ Prueba de Kolmogorov-Smirnov (útil para muestras pequeñas). En su día se
desarrolló para muestras pequeñas pero hoy en día se utiliza mucho.
○ Prueba de Shapiro-Wilks (más frecuentemente con muestras grandes)

CONTRASTE A LA NORMAL

Concepto general: Consiste en realizar una hipótesis sobre la distribución de la población que nos
interesa y contrastar si esta hipótesis se puede sostener en base a los datos de la muestra.

Planteamiento del contraste: hay que plantear las dos hipótesis


● H0: Los datos provienen de una distribución normal
● H1: Los datos no provienen de una distribución normal

Decisión:
➔ Si p ≥ 0.05 → No rechazamos H0 → Tenemos que aceptar que los datos vienen de
distribución normal
➔ Si p < 0.05 → Rechazamos H0 → No podemos aceptar que la distribución de los datos es la
normal

APLICACIÓN EN R COMMANDER

Ejemplo 1: Contrastar si el nivel del FEV se encuentra en 2 litros. Necesitamos contrastar si el FEV
sigue una distribución normal.
Descriptiva: > Gráficas > Histograma

46
*solo con esto no podemos saber si es una distribución normal o no, por eso hacemos lo siguiente:
R Commander: > Estadísticos > Resúmenes > Test de normalidad

Interpretación:
El p-valor < 0.001 → Rechazamos la H0 → No podemos aceptar que el FEV siga una distribución
normal.

Ejemplo 2: contrastar si el nivel del FEV es distinto según el sexo. Necesitamos contrastar si el FEV
sigue una distribución normal en cada una de las poblaciones. Hay que verlo para saber si aplicar
una prueba paramétrica o no paramétrica
Descriptiva: > Gráficas > Histograma

Contraste: > Estadísticos > Resúmenes > Test de normalidad

47
Interpretación:
Vemos que los resultados salen segmentados según el grupo que hemos considerado.
● Niños: p < 0.0001 ***(mirar aclaración Kalliopi abajo) → Rechazamos la H0 → FEV no sigue
distribución normal.
● Niñas: p < 0.05 → Rechazamos la H0 → FEV no sigue distribución normal.

Por lo tanto, tenemos que aplicar un estadístico no paramétrico.

Ejemplo 3: contrastar si el nivel del FEV es distinto según el grupo de edad: <9años, 9 12 años y
>12 años. Necesitamos contrastar si el FEV sigue una distribución normal en cada una de las
poblaciones.
Descriptiva: > Gráficas > Histograma

Ahora vamos a ver qué pasa con el test de Kolmogorov-Smimov.


Contraste: > Estadísticos > Resúmenes > Test de normalidad

Interpretación:
● <9 años: p = 0.0056 Rechazamos la H0 FEV no sigue distribución normal
● 9 – 12 años: p = 0.0222 Rechazamos la H0 FEV no sigue distribución normal
● >12 años: p = 0.1454 No rechazamos H0 FEV si sigue distribución normal

En este caso no se puede utilizar el test paramétrico, porque 2 de los 3 casos no sigue una
distribución normal. Para usar el test paramétrico todas las categorías deben tener una
distribución normal, es decir, en los casos que no rechazamos H0. Por tanto, vamos a pasar a las no
paramétricas para ver la comparación entre los 3.

48
Aclaración Kalliopi a pregunta realizada (por qué en este caso el pvalue tiene que ser mayor de 0.0001 para aceptar la
H0 y normalmente la aceptamos a partir de 0.05?
● El punto de corte para un pvalue es siempre de 0.05. Como sabemos, cuando es <0.05 siempre rechazamos la H0.
Muchas veces, en la literatura veremos que los pvalues son menores de 0.0001. Esto no quiere decir que no
estemos buscando que sea <0.05, sino que significa que un pvalue sea tan pequeño se describe de otra forma. Pero,
debemos recordar que el punto de corte es el 0.05.
● En este caso de arriba, si decimos que el pvalor es menor de 0.0001, damos más información que diciendo que el
pvalue es menor de 0.05. Es simplemente la cantidad de información que proporcionas al que lee tu artículo
● En algunos análisis no va a ser lo mismo un pvalue<0.0001 que un pvalor<0.05. Si utilizamos más decimales,
damos más información.
● Por tanto, en la mayoría de los casos se aplica el corte de 0.05 salvo que el artículo diga otra cosa

CONCLUSIONES DE LOS EJEMPLOS

Ejemplo 1: contrastar si el nivel del FEV es 2 litros.


● La variable FEV (global) no normal → No debemos utilizar la Prueba t para una media
● Prueba alternativa (no paramétrica): Prueba de rangos con signo de Wilcoxon→ va a ser la que vamos a utilizar

Ejemplo 2: contrastar si el nivel del FEV es distinto según sexo.


● La variable FEV no normal → No debemos utilizar la Prueba t de comparación dos medias
● Utilizamos prueba alternativa: Prueba de la suma de los rangos de Wilcoxon (hay que aprenderse bien estos 2
nombres de arriba y este, que resultan liosos a veces)

Ejemplo 3: contrastar si el nivel del FEV es distinto según grupo de edad (<9 años, 9 – 12 años, >12 años).
● La variable FEV no normal → No debemos utilizar el ANOVA
● Prueba alternativa: Prueba de Kruskal-Wallis

3. PRUEBAS DE RANGOS CON EL SIGNO DE WILCOXON

INTRODUCCIÓN

● Prueba alternativa a la Prueba t de inferencia para una media es distinta cuando la variable
no proviene de población de distribución normal.
● Método de distribución libre (no se define), ya que no supone normalidad de la variable a
analizar Prueba no-paramétrica → esta va a ser la que vamos a utilizar.
● El procedimiento para el contraste se basa en la mediana o rangos, en vez de en la media.
○ Cuando no podemos asumir una distribución normal, la media no tiene demasiado
sentido ya que en una distribución normal la media cae justo detrás del punto
máximo de la campana
○ En este caso la media no tiene mucho sentido porque la puede desviar valores muy
extremos.
○ Aquí hablamos de la mediana porque un valor muy extremo no va a cambiar tanto el
resultado como la media.

49
Ejemplo 1: contrastar si en nuestra población de niños el nivel del FEV también se encuentra en 2
litros (hablamos de la mediana)
Planteamiento del contraste: bilateral
● H0: Mediana FEV = 2
● H1: MediaDa FEV ≠ 2

APLICACIÓN EN R COMMANDER

R Commander: >Estadísticos > Test no paramétricos >Test de Wilcoxon para una muestra

Interpretación:
● La mediana del FEV: M = 2.556
● p < 0.0001 → Rechazamos H0 → No podemos asumir que la mediana del FEV sea 2 litros.
Es lógico, porque M nos da 2.556 ( ≠ 2)

4. PRUEBA DE LA SUMA DE LOS RANGOS DE WILCOXON

INTRODUCCIÓN

● Prueba alternativa a la Prueba t de comparación de dos medias cuando la variable no


proviene de poblaciones de distribución normal, por lo que no podemos aplicar un
estadístico no paramétrco
● Método de distribución libre, ya que no supone normalidad de la variable a analizar →
Prueba no-paramétrica
● El procedimiento para el contraste se basa en la mediana o rangos, en vez de en la media.
● Se llama suma de los rangos de Wilkinson, y es equivalente a la prueba Mann-Whitney
(dice que no vamos a entrar en más detalles de esta prueba)

Ejemplo 2: Contrastar si en nuestra población de niños el nivel del FEV es distinto dependiendo del
sexo.
Planteamiento del contraste: bilateral
● H0 : Mediana FEV (niños) = Mediana FEV (niñas)
● H1 : Mediana FEV (niños) ⧣ Mediana FEV (niñas)

50
R COMMANDER

R Commander: >Estadísticos > Test no paramétricos >Test de Wilcoxon para dos muestras (a pesar
de que estos 2 test tienen nombres muy parecidos uno es para 2 muestras y otro para 1)

Interpretación:
● Las medianas del FEV: M (niños) = 2.620; M (niñas) = 2.487
● p < 0.001 → Rechazamos H0 → Podemos decir que existen diferencias significativas en las
medianas del nivel del FEV según el sexo. El pvalor nos dice que las medianas de los 2
grupos no se pueden asumir como iguales.

5. PRUEBA DE KRUSKAL WALLIS

INTRODUCCIÓN

● Prueba alternativa al Análisis de la Varianza (ANOVA) de comparación de más de dos


medias cuando la variable no proviene de poblaciones de distribución normal.
● Método de distribución libre, ya que no supone normalidad de la variable a analizar
○ Prueba no-paramétrica
● El procedimiento para el contraste se basa en la mediana o rangos, en vez de en la media.

Planteamiento del contraste:


● H0: Mediana FEV (<9 años) = Mediana FEV (9 – 12 años) = Mediana FEV (>12 años)
● H1: Alguna de las medianas difiere

APLICACIÓN EN R COMMANDER

R Commander: >Estadísticos > Test no paramétricos >Test de Kruskal-Wallis

51
Interpretación:
● Las medianas: M (<9 años) = 1.790; M (9 – 12 años) = 2.754; M (>12 años) = 3.519
● p < 0.0001 Rechazamos H0 Podemos decir que existen diferencias significativas en el nivel
del FEV según el grupo de edad.

6. CONCLUSIONES

INCONVENIENTES

INCONVENIENTES DE LAS PRUEBAS NO PARAMÉTRICAS:


● Las pruebas no paramétricas se basan en los rangos, y por tanto, hay una pérdida de
información importante.
● Se basan únicamente en el contraste de hipótesis, dejando a un lado la estimación puntual
e intervalos de confianza.
INCONVENIENTES DE LAS PRUEBAS DE BONDAD DE AJUSTE A LA NORMAL:
● Cuando el tamaño muestral es grande, el test es demasiado exigente, y suele resultar
prácticamente imposible no rechazar la hipótesis nula de normalidad, aún cuando el análisis
descriptivo nos muestra una distribución normal.
● Este inconveniente debe ser sopesado con el hecho de que las pruebas paramétricas son
robustas cuando el tamaño muestral es grande.

CUANDO UTILIZAR PRUEBAS NO PARAMÉTRICAS

52
OPCIONES → (PRUEBAS NO PARAMÉTRICOS→ Cuando la distribución no es normal))
● Pruebas de bondad ajuste a la normal→ EJEMPLO 1 (Prueba de los rangos con signo de
Wilcoxon)
○ >Estadísticos> Resúmenes > Test de normalidad (Para saber si tienen una
distribución normal)
○ 1 población → >Gráficos > Histograma
○ Shapiro wilk y lilliefors (Kolmogorov-Smirnov)
○ >Estadísticos> Test no paramétricos >Test de Wilcoxon para una muestra
● Pruebas de bondad ajuste a la normal→ EJEMPLO 2 (Prueba de la suma de los rangos de
Wilcoxon)
○ 2 poblaciones → >Gráficos > Histograma
○ >Estadísticos> Resúmenes > Test de normalidad
○ Lilliefors (Kolmogorov-Smirnov)
○ >Estadísticos> Test no paramétricos >Test de Wilcoxon para dos muestras
● Pruebas de bondad ajuste a la normal→ EJEMPLO 3 (Prueba de Kruskal-Wallis)
○ Más de 2 poblaciones → >Gráficos > Histograma
○ >Estadísticos> Resúmenes > Test de normalidad
○ Lilliefors (Kolmogorov-Smirnov)
○ >Estadísticos> Test no paramétricos >Test de Kruskal-Wallis

53
TALLER 2.8: CORRELACIÓN Y REGRESIÓN LINEAL

Índice:
● Introducción
● Descripción de los datos
● Correlación
● Regresión lineal simple
● Regresión lineal múltiple
● Modelo lineal general

1. INTRODUCCIÓN

Correlación y regresión

Relación de 2 variables cuantitativas:

Correlación: coeficiente que mide la magnitud de la fuerza de la relación lineal entre dos variables
cuantitativas.

Ej: Datos de la altura de los padres y la altura de los hijos. Queremos ver cómo se relaciona la altura
de los hijos con la de los padres. Cada uno de los puntos es cada pareja: altura del hijo - altura del
padre. Cada punto es una observación de la muestra, una fila de la base de datos.
Viendo el gráfico diríamos que según aumenta la altura del padre, aumenta la altura del hijo. Eso
sería la correlación, que mide la magnitud de la relación.

Regresión: una ecuación matemática que estima / resume el valor medio de una variable
dependiente, desde los valores de otras variables.
Vamos a poder decir la altura media del hijo a partir de la altura media del padre, es decir, si
sabemos la altura del padre, damos valores en la ecuación y podemos predecir cuál va a ser la altura
del hijo.
Altura del hijo = 28.63 + 0.595 altura del padre

54
2. DESCRIPCIÓN DE LOS DATOS

Variables Y & X

La correlación y la regresión lineal simple se basan en pares de observaciones (xi ,yi)


● Y: el resultado de interés, o variable dependiente (explicada)
● X: variable explicativa o covariable

Ej anterior: Dependiendo de la altura del padre → toma valores la altura del hijo
- Y: altura del hijo
- X: altura del padre

Gráficos de dispersión, o nube de puntos:

Cada punto representa un individuo de la muestra.


Lo ideal es ver una relación lineal, pero no siempre se ve algo.
En este ejemplo vemos que hay una relación lineal entre X (altura del padre) e Y (altura del hijo). Lo
importante es no ver una relación claramente no lineal.
Si viésemos una relación parabólica, no podríamos aplicar una regresión lineal. Si no, normalmente
tiramos para adelante (regresión lineal…).
Ej (relación no lineal): El grado de satisfacción del café dependiendo del azúcar que tenga.
- No le echamos azúcar → grado de satisfacción bajo
- Echamos más cantidad → grado de satisfacción va aumentando
- Nos pasamos de azúcar → grado de satisfacción bajo
Conseguiríamos una relación no lineal: una parábola. → No se puede aplicar regresión lineal.

APLICACIÓN CON R COMMANDER:

Ejemplo: Se está estudiando la influencia de la edad en la capacidad pulmonar medida a través del
FEV (forced expiratory volume) en población infantil. Se disponen datos de 654 niños/as.

Objetivo: explorar la relación entre edad (variable explicativa) y FEV (variable explicada).
Va a influir la edad sobre el FEV.

55
Gráficas > Diagrama de dispersión > Variable X (Edad) / Variable Y (FEV)

El resultado sugiere una tendencia lineal. Según


aumenta la edad, aumenta el FEV.
Por lo tanto se puede aplicar:
a) Correlación
b) Regresión lineal

3. CORRELACIÓN

CORRELACIÓN DE PEARSON:
● Magnitud de relación lineal entre variables (cuantitativas)
● Coeficiente de correlación lineal que puede tomar valores entre -1 y 1.

- 0 → correlación nula (no tiene nada que ver una con la otra)
- Cuanto más cerca al 1 o -1 → correlación más fuerte:
- 1: según aumenta la X aumenta la Y
- -1: según aumenta la X disminuye la Y
→ Lo que nos importa es el valor absoluto del coeficiente

56
Los puntos de corte que utilizamos para la interpretación:
● 0 - 0.5 → débil
● 0.5 - 0.9 → moderado
● + 0.9 → fuerte

Ej anterior: según aumenta la edad, aumenta el FEV → correlación positiva (+).


𝑛
∑ (𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
𝑖=1
𝑟 =𝑝=
𝑛 𝑛
2 2
∑ (𝑥𝑖−𝑥) ∑ (𝑦𝑖−𝑦)
𝑖=1 𝑖=1

Observación: Si X e Y están exactamente relacionados de forma no lineal, entonces r=0.

En todo contraste va a haber un p valor.


● p > 0.05→ No rechazamos H0 → La relación entre X e Y es nula. No hay relación entre las
variables.
● p < 0.05→ Rechazamos H0 → Coeficiente de correlación es significativamente distinto de 0.
Hay relación lineal entre las variables.

*Distinto de 0 no quiere decir que el coeficiente de correlación sea alto. Ej: 0.15, no es alto, pero
como tengo mucha N es significativamente distinto de 0, pero eso no es relevante, no deja de ser un
valor pequeño. No hay que darle mucha importancia al contraste de hipótesis para el coeficiente de
correlación. Tenemos que fijarnos sobre todo en la magnitud.

● Función de X e Y
Si X e Y están relacionados, una relación parabólica (ej anterior: café y azúcar), nos puede dar 0. No
porque no estén relacionados, sino porque no están relacionados de forma lineal. Es decir, no implica
que no haya algún tipo de relación entre las variables, solo que no es una relación lineal.

APLICACIÓN CON R COMMANDER:


Ejemplo: siguiendo el ejemplo anterior, interesa calcular la correlación de Pearson Entre edad y FEV.
Estadísticos > Resúmenes > Matriz de correlaciones > Seleccionamos las variables > p-valores
pareados

H0=el coeficiente de correlación es


igual a 0 / H1= es distinto a 0

57
Interpretación:
● El coeficiente de correlación lineal es r=0.756(MODERADO)
● El p-valor < 0.0001 Rechazamos la hipótesis nula, aceptando que el coeficiente de
correlación es significativamente distinto a 0.

4. REGRESIÓN LINEAL SIMPLE

Regresión simple vs regresión múltiple

MODELO DE REGRESIÓN LINEAL SIMPLE → una sola variable explicativa

El modelo de regresión lineal simple tiene la siguiente forma:


Y= β0 + β1X + ε
● β0 + β1X: parte sistemática
● ε: parte aleatoria o perturbación


- Se estiman por los datos y definen la línea.
- Línea recta: método de mínimos cuadrados.
- Se elige la línea más próxima a todos los puntos simultáneamente.

𝑒𝑖 : Error aleatorio. Ej: Punto de arriba tiene con 15 años, 6 de FEV y al hacer la recta, predecimos un FEV de 3, 5, cometemos un error

- Residuos: distancia entre dato puntual y dato estimado por la recta de regresión.

El modelo estimado se expresa:

● La ordenada de la recta, representa el Y cuando X=0.


● No siempre tiene sentido.

● La pendiente de la recta.
● El cambio esperado en la Y por cada unidad de cambio de la X.

58
Test de Wald

2
Coeficiente de determinación: 𝑅

● Evalúa la proporción de la variabilidad en Y que explica la X.


● Se opta por la versión ajustada de este coeficiente.
● Su interpretación se suele dar en porcentaje.

APLICACIÓN CON R COMMANDER:

Ejemplo: Seguimos con el ejemplo sobre la influencia de la edad sobre FEV en población infantil.
Realizamos el modelo de regresión lineal y solicitamos los IC95%.

Estadísticos > Ajuste de modelos > Regresión lineal > Variable explicada (FEV) / explicativa (Edad)
Modelos > Intervalos de confianza

Interpretación:

59
5. REGRESIÓN LINEAL MÚLTIPLE

El modelo de regresión lineal múltiple tiene la siguiente forma: Y= β0 + β1X1 + β2X2 + … + βpXp +ε
donde: X1 , X2 ,…,Xp : variables explicativas continuas;
Cuando p=1 → modelo lineal simple
● β0 + β1X1 + β2X2 + … + βpXp : parte sistemática
● ε: parte aleatoria o perturbación
Igual que antes el modelo estima los paramentos mediante el método de mínimos cuadrados

APLICACIÓN CON R COMMANDER:

Ejemplo: Seguimos con el estudio de la FEV en población infantil, en el que se recogen además datos
de la edad y la altura de 654 pacientes pediátricos. Se considera que ambas variables conjuntamente
pueden predecir mejor el valor FEV.

Objetivo: explorar el efecto de la edad (x1 ) y de la altura (x2 ) sobre el valor FEV(y).
> Gráficas > Diagramas de dispersión

Asumimos que la relación del FEV con la edad y la altura se resume por la ecuación:
FEV=β0 + β1*EDAD + β2 *ALTURA + ε

60
6. MODELO LINEAL GENERAL

En regresión lineal simple y en múltiple siempre tenemos variables cuantitativas.

El modelo lineal general se aplica cuando la variable dependiente sigue siendo cuantitativa, pero la
variable explicativa es cualitativa. Se acerca mucho más a la realidad porque tenemos todo tipo de
variables. Cuando queremos ver o explicar el efecto de diferentes variables que son cuantitativas y
cualitativas, conjuntamente, sobre una variable dependiente cuantitativa, tenemos que aplicar el
modelo lineal general. Es el caso más generalizado de todos.

Es decir, se trata de un modelo cuyas variables explicativas (X) son tanto continuas, como
categóricas (cualitativas). Este tipo de modelos también se denominan análisis de la covarianza
(ANCOVA).

Y se representan por la fórmula: Y= β0 + β1X1 + β2X2 + … + βpXp +ε


donde X1 , X2 , …, Xp : variables continuas y categóricas
X= algunas pueden ser cuantitativas (modelo lineal simple…), otras categóricas.
La diferencia está cuando son cualitativas / categóricas.

Variables categóricas:
- una de sus categorías ejerce de referencia
- se incorporan en el modelo como “factores”
Siempre una de sus categorías va a ser de referencia y la otra categoría la comparamos con respecto
al de referencia.

Ej: fumar tabaco (fumar sí / no). No fumadores (referencia). Comparamos fumadores con no
fumadores.

61
Ej: Nivel de gravedad (leve / moderado / grave). Leve (referencia). Comparamos moderado contra leve
y grave contra leve.

APLICACIÓN CON R COMMANDER:

Ejemplo: Seguimos con el estudio del FEV y suponemos que además de la edad y la altura se
dispone también el sexo (cualitativa) de los pacientes pediátricos.

Objetivo: Estimar el FEV en función de la edad, la altura y el sexo de los pacientes (Efecto conjunto
sobre FEV).
*Tenemos 2 cuantitativas (edad + altura), pero hay 1 cualitativa (sexo) → no se puede aplicar
regresión lineal múltiple. → REGRESIÓN LINEAL GENERAL.
Estadísticos > Ajuste de modelos > Modelo lineal →

FEV EDAD + ALTURA + SEXO

Modelos > Intervalos de confianza

62
Interpretación:
● 𝛽1(𝑒𝑑𝑎𝑑): 1 año de aumento, aumenta el valor medio del FEV 0.062 litros, para valores fijos
de la altura y del sexo (ajustando por altura y sexo).
● 𝛽2 (𝑎𝑙𝑡𝑢𝑟𝑎): 1 cm de aumento, aumenta el valor medio del FEV 0.041 litros, para valores fijos
de la edad y del sexo (ajustando por edad y sexo).
● 𝛽3 (𝑠𝑒𝑥𝑜): Las mujeres presentan un FEV medio 0.162 menor que los hombres, para valores
fijos de la edad y de la altura

OPCIONES → (CORRELACION Y REGRESION LINEAL)


● Descripción de los datos
○ Gráficos > Diagrama de dispersión
● Correlación
○ Estadísticos > Resúmenes > Matriz de correlaciones
● Regresión lineal simple (Hacer la recta)
○ Estadísticos > Ajuste de modelos > Regresión lineal modelos> intervalos de
confianza
● Regresion lineal multiple
○ Gráficos > Diagrama de dispersión
○ Estadísticos > Ajuste de modelos > Regresión lineal
● Modelo lineal general
○ Estadísticos > Ajuste de modelos > Modelo lineal

63
TALLER 2.9: REGRESIÓN LOGÍSTICA

ÍNDICE:
● Introducción
● Regresión logística
○ Propiedades del modelo
○ Estimación de los parámetros
○ Intervalos de confianza
○ Contraste de hipótesis
● Regresión logística múltiple

1. INTRODUCCIÓN

DIFERENCIA ENTRE REGRESIÓN LINEAL Y REGRESIÓN LOGÍSTICA →

● Regresión lineal→ Variable dependiente (Y) es cuantitativa. (Anterior taller, lo que ocurría
era que x podía ser continua o categórica pero Y tenía que cumplir la condición de ser
continua)
● Regresión logística→ Variable dependiente es categórica.(en este caso vamos a hacer un
añadido en el análisis cualitativo, en análisis cualitativo siempre hacemos hincapié en
analizar dos variables categóricas y una de ellas normalmente solía ser la consecuencia de la
otra (la que colocábamos por columnas). Ahora vamos a tener una variable Y que es
categórica dicotómica)

➔ Variable respuesta : Y dicotómica (2 opciones): 1 (evento) o 0 (no evento).


➔ En estadística a la hora de desarrollar la regresión logística nos basamos en la regresión
lineal pero lo que ocurre es que la variable resultado tiene que ser continua y nos
enfrentamos a una variable categórica ¿Como vamos a relacionar nosotros una variable que
es dicotómica a una ecuación que realmente requiere tener una variable continua?
➔ Sumando los eventos: p = nº eventos / nº total de observaciones.
➔ Objetivo: Explicar la probabilidad del evento mediante uno o varios factores
➔ Ejemplos:
● Estudiar el efecto de la hipertensión en la mortalidad.
● Estudiar el efecto de la cantidad de paquetes/año fumados sobre la presencia de
cáncer de pulmón.

2. REGRESIÓN LOGÍSTICA

Propiedades del modelo

● Cuando podemos tener una variable categórica


(dicotómica: problemas de corazón) y otra cuantitativa
(IMC).

64
● En estadística a la hora de desarrollar la regresión logística nos basamos en la regresión
lineal pero lo que ocurre es que la variable resultado tiene que ser continua y nos
enfrentamos a una variable categórica ¿Como vamos a relacionar nosotros una variable que
es dicotómica a una ecuación que realmente requiere tener una variable continua?
● Punto de partida (regresión lineal):
● Para ello tenemos que definir la p =Probabilidad de
presencia de evento (en lugar de definir si o no pondremos
la probabilidad de que Y es igual a 1)
● Modelizamos que está probabilidad de presencia de
evento mediante una ecuación que no es lineal, (tenemos una exponencial). Al despejar está
ecuación
● Aplicando el logaritmo, se obtiene el modelo final: Permite hacer una transformación (para
conseguir más o menos una línea recta)

● Al despejar la ecuación conseguimos OR:el cociente de probabilidad de evento respecto el


cociente de probabilidad de no evento es la medida de asociación que es OR.
● Para que se parezca a una regresión lineal necesitamos el exponente para ello se aplica
logaritmo
● Beta O es la constante y la Beta uno está multiplicando la variable

Es como el Odds Ratio (OR) →


p: probabilidad de presencia del evento
(1-p): probabilidad de ausencia del evento

Probabilidad de tener problemas con el


corazón (si,no) no tenemos función
lineal(valores en el 1 y en el 0)¿ a más IMC
más probabilidad de tener problemas del
corazón?
En la izquierda no puedes trazar una línea
“recta” por eso en la siguiente figura hace
una transformación, así pasamos de variable
dicotómica a continua.
Mediante el logit(p), nos permite hacer el gráfico de la derecha.

ESTIMACIÓN DE LOS PARÁMETROS


Hay 4 escenarios:
1. X es dicotómica
2. X con 3 o más categorías
3. X es continua
4. Múltiple: 2 variables de distinto tipo

65
ESCENARIO 1: VARIABLE INDEPENDIENTE DICOTÓMICA (Categórica)

Ejemplo: En la base de datos APNEA, nos gustaría determinar si los hombres tienen más o menos
riesgo de padecer apneas patológicas respecto a las mujeres (categoría de referencia, lo que viene
detrás del respecto siempre)

Variables:

Lo que vamos a tener en cuenta es que variables tenemos:


- Lo primero quién es X y quien es Y
- La variable resultado(Y): tener apnea(si o no)
- Variable independiente(X):sexoc
- Cuando nos enfrentamos a una variable dicotómica necesitamos el número de categorías -1.
En este caso tenemos 2 (hombre y mujer), por lo tanto: 2-1=1

Ecuación:

● Cuando tenemos una variable categórica hay que decirle a R quien es la categoría de
referencia. (Ya que en él OR medimos el riesgo de tener el evento en una categoría concreta
que queremos medir respecto a la de referencia). En este caso, como la variable de referencia
son las mujeres (porque tienen el valor más bajo en R → 0), en la ecuación representamos el
caso de los hombres EN REFERENCIA A las mujeres.

R Commander: >estadísticos> ajustes de modelos> modelo lineal generalizado

PREGUNTA EXAMEN →
Recuadro izq → variable dependiente (APNEA 2)
tiene que estar seleccionado logit y familia binomial
(Nombrar nombre de el modelo: GLM-1)

66
Las variables independientes tienen que estar en modo factor.

PREGUNTA EXAMEN →
Recuadro izq → variable dependiente (APNEA 2)
tiene que estar seleccionado logit(la transformación que estamos haciendo) y familia binomial
(porque variable resultado es dicotómica)
En el resultado podemos ver el número de codificación 1 (son los hombres)

Interpretación:
● Se trata de una asociación positiva, dado que el coeficiente que está multiplicando al sexo
es positivo.

● El riesgo de padecer apneas patológicas en hombres es 2.03 veces mayor respecto a las
mujeres.

67
CONTRASTE DE HIPÓTESIS:

Test de Wald

● OR es nulo o es distinto de nulo


● Como hemos dicho que lo que está dentro del logaritmo es el OR, para saber el OR tenemos
que quitar el logaritmo, para eso se hace la exponencial y ya quitamos el OR.
● El resultado sale automáticamente al ejecutar el modelo (ver salidas anteriores)
● R Commander: > estadísticos> ajustes de modelos> modelo lineal generalizado

● Contraste para 𝛃1: p= 0.03887


○ Como p < 0.05 Se rechaza la hipotesis nula, OR va a ser diferente a 1 por lo que el
sexo influye de forma significativa sobre padecer apneas, es significativo.

INTERVALOS DE CONFIANZA:

● Complemento fundamental para la estimación puntual del OR


● Hay un paralelismo entre el p valor y el intervalo de confianza del OR
● Dependiendo de si contiene o no al 1, sabremos si el efecto de X es estadísticamente
significativo sobre Y(si se encuentra el 1 no es estadísticamente significativo)
● Tengo que llegar a la misma interpretación con el p valor y el intervalo de confianza ya que si
en el p valor me da que no es significativo y el luego en el intervalo de confianza no
encontramos el 1 significa que hemos hecho mal algún paso.
● R Commander: >Modelos> intervalos de confianza > Marcamos ESTADÍSTICOS DE WALD

68
(la última línea del último párrafo)

Conclusión:
● El riesgo de padecer apneas patológicas en hombres es 2.03 veces mayor respecto a las
mujeres.
● El 1 no se encuentra dentro del intervalo de confianza → El OR es significativamente distinto
a 1 → El sexo influye de forma significativa sobre padecer apneas. El sexo (ser hombre) SÍ
es un factor de riesgo.

EJEMPLO:
- p-value: 0.15
- Intervalo de confianza 95%: 1 no está contenido en el intervalo
- Odds ratio: 2.5
→ No puede ser que si el 1 no está contenido en el intervalo de confianza el p-valor sea de 0.15,
los dos tienen que estar en concordancia.

ESCENARIO 2: VARIABLE INDEPENDIENTE > 2 CATEGORÍAS

ESTIMACIÓN DE PARÁMETROS

Ejemplo: En la base de datos APNEA, nos gustaría determinar si las personas con una circunferencia
de cuello de entre 41-44 cm y aquellos con una circunferencia de cuello superior a 44 cm tienen más
o menos riesgo de padecer apneas patológicas respecto a los sujetos con un circunferencia de cuello
menor que 40 cm (variable de referencia → Categoría de menor riesgo).

● Variable resultado (Y): APNEA sí / no


● Valores de la variable independiente (en 3 grupos) → variable X:
○ 1, si Circunferencia cuello ≤ 40 (referencia, en R Commander también está como
referencia, pero si no lo fuese, habría que recodificar las variables)
○ 2, si 40 < Circunferencia cuello ≤ 44
○ 3, si Circunferencia cuello > 44

Ecuación:

R Commander: > estadísticos> ajustes de modelos> modelo lineal generalizado


**Ponemos binomial porque la variable resultado es binomial**

69
Valores que nos da R:
➔ La constante (B0)=1.05
➔ B1=0.3
➔ B3=1.6

Interpretación:
● Están positivamente relacionados.
● Para interpretar el riesgo de las CC para desarrollar apneas, es mejor que pasemos los
valores a Odds ratios:
○ 𝛃40<CC≤44 vs CC≤= 0.30 → OR40<CC≤44 vs CC≤40 = e0.30= 1.35 → Los pacientes con una CC
entre 40 y 44 cm tienen 1.35 veces más de riesgo respecto a los que tienen una CC
menor que 40 cm
○ 𝛃CC>44 vs CC≤40= 0.30 → ORCC>44 vs CC≤40 = e1.60= 4.96 → Los pacientes con un CC superior
a 44 cm tienen 4.96 veces más de riesgo respecto a los que tienen un CC menor que
40 cm

CONTRASTE DE HIPÓTESIS

70
● Contraste 𝛃1: p=0.03287
○ Como p > 0.05, no hay diferencias significativas en el riesgo de padecer apneas entre
los de 40<CC≤ 44 vs los de CC ≤ 40 (no es estadísticamente significativa)

● Contraste para 𝛃2: p=0.00407


○ Como p> 0.05, si hay diferencias significativas en el riesgo de padecer apneas entre
los de CC> 44 con respecto los de CC ≤ 40

INTERVALOS DE CONFIANZA

● El valor 1 se encuentra dentro del IC. No existen diferencias significativas en el riesgo de


padecer apneas entre los de 40 < CC ≤ 44 vs. los de CC ≤ 40.

● El valor 1 no se encuentra dentro del IC Existen diferencias significativas en el riesgo de


padecer apneas entre los de CC > 44 con respecto los de CC ≤ 40.
● Los pacientes que tienen una circunferencia de cuello > 44 tienen un 4.96% más
probabilidades de tener apnea a comparación con los de CC ≤ 40

ESCENARIO 3: VARIABLE INDEPENDIENTE CONTINUA

ESTIMACIÓN DE LOS PARÁMETROS:

Ejemplo: En la base de datos APNEA, nos gustaría determinar si la edad influye en la determinación
del riesgo de padecer apneas patológicas.
solo una beta en las continuas

Ecuación:

R Commander: > estadísticos> ajustes de modelos> modelo lineal generalizado

71
Interpretación:

● Afecta de manera positiva.


● 𝛃EDAD= 0.065 → OREDAD = e0.065 = 1.067 → A medida que aumenta una unidad la edad, el
riesgo de padecer apneas patológicas esd 1.067 veces mayor.
○ El riesgo de padecer según la edad es mayor pues en la ecuación “logit (p)= -1.495
+ 0.065 x Edad” el parámetro de la edad es positivo (+0.065). Pero si fuera -0.065,
la edad no sería un factor de riesgo, sino un factor protector y por eso el riesgo sería
menor a mayor edad.

CONTRASTE DE HIPÓTESIS

● H0: 𝛃edad=0
● H1:𝛃edad≠0
○ Como p < 0.05, la edad influye de forma significativa sobre padecer apneas

72
● Planteamiento de hipótesis:

● Contraste para 𝛃1: p= 0.00000745, por lo tanto tenemos que rechazar la hipótesis nula
planteada anteriormente ya que es estadísticamente significativo.
○ La edad sí que está positivamente relacionado con aderes apneas. Con el aumento
de un año de edad aumentará el riesgo de padecer apneas un tanto porciento→
cuanto aumentara lo calcularemos con el Odds ratio.

INTERVALOS DE CONFIANZA

(En las variables continuas es: a medida que aumenta una unidad. Ej: edad.)

● El riesgo de padecer apneas patológicas es 1.067 veces mayor a medida que aumenta 1 año
la edad.
○ Otra forma de decir: “A medida que aumenta un año la edad, el riesgo de padecer
apneas aumenta un 6.7%” (se le quita la unidad y lo multiplicamos por 100)
○ (1.067-1)x100=0.67%
■ % Positivo → aumenta
■ % Negativo → disminuye
○ Si fuese un valor menor al 1, tenemos que restarle al uno ese valor, y multiplicarlo
por 100 para saber cuánto disminuye el riesgo, ya que sería un factor protector.
○ Si fuese dos no se utilizará esta forma → mejor la del principio porque si no se nos
complica

● El valor 1 no se encuentra dentro del intervalo de confianza→ La edad tiene un efecto


estadísticamente significativo sobre el riesgo de padecer apneas. (igual que hemos visto
antes con el p-valor)

73
3. REGRESIÓN LOGÍSTICA MÚLTIPLE

PLANTEAMIENTO DEL MODELO

➔ Evaluar el efecto de múltiples variables o factores de manera conjunta (A veces en


epidemiología tenemos factores de confusión, y esto se corrige mediante una regresión
logística múltiple)
➔ En vez de tener solo la edad, solo circunferencia de cuello o solo el género, tenemos la edad
junto con el género o la edad junto con la circunferencia de cuello u otras variables.
➔ Se le dice múltiple porque voy a tener una variable dependiente y varias independientes
➔ Modelo de regresión logística múltiple:

➔ Las variables independientes X1, … Xp pueden ser tanto cuantitativas como categóricas.
➔ La variable dependiente dicotómica en vez de continua.

EJEMPLO

Ejemplo: Nos gustaría determinar si la circunferencia de cuello (establecido en 3 categorías: ≤40 cm;
entre 40 y 44 cm; > 44 cm) y la edad del paciente de manera conjunta son relevantes para
determinar el riesgo de padecer apneas patológicas.
Hemos visto que cada una por su lado sí que tenían su efecto, pero ahora lo que nos interesa es que
si las metemos juntas en una misma ecuación provocarán el mismo efecto o si ha cambiado. Si las
analizamos por separado estamos mirando la asociación de esa variable sobre la enfermedad no
ninguna más, no estamos teniendo en cuenta otras variables que pueden estar influyendo en la
enfermedad. Por lo que para reducir ese riesgo o para valorar ese riesgo “real” utilizamos la
regresión logística múltiple.

Valores de la variable independiente (el menor es siempre la referencia)

Ecuación:

74
R COMMANDER: MODELO

R Commander: >Estadísticos>Ajuste de modelos>Modelo lineal generalizado

R COMMANDER: ESTIMACIÓN PARÁMETROS

- β0=-1.58
- β40<cc≤ vs cc≤40=0.228 → OR40<cc≤4 vs cc≤40 = e0.228= 1.256
→ Los pacientes con una CC entre 40 y 44 cm tienen
1.256 veces más de riesgo respecto a los que tienen
una CC menor que 40 cm.
- βcc>44 vs cc≤40=1.388 → ORcc>44 vs cc≤40 = e1.388= 4.008→
Los pacientes con una CC superior a 44 cm tienen
4.008 veces más de riesgo respecto a los que tienen
una CC menor que 40 cm.
- βEDAD=0.0603 → OREDAD = e0.0603= 1.062 → A medida
que aumenta una unidad la edad, el riesgo de
padecer apneas patológicas es 1.062 veces mayor.

R COMMANDER: CONTRASTE DE HIPÓTESIS

● Contraste para 𝜷𝟒𝟎< 𝑪𝑪≤𝟒𝟒: p = 0.4784


○ Como p > 0.05, los de CC entre 40 y 44 no presentan diferencias estadisticamente
significativas con respecto a los de CC ≤ 40 en el riesgo de padecer apneas
(ajustando por edad).
○ R Commander: contraste de hipótesis

75
● Contraste para 𝜷EDAD: p = 0.0000356
○ Como p < 0.05, la edad influye de forma significativa sobre padecer apneas
(ajustando por CC).

● Contraste para 𝜷>44: p = 0.0148


○ Como p < 0.05, los de CC > 44 presentan diferencias estadísticamente
significativas con respecto a los de CC ≤ 40 en el riesgo de padecer apneas
(ajustando por edad).

R COMMANDER: INTERVALOS DE CONFIANZA

➔ OR40<CC≤ 44 VS CC≤44 (95% IC)= 1.256 (0.669, 2.361)


El 1 se encuentra dentro del IC. No existen
diferencias significativas entre 40 < CC ≤ 44 y CC
≤ 40.
➔ ORCC>44 VS CC≤40 (95% IC)= 4.008 (1.313, 12.235)
El 1 no se encuentra dentro del IC. Existen
diferencias significativas entre CC > 44 y CC ≤ 40
(ajustando por edad).
➔ OREDAD(95% IC)= 1.062 (1.032, 1.093) El valor 1
no se encuentra dentro del IC. La edad presenta
un efecto significativo (ajustando por CC).

RESUMEN

INTERVALO DE
ODDS RATIO (OR) INTERPRETACIÓN
CONFIANZA

La variable X tiene un efecto inversamente relacionado


<1 No contiene al 1 con la variable resultado y es estadísticamente
significativo

La variable X tiene un efecto inversamente relacionado


Contiene al 1
<1 con la variable resultado pero no es estadísticamente
significativo

La variable X tiene un efecto directamente relacionado


>1 No contiene al 1 con la variable resultado y es estadísticamente
significativo

La variable X tiene un efecto directamente relacionado


>1 Contiene al 1 con la variable resultado pero no es estadísticamente
significativo

La variable X no tiene ningún efecto sobre la variable


1 –
resultado.

76
● Directamente relacionado → Factor de riesgo
● Inversamente relacionado → Factor protector

Pasos a seguir:

1. Mirar si la variable explicada (Y) es cualitativa dicotómica (ej. Apnea si o no)


2. Escribir ecuación de la recta de regresión logística (Identificar cada β qué representa etc.)
3. Establecer el contraste de hipótesis para cada uno de los coeficientes de regresión
involucrados
a. Identificar los p valores asociados a los 𝜷.
4. Calcular los Odds Ratio (OR) y sus intervalos de confianza (IC).
5. Comprobar que los pasos 3 y 4 concuerdan.
6. Interpretación COHERENTE vía OR.

● Variable dependiente → Tiene que estar 1 como evento (Nos dan en la hoja del examen)
● Variables (saber si estan como factor o como continua)
● Aumentar → % o 1,5 veces
● Si tenemos OR entre 1 y 2 podemos utilizar ambas situaciones (porcentaje o numero).
Siempre tenemos que comparar (ej: fumadores contra no fumadores).
● Si el OR es >2 nos olvidamos del % y utilizamos en número tal cual.
● Regresión logística 4 escenarios distintos → para el examen ayuda enumerarlos en los
apuntes.

ESQUEMA→ (REGRESIÓN LOGÍSTICA: Objetivo (Estudiar el efecto de una variable sobre otra))

REGRESIÓN LOGÍSTICA →
● Propiedades del modelo:
○ Regresión lineal
○ Logit (Formula → Obtener modelo final)
● Estimación de los parámetros
1. (X) Variable independiente dicotómica ( (Estadística>Ajustes de modelo>Modelo
lineal generalizado)
2. (X) Variable independiente > 2 categorías (Estadística>Ajustes de
modelo>Modelo lineal generalizado)
3. (X) Variable independiente continua (Edad) (Estadística>Ajustes de
modelo>Modelo lineal generalizado
➔ PASOS A SEGUIR: (Interpretación)
● Indicar las variables que tenemos (P. e → Apnea2 (1 Si, 0 No) ; Sexoc (1 Hombre, 0 Mujer)
● Ecuación (Logit)

77
● Interpretación→
○ Estimación de parámetros: Indicar (teniendo en cuenta el OR) cuántas veces mayor
es el riesgo en uno que en otro (P.e Mujer y hombre) → A veces tenemos que
comparar de 2 en 2.
○ Intervalos de confianza (Modelos > Intervalos de confianza) :
■ Teniendo en cuenta si contiene el 1 o no, sabemos si el efecto es
estadísticamente significativo o no.
● 1 no dentro del IC : OR significativamente ≠ 1, efecto
estadísticamente significativo.
● 1 dentro del IC: OR significativamente = 1, efecto no es
estadísticamente significativo.
○ Contraste de hipótesis: (Test de wald)

REGRESIÓN LOGÍSTICA MÚLTIPLE → Tanto variable cuantitativa como categórica (Mezclamos las
opciones anteriores)
1 → evento / 0 → no evento
Recta de regresión: variable de referencia bien tomada
Si aumenta en %
OR entre 1-2 ambas situaciones,
- Ej. el hecho de ser fumador aumenta un %59 de muerte respecto a los no fumadores
Si es mayor de 2, no lo decimos con porcentajes.
En variables continuas poner: a medida que aumenta una unidad…

78
TALLER 2.10: ELECCIÓN DE TÉCNICA PARA RESOLUCIÓN DE PREGUNTA CIENTÍFICA

ÍNDICE:
1. Ficheros de datos
2. Creación de nuevas variables
3. Análisis descriptivo
4. Análisis de la normalidad
5. Inferencia para 1 población
6. Inferencia para dos o más poblaciones

1. FICHERO DE DATOS

Principales funciones:
• Importar: Datos > Importar datos (de un archivo excel)
• Fusionar: Datos > Fusionar conjunto de datos
→ por filas: diferentes personas mismas variables→ las columnas tienen que llamarse iguales
→ por columnas: mismas personas diferente información → el ID tiene que ser igual→ esa variable
se queda en gris porque hemos clicado la opción del medio también
• Cargar: Datos > Cargar conjunto de datos (cuando ya está en formato RD)
• Guardar (.Rdata): Datos > Conjunto de datos activo > Guardar el conjunto de datos activo (tenemos
que guardar cada vez que: importamos, creamos variables, fusionamos ficheros etc.)
• Ordenar: Datos > Conjunto de datos activo > Ordenar el conjunto de datos activo… (para comprobar
que se haya hecho bien la recodificación o cuando piden valor mayor y menor de una variable )
• Seleccionar datos: Datos > Conjunto de datos activo > Filtrar el conjunto de datos activo… (doble
signo igual). Cuando cambiemos de ariketa→ cambiar a la base de datos anterior para no trabajar
con la filtrada (normalmente da igual pero por si acaso)
• Cambiar el tipo de variables: Datos > Modificar variables del conjunto de datos activo > Convertir
variable numérica en factor…
→ hay que decirle al ordenador cuáles son cualitativas y cuales numéricas
→ cuando convertimos una numérica en factor→ se puede mantener el número o ponerle etiquetas

2. CREACIÓN DE NUEVAS VARIABLES

Calcular nueva variable:


Cuando hacemos operaciones aritméticas entre variables de la base de datos

Ejemplos:
• Calcular la variable IMC a partir de la Altura y Peso: IMC = Peso (kg) / Altura2(m2)
• Calcular la variable Altura en metros a partir de la Altura en cm: Altura (m) = Altura (cm) / 100

79
Recodificar una variable:

Ejemplos:
• A partir de una variable TABACO que mide en número de paquetes/año en 4 categorías: 0 = “No
fumador”, 1 = “1-11 paquetes/año”, 2 = “11-20 paquetes año” y 3 = “>20 paquetes año”, calcular una
variable dicotómica que clasifica los pacientes en 0 = “No fuma” y 1 = “Si fuma”

También se puede poner:


0=”NO FUMADOR” 1=” FUMADOR” 2=” FUMADOR” 3=” FUMADOR”

Categorizar una variable:

En una variable cuantitativa establecemos puntos de corte para categorizarla en X categorías


Ejemplos:
• Categorizar la variable cuantitativa EDAD en dos grupos ≤ 9 años y > 9 años

*Evitar los signos <|> porque dan problemas→ poner texto en su lugar
El que lleve un igual→ siempre el primero

80
3. ANÁLISIS DESCRIPTIVO

Análisis descriptivo numéricamente:

Dependiendo del tipo de variable


- Variables cualitativa/categóricas: > Estadísticos > Resúmenes > Distribución de frecuencias…
• Tablas de frecuencias: n (frecuencia), %
- Variables cuantitativas: > Estadísticos > Resúmenes > Resúmenes numéricos
• Estadísticos de centralización: media, mediana.
• Estadísticos de dispersión: desviación estándar, rango, rango intercuartílico,...
• Estadísticos de posición: percentiles, cuartiles, deciles.
• Estadísticos de forma: asimetría y kurtosis. (usamos poco)

Resumen de todas las variables: > Estadísticos > Resúmenes > Conjunto de datos activo…
El programa ya sabe qué tiene que hacer porque tiene en cuenta el tipo de variable que es

Análisis descriptivo gráficamente

Variables categóricas:
• Gráfico de barras: > Gráficas > Gráficas de barras…
• Gráfico de sectores: > Gráficas > Gráficas de sectores…
*en el examen no entra pero sí: ¿Qué gráfico utilizarías para…?

Variables cuantitativas:
• Histograma: > Gráficas > Histograma…
• Diagrama de caja: > Gráficas > Diagrama de caja…
→ raya horizontal gruesa→ mediana
→ la caja de q1 a q3
→ los bigotes son: o el mínimo y el máximo o 1.5 por el rango
intercuartílico (cuando hay puntitos por encima o debajo del bigote)

4. ANÁLISIS DE LA NORMALIDAD

Para analizar cuantitativas, inferencias para una media, comparación etc


Hay que mirar la normalidad para decidirnos por paramétricas o no paramétricas.

Análisis normalidad variables continuas

La parte descriptiva con el histograma nos puede dar pistas pero hacemos Prueba de
Kolmogorov-Smirnov.

Análisis descriptivo:
• Histograma: forma acampanada.
• Estadísticos de tendencia central: Media, Mediana, Moda similares
• Estadísticos de distribución: Coeficiente de Kurtosis y Asimetría
próximos a 0.

81
Contraste de hipótesis: > Estadísticos > Resúmenes > Test de normalidad
● Prueba de Kolmogorov-Smirnov (siempre usamos esta)

o que la distribución de la variable es igual a la normal


o que la distribución de la variable no es la normal

p-value< 0,05→ no sigue una distribución normal


p-value> 0,05→ sigue una distribución normal

5. INFERENCIA PARA UNA POBLACIÓN

Para comparar 2 o más medias


Contraste para una proporción o una media/mediana

Contraste para una proporción: > Estadísticos > Proporciones > Test de proporciones para una
muestra
Ejemplo: Queremos contrastar la hipótesis de si el porcentaje de individuos de 9 años o menores es
del 50%. Cuando son porcentajes

Contraste para una media/mediana:


Ejemplo: queremos contrastar la hipótesis de si el FEV es de 2 litros
• Si la variable sigue una distribución normal: >Estadísticos > Medias >Prueba T para una muestra.

• Si la variable no sigue una distribución normal: >Estadísticos > Test no paramétricos >Test de
Wilcoxon para una muestra

6. INFERENCIA PARA 2 O MÁS POBLACIONES

Asociación entre 2 variables categóricas/cualitativas

Ejemplo: relación de la mortalidad y los hospitales (A, B y C)


→ mortalidad: cualitativa dicotómica
→ hospital→ cualitativa politómica

82
Herramientas: >Estadísticos> Tablas de contingencia> Tabla de doble entrada.
*da igual que en filas y que en columnas→ hay que saber qué porcentaje es el que nos interesa
Tablas de contingencia
Pruebas de independencia / homogeneidad
Test Chi-cuadrado / Test exacto de Fisher→ nos da el OR
*clicamos: frecuencias esperas y Fisher también
Chi-cuadrado→ cuando en una 2x2 las frecuencias esperadas sean > 5
Test exacto de Fisher → cuando en una 2x2 las frecuencias esperadas sean < 5

→Independencia→dos variables son independientes entre sí


→Homogeneidad→ si la distribución de una de las variables es homogénea según la otra
*cuando hay que agrupar→ solo cuando no haya gente suficiente en un grupo

Asociación variable cuantitativa y variables categórica dicotómica

Ejemplo: comparar el nivel de homocisteína entre casos y controles

Herramientas:
• Si la variable cuantitativa sigue una distribución normal: (por grupos: en casos y controles)
1. Prueba preliminar de igualdad de varianzas: > Estadísticos > Varianzas > Test F para dos
varianzas (hay un clic en opciones de varianza para poner SI o NO)

2. Prueba t de comparación de medias: >Estadísticos > Medias >Prueba T para muestras


independientes.

• Si la variable cuantitativa no sigue una distribución normal:


Prueba no-paramétrica de la suma de los rangos de Wilcoxon / Mann Whitney: >Estadísticos > Test
no paramétricos > Test de Wilcoxon para dos muestras

Asociación variable cuantitativa y variables categórica politómica

Ejemplo: comparar el nivel de homocisteína dependiendo del hábito tabáquico considerado como
fumador, no fumador o exfumador.

Herramientas:
● Si la variable cuantitativa sigue una distribución normal:
○ Análisis de la varianza (ANOVA) + Comparaciones múltiples (Tukey, …)
○ > Estadísticos > Medias > ANOVA de un factor

83
*con que sea distinta en algún caso→ suficiente para rechazar H0→ comparaciones múltiples

● Si la variable cuantitativa no sigue una distribución normal:


○ Prueba no-paramétrica de Kruskal-Wallis
○ >Estadísticos > Test no paramétricos >Test de Kruskal-Wallis

Influencia de una o más variables sobre una variable cuantitativa

Regresiones. La Y es de tipo cuantitativa.


Los ejemplos→ multivariantes

1. Influencia de una o más variables cuantitativas sobre una variable cuantitativa:

Ejemplo: analizar si la edad (X) y nivel de vitamina B12(X) influyen sobre el nivel de homocisteína (Y)
→Herramienta: Modelo de regresión lineal
→R Commander: >Estadísticos > Ajustes de modelos > Regresión lineal

2. Influencia de variables cuantitativas y categóricas sobre una variable cuantitativa:

Ejemplo: analizar si la edad (X) y el sexo (X) influye sobre el nivel de homocisteina (Y)
→Herramienta: Modelo lineal general
→R Commander: >Estadísticos > Ajustes de modelos > Modelo lineal

Influencia de una o más variables sobre una variable dicotómica

Ejemplo: analizar si la edad (X) y el fumar (X) (si/no) influyen en la mortalidad (Y)
Herramientas:
• Modelo de regresión logística
• R Commander: >Estadísticos > Ajustes de modelos > Modelo lineal generalizado

84

También podría gustarte