Está en la página 1de 10

ANÁLISIS DESCRIPTIVO DE LAS

VARIABLES DEL PROYECTO

BIOESTADÍSTICA

Lou Vicente Bonnavent


1º de Medicina
16/11/2022
1-INTRODUCCIÓN
La base de cualquier estudio es el análisis descriptivo de las variables de este ya que facilita su
comprensión. Dicho análisis consiste en describir e interpretar los datos de las variables que
hemos obtenido y la posible relación entre ellas. Las variables pueden ser numéricas (valores
numéricos), discretas (valores enteros) o continuas (cualquier valor dentro de un intervalo); o
pueden ser categóricas (característica cualitativa), nominales (las categorías no se pueden
ordenar) u ordinales (las categorías se pueden ordenar). El análisis de variables se puede clasificar
según si es univariante (se estudia una sola variable) o bivariante (relación entre dos variables).
En este caso, los datos utilizados para realizar el análisis se han obtenido del estudio “Real Breast
Cancer Data”1 publicado en la base de datos “Kaggle” el año pasado. En este estudio se
observaron 341 individuos que padecían o padecieron cáncer de mama, con relación a 16 variables
diferentes.
El análisis del proyecto ha consistido en:
• Dos análisis univariantes: 1) variable categórica: Estado del paciente 2) variable
numérica: Edad
• Dos análisis bivariantes: 1) variable numérica vs categórica 2) variable categórica vs
categórica

2-ANÁLISIS
UNIVARIANTE

a) Análisis de una variable categórica: Estado del paciente con


cáncer de mama
En primer lugar, se estudiará la variable “Patient Status” (estado del paciente). Se trata de una
variable categórica ya que no se asocia a valores numéricos sino a grupos cualitativos: “alive”
(vivo) y “dead” (difunto).

Frecuencias de Patient_Status

Patient_Status Frecuencias % del Total % Acumulado

Alive 255 79.4 % 79.4 %

Dead 66 20.6 % 100.0 %

Tabla 1: Tabla de frecuencias del estado del paciente con cáncer de mama

1
Enlace de los datos del estudio original:
https://www.kaggle.com/datasets/0248260fceaaaab93ceb231f0deb49f979a9ce4ed30f54260c8a18d927
0bbcb0?resource=download
Gráfico 1: Diagrama de barras o barplot representando la variable “estado del paciente”

Tal como podemos observar en la Tabla 1 y en el Gráfico 1, el sumatorio de los pacientes vivos
y los difuntos (321), en la base de datos no coincide con el número total de pacientes estudiados
(341). Según el estudio, esto se debe a que un 6% (“others”) del total de pacientes no acudió a las
últimas visitas y por lo tanto no pudieron finalizar el seguimiento. Aún así, destaca un 79,4% de
individuos que han sobrevivido al cáncer, referentes a 255 individuos, frente a un 20,6% de
defunciones, referentes a 66 individuos del total. En el caso de que la muestra fuera representativa
de toda la población con cáncer de mama, podríamos afirmar que la tasa de supervivencia en este
tipo de cáncer es mucho mayor que la tasa de defunciones.

b) Análisis de una variable numérica: Edad


En segundo lugar, se estudiará la variable “Age” (edad). Dicha variable es numérica y considerada
discreta, ya que no se utilizan valores decimales para definirla.

Descriptivas

Age

N 334

Perdidos 7

Media 58.9

Mediana 58.0

Moda 59.0

Desviación estándar 13.0

Mínimo 29
Descriptivas

Age

Máximo 90

Asimetría 0.304

Error est. asimetría 0.133

Curtosis -0.541

Error est. curtosis 0.266

25percentil 49.0

50percentil 58.0

75percentil 68.0

Tabla 2: Medidas descriptivas de la variable

Gráfico 2: Histograma representando la densidad de “Edad”


Gráfico 3: Diagrama de cajas o boxplot representando la densidad de “Edad”

Gracias a la Tabla 2, se puede afirmar que la media de la edad de los pacientes estudiados es de
58,9 años, es decir 59 años, con una desviación estándar de 13 lo cual demuestra una amplia
variedad entre las edades de los pacientes analizados en el estudio. Además, estos valores se
distribuyen a través de un rango entre 29 y 90 años con el que se puede inferir que el 50% de los
individuos tenían entre 29 años (valor mínimo) y 59 años (media). El otro 50% tenían entre 59 y
90 años (valor máximo). Como se puede apreciar en la Tabla 2 y en el Gráfico 2, la variable de
edad tiene una asimetría positiva (o por la derecha) ya que en la tabla se aprecia un valor de 0,304
y, en el gráfico la cola se estira en el lado derecho, aunque ésta no es muy marcada. Esto se debe
a que hay más valores extremos altos (visible en el Gráfico 2), lo que hace que la media se
desplace hacia la derecha también. En cuanto a la curtosis, en la Tabla 2 se observa un valor de -
0,541, el cual se encuentra entre -3 y 3, por tanto, la curva tiene un apuntamiento mesocúrtico.

BIVARIANTE
a) Análisis de una variable numérica y una categórica: Proteína 1
(nivel de expresión) y estadio del tumor

Para el estudio de la relación entre una variable numérica y una categórica se analizará el nivel de
expresión de la Proteína 1 (variable numérica) según el estadio del tumor (variable categórica).
Antes de interpretar los datos, cabe destacar que la base de datos no nos aporta información sobre
el nombre de la proteína 1 ni sobre las unidades de esta.

Descriptivas
Tumour_Stage Protein1

N I 64
II 189
III 81
Perdidos I 0
II 0
III 0
Media I -0.0144
II -0.00773
III -0.0942
Error est. media I 0.0655
II 0.0401
III 0.0690
Mediana I -0.0344
II 0.00844
III 0.0527
Moda I -2.34 ᵃ
II -1.68 ᵃ
III -2.14 ᵃ
Desviación
I 0.524
estándar
II 0.552
III 0.621
Varianza I 0.275
II 0.304
III 0.385
RIC I 0.496
II 0.730
III 0.831
Recorrido I 3.41
II 3.28
III 3.18
Mínimo I -2.34
II -1.68
III -2.14
Máximo I 1.07
II 1.59
III 1.04
Asimetría I -1.22
II -0.197
III -0.973
Error est.
I 0.299
asimetría
II 0.177
III 0.267
Curtosis I 5.30
II 0.269
III 1.22
Error est.
I 0.590
curtosis
II 0.352
III 0.529
25percentil I -0.246
II -0.373
III -0.476
50percentil I -0.0344
II 0.00844
III 0.0527
75percentil I 0.249
II 0.357
III 0.355
ᵃ Existe más de una moda, solo se reporta la primera

Tabla 3: Medidas descriptivas de las variables estadio del tumor y los niveles de expresión
de la proteína 1

Gráfico 4: Diagrama de cajas de los niveles de expresión de la proteína 1 en relación al


estadio del tumor.
Gráfico 5: Histograma de los niveles de expresión de la proteína 1 en relación al estadio del
tumor.

Este análisis consta de una comparación entre grupos marcados por la variable categórica
(estadios I, II y III del tumor). Si se presta atención a la Tabla 3 y al Gráfico 4, se puede concluir
que los niveles de expresión de la Proteína tienen una relación con el estadio del tumor poco
destacable. Esto se debe a que la media del nivel de expresión de la proteína 1 para cada grupo es
muy parecida, salvo para el grupo estadio III en el que la media del nivel de expresión aumenta
ligeramente (estadio I: -0,0144 con una desviación estándar de 0,524; estadio II: -0,00773 con
una desviación estándar de 0,552; estadio III: -0,0942 con una desviación estándar de 0,621). Este
fenómeno también se aprecia en el diagrama de cajas en el que, el tercer cuartil que marca la
media está a una altura muy parecida en cada grupo.
Lo que sí difiere entre los grupos es el rango de valores, la asimetría y la curtosis. El grupo de
pacientes que padecen un estadio I presentan niveles de expresión de la proteína 1 entre -2,34 y
1,07, con un valor de asimetría de -1,22, y una curtosis leptocúrtica dado su valor 5,3. El grupo
de pacientes que padecen un estadio II presentan niveles de expresión de la proteína 1 entre -1,68
y 1,59, con un valor de asimetría de -0,197, y una curtosis mesocúrtica dado su valor 0,269. En
cuanto a los pacientes que padecen un estadio III presentan niveles de expresión de la proteína 1
entre -2,14 y 1,04, con un valor de asimetría de -0,973, y una curtosis mesocúrtica dado su valor
1,22.
b) Análisis de dos variables categóricas

En cuanto al análisis de dos variables categóricas, se estudiará el estado del paciente en relación
con el estadio de su tumor. Al tratarse de datos cualitativos, no se puede establecer una
correlación, pero se puede analizar la posible presencia de una asociación entre ambas variables.

Tabla 4: Tabla de contingencia entre las variables estadio del tumor (filas) y estado del
paciente (columnas), donde los porcentajes se basan en el total de las filas

Tabla 5: Tabla de contingencia entre las variables estadio del tumor (filas) y estado del
paciente (columnas), donde los porcentajes se basan en el total de la muestra
Tabla 6: Tabla de frecuencias del estado del paciente con cáncer de mama

Gráfico 6: Gráfico de barras de la supervivencia de los pacientes en relación con el estadio


de su tumor

Por último, a partir del Gráfico 6, se puede observar que la tasa de supervivencia de los pacientes
con cáncer de mama, por lo general es mayor, independientemente del estadio del tumor.
Sorprendentemente, observamos que las defunciones son menores en un estadio III, es decir más
avanzado, que en un estadio II. Basándonos en los valores de la Tabla 6, el porcentaje total de
defunciones en un estadio II (11,8 %) es bastante mayor en relación con el del estadio I (3,1%).
Sin embargo, llegados a un estadio III, dicho porcentaje de defunciones totales decae en un 5,6%.
Observamos también que el estudio se realizó con un porcentaje bastante elevado de pacientes
con un estadio II, lo cual podría explicar la diferencia.

También podría gustarte