Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Entrega Descriptiva
Entrega Descriptiva
BIOESTADÍSTICA
2-ANÁLISIS
UNIVARIANTE
Frecuencias de Patient_Status
Tabla 1: Tabla de frecuencias del estado del paciente con cáncer de mama
1
Enlace de los datos del estudio original:
https://www.kaggle.com/datasets/0248260fceaaaab93ceb231f0deb49f979a9ce4ed30f54260c8a18d927
0bbcb0?resource=download
Gráfico 1: Diagrama de barras o barplot representando la variable “estado del paciente”
Tal como podemos observar en la Tabla 1 y en el Gráfico 1, el sumatorio de los pacientes vivos
y los difuntos (321), en la base de datos no coincide con el número total de pacientes estudiados
(341). Según el estudio, esto se debe a que un 6% (“others”) del total de pacientes no acudió a las
últimas visitas y por lo tanto no pudieron finalizar el seguimiento. Aún así, destaca un 79,4% de
individuos que han sobrevivido al cáncer, referentes a 255 individuos, frente a un 20,6% de
defunciones, referentes a 66 individuos del total. En el caso de que la muestra fuera representativa
de toda la población con cáncer de mama, podríamos afirmar que la tasa de supervivencia en este
tipo de cáncer es mucho mayor que la tasa de defunciones.
Descriptivas
Age
N 334
Perdidos 7
Media 58.9
Mediana 58.0
Moda 59.0
Mínimo 29
Descriptivas
Age
Máximo 90
Asimetría 0.304
Curtosis -0.541
25percentil 49.0
50percentil 58.0
75percentil 68.0
Gracias a la Tabla 2, se puede afirmar que la media de la edad de los pacientes estudiados es de
58,9 años, es decir 59 años, con una desviación estándar de 13 lo cual demuestra una amplia
variedad entre las edades de los pacientes analizados en el estudio. Además, estos valores se
distribuyen a través de un rango entre 29 y 90 años con el que se puede inferir que el 50% de los
individuos tenían entre 29 años (valor mínimo) y 59 años (media). El otro 50% tenían entre 59 y
90 años (valor máximo). Como se puede apreciar en la Tabla 2 y en el Gráfico 2, la variable de
edad tiene una asimetría positiva (o por la derecha) ya que en la tabla se aprecia un valor de 0,304
y, en el gráfico la cola se estira en el lado derecho, aunque ésta no es muy marcada. Esto se debe
a que hay más valores extremos altos (visible en el Gráfico 2), lo que hace que la media se
desplace hacia la derecha también. En cuanto a la curtosis, en la Tabla 2 se observa un valor de -
0,541, el cual se encuentra entre -3 y 3, por tanto, la curva tiene un apuntamiento mesocúrtico.
BIVARIANTE
a) Análisis de una variable numérica y una categórica: Proteína 1
(nivel de expresión) y estadio del tumor
Para el estudio de la relación entre una variable numérica y una categórica se analizará el nivel de
expresión de la Proteína 1 (variable numérica) según el estadio del tumor (variable categórica).
Antes de interpretar los datos, cabe destacar que la base de datos no nos aporta información sobre
el nombre de la proteína 1 ni sobre las unidades de esta.
Descriptivas
Tumour_Stage Protein1
N I 64
II 189
III 81
Perdidos I 0
II 0
III 0
Media I -0.0144
II -0.00773
III -0.0942
Error est. media I 0.0655
II 0.0401
III 0.0690
Mediana I -0.0344
II 0.00844
III 0.0527
Moda I -2.34 ᵃ
II -1.68 ᵃ
III -2.14 ᵃ
Desviación
I 0.524
estándar
II 0.552
III 0.621
Varianza I 0.275
II 0.304
III 0.385
RIC I 0.496
II 0.730
III 0.831
Recorrido I 3.41
II 3.28
III 3.18
Mínimo I -2.34
II -1.68
III -2.14
Máximo I 1.07
II 1.59
III 1.04
Asimetría I -1.22
II -0.197
III -0.973
Error est.
I 0.299
asimetría
II 0.177
III 0.267
Curtosis I 5.30
II 0.269
III 1.22
Error est.
I 0.590
curtosis
II 0.352
III 0.529
25percentil I -0.246
II -0.373
III -0.476
50percentil I -0.0344
II 0.00844
III 0.0527
75percentil I 0.249
II 0.357
III 0.355
ᵃ Existe más de una moda, solo se reporta la primera
Tabla 3: Medidas descriptivas de las variables estadio del tumor y los niveles de expresión
de la proteína 1
Este análisis consta de una comparación entre grupos marcados por la variable categórica
(estadios I, II y III del tumor). Si se presta atención a la Tabla 3 y al Gráfico 4, se puede concluir
que los niveles de expresión de la Proteína tienen una relación con el estadio del tumor poco
destacable. Esto se debe a que la media del nivel de expresión de la proteína 1 para cada grupo es
muy parecida, salvo para el grupo estadio III en el que la media del nivel de expresión aumenta
ligeramente (estadio I: -0,0144 con una desviación estándar de 0,524; estadio II: -0,00773 con
una desviación estándar de 0,552; estadio III: -0,0942 con una desviación estándar de 0,621). Este
fenómeno también se aprecia en el diagrama de cajas en el que, el tercer cuartil que marca la
media está a una altura muy parecida en cada grupo.
Lo que sí difiere entre los grupos es el rango de valores, la asimetría y la curtosis. El grupo de
pacientes que padecen un estadio I presentan niveles de expresión de la proteína 1 entre -2,34 y
1,07, con un valor de asimetría de -1,22, y una curtosis leptocúrtica dado su valor 5,3. El grupo
de pacientes que padecen un estadio II presentan niveles de expresión de la proteína 1 entre -1,68
y 1,59, con un valor de asimetría de -0,197, y una curtosis mesocúrtica dado su valor 0,269. En
cuanto a los pacientes que padecen un estadio III presentan niveles de expresión de la proteína 1
entre -2,14 y 1,04, con un valor de asimetría de -0,973, y una curtosis mesocúrtica dado su valor
1,22.
b) Análisis de dos variables categóricas
En cuanto al análisis de dos variables categóricas, se estudiará el estado del paciente en relación
con el estadio de su tumor. Al tratarse de datos cualitativos, no se puede establecer una
correlación, pero se puede analizar la posible presencia de una asociación entre ambas variables.
Tabla 4: Tabla de contingencia entre las variables estadio del tumor (filas) y estado del
paciente (columnas), donde los porcentajes se basan en el total de las filas
Tabla 5: Tabla de contingencia entre las variables estadio del tumor (filas) y estado del
paciente (columnas), donde los porcentajes se basan en el total de la muestra
Tabla 6: Tabla de frecuencias del estado del paciente con cáncer de mama
Por último, a partir del Gráfico 6, se puede observar que la tasa de supervivencia de los pacientes
con cáncer de mama, por lo general es mayor, independientemente del estadio del tumor.
Sorprendentemente, observamos que las defunciones son menores en un estadio III, es decir más
avanzado, que en un estadio II. Basándonos en los valores de la Tabla 6, el porcentaje total de
defunciones en un estadio II (11,8 %) es bastante mayor en relación con el del estadio I (3,1%).
Sin embargo, llegados a un estadio III, dicho porcentaje de defunciones totales decae en un 5,6%.
Observamos también que el estudio se realizó con un porcentaje bastante elevado de pacientes
con un estadio II, lo cual podría explicar la diferencia.