Está en la página 1de 2

Actividad Regresión y Correlación

Bryan Ocaña

25/10/2021

Investigar como se obtuvieron los datos y describir cada una de las variables del
conjunto de datos y por último calcular la matriz de correlación del conjunto de
datos e interpretarlo.
Los datos de nuestra base de datos se obtuvieron con el registro de 918 personas que padecen de insuficiencia
cardiaca, a las cuales se les pregunto o se les tomo el registro de las siguientes variables:
Age: esta variable es una variable cuantitativa la cual representa la edad de cada paciente, va en un rango
de edad desde los 28 años hasta los 77 años que se registraron en los distintos pacientes que fueron atendidos.
sex: esta variable es una variable cualitativa que representa el gènero de cada uno de los pacientes y en este
caso tenemos F que representa al sexo femenino mientras que METRO representa al sexo masculino de los
pacientes en observaciòn. A demas nos podemos dar cuenta que el porcentaje del sexo masculino es mayor
al del sexo femenino teniendo un 79% para el sexo masculino y un 21% para el sexo femenino.
chest pain type: esta variable es una variable cuantitativa que representa el tipo de dolor de pecho que
padecen los pacientes, en esta variable el dolor puede ser intenso, leve o de otro tipo y en este caso podemos
observar que el mayor porcentaje con el 54% de los pacientes sufren dolores intensos en el pecho.
resting blood pressure: esta variable es una variable cuantitativa que representa la presiòn arterial de
cada paciente cuando se encuentran en reposo, vemos que va en un rango de 0 a 200 lo cual nos indica si su
presiòn arterial es normal o anormal, en este caso para que la presion arterial sea normal debe encontrarse
en un rango no mayor a 120 pero nos podemos dar cuenta que en nuestros datos la mayoria de pacientes
estan por encima de los 120 lo que nos quiere decir que su presiòn arterial es anormal y por eso sufren del
corazòn.
serum cholesterol: esta variable es una variable cuantitativa que representa el colesterol sèrico de cada
paciente lo cual nos indica la grasa (también llamada lípido) que el cuerpo necesita para funcionar apropi-
adamente. Demasiado colesterol malo puede aumentar la probabilidad de padecer una enfermedad cardíaca,
accidente cerebrovascular y otros problemas. En este caso en nuestro conjunto de datos podemos observar
que el colesterol sèrico de los pacientes va en un rango de 0 a 603 lo cual nos indica si los pacientes sufren o
no de colesterol, cabe recalcar que en esta variable se toma encuenta la edad y la estatura de cada paciente
para determinar si padece de colesterol sèrico.
fasting blood sugar: esta variable es una variable cualitativa que representa si el paciente padece de
gleucemia en ayunas para lo cual se ha tomado como refrencia el 0 y 1 para determinar si padecen o no de
este particular, representando el 0 como negativo y el 1 como positivo dandonos cuenta que en este caso el
menor porcentaje de los pacientes no sufren de gleucemia en ayunas.
resting electrocardiogram results: esta variable es una variable cualitativa que representa los resultados
del electrocardiograma de cada paciente en reposo, indicandonos si es normal, anormal o de otro tipo,
dandonos como resultados en este grupo de pacientes que el mayor poecentaje tiene un electrocardiograma
normal cuenado estan en reposo.
maximum heart rate achieved: esta variable es una variable cuantitativa que representa la freceuncia
càrdiaca màxima alcanzada de cada paciente, la cual se encuentra en una rango que va desde los 60 hasta

1
las 202 pulsaciones donde podemos darnos cuenta que en este grupo de pacientes el mayor porcentaje se
encuentra entre la media de dicho rango es decir entre los 140 a 170 pulsaciones.
exercise induced angina: esta variable es una variable cualitativa la cual representa si el paciente padece
de angina inducida por ejercicio, en donde nos podemos dar cuenta que se utiliza TRUE para determinar
si es verdad que este padecimiento fue causado por el ejercicio y FALSE para determinar que fueron por
otras causas. Tambièn se puede observar que el mayor porcentaje de este grupo de pacientes padecen de esta
enfermedad causada por otro tipo de circunstancias y no por el ejercicio.
oldpeak = ST: esta variable es una variable cuantitativa que representa la elevación del ST inducida por
esfuerzo ergométrico en los paciente sin infarto previo, el cual es medido en una rango de -2.6 hasta 6.2 en
este grupo de pacientes donde se puede constatar que todos los pacientes estan po encima del 0.

Datos <- read_excel("C:/Users/Javier/Desktop/DATA.xlsx")


cor(Datos,use = "pairwise.complete.obs")

EDAD COLESTEROL SÈRICO GLEUCEMIA EN AYUNAS


EDAD 1.00000000 -0.09528177 0.1980391
COLESTEROL SÈRICO -0.09528177 1.00000000 -0.2609743
GLEUCEMIA EN AYUNAS 0.19803907 -0.26097433 1.0000000
FRECUENCIA CÀRDIACA MAX. -0.38204468 0.23579240 -0.1314385
ANGINA INDUCIDA EJER. 0.28914317 -0.25889100 0.2852044
FRECUENCIA CÀRDIACA MAX. ANGINA INDUCIDA EJER.
EDAD -0.3820447 0.2891432
COLESTEROL SÈRICO 0.2357924 -0.2588910
GLEUCEMIA EN AYUNAS -0.1314385 0.2852044
FRECUENCIA CÀRDIACA MAX. 1.0000000 -0.4263658
ANGINA INDUCIDA EJER. -0.4263658 1.0000000

La siguiente matriz de correlación es simétrica donde se puede observar que existen valores positivos y
negativos los cuales nos quieren decir que mientras el valor sea positivo y se acerque a 1 tendremos una
relaciòn directamente proporcional fuerte entre las dos variables y caso contrario si el valor es negativo
y se acerca a 1 tendremos una relación inversamente proporcional fuerte entre las dos variables, es decir,
en nuestro caso observamos la variable EDAD la cual tiene una relaciòn directamente proporcional con la
variable ANGINA INDUCIDA POR EL EJERCICIO porque el valor es positivo pero sin embargo la relación
es muy dèbil ya que su valor se acerca mas al 0 que al 1, esto nos quiere decir que la edad no influye mucho
para que los pacientes padezcan dicha enfermedad. Ahora observamos la misma variable EDAD pero en este
caso vemos la relaciòn que tiene con la variable FRECUENCIA CARDIACA MÀXIMA, en este caso al ser
el valor negativo decimos que existe una relacion inversamente proporcional pero de igual forma es dèbil ya
que su valor se acerca mas al 0 que al 1 entonces concluimos que mientras mas edad tenga el paciente su
frecuencia cardiaca màxima sera menor pero por lo dicho anteriormente que la relaciòn no era muy fuerte se
entiende que esto no sucede en la mayoria de los casos. Por otro lado tambièn se puede observar que en la
variable FRECUENCIA CÀRDIACA MÀXIMA tiene una relaciòn inversamente proporcional no muy fuerte
con la variable ANGINA INDUCIDA POR EL EJERCICIO, esto nos quiere decir que mientras màs alta sea
la frecuencia cardiaca del paciente, el riesgo de padecer dicha enfermedad inducida por el ejercicio va a ser
menor. Y asi de la misma manera podemos analizar cada una de las variables determinando si su relaciòn
es fuerte o dèbil ya sea directamente o inversamente proporcional entre las variables de nuestro interès.

También podría gustarte