Está en la página 1de 19

Paso 4 - Descripción de la Información

Presentado por
Diana Patricia Musa Vergara

Universidad Nacional Abierta Y A Distancia UNAD


Estadística

Tutora
Betsy Josefina Rodríguez

Grupo  202107095_85

Escuela de Ciencias Sociales, Artes y Humanidades - ECSAH


Marzo 2022
INTRODUCCION
En este trabajo se ve claramente, que se puede predecir algún aspecto que sea de interés para
determinadas investigaciones, como el de los casos positivos de COVID-19 en el Departamento de
Antioquia.
En la vida cotidiana, la estadística descriptiva es una ciencia fundamental para realizar el análisis de
diferentes aspectos, para realizar un análisis de cada resultado obtenido.
Esta ciencia puede ser aplicada en cada aspecto de la vida, ya que desde los deportes hasta la
educación, la estadística descriptiva predice datos fundamentales para poder predecir futuros
resultados y así mismo poder brindar una solución a la problemática planteada.
JUSTIFICACION
La elaboración de este trabajo tiene como fin el entendimiento e interpretación que se le da a las
regresiones y correlaciones simples, con una base de datos otorgada, sabiendo que cada uno de estos
conceptos facilita la relación de diferentes variables encontradas en el documento.
Comprender cada una de los tipos de variables cuantitativas y cualitativas, y asociar cada resultado a
la problemática planteada, y brindado soluciones con datos estadísticos, además de la correlación de
los datos para así llegar a hipótesis y conclusiones.
OBJETIVO
Proponer una alternativa de solución a la problemática objeto de estudio, a través de un informe
descriptivo de las técnicas estadísticas implementadas a la base de datos.

Objetivos Específicos

Realizar gráficos de dispersión, de determinados datos otorgados al estudiante y determinar la


correlación entre variables
Asociar variables de la base de datos casos positivos de COVID-19 en el Departamento de Antioquia.
Dar solución a la problemática planteada a través de los resultados obtenidos.
MAPA MENTAL
DEFINICION DE CONCEPTOS
Diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas
para mostrar los valores de dos variables para un conjunto de datos. Se emplea cuando una o varias
variables está bajo el control del experimentador.

Correlación lineal simple


Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de
parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que
indica el grado de variación conjunta de dos variables aleatorias. La covarianza depende de las
escalas en que se miden las variables estudiadas, por lo tanto, no es comparable entre distintos pares
de variables.

Coeficiente de determinación R2
El coeficiente de determinación es la proporción de la varianza total de la variable explicada por la
regresión. El coeficiente de determinación, también llamado R cuadrado, refleja la bondad del ajuste
de un modelo a la variable que pretender explicar. Es importante saber que el resultado del
coeficiente de determinación oscila entre 0 y 1. Cuanto más cerca de 1 se sitúe su valor, mayor será
el ajuste del modelo a la variable que estamos intentando explicar. De forma inversa, cuanto más
cerca de cero, menos ajustado estará el modelo y, por tanto, menos fiable será.

Correlación positiva y negativa


La correlación es una medida de la fuerza de la relación entre dos variables. El coeficiente de
correlación cuantifica el grado de cambio de una variable en función del cambio de la otra variable.
En estadística, la correlación está conectada con el concepto de dependencia, que es la relación
estadística entre dos variables.
Cuando hay una correlación positiva (r> 0) entre dos variables aleatorias, una variable se mueve
proporcionalmente a la otra variable. Si una variable aumenta, la otra aumenta. Si una variable
disminuye, la otra también disminuye.
Cuando hay una correlación negativa (r <0) entre las dos variables aleatorias, las variables se mueven
opuestas entre sí. Si una variable aumenta, la otra disminuye y viceversa.

Una línea que se aproxima a una correlación positiva tiene un gradiente positivo, y una línea que se
aproxima a una correlación negativa tiene un gradiente negativo.

¿Qué es el coeficiente de correlación lineal y qué nos ayuda a medir?


La correlación, también conocida como coeficiente de correlación lineal (de Pearson), es una medida
de regresión que pretende cuantificar el grado de variación conjunta entre dos variables.
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos variables, es decir,
si se representan en un diagrama de dispersión los valores que toman dos variables, el coeficiente de
correlación lineal señalará lo bien o lo mal que el conjunto de puntos representados se aproxima a
una recta.
De una forma menos coloquial, la podemos definir como el número que mide el grado de intensidad
y el sentido de la relación entre dos variables.
ACTIVIDAD 3.4 Temperatura-Vapor
El número de libras de vapor (y) consumidas mensualmente por una planta química, se relaciona con
la temperatura ambiental promedio (en o F). Para el año 2020, se registraron los siguientes valores de
temperatura y consumo anual.

Temperatura Consumo de
Mes (F) vapor (Lb)

enero 21 154,56
febrero 24 198,23
marzo 32 220,15
abril 47 350,97
mayo 50 410,25
junio 59 450,76
julio 68 534,9
agosto 74 564,06
septiembre 76 605,78
octubre 80 620,56
noviembre 84 625,44
diciembre 86 630,98

Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.

700

600

500

400

300

200

100

0 20 40 60 80 100
Existe correlación de ambas variables, con tendencia hacia arriba, lo que quiere decir que hay
correlación con dirección positiva.

Encuentre el coeficiente de determinación y correlación.

Consumo de
Mes Temp(F) vapor (Lb) xiyi x2 y2

enero 21 154,56 3245,76 441 23888,7936


febrero 24 198,23 4757,52 576 39295,1329
marzo 32 220,15 7044,8 1024 48466,0225
abril 47 350,97 16495,59 2209 123179,941
mayo 50 410,25 20512,5 2500 168305,063
junio 59 450,76 26594,84 3481 203184,578
julio 68 534,9 36373,2 4624 286118,01
agosto 74 564,06 41740,44 5476 318163,684
septiembre 76 605,78 46039,28 5776 366969,408
octubre 80 620,56 49644,8 6400 385094,714
noviembre 84 625,44 52536,96 7056 391175,194
diciembre 86 630,98 54264,28 7396 398135,76
Total 701 5366,64 359249,97 46959 2751976,3

𝑆𝑥𝑦
𝑟=

𝑆𝑥𝑆𝑦

∑ 𝑥𝑖𝑦𝑖
𝑆𝑥𝑦 = − 𝑥̅𝑦̅
𝑁
359249,97 701 5366,64
𝑆𝑥𝑦 = − = 3812,39
12 12 12

∑ 𝑥2
𝑆𝑥 = √ − 𝑥̅2
𝑁

46959 701 2
𝑆𝑥 = √ −( )
12 12

𝑆𝑥 = 22,37
∑ 𝑦2
𝑆𝑦 = √ − 𝑦̅2
𝑁

𝑆𝑦 = √ 2751976,3 5366,64
12 −( )2
12

𝑆𝑦 = 171,25
𝑆𝑥𝑦 3812,39
𝑟= →𝑟= = 0,9951
22,37 ∗ 171,25
𝑆𝑥𝑆𝑦 𝑅2 = 𝑟2
𝑅2 = 0,99512
𝑅2 = 0,9902

COEFICIENTE DE
CORRELACION COEFICIENTE R2
0,9951 0,9902

Determine el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es
confiable?
Tiene modelo matemático lineal,
𝑌 = 𝑚𝑥 + 𝑏
𝑌 = 7,6135𝑥 + 2,466

Mes Temp(F) Consumo de Y %ERROR


vapor (Lb)
enero 21 154,56 162,3495 4,8%
febrero 24 198,23 185,19 7,0%
marzo 32 220,15 246,098 10,5%
abril 47 350,97 360,3005 2,6%
mayo 50 410,25 383,141 7,1%
junio 59 450,76 451,6625 0,2%
julio 68 534,9 520,184 2,8%
agosto 74 564,06 565,865 0,3%
septiembre 76 605,78 581,092 4,2%
octubre 80 620,56 611,546 1,5%
noviembre 84 625,44 642 2,6%
diciembre 86 630,98 657,227 4,0%
Se puede ver que es un modelo confiable, ya que hay mucha similitud entre ambos valores de Y,
además de un bajo porcentaje de error.

Determine el grado de relación de las dos variables.

700
y = 7,6135x + 2,466
600 R² = 0,9898

500

400

300

200

100

0 20 40 60 80 100

Como se puede ver en la gráfica, la relación lineal es alta


ACTIVIDAD 4: Descripción de la Actividad Individual:
A partir de la base de datos suministrada deberá:
Identificar dos variables cuantitativas de la situación estudiada que puedan estar relacionadas e
identificar la variable dependiente e independiente.

Las variables seleccionadas son:


Independiente: Edad
Dependiente: Fecha diagnóstico.
Realizar el diagrama de dispersión de dichas variables y determinar el tipo de relación entre las
variables.

35 y = -0,0022x + 15,367
R² = 0,0014

30

25

20

15

10

0 100 200 300 400 500 600

Como se observa no hay una correlación de las variables o al menos es baja, sin embargo, se observa
que es positiva ya que su pendiente va en esta orientación.

Determine al coeficiente de determinación y de correlación de las dos variables. Interprete los


resultados

COEFICIENTE DE COEFICIENTE DE
DETERMINACION CORRELACION
0,095 0,0091
Nos indica que la correlación existe, pero tiene un nivel de confiabilidad del 0,91%, es demasiado
baja, para poder predecir futuros acontecimientos.
Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es
confiable?
Modelo matemático

𝑦 = −0,0474𝑥 + 16,721
Al tener un coeficiente de determinación de 0,0091 nos da a entender que tiene poca confiabilidad
Determine el tipo de correlación de las dos variables.

Tiene correlación negativa, ya que en la regresión se ve que la línea de tendencia tiene pendiente
negativa.

Relacionar la información obtenida con el problema.


La edad y la fecha de diagnóstico no tienen correlación alguna como se observa en la gráfica y en la
ecuación, no son datos que tengan poca dispersión, por lo que se puede asumir que deben existir
otras variables que intervengan en los resultados.
ACTIVIDAD 5: Regresión y correlación múltiple.
Identificar una variable cuantitativa dependiente y varias variables
Cuantitativas independientes del estudio de investigación.
Independiente: Fecha reporte
Independiente: Fecha inicio de síntomas
Independiente: Fecha recuperación
Dependiente: Fecha diagnostico

Realizar el diagrama de dispersión de dichas variables.

35

30

25

20

15

10

0 5 10 15 20 25 30 35

fecha reporte web Fecha de notificación Fecha recuperacion

Fecha reporte web 𝑦 = 𝑥 → 𝑅² = 1


Fecha notificación 𝑦 = 0,3102𝑥 + 9,7424 → 𝑅² = 0,1033
Fecha recuperación 𝑦 = 0,0841𝑥 + 13,44 → 𝑅² = 0,009

Calcular la recta de regresión y el coeficiente de correlación para probar estadísticamente su relación.

En la gráfica se observa la relación que tiene cada una de las variables independientes con la
dependiente:
La fecha de reporte web es directamente proporcional con la fecha de diagnóstico, observando una
correlación del 100%

La fecha de notificación tiene correlación con la fecha diagnóstico, sin embargo, el modelo
matemático es poco confiable, solo un 10%

La fecha de recuperación y fecha diagnostico no están relacionadas ya que el porcentaje de


confiabilidad es demasiado bajo.

Relacionar la información obtenida con el problema.


Con la fecha de diagnóstico como variable dependiente, se observa que la que más interviene es la
fecha de reporte web, ya que es donde empieza el proceso, sin embargo, la fecha de notificación
también tiene algo de relación, entre muchas otras variables.
CONCLUSIONES
En el presente trabajo se comprendió los conceptos base de regresión y correlación y la
implementación de los mismos en diferentes estudios.

Se aplica el uso de diversas herramientas que facilitan realizar un análisis o estudio estadístico y que
permiten observar la información de una manera más clara y precisa.

La relación de dos variables cuantitativas es fundamental para predecir un resultado, ya sea de la


variable dependiente como la independiente.
REFERENCIAS BIBLIOGRAFICAS

Montero, J.M. (2007). Regresión y Correlación Simple. Madrid: Paraninfo.


Paginas. 130 – 158.
Churchill, G.A. (2009). Análisis de Correlación y de Regresión Simple. México City: Cengage
Learning. Páginas 675 – 686

También podría gustarte