Está en la página 1de 47

TRABAJO COLABORATIVO

Unidad 2: Paso 4. Descripción de la información

Estudiantes

JUAN CARLOS FLOREZ

JAVIER EDUARDO TERAN LUNA

JUAN CARLÓS FARAK

SUSANA ATENCIO SIERRA

NILSON ANTONIO VASQUEZ

Grupo del curso


100105_308

Presentado a

ORLANDO TORO

Universidad Nacional Abierta y a Distancia- UNAD

Estadística descriptiva

Corozal, Sucre
1
INTRODUCCIÓN

A través de este trabajo, se pretende abordar diferentes conocimientos


referentes a la correlación y técnica estadística, que se usa principalmente
entre dos o más variables, el principal objetivo es estudiar un problema de las
diferentes industrias, y darles solución a través del estudio descriptivo de los
mismos para así encontrar patrones o identificar tendencias, y de este modo
intervenir en el proceso para disminuir las variaciones que se disminuye.

Por lo tanto, se encontrará una serie de problemas a desarrollar dentro de las


organizaciones, para los cuales se usarán herramientas como los diagramas de
dispersión, medidas descriptivas, coeficiente de Pearson, coeficiente de
correlaciones y los tipos de relaciones que se puedan presentar, además de se
entiende que el coeficiente de determinación es fundamental para entender la
calidad de nuestras simulaciones.

2
JUSTIFICACIÓN

Es indispensable comprender los conceptos teóricos de las medidas


descriptivas, ya que es una herramienta sumamente poderosa para poder
analizar de forma detallada y holística, lo que pase en un proceso, servicio o
entidad y de esta manera a apuntar a una mejora continua en las
organizaciones. La comparación de datos nos ayuda a formular propuestas con
una visión más organizado y basado en datos.

Se logra analizar variables cuantitativas, lo que permiten que en este momento


se implemente los diversos conocidos hasta el momento, y además
comprender más conocimientos que el programa Excel puede ofrecer.

3
OBJETIVOS:

Objetivo general: Determinar las correlaciones entre dos variables


cuantitativas a través de la aplicación de la teoría de las medidas descriptivas.

Objetivos específicos:

•Analizar los datos obtenidos en cada uno de los laboratorios.

•Realizar los diagramas de dispersión con su respectiva línea de tendencia para


verificar el comportamiento de los datos

•Calcular los coeficientes de correlación para establecer qué tipo de correlación


arrojo mediante los datos.

•Identificar la correlación lineal simple entre dos variables cuantitativas tomadas


de base de dato.

•Usar la herramienta Excel, como un método más para valorar esas relaciones.

4
DEFINICIÓN DE CONCEPTOS

Es indispensable, tener presente la teoría y conocer acerca de las diversas


herramientas que se utilizan en la estadística para aplicarlas en el momento
apropiado y se logre la interpretación los resultados de una manera adecuada.

Por lo tanto, se procede a definir los conceptos que se desarrollan en el


transcurso del trabajo

Diagrama de dispersión:

Los diagramas de dispersión son una forma de expresar la relación de dos


variables, y hacer predicciones con base en lo observado en ellas, lo cual lo
hace diferente a los histogramas o boxplots,

Por lo cual, el diagrama de dispersión es una gráfica del tipo X-Y, donde cada
elemento de la muestra es representado mediante un par de valores (XI,Yi) y el
punto correspondiente en el plano cartesiano X-Y, su objetivo es analizar la
forma en que las variables se relacionan. (Gutierrez, 2.002).

Debido a esto, los diagramas de dispersión son una herramienta para ver su
relación, tras el cálculo del coeficiente de relación, el cual puede ser de tres
tipos: correlación positiva, negativa y nula(sin correlación).1

Correlación lineal simple:

El concepto de correlación se basa en el grado de variación que presentan dos


o más variables. En el caso de la correlación lineal simple, se considera el
grado de asociación de dos variables, cuando se presenta una correlación

5
positiva entre dos variables X y Y, quiere decir que las variables son directas, la
correlación negativa, demuestran una relación lineal inversa

Coeficiente de determinación R2:

Este coeficiente, es el cuadrado del coeficiente de correlación, el cual es usado


en análisis para referirse a la variación total en las variables estudiadas, que
pueden dar una medida del ajuste de la ecuación de regresión, es decir que es
usada como medida de la bondad de ajuste del modelo arrojado por el
diagrama de dispersión, y se expresa de la siguiente manera:

Los valores cercanos a uno de este coeficiente expresan un mejor ajuste de los
datos al modelo.

Coeficiente de correlación

En primer lugar, se debe de detallar que es necesaria contar con una medida
que analice las covarianzas conjuntas, siendo esta el coeficiente correlación,
teniendo el resultado de este indicador, se procede a interpretarlo:

Si r < 0, existe una correlación negativa; esto significa como se decía


anteriormente que las variables están correlacionadas en sentido inverso,
cuanto más próximo este a -1, se hablará de quela covarianza es más extrema,
pero si el r=1 se hablará que la correlación negativa es perfecta.

Si r > 0, se presenta una correlación positiva de las variables, las cuales se


relacionan en sentido directo. Cuanto más próximo sea el valor a +1, se dice

6
que es más positiva su relación, y si se alcanza el valor de 1 se habla de una
correlación positiva perfecta (con pendiente positiva).

Si r= 0 se dice que las variables están incorrelacionadas, es decir que no


presentan relación alguna.

REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

ESTUDIANTE 1: JUAN CARLOS FLOREZ

Variable Y: Consumo de vapor


Variable X: Temperatura

Diagrama de dispersión:

TEMPERATURA (F) VS CONSUMO DE


VAPOR
800
y = 9.2087x - 6.3184
700
R² = 0.9999
600
500
400
300
200
100
0
0 10 20 30 40 50 60 70 80

En el gráfico 1, se puede observar como los datos siguen un patrón muy


definido. Donde se aprecia que cuando el consumo de vapor aumenta, también
lo hace la temperatura, es decir presentan una relación directamente

7
proporcional, además de que se define que la relación entre ellos es una
correlación lineal positiva.

a. Ajuste un modelo matemático que permita predecir el efecto de una


variable sobre la otra. ¿Es confiable?
y = 9,2087x - 6,3184
R² = 0,9999
Para determinar el ajuste de bondad que obtuvo el modelo, se procede a
obtener una ecuación que la explique, además de su correspondiente
coeficiente de determinación R², el cual es una medida representativa de esto,
obteniendo así un valor del 99,9%, de lo cual se infiere que el modelo es
bastante confiable y el modelo se ajusta casi perfecto a los datos estudiados, lo
cual nos da la seguridad de que los análisis serán confiables.

a. Determine el porcentaje de explicación del modelo y el grado de relación de


las dos variables.

Como se evidencio anteriormente se obtuvo un 99,9% de ajuste de bondad del


modelo, lo que quiere decir que explica bastante bien lo que ocurre con las
variables, de esto modo se analiza el grado de relación entre ellas, obteniendo
un valor de 1, lo cual quiere decir que tienen una correlación lineal positiva
perfecta.
c. ¿Cuál es el de consumo de vapor cuando la temperatura es de 70 oF?
Y= consumo de vapor
X= temperatura en F°
X= 70F°

Y= 9,2087(70)+6,3184
Y= 644,609+6,3184
Y= 650,9.

8
Cuando la temperatura es igual a 70° el consumo de vapor será 650,9%

De igual manera se obtiene el siguiente cuadro resumen:


Tipo de asociación de las
Correlación lineal simple positiva
variables
Modelo matemático y = 9,2087x - 6,3184
R2 0,9999
R 1
Confiabilidad 0,9999, confiabilidad alta
% de explicación 0,9999
Grado de relación 1

%Hidrocarburo- Pureza.

Variable Y: Pureza.
Variable X: %Hidrocarburo
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las
variables

%HIDROCARBURO VS PUREZA
102

100

98 y = 14.947x + 74.283
R² = 0.8774
96

94

92

90

88

86
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8

9
Como se observa en el anterior diagrama de dispersión, los puntos siguen un
patrón definido, lo que indica que existe una relación entre las dos variables,
además, corresponde a una correlación lineal positiva, ya que cuando X (% de
hidrocarburos) aumenta, también lo hace la variable Y(Pureza). Adicionalmente,
se analiza el coeficiente de correlación, el cual arroja un 0,94; esto evidencia
que tienen una fuerte correlación positiva.

b. Encuentre el modelo matemático que permite predecir el efecto de una


variable sobre la otra. ¿Es confiable?
y = 14,947x + 74,283
R² = 0,8774

Se obtiene entonces el modelo matemático, que nos permite predecir el


comportamiento del hidrocarburo sobre la pureza.

c. Determine el porcentaje de explicación del modelo y el grado de relación de


las dos variables.

Por consiguiente, se procede a analizar si el modelo obtenido explica


significativamente la información dada, de esta manera se procede a examinar
el coeficiente de determinación R², el cual arroja un valor de 87,7%. De esta
manera, se puede concluir que el 87,7% del modelo se ajusta a los datos y es
bueno para tomar decisiones sobre el mismo

Tipo de asociación de las


Correlación lineal simple positiva
variables
Modelo matemático y = 14,947x + 74,283
R2 0,8774
R 0,94
Confiabilidad 0,8774, confiabilidad alta
10
% de explicación 0,8774
Grado de relación 0,94

%SOBRE PESO-UMBRAL

%-Umbral. Los investigadores están estudiando la correlación entre la obesidad


y la respuesta individual al dolor. La obesidad se mide como porcentaje sobre el
peso ideal (x). La respuesta al dolor se mide utilizando el umbral de reflejo de
reflexión nociceptiva (y) que es una medida de sensación de punzada.
Obsérvese que ambas, X e Y, son variables aleatorias

1.Realice el diagrama de dispersión y determine el tipo de asociación entre las


variables.

UMBRAL DE REFLEJO DE FLEXIÓN


NOCICEPTIVA VS %SOBREPESO
100
90 y = -1.7735x + 76.356
R² = 0.1115
80
70
60
50
40
30
20
10
0
0 2 4 6 8 10 12 14 16

Como se puede observar en la figura 2, se presenta una correlación lineal


simple negativa, ya que, aunque no se presenta un patrón definido entre los
puntos, si se puede analizar que la línea tiende a decaer, es decir que cuando
el sobre peso aumenta, el umbral de reflejo disminuye. Los puntos están muy
dispersos entre si lo que afirma que la varianza es alta, esto explica que el

11
coeficiente de determinación muestre un porcentaje bajo como lo es de
11,15%.

2. Ajuste un modelo matemático que permita predecir el efecto de una variable


sobre la otra. ¿Es confiable?
y = -1,7735x + 76,356
R² = 0,1115

Para obtener una ecuación matemática que represente el comportamiento que


tienen el efecto del porcentaje del umbral de flexión sobre él %sobrepeso, se
procede a usar la ecuación anterior. A demás, se puede ver como el modelo
solo explica el 11,15% de la variación de la variable y, en este caso el umbral
de flexión, por lo cual no es muy acertado confiar en este modelo, porque no
representa adecuadamente los efectos que se tendrían.

3. Determine el porcentaje de explicación del modelo y el grado de relación de


las dos variables.

Como se mencionaba anteriormente, el modelo logra explicar solo un 11,15%


de la variabilidad del umbral de flexión, por lo cual, al ser tan baja se puede
afirmar que el ajuste del modelo es muy pobre, y se debe de considerar la
relación de otras variables que tengan entre si un ajuste más acertado. Aunque
el grado de relación de las variables es alto, esto se explica ya que al aumentar
el %sobrepeso, el umbral de reflejo disminuye.

4. ¿Cuál es el umbral de reflejo de flexión nociceptiva, cuando hay un


porcentaje de sobrepeso, de 40?
y = -1,7735x + 76,356
y = -1,7735*40 + 76,356
Y= 5,4116

12
Cuando el porcentaje del sobre peso es de 40, el umbral de reflejo es de
5,4116

Tipo de asociación de las


correlación lineal simple negativa,
variables
Modelo matemático y = -1,7735x + 76,356
R2 0,1115
R -1
Confiabilidad 0,1115, la confiabilidad es baja
% de explicación 0,1115
Grado de relación -1

ESTUDIANTE 1: JUAN CARLOS FLOREZ

a. Identificar dos variables cuantitativas de la situación estudiada que


puedan estar relacionadas

Para la realización de este trabajo se escoge las variables cuantitativas edad y


tiempo de espera en el triage.

b. Realizar el diagrama de dispersión de dichas variables y determinar el


tipo de asociación entre las variables.

13
TIEMPO ESPERA PARA TRIAGE ( MINUTOS) vs
EDAD
400 y = 0.5698x + 159.47
R² = 0.0266
350
300
250
200
150
100
50
0
0 20 40 60 80 100

En el gráfico anterior se observa la relación existente entre las variables


seleccionadas, sin embargo, se puede observar que los puntos se encuentran
muy dispersos entre sí y que la relación entre las dos variables es muy baja. Se
procede a examinar más detalladamente su relación con el cálculo del
coeficiente de correlación, obteniendo así un valor de:
r: 0,163161504
El coeficiente de correlación, demuestra que se obtiene una escasa relación
entre las variables.
c. Encuentre el modelo matemático que permite predecir el efecto de una
variable sobre la otra. ¿Es confiable?
y = 0,5698x + 159,47
R² = 0,0266
El modelo matemático que predice los resultados de la situación planteada es
el anterior, obteniendo un ajuste de los datos muy bajo, R²=2,6%, esto quiere
decir que el modelo no explica la variación que tiene la variable edad, con la
información obtenido. Por lo cual, se dice que el modelo no es confiable para
tomar decisiones basados en el mismo.

14
d. Determine el porcentaje de explicación del modelo y el grado de relación
de las dos variables.

El porcentaje de explicación del modelo es de 2,66% ya que los datos no se


ajustan adecuadamente a la línea de regresión, y el grado de relación entre las
variables, el cual es expresado por el coeficiente de correlación es de 16,3%,
apuntando así a definir que no es muy buena la relación existen entre las
variables, esto afirma que el modelo no tenga un alto grado de explicación. Por
ende, se recomienda la escogencia de otras variables para la realización del
estudio.

Tipo de asociación de las


Correlación lineal positiva.
variables
Modelo matemático y = 0,5698x + 159,47
R2 0,0266
R 0,163161504
Confiabilidad 0,0266, la confiabilidad es baja
% de explicación 0,0266
Grado de relación 0,163161504

15
ESTUDIANTE: JAVIER EDUARDO TERÁN LUNA
Código: 18881400

Peso-Altura

Un colegio del distrito de Bogotá desea realizar un estudio de crecimiento


dentro de su población estudiantil, para lo que se ha construido desde una
muestra la siguiente de información del peso (en kg.) y la altura (en cm.) de 20
jóvenes:

a) Realice el diagrama de dispersión y determine el tipo de asociación entre las


variables.
b) Encuentre el modelo matemático que permite predecir el efecto de una
variable sobre la otra. ¿Es confiable?
c) Determine el porcentaje de explicación del modelo y el grado de relación de
las dos variables.
d) ¿Cuál es el peso esperado de un estudiante que mide 172 cm?

1.1. X-Y. En un nuevo proceso artesanal de fabricación de cierto artículo que


está implantado, se ha considerado que era importante ir anotando
periódicamente el tiempo medio (medido en minutos) que se utiliza para
realizar una pieza y el número de días desde que empezó dicho proceso
de fabricación. Con ello, se pretende analizar como los operarios van
adaptándose al nuevo proceso mejorando paulatinamente su proceso de
producción.

Los siguientes datos representan dicha situación:

16
X 12 23 35 42 53 65 70
Y 45 30 27 25 23 21 20

a. Identifique la variable dependiente (y) y la variable independiente (x),realice


el diagrama de dispersión y determine el tipo de asociación entre las variables
b. Encuentre el modelo matemático que permite predecir el efecto de una
variable sobre la otra. ¿Es confiable?
c. Determine el grado de correlación de las dos variables.
d. ¿Qué tiempo deberá tardarse un empleado cuando lleven 90 días?

Altura
Nº Peso (Kg)
(cm)
1 61 150
2 63 143
3 60 146
4 74 160
5 58 143
6 63 145
7 64 149
8 74 158
9 74 150
10 66 150
11 63 153
12 61 151
13 64 151
14 69 147
15 64 142
17
16 77 164
17 76 162
18 80 163
19 79 152
20 68 144

Opció Ejercicio 1 Ejercicio 2 Ejercicio 3 Estudiante


n
1 1.1. Sal-Tensión 1.4. X - Y 1.9. Sobrepeso-R Susana
2 1.2. CH-Pureza. 1.4. X - Y 1.7. PIB-Ventas Nilson
3 1.1. Sal-Tensión 1.5. Tem-Vapor 1.7. PIB-Ventas
4 1.3. Peso-Altura. 1.6. Estatura-Peso 1.8. %-Umbral Javier
5 1.2. CH-Pureza. 1.5. Tem-Vapor 1.8. %-Umbral
Diagrama de dispersión

18
180
160
140
120
Axis Title

100 Series1
80 Series2
60 Linear (Series1)
40 Linear (Series2)
20
0
0 5 10 15 20 25
Axis Title

170

165

160
Axis Title

155
Series1
150 Linear (Series1)

145

140
0 20 40 60 80 100
Axis Title

En los gráficos anteriores, se puede observar como los datos siguen un patrón
muy definido. Donde se aprecia que cuando la edad es alta, también el peso lo
es, es decir, presentan una relación directamente proporcional, además de que
se define que la relación entre ellos es una correlación lineal positiva.
19
Como se observa en el anterior diagrama de dispersión, los puntos siguen un
patrón definido, lo que indica que existe una relación entre las dos variables,
además, corresponde a una correlación lineal positiva, ya que cuando X (peso)
aumenta, también lo hace la variable Y(Edad). Adicionalmente, se analiza el
coeficiente de correlación, el cual arroja un 0,488; esto evidencia que tienen
una fuerte correlación positiva.

Modelo matemático que permite predecir el efecto de una variable sobre la


otra.

Peso Altura
Nº (Kg) x (cm) Y X2 X.Y
1 61 150 3721 9150
2 63 143 3969 9009
3 60 146 3600 8760
4 74 160 5476 11840
5 58 143 3364 8294
6 63 145 3969 9135
7 64 149 4096 9536
8 74 158 5476 11692
9 74 150 5476 11100
10 66 150 4356 9900
11 63 153 3969 9639
12 61 151 3721 9211
13 64 151 4096 9664
14 69 147 4761 10143
15 64 142 4096 9088
16 77 164 5929 12628
17 76 162 5776 12312

20
18 80 163 6400 13040
19 79 152 6241 12008
20 68 144 4624 9792
Total= 210 1358 3023 93116 205941

Y=
AX+B

A = N(XY)-(X) (Y) / N(X)2-


(X2)2

A= 20(205941)- (1358)(3023) /
20(93116)-(1358)2

A= 4.118.820- 4.105.234 /
1.862.320- 1.844.164

A= 13.586 /
18.156

A = -
4.570

21
B= Y- (A)(X) / N

B= 3023 - (-4570)(1358) /
20

B = 3023 +
6.202.060 / 20

B = 6.205.083 /
20

B = 310.254.15

Y = AX +
B

Y = -4.570 +
310.254.15

Y = -4259.74585

Coeficiente de correlación

Peso Altura X -Media Y- Media (X_ (Y-Media (X-media X)(Y-


(Kg) x (cm) Y (X) (Y) mediaX) 2 Y)2 media Y)

22
61 150 6.9 -1.15 47.61 1..3225 5.75
63 143 -4.9 -8.15 24.01 66..4225 3.25
60 146 -7.9 -5.15 62.41 26..5225 -2.75
74 160 6.1 8.85 37.21 78..3225 53.985
58 143 -9.9 -8.15 98.01 66..4225 -1.75
63 145 -4.9 -6.15 24.01 37..8225 1.25
64 149 -3.9 -2.15 15.21 4..6225 -1.75
74 158 6.1 6.85 37.21 46..9225 41.785
74 150 6.1 -1.15 37.21 1..3225 0.05
66 150 -1.9 -1.15 3.61 1..3225 -0.75
63 153 -4.9 1.85 24.01 3..4225 -9.065
61 151 -6.9 -0.15 47.61 0..0225 -6.75
64 151 -3.9 -0.15 15.21 0..0225 -3.75
69 147 1.1 -4.15 1.21 17..2225 -3.05
64 142 -3.9 -9.15 15.21 83..7225 5.25
77 164 9.1 12.85 82.81 165..1225 116.935
76 162 8.1 10.85 65.61 117..7225 87.885
80 163 12.1 11.85 146.41 140..4225 143.385
79 152 11.1 0.85 123.21 0..7225 9.435
68 144 0.1 -7.15 0.01 51..1225 -7.05
1358 3023 907.8 911 444.333

Media X = 67.9

Media Y = 151.15

R= (X-media X)(Y - media Y / Raiz cuadrada de (X- media X)2 (Y

23
- media Y)2

R= 444.333/ (30.129719)(30.182776)

R =444.333 / 909.398

R = 0.488

Porcentaje de explicación del modelo.

Nº Peso (Kg) % Peso Altura (cm) % Altura


1 61 4% 150 5%
2 63 5% 143 5%
3 60 4% 146 5%
4 74 5% 160 5%
5 58 4% 143 5%
6 63 5% 145 5%
7 64 5% 149 5%
8 74 5% 158 5%
9 74 5% 150 5%
10 66 5% 150 5%
11 63 5% 153 5%
12 61 4% 151 5%
13 64 5% 151 5%
14 69 5% 147 5%
15 64 5% 142 5%
16 77 6% 164 5%
17 76 6% 162 5%
18 80 6% 163 5%
19 79 6% 152 5%
20 68 5% 144 5%

24
Total 1358 100% 3023 100%
Como se observa en el anterior diagrama de dispersión, los puntos siguen un
patrón definido, lo que indica que existe una relación entre las dos variables,
además, corresponde a una correlación lineal positiva, ya que cuando X (peso)
aumenta, también lo hace la variable Y(Edad). Adicionalmente, se analiza el
coeficiente de correlación, el cual arroja un 0,488; también un porcentaje de
explicación del modelo correspondiente a 5%, esto evidencia que tienen una
fuerte correlación positiva.

25
ESTUDIANTE JUAN CARLÓS FARAK
Código: 1103216292

El rendimiento del producto de un proceso químico está relacionado con la


temperatura de operación del proceso. Se desea establecer la relación que
existe entre la pureza (y) del oxígeno producido y el porcentaje de hidrocarburo
(x) que está presente en el condensador principal en un proceso de destilación,
de acuerdo con los siguientes datos:

El porcentaje de hidrocarburos es directamente proporcional a la pureza, esto


nos indica que entre mayor es el porcentaje de hidrocarburos mayor va a ser la
pureza. La asociación entre las variables es fuerte porque una depende de la
otra, para este ejemplo la pureza depende del porcentaje de hidrocarburos,
esto lo observamos con el coeficiente de determinación R2 que es 87.74%.

a. Encuentre el modelo matemático que permite predecir el efecto de una


variable sobre la otra. ¿Es confiable?

Modelo lineal que predice el efecto de una variable sobre la otra:

26
y = 14.947x + 74.283

El modelo es confiable porque el coeficiente de determinación R2 es cercano a


1.

El rendimiento del producto de un proceso químico está relacionado con la


temperatura de operación del proceso. Se desea establecer la relación que
existe entre la pureza (y) del oxígeno producido y el porcentaje de hidrocarburo
(x) que está presente en el condensador principal en un proceso de destilación,
de acuerdo con los siguientes datos

a. Realice el diagrama de dispersión y determine el tipo de asociación entre


las variables:

El tipo de asociación entre las variables es de dispersión lineal ascendente con


una correlación positiva alta.

27
b) Encuentre el modelo matemático que permite predecir el efecto de una
variable sobre la otra. ¿Es Confiable?

Y= a + b

X Y= 14,947X + 74,283R² = 0,8774

La ecuación de la recta es confiable porque el coeficiente de la determinación


(R2) está cercano a 1 y tiene una correlación excelente

c) Determine el porcentaje de explicación del modelo y el grado de relación de


las dos variables.

Se halla a y b

b = 23,92 ¿¿20∗29,28−¿20∗2214,657−(23,92)(1843,21)=203,5613,44= 15,15

a = 1843,21−(15,15∗23,92)20= 1480,820= 74,04

Media de XX = 23,92/20 = 1,19Media de y Y = 1843,21/20 = 92,16La ecuación


de la recta está dada por: Y = 15,15X + 74,04

Error estándar de la recta: Se = √170044,5−(74,04)


(1843,21)−(15,15)(2214,65)20−2= √21,2918= √1,18=1.09

28
14 66 198
16 61 153
12 61 151
13 67 151
14 60 147
15 63 146
16 78 163
17 71 161
18 85 158
19 75 150
20 69 142

29
ESTUDIANTE:SUSANA ATENCIO SIERRA
CODIGO: 1103115885

Análisis de correlación lineal simple de las dos variables cuantitativas


seleccionadas.

Variables: Estatura y Peso

ESTATURA (X) Peso (Y) X*Y X^2 Y^2


Metros kg
TOTAL 181,52 6718 11000,22 287,75 437809,28

Gráfico de dispersión

30
Estatura vs Peso
100.00

80.00 y = 63.656x - 40.308


R² = 0.8645

60.00
Peso (kg)

40.00

20.00

0.00
0.25 0.45 0.65 0.85 1.05 1.25 1.45 1.65 1.85 2.05

-20.00
Estatura (m)

Modelo matemático

n 120

β1 63,65640785 𝑌 = −40,30 + 63,65


∗𝑋
β0 -40,30759294

Coeficiente de correlación

r 0,929791503

R^2 0,864512239

Análisis

Según los anteriores resultados se puede concluir que existe relación entre las
variables Estatura (mt) y Peso (kg) de forma positiva, aunque no es
estrictamente lineal, pero la relación positiva es confirmada por el valor del

31
coeficiente de correlación con un valor de 0,92, un valor cercano a 1
(correlación fuerte), adicionalmente Se puede decir que el modelo lineal
planteado explica el 87% de la información, según el valor R2, lo que lo haría
relativamente confiable. Sin embargo, no necesariamente esta sea de tipo lineal
dado que según el diagrama de puntos se puede observar una especie de
curva por lo que una tendencia lineal no necesariamente explica la relación.

Laboratorio regresión y correlación lineal

ESTUDIANTE:SUSANA ATENCIO SIERRA


CODIGO: 1103115885
Opción 1:

Punto 1.1 Sal-tensión

X (sal) Y (Tensión) X*Y X^2 Y^2


1,6 98 156,8 2,56 9604
2,3 102 234,6 5,29 10404
3,3 109 359,7 10,89 11881
4,2 113 474,6 17,64 12769
4,6 115 529 21,16 13225
5 120 600 25 14400
TOTAL 21 657 2354,7 82,54 72283

Gráfico de dispersión: Se observa una relación fuerte positiva y con forma lineal

32
Consumo de sal vs Tensión
130
Nivel de tension y = 6.1062x + 88.128
120 R² = 0.987

110

100

90
0 1 2 3 4 5 6
Consumo de sal

Modelo matemático: El modelo se puede considerar confiable ya que explica un


98% de la información

𝑦 = 88,12832 + 6,1061
∗𝑥
n 6
β1 6,10619469
β0 88,1283186

Relación de las variables: Relación fuerte positiva, coeficiente de correlación


lineal cercano a 1

r 0,99348087
R^2 0,98700424

Si a un paciente se le administra una dosis de sal de 5,6. ¿Cuál es la tensión


arterial esperada?

𝑦 = 88,12832 + 6,1061 ∗ 𝑥
𝑐𝑜𝑛 𝑥 = 5,6
𝑦 = 88,12832 + 6,1061
∗ 5,6

33
Tensión Y= 122,323009

Punto 1.4 X-Y

X Y X*Y X^2 Y^2 X: Tiempo medio


Y: Días de proceso de fabricación
12 45 540 144 2025
23 30 690 529 900
35 27 945 1225 729
42 25 1050 1764 625
53 23 1219 2809 529
65 21 1365 4225 441
70 20 1400 4900 400
300 191 7209 15596 5649

Gráfico de dispersión: En este caso si se observa una fuerte relación entre las
variables de días de proceso y tiempo medio de fabricación. El grafico de
dispersión muestra una tendencia lineal como la regresión que mejor explicaría
el comportamiento las variables. Así mismo se tiene una relación NEGATIVA

Dias de proceso vs Tiempo medio


50
45
40
Tiempo medio

35
30
25
20
15
10
5
0
0 10 20 30 40 50 60 70 80
Dias de proceso

34
Modelo matemático: la ecuación calculada describe un comportamiento donde
EL TIEMPO MEDIO disminuye en -0,3566 minutos por cada día de proceso. El
modelo explica la información en un 80% aproximadamente según el R2

n 7
β1 -0,35661381
β0 42,5691634

Coeficiente de correlación:Una correlación moderada negativa según el


coeficiente.

r -0,89233777
R^2 0,7962667

¿Qué tiempo deberá tardarse un empleado cuando lleven 90 días?

y = 10,47

Punto 1.9 Sobre peso -R

% Umbral de X*Y X^2 Y^2


Sobrepeso Reflejo
(X) (Y)
99 2 198 9801 4
90 3 270 8100 9
15 4 60 225 16

75 9,5 712,5 5625 90,25


30 11,5 345 900 132,25
62 9 558 3844 81
75 9 675 5625 81

35
90 12,5 1125 8100 156,25
45 8 360 2025 64
50 19 950 2500 361
TOTAL 631 87,5 5253,5 46745 994,75

Diagrama de dispersión: En este caso el diagrama de dispersión no muestra


una clara relación entre la variable % de sobrepeso y Umbral de reflejo dado
que no describe un comportamiento característico o identificable.

Sobrepeso vs umbral de reflejo (R)


20
18
16
14
y = -0.0386x + 11.188
12 R² = 0.0452
10
8
6
4
2
0
0 20 40 60 80 100 120

Modelo matemático: La ecuación calculada en este caso no tiene validez dado


que se observa como la tendencia atraviesa los puntos mas no describe su
comportamiento. El R^2 nos confirma la baja relación que tienen las variables,
sin embargo, no se descarta otro tipo de relación diferente a la de tipo lineal.

n 10
β1 -0,0386425
β0 11,1883416

36
Coeficiente de correlación: Relación leve negativa y apenas un 4,5% de la
información explicada por el modelo.

r -0,21250106
R^2 0,0451567

¿Cuál es el umbral de reflejo de flexión nociceptiva, cuando hay un porcentaje


de sobrepeso, de 34?

y = 9,88

37
Estudiante: NILSON ANTONIO VASQUEZ

X (% Y
de Hidro carburos) (Pureza)

0.99 90.01
1.02 89.05
1.15 91.43
1.29 93.74
1.46 96.73
1.36 94.45
0.87 87.59
1.23 91.77
1.55 99.42
1.4 93.65
1.19 93.54
1.15 92.52
0.98 90.56
1.01 89.54
1.11 89.85
1.2 90.39
1.26 93.25
1.32 93.41
1.43 94.98
0.95 87.33

X Y X^2 Y^2 xy
-0.206 -2.1505 0.042436 4.62465025 0.443003
-0.176 -3.1105 0.030976 9.67521025 0.547448
-0.046 -0.7305 0.002116 0.53363025 0.033603
0.094 1.5795 0.008836 2.49482025 0.148473
0.264 4.5695 0.069696 20.8803303 1.206348
0.164 2.2895 0.026896 5.24181025 0.375478
-0.326 -4.5705 0.106276 20.8894703 1.489983
0.034 -0.3905 0.001156 0.15249025 -0.013277
38
0.354 7.2595 0.125316 52.7003403 2.569863
0.204 1.4895 0.041616 2.21861025 0.303858
-0.006 1.3795 3.6E-05 1.90302025 -0.008277
-0.046 0.3595 0.002116 0.12924025 -0.016537
-0.216 -1.6005 0.046656 2.56160025 0.345708
-0.186 -2.6205 0.034596 6.86702025 0.487413
-0.086 -2.3105 0.007396 5.33841025 0.198703
0.004 -1.7705 1.6E-05 3.13467025 -0.007082
0.064 1.0895 0.004096 1.18701025 0.069728
0.124 1.2495 0.015376 1.56125025 0.154938
0.234 2.8195 0.054756 7.94958025 0.659763
-0.246 -4.8305 0.060516 23.3337303 1.188303
-3.66374E-15 4.2633E-14 0.68088 173.376895 10.17744

b) Y=14,947x+74,287

MEDIA.

39
1.196 92.1605

Relacion entre las dos


r 0.93671538 94% variables
r^2 0.87743571 88% explicacion del modelo

PIB Nación Ventas de la


Año X Y X^2
(x) compañía (y)
2001 1.7 339.43 -2.28235294 -10.2576471 5.209

2002 2.5 363.02 -1.48235294 13.3323529 2.197

2003 3.9 359.75 -0.08235294 10.0623529 0.006

2004 5.3 336.9 1.31764706 -12.7876471 1.736


2005 4.7 339.38 0.71764706 -10.3076471 0.51

2006 6.7 348.4 2.71764706 -1.28764706 7.385


2007 6.9 372 2.91764706 22.3123529 8.512

2008 3.5 358.79 -0.48235294 9.10235294 0.232


2009 1.7 337.94 -2.28235294 -11.7476471 5.209
2010 4 357.32 0.01764706 7.63235294 0.000

2011 6.6 342.14 2.61764706 -7.54764706 6.852

2012 4 327.84 0.01764706 -21.8476471 0.000


2013 4.9 362.06 0.91764706 12.3723529 0.842

2014 4.4 348.8 0.41764706 -0.88764706 0.174

2015 3.1 353.52 -0.88235294 3.83235294 0.778


2016 2 355.4 -1.98235294 5.71235294 3.929
40
2017 1.8 342 -2.18235294 -7.68764706 4.762
48.3447059

MEDIA X MEDIA Y
3.98235294 349.687647

R R^2
0.16956874 0.02875356
17% 3%

a. Ajuste un modelo matemático que permita predecir el efecto de una variable sobre la otra. ¿Es
confiable?
b. Determine el porcentaje de explicación del modelo y el grado de relación de las dos variables.
c. ¿Cuál podria ser la proyección de ventas para el año 2018 si se espera que el PIB nacional sea del 3,1?

A Y=1,1509X+345,1
B 3%
C 348.66779

x 12 23 35 42 53 65 70

41
y 45 30 27 25 23 21 20
x -30.9 -19.9 -7.9 -0.9 10.1 22.1 27.1
y 17.714286 2.7142857 -0.285714 -2.285714 -4.285714 -6.285714 -7.285714
x^2 952.16327 394.30612 61.734694 0.7346939 102.87755 490.30612 736.73469 2
y^2 313.79592 7.3673469 0.0816327 5.2244898 18.367347 39.510204 53.081633 4
xy -546.6122 -53.89796 2.244898 1.9591837 -43.46939 -139.1837 -197.7551 -

a. Identifique la variable dependiente (y) y la variable independiente (x),realice el diagrama de dispersión y


determine el tipo de asociación entre las variables
b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es
confiable?
c. Determine el grado de correlación de las dos variables.
d. ¿Qué tiempo deberá tardarse un empleado cuando lleven 90 días?

MEDIA X MEDIA Y
42.9 27.2857143

R R^2
-0.8923378 0.7962667
-89% 80%

A DEPENDIENTE DIAS (X)


INTEPENDIENTE MINUTOS(Y)

42
B Y=-0,3566X+42,569
C 80%
D 10.475
xy
0.443003
0.547448
0.033603
0.148473
1.206348
0.375478
1.489983
-0.013277
2.569863
0.303858
-0.008277
-0.016537
0.345708
0.487413
0.198703
-0.007082
0.069728
0.154938
0.659763
1.188303
10.17744

43
94% Relacion entre las dos variables
88% explicacion del modelo ( C )

a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables.


b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la
otra. ¿Es confiable?
c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos
variables.
d. ¿Cuál es el porcentaje de hidrocarburo cuando la pureza del oxígeno es igual a 91,3?

b) Y=14,947x+74,287 Si es confiable

A. Con los resultados obtenidos se puede asegurar que la


ecuación de la recta es una muy buena estimulaciones la
relación entre las dos variables. El R^2 afirma además
que el modelo explica el 88% de la información y el valor
de r coeficiente de correlación lineal confirma además el
grado de relación 94%) entre la variables, es decir existen
entre las variables porcentaje de hidrocarburo y pureza
una correlación positiva y muy alta.
d 1.13875502
44
CONCLUSIONES

En síntesis, tras el desarrollo del presente trabajo se comprende la importancia


de entender y explorar la relación existente entre dos variables, una variable
dependiente Y y una variable independiente X, y además el efecto que tiene
una sobre la otra y así lograr obtener un modelo matemático que sirvan para
predecir el comportamiento de las variables, ya que en este caso se abordó el
tema de correlación lineal simple, el análisis de regresión lineal, es de suma
importancia porque proporciona los fundamentos y las bases para realizar
análisis más profundos y veraces para tomar decisiones bajo un modelo

45
matemático y su construcción, tras una interpretación de los resultados como el
coeficiente de correlación, R², los diagramas de dispersión, entre otros.

Adicionalmente, se presentan diversos ejercicios donde se pone en práctica lo


anteriormente mencionado, y se evalúan los modelos obtenidos en cada caso y
su relación con las correlaciones, y el correspondiente análisis de los
diagramas de dispersión que son imprescindible para el estudio.

REFERENCIAS BIBLIOGRÁFICAS

1. García, M.S.(2004).Introducción a la estadística económica y


empresarial.Paraninfo. (pp.74–98). Recuperado
dehttp://go.galegroup.com/ps/i.do?id=GALE%7CCX4052900012&v=2.1&
u=unad&it=r&p=GVRL&sw=w&asid=4a9b0a469e755a4327207c94b4c0d
549
2. Montero, J.M. (2007).Regresión y Correlación Simple. Madrid: Paraninfo.
(pp.130–172). Recuperado
dehttp://go.galegroup.com/ps/i.do?id=GALE%7CCX4052100011&v=2.1&

46
u=unad&it=r&p=GVRL&sw=w&asid=b82c81e98fcc1361e1929abe203c82
19
3. Churchill, G.A.(2009).Análisis de Correlación y de Regresión Simple.
Mexico City: Cengage Learning. (pp-675–686). Recuperado
dehttp://go.galegroup.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&
u=unad&it=r&p=GVRL&sw=w&asid=e558184ed89e57d11ede116134cfce
41

47

También podría gustarte