Está en la página 1de 26

REPÚBLICA BOLIVARIANA DE VENEZUELA

UNIVERSIDAD DE FALCÓN
UNIDAD CURRICULAR: ESTADÍSTICA II

TAREA 4. TRABAJO INVESTIGATIVO

Autor:
Bergo Giulliana V-25.333.900

Docente: Prof. Raúl Machado

Punto Fijo, 28 de julio de 202


ÍNDICE

INTRODUCCIÓN___________________________________________ 3

REGRESIÓN LINEAL_______________________________________ 4

CORRELACIÓN LINEAL_____________________________________ 5

Valores que puede tomar la correlación_______________________ 6

ANÁLISIS DE REGRESIÓN __________________________________ 8

Las variables ___________________________________________ 8

Tipos de análisis de regresión ______________________________ 8

PREDICCIÓN Y EVALUACIÓN DE LAS VARIABLES ______________ 11

Tipos de predicciones _____________________________________ 12

Tipos de variables según las predicciones_____________________ 12

REGRESIÓN Y ESTIMACIÓN MEDIANTE LA LÍNEA DE REGRESIÓN 12

MÉTODO DE LOS MÍNIMOS CUADRADOS______________________ 14

NORMAS PARA ENCONTRAR LA LÍNEA DE AJUSTE Y REGRESION 15

ANÁLISIS DE CORRELACIÓN________________________________ 17

Coeficiente de correlación__________________________________ 17

Coeficiente de determinación_______________________________ 18

EJEMPLOS PRÁCTICOS DE REGRESIÓN LINEAL_______________ 18

CONCLUSIÓN ____________________________________________ 24

BIBLIOGRAFÍA_____________________________________________ 25

2
INTRODUCCIÓN

Actualmente, la forma más común de medir el cambio es utilizando


dispositivos electrónicos que funcionan en conjunto; cada herramienta se
utiliza para acceder a diferentes datos. El análisis lineal es un método para
estudiar la relación entre variables, adecuado para diferentes situaciones. El
objetivo principal es determinar cómo se relacionan dos patrones de
comportamiento, asumiendo que uno influye en el otro de alguna manera.

Muchas veces las decisiones se toman a partir de la relación que tienen


dos o más variables, en el modelo de regresión y correlación simple se
desarrollan ecuaciones y fórmulas de estimación, dando paso a realizar un
análisis de correlación a fin de determinar como se relacionan las variables.
Este método es utilizado por ingenieros y todos los días, los administradores
lo utilizan para tomar decisiones personales y profesionales en base de
predicciones de sucesos que pueden acontecer en un futuro apoyándose en
la relación intuitiva y calculada, sabiendo todo lo referente, por ejemplo, a la
regresión lineal, el profesional podría tener mayor seguridad la relación de lo
conocido con eventos a futuros, para que de este modo se pueda tomar
mejores decisiones.

De todo esto trata la regresión y correlación simple en la estadística, y es


por ello que muchos profesionales deben saber, cada términos y fórmulas que
se deben emplear, en el siguiente trabajo de investigación ampliaremos más.

3
De esto se trata la regresión lineal en la estadística y por eso es que tanto
como administradores, científicos o cualquiera otra profesión en el mundo
utilizan la regresión tanto simple, múltiple como otra, para predecir y avanzar
en sus respectivas investigaciones o ensayos

REGRESIÓN LINEAL

La regresión lineal es una técnica estadística utilizada en el aprendizaje


automático esta enfatiza la relación estadística entre dos variables continuas
las cuales se clasifican en variables de predicción y respuestas. Al ser
paramétrico, se sabe la cantidad de coeficientes que se necesita antes de
analizar los datos.

El modelo se representa de la siguiente forma:

o Y= es la variable dependiente o de respuesta


o X= representa las variables explicativas, independientes o regresores
o B= son los parámetros del modelo, los cuales miden la influencia que
las variables explicativas ejercen sobre el regrediendo

Sin embargo, incluso si comprende los requisitos, es importante elegir el


que mejor se adapte a los datos que se está procesando. Es importante
recalcar que cuando hay más de una variable predictora, se convierte en
regresión lineal múltiple

Por regla general, en la regresión lineal se utiliza el error cuadrático


medio. La fórmula que se usaría para una regresión lineal con una sola
variable X es la siguiente:
y=wx+b

4
CORRELACIÓN LINEAL:

También es conocida como coeficiente de correlación lineal (de Pearson)


y esta se refiere a una medida de regresión la cual busca calcular el grado de
variación fusionada entre dos variables, por ende, la podemos definir como el
número que mide el grado de intensidad y el sentido de la relación entre dos
variables.

𝐶𝑂𝑉𝑥𝑦
Ρxy= 𝜎𝑥𝜎𝑦

Donde:

Cov(x;y): la covarianza entre el valor “x” e “y”

σ(x): desviación típica de “x”

σ(y): desviación típica de “y”

Para estudiar la relación líneas es necesario conocer los parámetros con lo


que se calculará, la covarianza es aquel parámetro indica el grado de
variación conjunta de dos variables aleatorias, siguiendo la fórmula:
𝑛
∑ ̅̅̅
𝑖=1 (𝑥𝑖 −𝑥̅ ) (𝑦1 −𝑦)
𝑐𝑜𝑛𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝐶𝑜𝑣(𝑥, 𝑦) =
𝑁−1

siendo 𝑥̅ e 𝑦̅ la media de cada variable y 𝑥𝑖 𝑒 𝑦𝑖 el valor de las variables


para la observación i. La covarianza depende de las escalas en que se
miden las variables estudiadas, por lo tanto, no es comparable entre distintos
pares de variables. Para poder hacer comparaciones se estandariza la

5
covarianza, generando lo que se conoce como coeficientes de correlación.
Existen diferentes tipos, de entre los que destacan el coeficiente de Pearson,
Rho de Spearman y Tau de Kendall.

Valores que puede tomar la correlación

Es correlación positiva si
ρ = -1 Correlación perfecta negativa siempre que el valor “x”
sube, y el valor “y”
también, a demás con la
misma intensidad.
ρ=0 No existe correlación

Es correlación negativa, si
ρ = +1 Correlación perfecta positiva siempre que el valor “x”
sube y el valor “y” baja y
además tiene la misma
intensidad.

Correlación perfecta negativa


Por otra parte, la correlación 4,5

lineal se representa mediante 4

3,5
gráficos tal como se muestra a
3
continuación:
2,5

1,5
• Correlación perfecta
1
negativa
0,5

x y 0
0 1 2 3 4 5
1 4
2 3
3 2

6
4 1
Sin correlación
Correlación -1 2,5

• Sin correlación
2

x y
1,5
1 1
2 1 1

2 2
0,5
1 2

Correlación 0 0
0 0,5 1 1,5 2 2,5

• Correlación perfecta positiva

Correlación perfecta positiva


x y
3,5
1 1
3
2 2
2,5
3 3
2
4 1
1,5
Correlación 1
1

0,5

0
0 0,5 1 1,5 2 2,5 3

7
ANÁLISIS DE REGRESIÓN

El análisis de regresión es un proceso estadístico que permite analizar la


relación que existe entre dos o más variables donde una de ellas es
dependiente del resto, en otras palabras, el análisis egresivo hace más fácil
comprender de que manera las variables independientes afectan a las
variables que de ella dependan. Este análisis se utiliza tanto a nivel
empresarial, como social y personal ya que es un ejercicio muy practico ya que
permite calcular un valor futuro de una variable.

Las variables

Para utilizar un análisis de este tipo debemos conocer los dos tipos de
variables:

• Variable dependiente: las cuales buscamos estudiar mediante la


regresión estadística para poder entender como ésta se adapta al
modificar las independientes.
• Variable independiente: son los factores que consideramos que
influyen directamente a las variables dependientes.

Tipo de análisis de regresión

➢ Modelo de regresión lineal simple

Este modelo es el mas sencillo y el mas utilizado, este se refiere al estudio


del efecto que puede tener una variable independiente sobre una variable
dependiente, para ello se debe emplear la fórmula:

8
y = B0 + B1 x + ε

Donde

B0: es el valor de la variable independiente

B1: es la variable dependiente.

ε: representa el residuo o error.

La función de ε es explicar la posible variabilidad de los datos que no pueden


explicarse a través de la relación lineal de la fórmula.

➢ Modelo de regresión lineal múltiple

En este caso el presente modelo cuenta con más de una variable


independiente, el cual se aplica cuando se tengan razones para creer que hay
más de un factor que pueda afectar a la variable que se estudia. Se emplea la
siguiente fórmula:

Y = 0 + B1*X1 + B2*X2 + … + Bn*Xn + ε

Donde:

Y: representa la variable dependiente que se está estudiando

B1, B2, Bn: son todas las variables independientes que pueden afectar al
valor de la variable dependiente

ε: posible error existente.

9
➢ Modelo de regresión no lineal

El modelo de regresión no lineal se presenta cuando la relación entre las


variables dependiente e independiente no se desarrollen de manera lineal,
sino que tenga, en algunos casos un crecimiento exponencial, este modelo
permite que obtengamos una aproximación de los valores de la variable
dependiente, es un sistema más complejo ya que en ocasiones no coinciden
los números de parámetros con el de las variables independientes.

Para ello existen tres diferentes fórmulas:

Regresión exponencial

y = a.bx

Esta fórmula puede transformarse en una lineal mediante el uso de


logaritmos. Quedando de la siguiente manera:

log y = log(a.bx) = log a + x log b

Regresión potencial

y = a. xb

Si volvemos a aplicar logaritmos, transformamos en un modelo lineal la


fórmula inicial.

log y = log a + b log x

10
Regresión parabólica

y* = a0+a1x+a2 x2

Para resolver esta ecuación es necesario buscar los valores a0, a1, a2 que
minimicen.

Fórmula:

ψ(a0,a1,a2)=Σ(Yi- (a0+a1x+a2 x2))2

El siguiente paso a realizar es igualar las derivadas parciales a cero, para así
obtener ecuaciones lineales que puedan ser resueltas. El resultado final será:

Σyi =N a0 + a1 Σxi + a2Σxi2

Σyixi = a0 Σxi + a1Σxi2 + a2Σ xi3

Σyixi2 = a0 Σ xi2 + a1Σ xi3 + a2Σ xi4

PREDICCIÓN Y EVALUACIÓN DE LAS VARIABLES

11
Para aplicar el método de verificación es necesario saber a qué tipo de
predicción nos estamos enfrentando, es decir del tipo de variable a predecir y
del contexto en que se utilizaran los resultados.

Tipos de predicciones:

➢ Predicciones categóricas: se refiere a las afirmaciones que indican


algunos eventos que pueden o no ocurrir como, por ejemplo: “esta
noche lloverá”.
➢ Predicciones probabilistas: esta consiste en las afirmaciones que se
realiza en base a la probabilidad de que un hecho ocurra o no, ejemplo
de ella es: “esta noche hay un 70% de que llueva”.

Tipos de variables referente a la predicción para su evaluación

➢ Variables escalables: con variables escalables nos referimos a las


que toman un valor en una escala continua o discreta Son variables
que toman un valor en una escala continua o discreta.
➢ Variables no escalables: las variables no escalabres son aquellas
que definen eventos que puedan o no ocurrir, también se les denomina
“variables nominales” o “variables de tipo categoría”.

REGRESIÓN Y ESTIMACIÓN MEDIANTE LA LÍNEA DE REGRESIÓN.

Para estimar la línea de regresión a partir de la nube de puntos se usa el


método de mínimos cuadrados ordinarios (MCO), la cual considera como recta
que mejor se ajusta a la que minimiza la suma de los cuadrados de los
residuos.

̂𝒊 = 𝒂 + 𝒃𝑿𝒊 ; los errores se definen como:


Si la recta de mejor ajuste es 𝒚

12
̂ 𝒊 ; y los estimadores por MCO de la ordenada en el origen, los
𝒆𝒊𝒏 = 𝒀𝒊 − 𝒀
estimadores por MCO de la ordenada en el origen, , y de la pendiente, β,
son:

Para evaluar la bondad del ajuste se calcula el coeficiente de determinación


R2 y, para medir la dispersión de los puntos alrededor de la recta estimada, el
error típico de la estimación Su. Estas medidas se definen como:

Donde SCT o suma total de cuadrados es la variación de Y en la muestra


y SCR o suma de cuadrados de la regresión es la parte de la variación total
explicada por la recta configurada. Cierto, R2 indica la proporción de variación
total explicada por la relación lineal entre X e Y toma valores entre 0 y 1. Un
valor de R2 cercano a 1 indica que la línea ajustada es un buen modelo
explicativo del comportamiento de la variable Y, por lo tanto, existe relación
lineal entre X e Y. Por el contrario, un valor próximo a 0 indica que la recta
configurada no explica la variación observada en Y.

Para determinar el intervalo de confianza de la pendiente de la línea de


regresión y verificar si el valor de este parámetro difiere de cero, es necesario
calcular el error estándar b, lo que significa que:

13
MÉTODO DE LOS MÍNIMOS CUADRADOS

El método de mínimos cuadrados se utiliza para calcular la línea de


regresión lineal que minimiza el valor residual, esto se refiere a la diferencia
entre los valores reales y anunciados de la línea. Éste se aplica para ajustar
rectas a una serie de datos presentados como punto en el plano.
Su expresión general se basa en la ecuación de una recta y = mx + b
Donde m es la pendiente y b el punto de corte, y vienen expresadas de la
siguiente manera:

Σ es el símbolo sumatorio de todos los términos, mientras (x, y) son los datos
en estudio y n la cantidad de datos que existen.

El método de mínimos cuadrados calcula a partir de los N pares de datos


experimentales (x, y), los valores m y b que mejor ajustan los datos a una recta.
Se entiende por el mejor ajuste aquella recta que hace mínimas las distancias
d de los puntos medidos a la recta. Teniendo una serie de datos (x, y),
mostrados en un gráfico o gráfica, si al conectar punto a punto no se describe
una recta, debemos aplicar el método de mínimos cuadrados, basándonos en
su expresión general:

14
Cuando se haga uso del método de mínimos cuadrados se debe buscar una
línea de mejor ajuste que explique la posible relación entre una variable
independiente y una variable dependiente. En el análisis de regresión, las
variables dependientes se designan en el eje y vertical y las variables
independientes se designan en el eje x horizontal. Estas designaciones
formarán la ecuación para la línea de mejor ajuste, que se determina a partir
del método de mínimos cuadrados.

NORMAS PARA ENCONTRAR LA LÍNEA DE AJUSTE Y REGRESIÓN.

Pasos a seguir:

1.Selecciona cualquiera de los dos puntos de la línea de mejor ajuste. Estos


puntos pueden o no ser verdaderos puntos de dispersión en el gráfico.

2.Resta las coordenadas correspondientes al eje de las "Y". Si, por ejemplo,
las dos coordenadas son (2,5) y (4, 11): 5 - 11 = -6.

15
Divide la diferencia de coordenadas "Y" entre la diferencia de coordenadas de
"X". Para nuestro caso: -6 / -2 = 3. La línea tiene una pendiente de 3.

5. Vamos a comprobar con otro ejemplo que esto se cumple. En este caso
utilizamos los puntos (1,2) y (-1,-4).

• Hacemos lo mismo que el paso 2:


2 - (-4) = 6
• Calculamos lo mismo que el paso 3:
1 - (-1) = 2
• La pendiente es igual a 6/2 = 3

16
ANÁLISIS DE CORRELACIÓN

Coeficiente de correlación

El análisis de correlación se define como un proceso estadístico para


determinar si dos variables están relacionadas o no, el resultado del análisis
es un coeficiente de correlación que puede tomar valores -1 y +1, donde el
signo se refiere al tipo de correlación entre las dos variables.

La fórmula general para calcular el coeficiente de correlación es:

El coeficiente de correlación es el resultado de dividir la covarianza entre las


variables X e Y, entre la raíz cuadrada del producto de la varianza X e Y.

17
El primer paro consiste en calcular la covarianza entre la variable X y la Y
(entre las dos columnas de la matriz) de acuerdo a la siguiente fórmula:
𝑛
∑ ̅̅̅
𝑖=1 (𝑥𝑖 −𝑥̅ ) (𝑦1 −𝑦)
𝑐𝑜𝑛𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝐶𝑜𝑣(𝑥, 𝑦) =
𝑁−1

El segundo paso consiste en calcular las varianzas de la variable X y la


varianza Y, y obtener la raíz cuadrada de cada una:

Para cada variable se calcula la desviación estándar y se multiplican.

Coeficiente de determinación.

El coeficiente de determinación es la proporción de la varianza total explicada


por la regresión. Esto se llama R-cuadrado y muestra qué tan bien se ajusta el
modelo a la variable que se quiere explicar.
El coeficiente de determinación puede tener resultados que oscilan entre 0 y 1
Por lo tanto, cuanto más se acercan a 1 los resultados, más adapta el modelo
los cambios propuestos al caso dado. Por el contrario, si hay resultados
cercanos a 0, el modelo es inferior a la variable con la que se supone asociado
y, por lo tanto, el modelo no es fiable

18
EJEMPLOS PRÁCTICOS DE REGRESIÓN LINEAL

Ejercicio 1:

Hallar la ecuación de la recta de regresión

Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20,


32, 42 y 44 kilos.

1. Hallar la ecuación de la recta de regresión de la edad sobre el peso.

2. ¿Cuál sería el peso aproximado de un niño de seis años?

Solución:
𝑋𝑖 𝑌𝑖 𝑋𝑖2 𝑌𝑖2 𝑋𝑖 . 𝑌𝑖
2 14 4 196 28
3 20 9 400 60
5 32 25 1024 160
7 42 49 1764 294
8 44 64 1936 352
25 152 151 5320 894

Calculamos los promedios

Calculamos la covarianza y la varianza de 𝑌

19
La recta de regresión de la edad sobre el peso es aquella que pasa por el
punto (𝑥,
̅ 𝑦̅) y tiene pendiente

Despejamos y obtenemos la recta de regresión

Para encontrar el peso aproximado de un niño de seis años, sustituimos


{x=6} en la ecuación de regresión y obtenemos:

Ejercicio 2.

Un centro comercial sabe en función de la distancia, en kilómetros, a la que


se sitúe de un núcleo de población, acuden los clientes, en cientos, que
figuran en la tabla:

20
N° De clientes (X) Distancia (Y)
8 15
7 19
6 25
4 23
2 34
1 40

1.Calcular el coeficiente de correlación lineal.

2.Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede esperar?

3.Si desea recibir a 5 clientes, ¿a qué distancia del núcleo de población debe
situarse?

𝑋𝑖 𝑌𝑖 𝑋𝑖2 𝑌𝑖2 𝑋𝑖 . 𝑌𝑖

Calculamos los promedios

21
Calculamos la covarianza, las varianzas y las desviaciones estándares

El coeficiente de correlación está dado por

Se tiene una correlación negativa muy fuerte.

La recta de regresión de los clientes sobre la distancia es aquella que pasa


por el punto (𝑥,
̅ 𝑦̅) y tiene pendiente

Despejamos y obtenemos la recta de regresión

Para encontrar el número de clientes cuando el centro comercial se sitúa a 2


kilómetros, sustituimos y=2 en la ecuación de regresión y obtenemos

22
Si se desea recibir cinco clientes, sustituimos x=5 en la ecuación de regresión
y obtenemos

Ejercicio 3.

Un conjunto de datos bidimensionales(x,y), tiene coeficiente de correlación r=


-0.9, siendo las medias de las distribuciones marginales 𝑥̅ = 1, 𝑦̅ = 2. Se
sabe que una de las cuatro ecuaciones siguientes corresponde a la recta de
regresión de y sobre x:

1. Y= -X+2
2. 3X-Y=1
3. 2X+Y=4
4. Y=X+1

Seleccionar razonadamente esta recta.

Como el coeficiente de correlación lineal es negativo, la pendiente de la recta


también será negativa, por tanto, descartamos y 4

Un punto de la recta ha de ser ( 𝑋̅, 𝑌̅), es decir, (1,2). Sustituimos


en 1 y 3 para ver cual satisface la igualdad

La recta pedida es 3

23
CONCLUSIÓN

En la vida cotidiana existen una infinidad de relaciones, una de las formas


de determinar si existen relaciones entre las variables, es utilizando técnicas y
métodos estadísticos, conocidos como regresión y correlación, en el mundo
de los negocios, es importante conocerlas, a fin de predecir escenarios futuros,
de manera que los riegos e incertidumbre disminuyan frente a la toma de
decisiones, sin contar los beneficios que se obtienen al mejorar la
productividad y minimizar costos.

24
BIBLIOGRAFÍA

Escudero B, Correlación y regresión, en recursostic.educacion.es, extraído el

22 de julio de 2022 desde:

http://recursostic.educacion.es/descartes/web/materiales_didacticos/Regresio
n_y_correlacion/Regresion_y_correlacion.htm

Sin autor, Modelos de Regresión Lineal Simple, en puceapex.puce.edu.ec,

extraído el 22 de julio de 2022 desde:

https://puceapex.puce.edu.ec/web/cev/modelos-de-regresion-lineal-simple/

Sin autor, Coeficiente de correlación lineal, sdelsol.com, extraído el 22 de julio

de 2022 desde https://www.sdelsol.com/glosario/coeficiente-de-correlacion-


lineal/

Maldonado J. (2014), Métodos de mínimos cuadrados, en slideplayer.es,

extraído el 22 de julio de 2022 desde: https://slideplayer.es/slide/6115096/

Badi, M.H.; Guillen A; Cerna E; Valenzuela J; Landeros J (2012). Análisis de

Regresión Lineal Simple para Predicción, en spentamexico.org, extraído el

22 de julio de 2022 desde: http://www.spentamexico.org/v7-n3/7(3)67-81.pdf

25
26

También podría gustarte