Está en la página 1de 22

ESTADÍSTICA II

GENERALIDADES SOBRE REGRESIÓN LINEAL Y NO LINEAL,


DISTRIBUCIÓN BINOMIAL Y POISSON.

PRESENTADO POR:
FILADELFIA ZARCO
CEDULA: 11-701-612

PROFESOR / INSTRUCTOR:
LUIS EDUARDO DELGADO MANTILLA

PANAMÁ, DICIEMBRE 2022


INTRODUCCIÓN

Habitualmente el tratamiento de la regresión se limita al caso lineal, donde,


en muchos casos esto puede ser suficiente, pero en otros no. La diferencia
fundamental entre las regresiones lineal y no lineal, y la base para los nombres de
los análisis, son las formas funcionales aceptables del modelo. Específicamente,
la regresión lineal requiere parámetros lineales mientras que, la no lineal, no.

En esta investigación, se tratará los conceptos fundamentales de la


regresión, tanto lineal, como no lineal. Sus características más importantes, tipos,
ecuaciones, similitudes, semejanzas, entre otros términos.

Para, seguidamente, informar sobre los coeficientes de correlación, cuya


finalidad del análisis de la correlación, es examinar la dirección y la fuerza de la
asociación entre dos variables cuantitativas. Siendo los coeficientes de correlación
de uso frecuente: el de Pearson (paramétrico) y el de Spearman (no paramétrico,
se utiliza en aquellos casos donde las variables examinadas no cumplen criterios
de normalidad o cuando las variables son ordinales).

Finalmente, también se realizaron dos ejercicios prácticos sobre distribución


Binomial y Poisson que permitieron reforzar nuestros conocimientos académicos,
para, finalmente, emitir las respectivas conclusiones de la investigación.

2
GENERALIDADES SOBRE REGRESIÓN LINEAL Y NO LINEAL,
DISTRIBUCIÓN BINOMIAL Y POISSON.

1. REGRESIÓN LINEAL

La regresión lineal es un campo de estudio que enfatiza la relación


estadística entre dos variables continuas conocidas como variables de predicción
y respuesta (cuando hay más de una variable predictora, se convierte en regresión
lineal múltiple) (¿Qué es la regresión lineal? Parte 1, s.f.).

 La variable predictora se denota con mayor frecuencia como “x” y


también se conoce como variable independiente.
 La variable de respuesta se denota con mayor frecuencia como “y” y
también se conoce como variable dependiente.

Entonces, la regresión lineal como técnica de modelado estadístico, se


emplea para describir una variable de respuesta continua como una función de
una o varias variables predictoras. Puede ayudar a comprender y predecir el
comportamiento de sistemas complejos o a analizar datos experimentales,
financieros y biológicos.

Las técnicas de regresión lineal permiten crear un modelo lineal. Este


modelo describe la relación entre una variable dependiente y (también conocida
como la respuesta) como una función de una o varias variables independientes Xi
(denominadas predictores). La ecuación general correspondiente a un modelo de
regresión lineal es:

Y = β0 + ∑ β i X +ϵ i

3
Donde β representa las estimaciones de parámetros lineales que se deben
calcular y ϵ representa los términos de error.

1.1. TIPOS DE REGRESIÓN LINEAL

 Regresión lineal simple: modelos que utilizan un único predictor. La


ecuación general es:

Y = β0 + β i X +ϵ i

Figura 1. Ejemplo de regresión lineal simple que muestra cómo predecir


el número de accidentes de tráfico mortales en un estado (variable de
respuesta, X) en comparación con la población del estado (variable
predictora, Y).

 Regresión lineal múltiple: modelos que utilizan múltiples


predictores. Esta regresión tiene múltiples Xi para predecir la
respuesta, Y. Este es un ejemplo de la ecuación:

Y = β0 + β 1 X 1 + β 2 X 2 + ϵ

4
Figura 2. Ejemplo de regresión lineal múltiple, que predice las millas por
galón (MPG) de diferentes coches (variable de respuesta, Y ) en función
del peso y la potencia (variables predictivas, Xj ).

 Regresión lineal multivariante: modelos para varias variables de


respuesta. Esta regresión tiene múltiples Y i que derivan de los
mismos datos Y . Se expresan con fórmulas diferentes. Este es un
ejemplo del sistema con 2 ecuaciones:

Y 1=β 01 + β 11 X 1 +ϵ 1
Y 2=β 02 + β 12 X 1 +ϵ 2

2. REGRESIÓN NO LINEAL

La regresión no lineal es una forma de análisis de regresión en la que los


datos se ajustan a un modelo y luego se expresan como una función matemática.
La regresión lineal simple conecta dos variables (X e Y) con una línea recta (y =

5
mx + b), mientras que la regresión no lineal conecta las dos variables en una
relación no lineal (curva) (Equipo editorial Krypton Solid, s.f.).

A diferencia de la regresión lineal tradicional, que está restringida a la


estimación de modelos lineales, la regresión no lineal puede estimar modelos con
relaciones arbitrarias entre las variables independientes y las dependientes. Esto
se lleva a cabo usando algoritmos de estimación iterativos.

2.1. COMPARACIÓN ENTRE REGRESIÓN NO LINEAL Y LINEAL

2.1.1. SIMILITUDES

Ambos análisis (Explicación Regresión no lineal, s.f.):

 Describen matemáticamente la relación entre una variable de


respuesta y una o más variables predictoras.
 Pueden modelar una relación curva.
 Minimizan la suma de los cuadrados del error residual (SSE).
 Tienen los mismos supuestos que usted puede verificar utilizando las
gráficas de residuos.

2.1.2. DIFERENCIAS

La diferencia fundamental entre las regresiones lineal y no lineal, y la base


para los nombres de los análisis, son las formas funcionales aceptables del
modelo. Específicamente, la regresión lineal requiere parámetros lineales mientras
que la no lineal no (Explicación Regresión no lineal, s.f.). Se Utiliza la regresión no
lineal en lugar de la regresión lineal cuando no se pueda modelar adecuadamente
la relación con parámetros lineales.

6
Una función de regresión lineal debe ser lineal en los parámetros, lo cual
restringe la ecuación a una sola forma básica. Los parámetros son lineales cuando
cada término del modelo es aditivo y contiene solo un parámetro que multiplica el
término:

Respuesta=constante + parametro× predictor+…+ parametro × predictor

O, Y = β0 + β 1 X 1 + β 2 X 2 +…+ β k X k

Sin embargo, una ecuación no lineal puede adoptar muchas formas


diferentes.

3. DIAGRAMA DE DISPERSIÓN

También conocido como gráfico de dispersión, gráfico de puntos, diagrama


de XY, diagrama de dispersión o Scattergram, y los mismos usan una colección de
puntos colocados usando coordenadas cartesianas para mostrar valores de dos
variables. Al mostrar una variable en cada eje, se puede detectar si existe una
relación o correlación entre las dos variables (Equipo editorial Dataviz, s.f.).

Se pueden interpretar varios tipos de correlación a través de los patrones


mostrados en los diagramas de dispersión. Estos son: positivo (los valores
aumentan juntos), negativo (un valor disminuye a medida que el otro aumenta),
nulo (sin correlación), lineal, exponencial y en forma de U. La fuerza de la
correlación puede determinarse por la proximidad de los puntos entre sí en el
gráfico. Los puntos que terminan muy lejos del conjunto general de puntos se
conocen como valores atípicos.

Las líneas o curvas se ajustan dentro del gráfico para ayudar en el análisis
y se dibujan tan cerca de todos los puntos como sea posible para mostrar cómo se
condensaron todos los puntos en una sola línea. Esto se conoce normalmente

7
como “línea de mejor ajuste” o “línea de tendencias” y se puede utilizar para hacer
estimaciones mediante interpolación.

Los diagramas de dispersión son ideales cuando se tienen datos numéricos


emparejados y se desea ver si una variable afecta a la otra. Sin embargo, hay que
recordar que la correlación no es causal y otra variable inadvertida puede estar
influyendo en los resultados.

Figura 3. Anatomía

8
Figura 4. Tipo y fuerza de correlación

4. ECUACIÓN DE REGRESIÓN LINEAL.

A la ecuación que describe la relación entre el valor esperado de y , que se


denota E( x ), y x se le llama ecuación de regresión. La siguiente es la ecuación de
regresión para la regresión lineal simple.

E ( y )=Y =β 0+ β1 x

La gráfica de la ecuación de regresión lineal simple es una línea recta; β 0 es


la intersección de la recta de regresión con el eje y, β 1 es la pendiente y E ( y )es la
media o valor esperado de y para un valor dado de x (Anderson, Sweeney, &
Williams, 2008).

9
En la figura siguiente se presentan ejemplos de posibles rectas de
regresión. La recta de regresión de la gráfica A indica que el valor medio de y está
relacionado positivamente con x. La recta de regresión de la gráfica B indica que
el valor medio de y está relacionado negativamente con x, valores menores de y
E ( y )corresponden a valores mayores de x. La recta de regresión de la gráfica C
muestra el caso en el que el valor medio de y no está relacionado con x; es decir,
el valor medio de y es el mismo para todos los valores de x.

Figura 5. Ejemplos de líneas de regresión en la regresión lineal simple.

Si se conocieran los valores de los parámetros poblacionales β 0 y β 1, se


podría emplear la ecuación mostrada anteriormente para calcular el valor medio
de y para un valor dado de x. Sin embargo, en la práctica no se conocen los
valores de estos parámetros y es necesario estimarlos usando datos muestrales.
Se calculan estadísticos muestrales (que se denotan b0 y b1) como estimaciones
de los parámetros poblacionales β 0 y β 1 Sustituyendo en la ecuación de regresión
b 0 y b1 por los valores de los estadísticos muestrales β 0 y β 1, se obtiene la ecuación
de regresión estimada (Anderson, Sweeney, & Williams, 2008, pág. 290). La
“ecuación de regresión estimada” de la regresión lineal simple se da a
continuación.

^y =b0 +b1 x

10
A la gráfica de la ecuación de regresión simple estimada se le llama recta
de regresión estimada; b 0 es la intersección con el eje y y b 1 es la pendiente.

5. COEFICIENTE DE CORRELACIÓN

La finalidad de la correlación es examinar la dirección y la fuerza de la


asociación entre dos variables cuantitativas (Laguna, s.f., pág. 2). Así
conoceremos la intensidad de la relación entre ellas y si, al aumentar el valor de
una variable, aumenta o disminuye el valor de la otra variable.

Para valorar la asociación entre dos variables, la primera aproximación


suele hacerse mediante un diagrama de dispersión.

Figura 6. Ejemplo de diagrama de dispersión peso vs imc

Por ejemplo, en el diagrama de dispersión de la Figura 6 parece existir una


relación lineal entre el peso y el índice de masa corporal de los pacientes.
Además, si nos fijamos parece que existe un dato atípico que se aleja de la nube
de puntos.

11
Con la nube de puntos podemos apreciar si existe o no una tendencia entre
las dos variables, pero si queremos cuantificar esta asociación debemos calcular
un coeficiente de correlación.

Hay dos coeficientes de correlación que se usan frecuentemente: el de


Pearson (paramétrico) y el de Spearman (no paramétrico, se utiliza en aquellos
casos donde las variables examinadas no cumplen criterios de normalidad o
cuando las variables son ordinales).

5.1. COEFICIENTE DE CORRELACIÓN DE PEARSON

El coeficiente de correlación de Pearson es una prueba que mide la relación


estadística entre dos variables continuas (Equipo editorial QuestionPro, s.f.). Si la
asociación entre los elementos no es lineal, entonces el coeficiente no se
encuentra representado adecuadamente.

El coeficiente de correlación puede tomar un rango de valores de +1 a -1.


Un valor de 0 indica que no hay asociación entre las dos variables. Un valor mayor
que 0 indica una asociación positiva. Es decir, a medida que aumenta el valor de
una variable, también lo hace el valor de la otra. Un valor menor que 0 indica una
asociación negativa; es decir, a medida que aumenta el valor de una variable, el
valor de la otra disminuye.

Para llevar a cabo la correlación de Pearson es necesario cumplir lo


siguiente:

 La escala de medida debe ser una escala de intervalo o relación.


 Las variables deben estar distribuida de forma aproximada.
 La asociación debe ser lineal.
 No debe haber valores atípicos en los datos.

12
5.1.1. CÓMO SE CALCULA EL COEFICIENTE DE CORRELACIÓN DE
PEARSON

La fórmula del coeficiente de correlación de Pearson es la siguiente:

r xy =
∑ zx z y
N

Donde:

“ x ” es igual a la variable número uno, “ y ” pertenece a la variable número


dos, z x es la desviación estándar de la variable uno, z y es la desviación estándar
de la variable dos y “N” es es número de datos.

El coeficiente de correlación de Pearson tiene el objetivo de indicar cuán


asociadas se encuentran dos variables entre sí por lo que:

 Correlación menor a cero: Si la correlación es menor a cero, significa


que es negativa, es decir, que las variables se relacionan
inversamente. Cuando el valor de alguna variable es alto, el valor de
la otra variable es bajo. Mientras más próximo se encuentre a -1,
más clara será la covariación extrema. Si el coeficiente es igual a -1,
nos referimos a una correlación negativa perfecta.

 Correlación mayor a cero: Si la correlación es igual a +1 significa que


es positiva perfecta. En este caso significa que la correlación es
positiva, es decir, que las variables se correlacionan directamente.
Cuando el valor de una variable es alto, el valor de la otra también lo
es, sucede lo mismo cuando son bajos. Si es cercano a +1, el
coeficiente será la covariación.

13
 Correlación igual a cero: Cuando la correlación es igual a cero
significa que no es posible determinar algún sentido de covariación.
Sin embargo, no significa que no exista una relación no lineal entre
las variables. Cuando las variables son independientes significa que
éstas se encuentran correlacionadas, pero esto no significa que el
resultado sea verdadero.

5.2. CORRELACIÓN DE DIFERENCIA DE RANGO DE SPEARMAN

El coeficiente de correlación de Spearman, ρ(ro) es una medida no


paramétrica de la correlación de rango (dependencia estadística del ranking entre
dos variables). Se utiliza principalmente para el análisis de datos (Equipo editorial
QuestionPro, s.f.).

La correlación de Spearman entre dos variables es igual a la correlación de


Pearson entre los valores de rango de esas dos variables; mientras que la
correlación de Pearson evalúa las relaciones lineales, la correlación de Spearman
evalúa las relaciones monótonas (ya sean lineales o no). Si no hay valores de
datos repetidos, se produce una correlación de Spearman perfecta de +1 o -1
cuando cada una de las variables es una función monótona perfecta de la otra.

Intuitivamente, la correlación de Spearman entre dos variables será alta


cuando las observaciones tengan un rango similar (o idéntico para una correlación
de 1) (es decir, etiqueta de posición relativa de las observaciones dentro de la
variable: 1º, 2º, 3º, etc.) entre las dos variables, y baja cuando las observaciones
tienen un rango diferente (o totalmente opuesto para una correlación de -1) entre
las dos variables (Coeficiente de correlación de rango de Spearman, s.f.).

El coeficiente de Spearman es apropiado tanto para variables ordinales


continuas como discretas.

14
Ahora, para explicar la definición anterior, tenemos que establecer que, una
función monótona es aquella que nunca disminuye o nunca aumenta, ya que es un
incremento variable independiente. Puede ser explicada usando la imagen de
abajo:

Figura 7. ejemplo de funciones monótonas

La imagen explica tres conceptos de la función monótona:

 Monotónicamente en aumento: Cuando la variable “x” aumenta y la


variable “y” nunca disminuye.
 Disminuye monótonamente: Cuando la variable “x” aumenta, pero la
variable “y” nunca aumenta.
 No monótono: Cuando la variable “x” aumenta y la variable “y” a
veces aumenta y a veces disminuye.

El estadístico ρ(ro) viene dado por la expresión:

6∑ D
2
ρ=1− 2
N (N −1)

Donde D es la diferencia entre los correspondientes estadísticos de orden


de x− y . N es el número de parejas de datos.

15
Se tiene que considerar la existencia de datos idénticos a la hora de
ordenarlos, aunque si estos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Student (Coeficiente de correlación de
Spearman, s.f.):

ρ
t=

√ ( 1− ρ2 )
(n−2)

6. PROBLEMAS DISTRIBUCIÓN BINOMIAL Y POISSON

1. La última novela de un autor ha tenido un gran éxito, hasta el


punto de que el 70% de los lectores ya la han leído. Un grupo de 6
amigos son aficionados a la lectura:

¿Cuál es la probabilidad de que en el grupo hayan leído la novela 2


personas?

Resultado:

Partimos de los siguientes datos:

n=6
p=0.7
q=1−0.7=0.3
k =2
B ( 6 , 0.8 )

Ahora con la ecuación:

16
()
p ( X=k )= n p k × qn −k
k
Donde:

( nk)= k ! ( n−k
n!
=
6!
) ! 2 ! ( 6−2 ) !
=15

Sustituyendo,

()
p ( X=2 )= 6 0.7 2 × 0.36−2=15 ×0.7 2 × 0.34 =¿
2
p ( X=2 )=15∗0.49∗0.0081=0.060

La probabilidad de que en el grupo hayan leído la novela 2 personas es de


0.06 o 6%.

2. Si un banco recibe en promedio 15 cheques sin fondo por día,


¿cuáles son las probabilidades de que reciba,

a) Seis cheques sin fondo en un día dado,

Partimos de:
x=6
λ=15 cheques por día
ε =2.718

Y la ecuación:
x −λ
λ ∗ε
p ( x , λ)=
x!

Sustituyendo,

17
6 −15
15 ∗2.718
p ( x=6 , λ=15 )=
6!
p ( x=6 , λ=15 )=0. 0048
La probabilidad de que reciba seis cheques en un día es 0.0048 o 0.48%

b) 9 cheques sin fondos en cualquiera de dos días consecutivos?

Partimos de:
c) x=9
d) λ=15 cheques por dia=30 cheques por 2 dias
e) ε =2.718

9 −30
30 ∗2.718
p ( x=9 , λ=30 )=
9!
p ( x=9 , λ=30 )=0.0000050

La probabilidad de que reciba nueve cheques en dos días es 0.0000050

18
CONCLUSIONES

La regresión lineal es de importancia académica ya que permite predecir el


comportamiento de una variable (dependiente o predicha) a partir de otra
(independiente o predictora).

De un modo general se dice que existe regresión de los valores de una


variable con respecto a los de la otra cuando hay alguna línea, denominada línea
de regresión, que se ajusta más o menos claramente a los valores observados. La
regresión se usa para la identificación de relaciones potencialmente causales o
bien, cuando no existen dudas sobre su relación causal, para predecir una variable
a partir de la otra. Cuando dos variables tienen una relación de tipo determinista,
el valor de una define exactamente el valor de la otra; un ejemplo puede ser la
relación entre la presión y el volumen de un gas a temperatura constante.

En cuanto a los coeficientes de Pearson y Spearman, el primero evalúa la


relación lineal entre dos variables continuas. Una relación es lineal cuando un
cambio en una variable se asocia con un cambio proporcional en la otra variable.

Mientras que, el coeficiente de correlación del orden de los rangos de


Spearman, evalúa la relación monótona entre dos variables continuas u ordinales.
En una relación monótona, las variables tienden a cambiar al mismo tiempo, pero
no necesariamente a un ritmo constante. El coeficiente de correlación de
Spearman se basa en los valores jerarquizados de cada variable y no en los datos
sin procesar.

La correlación de Spearman suele utilizarse para evaluar relaciones en las


que intervienen variables ordinales. Por ejemplo, se puede usar una correlación de
Spearman para evaluar si el orden en que los empleados completan un ejercicio
de prueba se relaciona con el número de meses que han estado trabajando en la
empresa.

19
No obstante, siempre es una buena idea examinar la relación entre las
variables con una gráfica de dispersión; ya que los coeficientes de correlación solo
miden relaciones lineales (Pearson) o monótonas (Spearman), pero, son posibles
otras relaciones.

20
BIBLIOGRAFÍA

¿Qué es la regresión lineal? Parte 1. (s.f.). Recuperado el 17 de diciembre de


2022, de https://sitiobigdata.com/2019/10/25/que-es-la-regresion-lineal/#
Anderson, D., Sweeney, D., & Williams, T. (2008). Estadistica para administracion
y economia. Santa Fe, Mexico: Cengage Learning.
Coeficiente de correlación de rango de Spearman. (s.f.). Recuperado el 17 de
diciembre de 2022, de https://hmong.es/wiki/Spearman
%27s_rank_correlation_coefficient
Coeficiente de correlación de Spearman. (s.f.). Recuperado el 17 de diciembre de
2022, de https://www.wikiwand.com/es/Coeficiente_de_correlaci
%C3%B3n_de_Spearman
Diagrama de dispersión [En Wikipedia]. (s.f.). Recuperado el 17 de diciembre de
2022, de https://es.wikipedia.org/wiki/Diagrama_de_dispersi%C3%B3n
Equipo editorial Dataviz. (s.f.). Diagrama de Dispersión. Recuperado el 17 de
diciembre de 2022, de
https://datavizcatalogue.com/ES/metodos/diagrama_de_dispersion.html
Equipo editorial Krypton Solid. (s.f.). Definición de regresión no lineal. Recuperado
el 17 de diciembre de 2022, de https://kryptonsolid.com/definicion-de-
regresion-no-lineal/
Equipo editorial QuestionPro. (s.f.). ¿Qué es el coeficiente de correlación de
Pearson? Recuperado el 17 de diciembre de 2022, de
https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-pearson/
Equipo editorial QuestionPro. (s.f.). ¿Qué es el coeficiente de correlación de
Spearman? Recuperado el 17 de diciembre de 2022, de
https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-
spearman/
Explicación Regresión no lineal. (s.f.). Recuperado el 17 de diciembre de 2022, de
https://support.minitab.com/es-mx/minitab/21/help-and-how-to/statistical-
modeling/regression/supporting-topics/nonlinear-regression/understanding-
nonlinear-regression/

21
Laguna, C. (s.f.). Correlación Y Regresión Lineal. Instituto Aragones de Ciencias
de la Salud. Obtenido de
https://d1wqtxts1xzle7.cloudfront.net/59332501/Lectura_sobre_correlacione
s_y_regresiones_lineales_220190520-95554-1vgfdcr-libre.pdf?
1558391871=&response-content-disposition=inline%3B+filename
%3DCORRELACION_Y_REGRESION_LINEAL_Autor_Cla.pdf&Expires=16
714457
Regresión no lineal [En Wikipedia]. (s.f.). Obtenido de
https://es.wikipedia.org/wiki/Regresi%C3%B3n_no_lineal
Rojo, J. (2007). Regresión lineal múltiple. IEG, Laboratorio de Estadistica.
Obtenido de
https://d1wqtxts1xzle7.cloudfront.net/36787341/REGRESION_LINEAL_MU
LTIPLE_3-libre.PDF?1424993235=&response-content-disposition=inline
%3B+filename
%3DRegresion_lineal_multiple.pdf&Expires=1671445775&Signature=BpEb
oQEcYF7evOtm13E5rdj4yYQazxuUKlG3FCLZIlvw95kzq

22

También podría gustarte