Está en la página 1de 38

TEMA DE CLASE: ESCUELA PROFESIONAL DE

ESTADÍSTICA CONTABILIDAD
BIDIMENSIONAL.
REGRESIÓN Y
CORRELACIÓN

CURSO: ESTADÍSTICA DESCRIPTIVA


DOCENTE: MG. ANNE E. ANICETO
CAPRISTÁN
SEMESTRE
ACADÉMICO
2023A
ESTADÍSTICA BIDIMENSIONAL
Analiza el comportamiento conjunto de dos variables
en una unidad de estudio, es decir busca la asociación
o relación que existe entre ambas, se representa
como un conjunto de pares de datos (X,Y), donde:
X : es la variable independiente (llamado factor)
Y : es la variable dependiente (llamado resultado)
Ejemplos:
• Peso y talla de un grupo de personas
• Gasto en publicidad y volumen de ventas
• Nivel de estudios y región de procedencia
• Ingresos y nivel socioeconómico
• Coeficiente intelectual y rendimiento académico
……..ESTADÍSTICA BIDIMENSIONAL…………..

La relación o dependencia de variables se da entre:


I. Dos variables cualitativas; carrera profesional y
género; Nivel de satisfacción y nivel de estudios.
II.Dos variables cuantitativas; Ingresos y gastos en
una familia, Precio de PC y la velocidad del
procesador.
III. Una variable cualitativa y una cuantitativa;
Nivel de estudios y edad de las personas; Zona
de ventas y volumen de ventas.
Mg. Anne Aniceto C. 3
ORGANIZACIÓN DE DATOS
La asociación o dependencia de dos variables
cualitativas se debe resumir los resultados en:
• Gráfico de barras agrupadas
• Tablas de contingencia o bidimensionales
k
y
Y1 y2 ... yj ... yl  fi. = ni.
x i=1

x1 f11 f12 … f1j … f1l f1.

x2 f21 f22 … f2j … f2l f2.


… … … …
… … … …

xi fi1 fi2 … fij … fil fi.


… … … … …
… … …

xk fk1 fk2 … fkj … fkl fk.


k 
 fij = n

n.. =
 f.j = n.j f.1 f.2 … f.j … f.l i=1 j=1
j=1

Mg. Anne Aniceto C. 4


Donde:
Las frecuencias absolutas conjuntas se designa con el índice
ij es decir: fij
La suma de los totales se considera de tres formas:
a) Totales por fila; es la suma total de las frecuencias
absolutas en fila:n i .
b)Totales por columna; es la suma total de las frecuencias
absolutas en columna:
n. j
c) Total general; es la sum a total de las frecuencias
absolutas: n.. (igual a n)

Mg. Anne Aniceto C. 5


Para obtener los porcentajes, llamadas también
frecuencias relativas o proporciones, existen tres
maneras:
f i.
a) Con relación al total general, está dado por: hi. =
n

f. j
b) Con relación al total de fila : h. j =
n

f ij
c) Con relación al total de columna : hij =
n

Mg. Anne Aniceto C. 6


Distribuciones marginales
a) Distribución marginal de X; está dado por las marcas de clase (Xi) y
por los totales de las frecuencia por filas (fi.) :
X fi.
x1 f1.
x2 f2.
: :
xk fk.
Total ni.

b) Distribución marginal de Y; está dado por las marcas de clase (Yj) y


por los totales de las frecuencias por columnas (f.j) :
Y f.j
y1 f.j
y2 f.j
: :
yl f.l
Total n.j

Mg. Anne Aniceto C. 7


Presentación de resultados

Tabla1. Nivel de instrucción por región de procedencia


Nivel de estudios
Región de Total
Primaria Secundaria Superior
procedencia
n % n % n % n %

40 10.7 80 21.3 60 16.0 180 48.0


Costa
35 9.3 35 9.3 30 8.0 100 26.7
Sierra
Selva 30 8.0 40 10.7 25 6.7 95 25.3

Total 105 28.0 155 41.3 115 30.7 375 100.0

Del grupo de personas encuestadas, 180 son de la costa y 40 (10.7%) de ellos


tienen grado de instrucción primaria, 80 (21.3%) tienen secundaria y el 16%
alcanzaron estudios superiores, …. En relación al nivel de estudios alcanzados
mayormente es secundaria, el 21.3% tienen primaria y son de la costa, el 10.7%
tienen secundaria y son de la selva.
Estos resultados indican que el mayor porcentaje de personas con nivel de estudios
superiores son de la costa, lo cual demuestra que hay asociación o dependencia en
el nivel de estudios alcanzado por la región de procedencia de las personas.
Mg. Anne Aniceto C. 8
Gráfico 1. Nivel de instrucción por región de procedencia

25
21.3

20
16.0
Frecuencia (%)

15
10.7 10.7
9.3 9.3
10 8.0 8.0
6.7

0
Costa Sierra Selva

Primaria Secundaria Superior

El nivel de estudios que mayormente han alcanzado las personas es secundaria


en todas las regiones, que representan un 41%, en la región de la costa el 16%
tiene estudios superiores y en la sierra y selva sólo el 8% y el 6.7% .

Mg. Anne Aniceto C. 9


Estadístico de asociación: Chi cuadrado
El estadístico Chi-cuadrado (χ2) mide el grado de asociación o
dependencia entre dos variables cualitativas, que consiste en
comparar los valores observados y esperados en una tabla de
contingencia.
Si el resultado del estadístico es cercano a cero, no existe ningún
grado de asociación; si el resultado es diferente de cero, puede
afirmarse que existe algún tipo de asociación entre las dos variables.

 (f − eij )
k l
2
El estadístico se define como: ij

2 = i =1 j =1

Donde: eij
fij : son las frecuencias observadas de la muestra
eij : son las frecuencias esperadas , se obtiene ( f )( f . j )
eij = i.
k: número de categorías de la variable en fila n
l: número de categorías de la variable en columna

Mg. Anne Aniceto C. 10


Resumen de estadísticos
Para variables cuantitativas: k

x i f
a) Media o promedio de la variable X : x= i=1
i. n
l

b) Media o promedio de la variable Y : y j f. j


j =1
y=
n
c) Varianza de la variable X : k
 fi. (xi − x)2
S2x = i=1
n

l
d) Varianza de la variable Y :  f.j (yi − y)2
S2y = j=1
n

e) Covarianza de la variable X e Y : mide la variabilidad de X e Y


(xi − x)(y j − y)
k l

 f
ij
Cov (x, y ) = i =1 j =1

Mg. Anne Aniceto C. 11


Medidas de Asociación
Comprobar el grado de relación de variables cuantitativas a través de:
* Gráfico de dispersión
* Covarianza
* Coeficiente de correlación de Pearson
a) Gráfico de dispersión; representación de pares de valores
observados en el plano cartesiano, describe la relación existente
entre las variables, ejemplo de casos:

No hay relación Relación lineal positiva

Relación lineal negativa Relación no lineal


Mg. Anne Aniceto C. 14
Medidas de Asociación
b) Covarianza: mide la variabilidad conjunta de X e Y
 f (x − x)(y − y)
Cov(x, y ) =
i=1 j=1

n
c) Coeficiente de correlación de Pearson (R): mide el grado de
asociación lineal entre las variables X e Y
cov(X ,Y )
R= Donde : −1  R  1
S xS y

Grado de relación de variables


R CORRELACIÓN
R = ± 1 Correlación perfecta
R = ± 0.9 R = ± 0.99 Correlación m u y b u e n a
R = ± 0.7 R = ± 0.89 Correlación b u e n a
R = ± 0.40 R = ± 0.69 Correlación m o d e ra d a
R = ± 0.30 R = ± 0.39 Correlación baja
R = ± 0.10 R = ± 0.29 Correlación m u y baja
R = 0 C oAniceto
Mg. Anne r r e l a cC.
ión nula
Aplicación
Se ha recolectado la estatura (X) en cm y su peso (Y) en kg de un grupo de
estudiantes cuyos resultados se muestran en la tabla de distribución de
frecuencias bidimensionales.

Estatura en Peso en kg
cm [50, 60> [60, 70> [70, 80>
[160, 165> 12 18 3
[165, 170> 15 25 8
[170, 175> 4 10 5
[175, 180> 1 3 10
a) Hallar las distribuciones marginales
b) Interprete f22 , f33 , f41, f1. , f.2
c) Encuentre e interprete el peso y la talla promedio
d) Encuentre la covarianza entre peso y estatura
e) Hallar el coeficiente de correlación de Pearson
Mg. Anne Aniceto C. 16
REGRESION Y CORRELACION LINEAL SIMPLE

• Es un modelo matemático para predecir el


efecto de una variable sobre otra, ambas
cuantitativas.
• Una variable es la dependiente y otra la
independiente
• Se gráfica con el diagrama de dispersión.
• Dice cómo es la relación entre las dos variables.
• El análisis consiste en encontrar la “mejor” línea
recta de esos puntos.
Diagrama de dispersión
Es la ubicación de los pares de puntos en el plano
cartesiano, también es conocido como nube de
puntos .
Publicidad Ventas Relación entre publicidad y
12 58
ventas
14 65
80
15 52
60
10 42
19 67 40

13 40 20

15 44 0
19 69 0 5 10 15 20

18 55
Tipos de diagrama de dispersión
Covarianza de dos variables X e Y
• La covarianza entre dos variables, Sxy, nos indica si la
posible relación entre dos variables es directa o
inversa:
S xy =  (x i − x)( yi − y)
1
– Directa: Sxy > 0 n i
– Inversa: Sxy < 0
– Incorrelacionadas: Sxy = 0

• El signo de la covarianza nos dice si el aspecto de la


nube de puntos es creciente o no, pero no nos dice
nada sobre el grado de relación entre las variables.
Coeficiente de correlación
lineal de Pearson
• El coeficiente de correlación lineal de Pearson de dos
variables, r, nos indica si los puntos tienen una
tendencia a disponerse alineadamente (excluyendo
rectas horizontales y verticales).
• Tiene el mismo signo que Sxy . Por lo tanto de su signo
obtenemos el que la posible relación sea directa o
inversa.
• r es útil para determinar si hay relación lineal entre
dos variables, pero no servirá para otro tipo de
relaciones (cuadrática, logarítmica, exponencial)
Sxy
r =
S x S y
REGRESIÓN LINEAL SIMPLE
En términos generales la regresión lineal simple
consiste en analizar la relación entre dos variables
cuantitativas, es decir se debe establecer una relación
funcional Y= f(x), llamado modelo de regresión o
ecuación de la recta, cuyos objetivos son:
1) Medir el grado de relación con el coeficiente de
correlación de Pearson.
2) Predecir el efecto de una variable sobre otra
(estimar valores).
El estadístico de correlación de Pearson también puede
calcularse : k 
n   fij (x i − x )(y j − y)
i=1 j=1
R=
k 
n  xi 2
−x
2
n 2
yj − y
Mg. Anne Aniceto C.
2
21
i=1 j=1
Propiedades del coeficiente de
correlación
• Sólo toma valores en [-1,1].
• Las variables no presentan correlación r = 0.
• Relación lineal perfecta entre dos variables r = 1 o r = -1.
• Cuanto más cerca esté r de 1 o -1 mejor será el grado de relación
lineal.
• Siempre que no existan observaciones anómalas

iRelación Relación
nversa directa casi
perfecta Variables
perfecta
negativa incorrelacionada
s

-1 +1
Mg.0
Anne Aniceto C. 26
correlaciones positivas
330 130
120
280
110
230 100
90
180 80
70
130 60
50
80 r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Mg. Anne Aniceto C. 27


Correlaciones casi
perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200

Mg. Anne Aniceto C. 28


correlaciones negativas
80
90
80 70
70 60
60 50
50
40
40
30 30
20 20
10 r=-0,5 10 r=-0,7
0
0
140 150 160 170 180 190 200
140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Mg. Anne Aniceto C. 29


Regresión lineal simple
• El análisis de regresión sirve para predecir una variable
en función a otra.
– Y = Variable dependiente
– X = Variable independiente

• El modelo de regresión quedara establecido por el


siguiente modelo:

yˆ = a + b x

26
Mg. Anne Aniceto C.
Interpretación de los
coeficientes de regresión lineal
• La pendiente b1(b): indica el cambio promedio en la
variable respuesta (y), cuando la variable predictora
(x) aumenta en una unidad adicional.
• El intercepto b0 (a)indica el valor promedio de la
variable respuesta (y), cuando la variable predictora
(x) es igual a cero. Sin embargo carece de
interpretación práctica si dicho valor está fuera del
rango del conjunto de valores X.
• Y= b0 + b1 X o también Y= a + bX
Para determinar el modelo de regresión lineal simple
utilizaremos el método de mínimos cuadrados:

 y = na + b x
 xy = a x + b x 2

La recta de regresión estimada será:

ŷ = y + b1 (x − x)
Otras fórmulas adicionales
Sxy
r=
b = SXY2 a = y −bx SxS y
SX

S =
2
x 2

−x 2 S 2
=
 y2
− y 2
x y
n n
Bondad de ajuste: Coeficiente de Determinación

• Es una medida que nos indica la


bondad del ajuste
• (bondad de la predicción)
• R2 =r2

También podría gustarte