Está en la página 1de 32

UNIDAD 4

MEDIDAS RESUMIDAS DE VARIABILIDAD, ASIMETRÍA


Y APUNTAMIENTO

1. CONSIDERACIONES INICIALES

Las medidas de tendencia central tienen definiciones precisas, por ello muestran aspectos
particulares del fenómeno que se estudia. Una vez caracterizada la distribución a través de
medidas de tendencia central, interesa tener indicadores acerca del grado de variabilidad,
heterogeneidad con que la variable se distribuye en un conjunto de observaciones.

Dos distribuciones pueden tener iguales medidas de tendencia centra; sin embargo, pueden
mostrar grados de dispersión diferentes como puede observarse en el ejemplo siguiente:

- Ejemplo: Supongamos que el ingreso promedio/mes de familias, en el municipio A es de


Bs. 5000, fluctuando la distribución entre Bs. 4000 y Bs 6000. (Gráfica I). En cambio, en
el municipio B, el ingreso per-cápita también es igual a Bs. 5000, que es producto de una
distribución de frecuencias que fluctúan entre Bs. 2000 y Bs. 8000. (Gráfica II).

Si solo se utiliza la media aritmética se llega a la conclusión de que ambas distribuciones son
equivalentes, lo cual es completamente falso.

Las gráficas I y II nos permiten observar que en la segunda distribución que corresponde al
municipio B, los ingresos de las familias están mas dispersos con respecto a su ingreso medio
“Y” por el contrario, la distribución de ingresos, en el municipio A, es más homogénea, ya que
los ingresos están más concentrados alrededor del ingreso promedio.

En esta situación es que se recurre a otras medidas que reflejen el grado de dispersión de las
distribuciones para obtener conclusiones más realistas sobre las distribuciones estudiadas.
2. RECORRIDO DE LA VARIABLE O AMPLITUD TOTAL Y RECORRIDO INTERCUARTILICO

Rv = Ymax – Ymin ; Rv = Y’m – Y’o

RI = Q3 – Q1

En RI queda el 50% de las observaciones. Quedan eliminadas las perturbaciones que pueden
introducir los valores extremos.

3. DESVIACIÓN MEDIA (Dm)

La desviación media (para una muestra) se calcula con la fórmula:

4. VARIANZA POBLACIONAL Y VARIANZA MUESTRAL

La varianza se define como el promedio de los cuadrados de las desviaciones respecto a su


media aritmética. La definición y la formula se basan en la propiedad de la media aritmética que
minimiza la suma de las desviaciones al cuadrado.

Para el Universo o Población, la fórmula de la varianza está dada por:

La varianza muestral también se define en virtud de la propiedad de la media aritmética que


minimiza la suma de las desviaciones al cuadrado.

Para la muestra, la formula de la varianza es la siguiente:

Sin embargo, dada la situación de que la influencia de la disminución de una unidad es mínima,
en adelante en esta asignatura, para las observaciones en estudio, se utilizará la fórmula
siguiente.
5. DESVIACIÓN TÍPICA O DESVIACIÓN ESTÁNDAR (POBLACIONAL Y MUESTRAL)

Mientras más dispersos estén los valores de la variable, mayor será la magnitud de la
desviación típica puesto que mayores serán los desvíos respecto de la media aritmética, sin
posibilidades de compensación de desvíos por tratarse de suma de cuadrados. La desviación
típica se expresa en las mismas medidas en las que está expresada la variable. En tanto que la
varianza se expresa en el cuadrado de la unidad de medida.

- Ejemplo. Se considera que la Población es el conjunto de cinco estudiantes universitarios


(N = 5) cuyos ingresos mensuales son: Y1 = Bs. 100, Y2 = Bs. 200,
Y3 = Bs. 250, Y4 = Bs. 300, Y5 = Bs. 400

Si se seleccionan todas las muestras posibles de tamaño tres (n = 3) de esta Población, el


número de muestras posibles es igual a,

N!
NCn= =❑5 C3 =10
( N −n ) ! n !

Considerando las siguientes dos muestras se tienen respectivamente la media muestral y la


varianza muestral en cada caso.
6. PROPIEDADES DE LA VARIANZA

1. La varianza de la variable, a la cual se le suma o resta una constante, es igual a la


varianza de la variable original V [ Y + K ] =V [ Y ]

La varianza es invariante a los cambios de origen en la variable. Aplicando la definición


de varianza a la variable Y +K

2. La varianza del producto de una constante por una variable es igual al cuadrado de la
constante por la varianza de la variable V [ YK ] =K 2 V [ Y ]

La varianza es variante a los cambios de escala. Aplicando la definición de varianza a la


nueva variable (YK), es posible demostrar esta propiedad.

- Ejemplo. A partir de la siguiente distribución de número de estudiantes según sus gastos:


-
-
-
-
a) Calcule el recorrido y la desviación media.
b) Calcule la varianza, la desviación estándar. Comente sobre el grado de dispersión de la
variable.
c) Calcule la nueva varianza y la nueva desviación estándar, para la situación en la que los
gastos de transporte/mes de cada estudiante ha aumentado en Bs. 20?
d) Calcule la nueva varianza y la nueva desviación estándar, para la situación en la que los
gastos de transporte/mes de cada estudiante se ha incrementado en un 20%

R. RECORRIDO DE LA VARIABLE Y DESVIACIÓN MEDIA. Se utilizan las formulas siguientes:

R. VARIANZA Y DESVIACIÓN ESTÁNDAR.

S = + (205) ^ (1/2) = 14.3 significa que los valores de la variable, gastos/mes, varían en promedio
de la media aritmética, en Bs. 14,3.

R. NUEVA VARIANZA Y NUEVA DESVIACIÓN ESTÁNDAR

En este caso el valor de K = 20 Bs. Aplicando la fórmula, V [ Y + K ] =V [ Y ] se tiene:

V [ Y + 20 ] =205 Esta es la nueva varianza, igual a la varianza original.


Consecuentemente, la nueva desviación estándar es la misma, S = + (205) ^ (1/2) = 14.3

R. NUEVA VARIANZA Y NUEVA DESVIACIÓN ESTÁNDAR

Aplicando la formula V [ YK ] =K 2 V [ Y ], considerando que el valor de K = 100% + 20% = 120%


K = 1.2 y habiendo cálculos se tiene:

V [ 1,2 Y ] =1,22 [ 205 ] =295,20 Esta es la nueva varianza.

La nueva desviación estándar es, S = +(295,20) ^ (1/2) = 17,18

7. DISPERSIÓN RELATIVA: COEFICIENTE DE VARIABILIDAD

Cuando se presentan situaciones, en las que hay necesidad de comparar distribuciones de la


misma variable, pero que tienen medias aritméticas muy diferentes, hay necesidad de disponer
de una media relativa.

Por otra parte, no es posible hacer una comparación directa de dos medidas de dispersión, por
ejemplo, para las variables: ingresos y días de asistencia. Porque no se puede comparar
directamente las unidades de medida de $us y días. Para realizar estas comparaciones, es
preciso convertir cada una de las medidas a una expresión relativa.

Surge entonces, la necesidad de disponer de un indicador como es el coeficiente de variabilidad


(Karl Pearson) que se define como la razón entre la desviación típica y la media aritmética. Es
un indicador adimensional y puede expresarse en términos porcentuales.

S
CV =

Es una medida que permite llegar a conclusiones más realistas y ciertas, y es muy útil cuando se
presentan las siguientes situaciones:

i) Los datos están en las mismas unidades, pero tienen medias aritméticas muy
diferentes.
ii) Los datos están expresados en unidades diferentes.

- Ejemplo. Se tienen dos distribuciones que muestran la misma dispersión en torno a la


media, es decir, la misma varianza y la misma desviación estándar. En la primera
distribución, el ingreso menor es 9000 y el mayor es 11000, siendo más homogénea que
una segunda distribución donde el menor ingreso es 2000 y el mayor 3000.
Si ambas distribuciones tuvieran una desviación estándar de 500, los coeficientes de
variabilidad serían:
CV1 = 500/10000 = 0.05 = 5%; CV2 = 500/2500 = 0.20 = 20%
- Ejemplo. Con base a la distribución de número de estudiantes según sus gastos/mes en
transporte, planteada en el numeral 6., calcule el coeficiente de variabilidad que
corresponda considerando los resultados hallados en los incisos b), c), d), e interprete.

Caso inciso b): Calcule el coeficiente de variabilidad que corresponda a la distribución


planteada.

Caso inciso c): Calcule el nuevo coeficiente de variabilidad que corresponda para la situación en
la que los gastos de transporte/mes de cada estudiante se ha aumentado en Bs. 20?

Se calcula la nueva media aritmética, aplicando la propiedad correspondiente, y considerando


que se conoce: M(Y) = Ý = 95 Bs.

En este caso se utiliza la propiedad siguiente, donde el valor de K = 20.

M [ Y + K ] =M [ Y ] + K
M [ Y +20 ] =95+20=115 Bs . Es la nueva media aritmética.

Luego se calcula la nueva varianza, la misma es igual a la varianza original. Es decir:

V [ Y + 20 ] =205
Consecuentemente, la nueva desviación estándar es la misma, S = +(205) ^ (1/2) = 14.3 Bs.

Por tanto: CV = 14,3/115 = 0,1243 = 12,43%

Caso inciso d): Calcule el nuevo coeficiente de variabilidad que corresponda para la situación en
la que los gastos de transporte/mes de cada estudiante se ha incrementado en un 20%?

Se calcula la nueva media aritmética, aplicando la propiedad correspondiente, y considerando


que se conoce: M(Y) = Ý = 95 Bs.

En este caso se utiliza la propiedad: M [ Y . K ] =K M [ Y ] , donde el valor de

K = 100% + 20% = 120% = 1,20


M [ Y . K ] =1,20 ( 95 )=104 Bs .

De manera análoga, aplicando la fórmula V [ Y . K ] =K 2 V [ Y ] se tiene:

2
V [ 1,2 Y ] =( 1,2 ) ( 205 )=295,20 ; que resulta ser la nueva varianza.

La nueva desviación estándar es, S = +(295,20) ^ (1/2) = 17,18 Bs.

Por tanto: CV = 17,18/114 = 0,15 = 15%

- Ejemplo. En una muestra de 120 profesores se ha considerado la variable sueldos de


profesores, conde CV = 0,10; M(Y) = 10000 Bs. Calcule la desviación típica y comente
sobre la variabilidad de los sueldos.

0.10 = S/10000; de donde S = 1000 Bs.

Los sueldos varían en “promedio” en un 1000 Bs. Con respecto a 10000 Bs. Por otra se
puede afirmar que hay alta concentración de los sueldos.

- Ejemplo. En diciembre / 2017, el precio promedio de un bien fue de 200 Bs, con una
varianza de 625. En diciembre / 2018, el mismo bien tuvo un precio promedio de 250 Bs,
y una desviación típica de 50 Bs. ¿En cuál de los meses hubo mayor estabilidad en los
precios?

8. COMPONENTES DE LA VARIANZA

La división de un conjunto de datos en grandes categorías o estratos, permite desglosar la


varianza en dos componentes muy útiles para el análisis.

Cuando las observaciones se clasifican en estratos de diferente tamaño, los mismos que tienen
diferentes medias aritméticas; siendo el número de estratos, h = I, II, …… L; el tamaño del
estrato es nh;Ý h es la media del estrato h;Ý es la media general; n es el número total de
observaciones en estudio; Sh2 es la varianza del estrato h.

a) Intervarianza: Se define como la varianza entre las medias aritméticas de los estratos.
En un indicador que representa la variabilidad entre los estratos.

b) Intravarianza: Se define como el promedio de las varianzas de los estratos. Indicador


que representa la variabilidad dentro de los estratos.

Al ser las dos medidas, partes componentes de la varianza, se cumple la siguiente


relación:

- Ejemplo. A partir de la siguiente información de la variable sueldo de empleados de una


empresa tecnológica, calcule la intervarianza, la intravarianza, la varianza, e interprete:
- Ejemplo. En una distribución se sabe que M(Y) = 2000 $us, el CV = 40% y la intervarianza
es igual a 100 000. Calcule la intravarianza.
UNIDAD 5
ANÁLISIS DE REGRESIÓN

1. SERIES BIDIMENSIONALES

Las estadísticas de dos variables resultan de observar conjuntamente dos caracteres


cuantitativos de los elementos que componen un Universo o Población, o una muestra.

Las parejas de valores, P (Xi ; Yi) se disponen en dos columnas, una para Xi otra para las Yi donde
algunos de los valores de la variable X puede repetirse con distintos valores de la variable Y y
viceversa.

En esta parte no se abordará la situación de las parejas de valores que presentan repeticiones o
frecuentas, los mismo que se disponen en una tabla de doble entrada, donde en la primera fila
se colocan los valores X1, X2, X3, …. Xh de la variable X, y en la primera columna se colocan los
valores de Y1, Y2, Y3, … Yk de la variable Y. En la confluencia de las columnas de X i con la fila Yj
se coloca la frecuencia nij referida al resultado (Xi ; Yi) correspondiente.

2. DIAGRAMA DE DISPERSIÓN

Las estadísticas de dos variables pueden representarse en un sistema de ejes cartesianos,


donde cada par ordenado P (X, Y), se señala en la confluencia en el plano con un punto. El
conjunto de puntos así obtenidos da origen al diagrama de dispersión o nube de puntos.

- Ejemplo. Grafique un diagrama de dispersión considerando valores de dos variables.


3. COVARIACIÓN

La covariación se refiere a la variación conjunta de un grupo de variables. Ciertas variables se


mueven con una sincronización más o menos intensa. Cinco casos distintos se exponen a
continuación:

Dependencia causal unilateral: Se da cuando una variable X, influye en otra variable Y, pero no
al contrario.

Interdependencia o dependencia causal bilateral: La influencia entre X y Y es recíproca y se


produce por tanto en las dos direcciones.

Dependencia indirecta: Dos variables pueden mostrar una covariación a través de una tercera
variable que influye en ellas. (1a V, tasa natalidad; 2a V, consumo diario; 3a V, nivel –
vida/ingresos)

Concordancia: Siendo que X y Y son independientes, sin embargo, en sus variaciones existe
cierta concordancia.

Covariación casual: Hay casos en que se observa que existe una variación sincronizada entre
dos variables, que permiten deducir una asociación o dependencia entre ellas. No obstante, tal
covariación es totalmente casual.

La covarianza (Sxy) es el indicador que permite medir el grado de covariación existente entre
dos variables. La covarianza puede ser positiva o negativa.

4. COVARIACIÓN FUNCIONAL Y COVARIACIÓN ESTADÍSTICA


Hay necesidad de distinguir claramente entre la variación conjunta o covariación funcional (o
exacta) entre dos variables y la variación conjunta o covariación estadística.

La covariación entre dos variables es funcional o exacta cuando a cada valor de una de ellas, X,
corresponde uno tan solo de la otra variable, Y, Por el contrario, si a cada valor de cada una de
una de las dos variables corresponden varios de la otra variable, nos encontramos entonces
ante una covariación estadística.

- Ejemplo 1, Y: dilatación; X: temperatura.


La dilatación alcanzada por tres barras de un metro de longitud y del mismo grosor a
distintos grados de temperatura, presentara exactamente la misma dilatación para una
misma temperatura; la covariación entre las dos variables seria, pues de tipo funcional o
exacto (a cada temperatura correspondería una determinada dilatación, hecho que se
verificaría en los tres casos considerados), es decir las tres dilataciones son exactamente
iguales y corresponden a una misma temperatura. A para 50o; B para 60o; C para 70o……

- Ejemplo 2, Y: estatura; X: edad.


La covariación entre la estatura, Y, de un grupo números de niños y su edad, no es de
tipo exacto. En este sentido, la representación gráfica de dos variables que covarian
estadísticamente, en un diagrama de dispersión o nube de puntos, permite observar que
para tres niños de la edad de seis años corresponden tres estaturas en general
diferentes.

5. CONCEPTOS DE AJUSTE Y REGRESIÓN

El diagrama de dispersión representativo de la variación conjunta de dos variables se distribuye


alrededor de una línea ideal o tendencia. La obtención de la expresión analítica de esa línea
dará paso a la sinterización de los datos extraídos de la realidad. Ese es el objetivo que se
persigue con los métodos de ajuste de las líneas a las series estadísticas bidimensionales.

Desde el punto de vista gráfico, ajuste consiste en la sustitución del diagrama de dispersión por
una línea, que se adapte lo mejor posible a todos ellos.

Desde el punto de vista analítico, consiste en la sustitución de la dependencia de tipo


estadístico existente entre dos variables por una dependencia de tipo funcional, que implica la
determinación de los parámetros que caracterizan a tal función analítica.

El concepto de regresión es en Estadística paralelo al concepto ya definido de ajuste, de forma


que podemos hablar de rectas de regresión o en general, de funciones de regresión.

6. REGRESIÓN SIMPLE

En virtud del paso de la dependencia estadística a la dependencia exacta, a cada valor de la


variable independiente solo le corresponde uno de la variable dependiente. Pero ese único
valor de Y dado por la función de regresión tiene categoría de valor medio, porque,
evidentemente la línea “ideal” es una línea media que trata de resumir la nube de puntos.

“los valores de Y dados por la línea de regresión son estimaciones con carácter de promedios, si
bien estos promedios no se calculan necesariamente utilizando las formulas conocidas.”
(Barbancho, 1970,). Este Yc, es una suerte de promedio, calculado en este caso por el método
de los mínimos cuadrados.

Por otra parte, en la figura siguiente se puede ver que cada Yi observada puede separarse en la
parte que es debida a la dependencia exacta y a la que es debida a los factores aleatorios. En el
punto observado P (Xi; Yi), a la abscisa Xi le corresponde Yi; para la misma abscisa Xi la función
de regresión da el punto B, cuya ordenada se designa por Yc. La diferencia entre Yi y Yc es el
error, ei, debido a los factores aleatorios de perturbación. Es decir: Yi = Yc + ei

Por tanto, el análisis de regresión consiste en obtener los valores medios Yc (estimados) de la
variable dependiente, que corresponden a los valores observados Xi, con la condición de que
dichos valores Yc expresen fielmente la dependencia exacta entre Y, y X. el análisis de
regresio4n permite hallar una relación funcional que sea el mejor ajuste a la nube de puntos.

En otros términos, el análisis de regresión consiste en obtener la función “ideal” denominada


función de regresión, hacia la cual tienden los puntos de un diagrama de dispersión. En
esencia, se trata de determinar la dependencia exacta que se halla contenida en la
dependencia estadística observada, eliminando factores aleatorios.

La variable dependiente Y también se denomina variable explicada o predictando y la variable


independiente X, es la explicativa o predictor.

El problema que se plantea ahora es el de la obtención práctica de la funcio4n de regresión.


Esta puede obtenerse tomando como base la propia nube de puntos y eligiendo, en
consecuencia, aquella que se considere más representativa y adecuada.

En este sentido, aplicando el enfoque analítico, sin duda el mas generalizado, se utiliza una
función matemática para explicar la dependencia causal exacta existente explícitamente entre
las dos variables observadas. En este sentido, la función de regresión, de manera genérica, se
escribe de la siguiente manera:

Por tanto y con base a los elementos señalados, resulta que las variaciones de la variable Y
vienen explicadas, en parte, por las variaciones de X y, en parte, por los errores aleatorios. En
general puede escribirse:
Y = f(X) + e, con lo cual se tiene la explicación causal completa de la variable dependiente, a
diferencia de la relación anterior que solo explica la parte exacta.

Como los errores aleatorios son imprevisibles, se trabaja con la relación anterior, sin olvidar el
significado de ambas.

Es importante señalar que con la función de regresión se puede predecir valores de la variable
predictando, al conocer las variaciones de la variable predictor. Esta aplicación convierte al
análisis de regresio4n en una herramienta de gran utilidad. La validez de esta proyección por
regresio4n depende del grado en que están asociadas las variables y en la medida en que están.

La etapa siguiente se refiere al problema de seleccionar la funcio4n matema2tica f(X) que ha de


sustituir la dependencia de tipo estadístico entre las dos variables por una dependencia exacta.

Las principales funciones de ajuste analítico y gráficas correspondientes son:


Una vez que se ha decidido cuál es la función adecuada para el ajuste de regresión, es posible
determinar los parámetros de la función elegida.

La regresión proporciona la ley de variación de una variable dependiente en función de otra


independiente o explicativa, es así que obtenida su ecuación matemática, es posible describir la
dependencia causal entre las dos variable y además estimar la variable dependiente en función
de la variable independiente.

7. MÉTODO ESPECIAL DE LOS MÍNIMOS CUADRADOS ORDINARIOS

De acuerdo a lo expresado en el numeral 5., la sustitución de una nube de puntos por una
función, se refiere a la “óptima adaptación”, la misma que dará lugar a distintos métodos de
ajuste. En este caso, por la utilidad práctica, se tratará el denominado método de los mínimos
cuadrados ordinarios.

Este método de ajuste se fundamenta en considerar como la mejor adaptación, la de una


función tal que sea mínima la suma de los cuadrados de las diferencias entre los valores
observados o empíricos y los ajustados o teóricos, correspondientes a los distintos valores de la
función analítica elegida para los mismos valores de la variable explicativa.

Esta condición puede expresarse, para n observaciones bidimensionales, de la siguiente forma

8. REGRESIÓN LINEAL Y NO LINEAL: APLICACIONES

En la regresión simple solo intervienen dos variables con una relación de causalidad directa o
indirecta, es decir que la regresión debe aplicarse a variables que tengan una relación lógica, es
decir, que exista razonablemente dependencia entre las variables.

Para ello es indispensable disponer de información acerca de los valores de cada una de las
variables en distintos periodos (análisis histórico cronológico) o en distintos lugares (corte
transversal en el tiempo). De esta manera, se contará con un diagrama de dispersión, la misma
que permitirá decidir si la función adecuada es una recta, una hipérbola, una parábola, una
función potencial, una función exponencial.

Una vez que se ha decidido cual es la función adecuada para el ajuste de regresión, es posible
determinar los parámetros de la función elegida.

Para la línea recta. La aplicación del método especial al ajuste de una recta, dada una
determinada nube de puntos, permite cuantificar los parámetros a y b de la expresión general
de la recta a ajustar: Yc = a + b X

Proceso. Considerando el fundamento o condición base del método especial de los mínimos
cuadrados ordinarios:
∑ (Yi−Yc)2 es igual a un valor mínimo.
Y aplicando derivadas, se tiene el sistema de ecuaciones normales correspondientes.

- Ejemplo. Un economista selecciona al azar una muestra de cinco fábricas de un cierto


sector de producción industrial para estudiar la relación entre el costo total y el volumen
de producción. Obtiene la siguiente información:

a) Grafique el diagrama de dispersión.


b) Determine la función lineal de regresión estimada, Yc = a + b X
c) ¿Cuál es el costo total estimado para producir 65 unidades?
d) Determine el costo fijo y el costo variable.
e) Calcule los errores o residuos correspondientes.
f) Grafique la función de regresión hallada.
- Ejemplo. Con base a la siguiente información sobre la relación de ingresos por
ventas/año (Y) y gastos publicitarios/año (X), de una empresa, responda las preguntas
planteadas.
a) Grafique el diagrama de dispersión.
b) Calcule el ingreso por ventas promedio/año de la empresa.
c) Determine la función de regresión, ajustando a la ecuación: Y = a + b X
d) Interprete el valor de a y el valor de b
e) Calcule el monto estimado de ingresos por ventas para un gasto publicitario/año
igual a 80 $us.
f) Calcule los errores o residuos correspondientes.
g) Grafique la función de regresión hallada (sobre el diagrama).
Para la hipérbola equilátera. La aplicación del método especial al ajuste de una hipérbola
equilátera, dada una determinada nube de puntos, permite cuantificar el parámetro a de la
expresión matemática:

En este sentido, considerando el fundamento o condición base del método especial de los
mínimos cuadrados ordinarios:

- Ejemplo. Dada la siguiente relación de precios y cantidades demandadas de un


producto:

a) Determine la función de regresión, ajustando a la hipérbola equilátera, Y = a/X


b) Calcule el precio estimado para una cantidad demandada igual a 7 unidades.
c) Calcule los errores o residuos correspondientes.
d) Grafique la función de regresión hallada.
Para la función exponencial:

La aplicación del método especial al ajuste de una función exponencial, dada una determinada
nube de puntos, permite cuantificar los parámetros a y b de la expresión general de la función
exponencial a ajustar Yc = a b x

Para la función potencial: Yc = a Xb


Para la función parabólica: Yc = a + bX + cX2

9. PROCEDIMIENTO NEMOTÉCNICO

Para determinar las ecuaciones normales que correspondan a funciones lineales (o linealizadas)
y en forma directa, se procede de la siguiente manera:

Se multiplica la función general (lineal o linealizada) de ajuste, por el coeficiente del primer
parámetro a determinar y se aplica el operador de la sumatoria. Se multiplica la función general
(lineal o linealizada) de ajuste, por el coeficiente del segundo parámetro a determinar y se
aplica el operador de la sumatoria.

10. REGRESIÓN MÚLTIPLE

El análisis de la regresión tiene su aplicación más correcta al caso de dependencia causal. En


este sentido, en la realidad hay necesidad de relacionar una variable dependiente, explicada o
variable efecto y dos o más variables independientes, explicativas o variables causa. Cuando
existe mas de una variable independiente, el análisis de la regresión recibe el nombre de
regresión múltiple. En este caso, se utilizará la siguiente simbología, para designar cada una de
las variables y parámetros.

Y: variable dependiente
X1, X2, X3,……..: variables independientes

En virtud de la dependencia causal, puede escribirse: Y = f (X 1, X2, X3, …)

Los valores observados Yi = Yc + ei

Donde Yc es la parte exacta, dada por una función matemática, y e i es el error aleatorio debido
a factores imprevistos.

El análisis de regresión consiste, como antes, en obtener una función matemática que permita
tener los valores Yc en función de las variables independiente X1, X2, X3, …

La operación inmediata es fijar el tipo de función matemática. Por razones de simplicidad, la


función mas frecuentemente utilizada es la lineal, o sea,
Yc = a + b1X1 + b2X2 + b3X3

En este caso se limita a tres variables independientes. Para el caso de dos variables solo hacer
b3 = 0

Los parámetros a, b1, b2, b3 se denominan coeficientes de regresión. El coeficiente b i mide la


cantidad que aumenta o disminuye, de acuerdo a su signo, la variable dependiente cuando X i
aumenta una unidad; lo mismo puede decirse para b2 y b3 con respecto a sus variables X2 y X3

El método más utilizado para obtener los parámetros es el de los mínimos cuadrados
ordinarios, consistente en buscar el valor de esos parámetros tal que ∑ ei2=mínimo

De esta manera se tiene el sistema de ecuaciones normales. Por razones de simplicidad no se


escribe el subíndice i.

Si la función solo hubiera tenido dos variables independientes X1 y X2 , el sistema para


determinar sus parámetros sería el que se deduce después de suprimir la ultima ecuación y el
último término en cada una de tres restantes.
UNIDAD 6
ANÁLISIS DE CORRELACIÓN

1. CORRELACIÓN Y TIPOS DE CORRELACIÓN

La correlación señala el grado de covariación (asociación) entre dos o más variables, sin exigir
ningún tipo de relación especial entre ellas. Solo permite, pues conocer o describir la existencia
de covariación. Si no hay una relación lógica entre las variables no puede ser utilizada para
obtener predicciones.

El análisis de correlación expresa el grado de asociación de las variables, a través de una


función, sin exigir ningún tipo de relación especial entre ellas. La correlación no cuantifica una
relación de causa a efecto. El valor obtenido señala únicamente correlación funcional en un
determinado conjunto de datos.

Las ilustraciones gráficas siguientes, muestran diversos casos de asociación de variables.

Tipos de correlación: los tipos de correlación existentes están asociados al número de


variables, a la forma de la función y a la relación de variables.

a) En base al número de variables, se tiene:

La correlación simple, cuando se estudia el grado de asociación entre dos variables.


La correlación múltiple, cuando se estudia el grado de asociación entre la variable dependiente
y dos o más variables independientes.

La correlación parcial, que constituye un caso particular de la correlación múltiple, cuando se


elimina estadísticamente la influencia de las otras variables independientes y se estudia la
variable dependiente y una variable independiente.

b) Considerando la forma de la función

En este caso se tiene la correlación rectilínea, correlación potencial, correlación exponencial,


correlación logarítmica, ...

c) Considerando la relación entre variables

En este caso se tiene la correlación directa o positiva cuando las variables varían en el mismo
sentido, y la correlación inversa o negativa, cuando al variar una variable en un sentido positivo
la otra variable varía en sentido negativo.

2. RELACIÓN ENTRE LA VARIANZA TOTAL, LA VARIANZA EXPLICADA Y LA VARIANZA RESIDUAL

Teniendo en cuenta que las variaciones de una variable se miden por su varianza, resulta que la
variación de las Yi se puede medir por Sy2, la variación de las Yc por Syc2 y la variación de las ei
por Se2.

En tal caso se cumple la siguiente relación, la misma que tiene validez general, cualquiera sea la
función analítica estudiada y ajustada.

Varianza Total = Varianza Explicada + Varianza no Explicada, simbólicamente equivalente a:


Sy2 = Syc2 + Se2
“La variación total de la variable dependiente, es decir la variación que se quiere explicar, es
igual a la variación debida a la variable explicativa, según cierto modelo, más la variación de los
errores aleatorios.”

- Ejemplo. En el siguiente gráfico se muestran 3 magnitudes

Para cuantificar el mayor o menor grado en que los puntos están concentrados
alrededor de la función de ajuste, es necesario determinar un coeficiente e indicadores.
A continuación, se presentan varias medidas o coeficientes que permiten cuantificar el
grado de asociación de las variables.

3. ERROR ESTÁNDAR DE ESTIMACIÓN (Se)

La línea de regresión que se obtiene, tiene categoría de “Línea Media.” Que discurre por entre
la nube de puntos y que trata de sintetizarlos o resumirlos. A un valor de Xi le pueden
corresponder varios valores de Yi, pero solo le corresponde un valor de Yc dado por la línea.

Ahora bien, ¿cuán representativa es la línea de regresión con respecto a la nube de puntos?

La medida de dispersión más utilizada, cuando la regresión se ajusta por mínimos cuadrados, es
la varianza no explicada. Esta varianza revive el nombre específico de varianza residual porque
los errores ei se denominan residuos. Por ello, si la varianza residual es grande, quiere decir que
los residuos son grandes y consecuentemente la representatividad es pequeña.
Una medida de dispersión de las Yi observadas con respecto a las “medias” Yc, es un
instrumento complementario valiosos e imprescindible en el análisis de regresión. El error
estándar es la raíz cuadrada de la varianza no explicada; este error da un promedio de los
errores o residuos, por lo tanto, lo que mide es el tamaño medio de dichos errores o residuos y
viene expresado en la misma unidad que la variable independiente.

Se es un valor mayor o igual a cero.


Se es pequeña, si los errores son pequeños, en este caso la representatividad es grande.
Se es grande, si los errores son grandes, en este caso la representatividad es pequeña.

4. EL COEFICIENTE DE DETERMINACIÓN (R2)

En los hechos, la variable X no explica todas las variaciones de Y, sino solamente una parte; la
parte que no explica, la restante es el error o residuo.

Teniendo en cuenta que las variaciones de una variable se miden por su varianza, resulta que la
variación de las Yi se puede medir por Sy2, la de las Yc por Syc2 y la de las ei por Se2.

Es decir que la variación total de la variable dependiente – o sea la variación que se desea
explicar – es igual a la variación debida a la variable explicativa, (según cierto modelo de ajuste)
más la variación de los errores aleatorios.

Por lo tanto, si Syc2 (un sumando) se divide por Sy2 (el total), se tendrá la parte relativa de la
variación total que viene explicada por el modelo. Este cociente se denomina coeficiente de
determinación y se representa genéricamente por R2. Su fórmula de definición es por tanto:

Es una medida de la proporción en que la variación total indicada por Sy2 viene explicada por
uno de sus componentes Syc2, y está definido por el cociente entre esta parte y el todo. En la
segunda fórmula, el coeficiente de determinación queda expresado en función de la varianza
total y de la varianza residual. Por tanto. Es un indicador independiente de toda unidad de
medida.

Conviene señalar una propiedad muy importante del coeficiente de determinación que aparece
implícita en lo anterior. Se trata de que este solo toma valores comprendidos entre 0 y 1.
Cuando el valor de R2 es 1, entonces no hay errores o residuos y absolutamente todas las
variaciones de Y viene explicadas por X.

Cuando el valor de R2 es 0, en este caso las variaciones de X no explican en absoluto nada las
variaciones de Y.
5. COEFICIENTE DE CORRELACIÓN SIMPLE LINEAL.

Mediante la correlación, lo que se busca es un número, denominado coeficiente de


correlación, para indicar objetivamente el grado de variación conjunta que tienen las variables.

Para el caso de dos variables X e Y, y de covariación lineal (de ahí el nombre de simple y lineal),
el coeficiente de correlación que se representa por r, se define así:

Donde Sxy es la covarianza, Sx es la desviación estándar de la variable X y Sy es la desviación


estándar de la variable Y.

La covarianza está definida por la siguiente fórmula:

Si bien las varianzas son siempre positivas, y consecuentemente las desviaciones estándar, la
covarianza puede ser positiva o negativa. Es positiva, cuando las dos variables se mueven en el
mismo sentido, es decir cuando al aumentar una aumenta la otra, y es negativa si se mueven en
sentido contrario. Cuando la covarianza es positiva se dice que la covariación de las dos
variables es positiva o directa; cuando es negativa la covariación es negativa o inversa, y si es
nula, no hay covariación.

Es posible demostrar que el cuadrado del coeficiente de correlación (lineal simple) es igual al
coeficiente de determinación cuando se utiliza como modelo una línea recta. (Es decir, r es
igual a la raíz cuadrado de R2). Por tanto, como el coeficiente de determinación solo toma
valores comprendidos entre 0 y 1, el coeficiente de correlación tomará valores comprendidos
entre -1 y +1, lo que hace útil al coeficiente de correlación. Las conclusiones que se pueden
obtener en base a lo anterior son las siguientes:

 Si r = 1, la correlación lineal es perfecta y directa, o sea la nube de puntos está sobre


una recta creciente.
 Si r = -1, la correlación lineal es perfecta e inversa, o sea, los puntos de la nube están
todos sobre una recta decreciente.
 Si hay alto grado de asociación entre las variables, en forma directo o inversa entonces:
r tiende a +1, o r tiende a -1.
 Si r = 0, no existe en absoluto correlación lineal, en cuyo caso puede ocurrir que no
exista covariación entre las dos variables o bien que exista otra no lineal.
 Si r es próximo a 0, entonces no existe correlación lineal, pero puede haber otro tipo de
covariación.
 En los casos intermedios se puede hablar de una correlación lineal débil.

Los análisis precedentes permiten concluir que cuando existe escasa dispersión de los puntos
alrededor de su tendencia, se dice que hay alta correlación. Cuando hay mucha dispersión,
existirá poca correlación.

- Ejemplo. Un economista selecciona al azar una muestra de cinco fábricas de un cierto


sector de producción industrial para estudiar la relación entre el costo total de
producción (Y) y el volumen de producción (X). Obtiene la siguiente información:

200 600 25600 9000 0 2560 40

a) Determine la función de regresión, haciendo el ajuste a una línea recta.


b) Determine la varianza explicada, la varianza residual y la varianza tota.
c) Calcule el error estándar de estimación e interprete.
d) Calcule el coeficiente de determinación e interprete.
e) Calcule el coeficiente de correlación lineal simple e interprete
f) Grafique la función de regresión hallada.
R. Función de regresión: Yc = 56 + 1,6 Xi (Ver primer ejemplo de análisis de regresión).
R. Varianza Explicada; Varianza no explicada (o Residual); varianza total
R. Error estándar de estimación, Se, se define como la raíz cuadrada de la varianza no
explicada o residual

Se = √2 8 = 2,828 Los errores son pequeños, por tanto, la representatividad es grande.

R. Coeficiente de determinación R2

Las variaciones de las cantidades de producción explican en un 98%, las variaciones del
costo de producción, a través del modelo de regresión Yc = 56 + 1,6 Xi

R. Coeficiente de correlación (lineal simple), r. Este coeficiente es igual a la raíz


cuadrada del coeficiente de determinación, R2, cuando se utiliza como modelo una línea
recta.

R2 = 0,98; por tanto, r = √2 0,98 = 0,99 significa que existe alto grado de asociación entre
las variables, volumen de producción y costo total de producción.

- Ejemplo. Con base a la siguiente información sobre la relación de ingresos por


ventas/año (Y) y gastos publicitarios/año (X), de una empresa, responda las preguntas
planteadas.

a) Determine la función de regresión, ajustando a la ecuación: Y = a + b X


b) Determine la varianza explicada, la varianza residual y la varianza total.
c) Calcule el error estándar de estimación e interprete.
d) Calcule el coeficiente de determinación e interprete.
e) Calcule el coeficiente de correlación lineal simple e interprete.

- Ejemplo. Dada la siguiente relación de precios y cantidades demandadas de un


producto:

a) Determine la función de regresión, ajustando a la hipérbola equilátera, Y = a/X


b) Determine la varianza explicada, la varianza residual y la varianza total.
c) Calcule el error estándar de estimación e interprete.
d) Calcule el coeficiente de determinación e interprete.
e) Grafique la función de regresión hallada.
R. Función de regresión,
Ajustando a la hipérbola equilátera, Y = a/X, se tiene la función de regresión:

R. Varianza Explicada, Varianza Residual y Varianza Total.

R. Error estándar de estimación, Se, se define como la raíz cuadrada de la varianza no


explicada o residual

Se = √2 0 = 0; Los errores o residuos son iguales a cero, por tanto, la representatividad es


perfecta.
R. Coeficiente de Determinación, R2

- Ejemplo. Se relacionan las variables, gastos anuales de consumo (Y) e ingresos anuales
de hogares familiares (X), donde el coeficiente de determinación es igual a 0.81 y donde
la función de regresión es igual a: Yc = 15 000 + 0,40 Xi ¿Cómo explicaría la variabilidad
de los gastos de consumo?
Respuesta. Las variaciones de los ingresos anuales de hogares familiares, explican las
variaciones de los gastos anuales de consumo, en un 81% (R 2 = 0,81), a través del
modelo de regresión, Yc = 15 000 + 0,40 Xi

También podría gustarte