Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes Estadística
Apuntes Estadística
1. CONSIDERACIONES INICIALES
Las medidas de tendencia central tienen definiciones precisas, por ello muestran aspectos
particulares del fenómeno que se estudia. Una vez caracterizada la distribución a través de
medidas de tendencia central, interesa tener indicadores acerca del grado de variabilidad,
heterogeneidad con que la variable se distribuye en un conjunto de observaciones.
Dos distribuciones pueden tener iguales medidas de tendencia centra; sin embargo, pueden
mostrar grados de dispersión diferentes como puede observarse en el ejemplo siguiente:
Si solo se utiliza la media aritmética se llega a la conclusión de que ambas distribuciones son
equivalentes, lo cual es completamente falso.
Las gráficas I y II nos permiten observar que en la segunda distribución que corresponde al
municipio B, los ingresos de las familias están mas dispersos con respecto a su ingreso medio
“Y” por el contrario, la distribución de ingresos, en el municipio A, es más homogénea, ya que
los ingresos están más concentrados alrededor del ingreso promedio.
En esta situación es que se recurre a otras medidas que reflejen el grado de dispersión de las
distribuciones para obtener conclusiones más realistas sobre las distribuciones estudiadas.
2. RECORRIDO DE LA VARIABLE O AMPLITUD TOTAL Y RECORRIDO INTERCUARTILICO
RI = Q3 – Q1
En RI queda el 50% de las observaciones. Quedan eliminadas las perturbaciones que pueden
introducir los valores extremos.
Sin embargo, dada la situación de que la influencia de la disminución de una unidad es mínima,
en adelante en esta asignatura, para las observaciones en estudio, se utilizará la fórmula
siguiente.
5. DESVIACIÓN TÍPICA O DESVIACIÓN ESTÁNDAR (POBLACIONAL Y MUESTRAL)
Mientras más dispersos estén los valores de la variable, mayor será la magnitud de la
desviación típica puesto que mayores serán los desvíos respecto de la media aritmética, sin
posibilidades de compensación de desvíos por tratarse de suma de cuadrados. La desviación
típica se expresa en las mismas medidas en las que está expresada la variable. En tanto que la
varianza se expresa en el cuadrado de la unidad de medida.
N!
NCn= =❑5 C3 =10
( N −n ) ! n !
2. La varianza del producto de una constante por una variable es igual al cuadrado de la
constante por la varianza de la variable V [ YK ] =K 2 V [ Y ]
S = + (205) ^ (1/2) = 14.3 significa que los valores de la variable, gastos/mes, varían en promedio
de la media aritmética, en Bs. 14,3.
Por otra parte, no es posible hacer una comparación directa de dos medidas de dispersión, por
ejemplo, para las variables: ingresos y días de asistencia. Porque no se puede comparar
directamente las unidades de medida de $us y días. Para realizar estas comparaciones, es
preciso convertir cada una de las medidas a una expresión relativa.
S
CV =
Ý
Es una medida que permite llegar a conclusiones más realistas y ciertas, y es muy útil cuando se
presentan las siguientes situaciones:
i) Los datos están en las mismas unidades, pero tienen medias aritméticas muy
diferentes.
ii) Los datos están expresados en unidades diferentes.
Caso inciso c): Calcule el nuevo coeficiente de variabilidad que corresponda para la situación en
la que los gastos de transporte/mes de cada estudiante se ha aumentado en Bs. 20?
M [ Y + K ] =M [ Y ] + K
M [ Y +20 ] =95+20=115 Bs . Es la nueva media aritmética.
V [ Y + 20 ] =205
Consecuentemente, la nueva desviación estándar es la misma, S = +(205) ^ (1/2) = 14.3 Bs.
Caso inciso d): Calcule el nuevo coeficiente de variabilidad que corresponda para la situación en
la que los gastos de transporte/mes de cada estudiante se ha incrementado en un 20%?
2
V [ 1,2 Y ] =( 1,2 ) ( 205 )=295,20 ; que resulta ser la nueva varianza.
Los sueldos varían en “promedio” en un 1000 Bs. Con respecto a 10000 Bs. Por otra se
puede afirmar que hay alta concentración de los sueldos.
- Ejemplo. En diciembre / 2017, el precio promedio de un bien fue de 200 Bs, con una
varianza de 625. En diciembre / 2018, el mismo bien tuvo un precio promedio de 250 Bs,
y una desviación típica de 50 Bs. ¿En cuál de los meses hubo mayor estabilidad en los
precios?
8. COMPONENTES DE LA VARIANZA
Cuando las observaciones se clasifican en estratos de diferente tamaño, los mismos que tienen
diferentes medias aritméticas; siendo el número de estratos, h = I, II, …… L; el tamaño del
estrato es nh;Ý h es la media del estrato h;Ý es la media general; n es el número total de
observaciones en estudio; Sh2 es la varianza del estrato h.
a) Intervarianza: Se define como la varianza entre las medias aritméticas de los estratos.
En un indicador que representa la variabilidad entre los estratos.
1. SERIES BIDIMENSIONALES
Las parejas de valores, P (Xi ; Yi) se disponen en dos columnas, una para Xi otra para las Yi donde
algunos de los valores de la variable X puede repetirse con distintos valores de la variable Y y
viceversa.
En esta parte no se abordará la situación de las parejas de valores que presentan repeticiones o
frecuentas, los mismo que se disponen en una tabla de doble entrada, donde en la primera fila
se colocan los valores X1, X2, X3, …. Xh de la variable X, y en la primera columna se colocan los
valores de Y1, Y2, Y3, … Yk de la variable Y. En la confluencia de las columnas de X i con la fila Yj
se coloca la frecuencia nij referida al resultado (Xi ; Yi) correspondiente.
2. DIAGRAMA DE DISPERSIÓN
Dependencia causal unilateral: Se da cuando una variable X, influye en otra variable Y, pero no
al contrario.
Dependencia indirecta: Dos variables pueden mostrar una covariación a través de una tercera
variable que influye en ellas. (1a V, tasa natalidad; 2a V, consumo diario; 3a V, nivel –
vida/ingresos)
Concordancia: Siendo que X y Y son independientes, sin embargo, en sus variaciones existe
cierta concordancia.
Covariación casual: Hay casos en que se observa que existe una variación sincronizada entre
dos variables, que permiten deducir una asociación o dependencia entre ellas. No obstante, tal
covariación es totalmente casual.
La covarianza (Sxy) es el indicador que permite medir el grado de covariación existente entre
dos variables. La covarianza puede ser positiva o negativa.
La covariación entre dos variables es funcional o exacta cuando a cada valor de una de ellas, X,
corresponde uno tan solo de la otra variable, Y, Por el contrario, si a cada valor de cada una de
una de las dos variables corresponden varios de la otra variable, nos encontramos entonces
ante una covariación estadística.
Desde el punto de vista gráfico, ajuste consiste en la sustitución del diagrama de dispersión por
una línea, que se adapte lo mejor posible a todos ellos.
6. REGRESIÓN SIMPLE
“los valores de Y dados por la línea de regresión son estimaciones con carácter de promedios, si
bien estos promedios no se calculan necesariamente utilizando las formulas conocidas.”
(Barbancho, 1970,). Este Yc, es una suerte de promedio, calculado en este caso por el método
de los mínimos cuadrados.
Por otra parte, en la figura siguiente se puede ver que cada Yi observada puede separarse en la
parte que es debida a la dependencia exacta y a la que es debida a los factores aleatorios. En el
punto observado P (Xi; Yi), a la abscisa Xi le corresponde Yi; para la misma abscisa Xi la función
de regresión da el punto B, cuya ordenada se designa por Yc. La diferencia entre Yi y Yc es el
error, ei, debido a los factores aleatorios de perturbación. Es decir: Yi = Yc + ei
Por tanto, el análisis de regresión consiste en obtener los valores medios Yc (estimados) de la
variable dependiente, que corresponden a los valores observados Xi, con la condición de que
dichos valores Yc expresen fielmente la dependencia exacta entre Y, y X. el análisis de
regresio4n permite hallar una relación funcional que sea el mejor ajuste a la nube de puntos.
En este sentido, aplicando el enfoque analítico, sin duda el mas generalizado, se utiliza una
función matemática para explicar la dependencia causal exacta existente explícitamente entre
las dos variables observadas. En este sentido, la función de regresión, de manera genérica, se
escribe de la siguiente manera:
Por tanto y con base a los elementos señalados, resulta que las variaciones de la variable Y
vienen explicadas, en parte, por las variaciones de X y, en parte, por los errores aleatorios. En
general puede escribirse:
Y = f(X) + e, con lo cual se tiene la explicación causal completa de la variable dependiente, a
diferencia de la relación anterior que solo explica la parte exacta.
Como los errores aleatorios son imprevisibles, se trabaja con la relación anterior, sin olvidar el
significado de ambas.
Es importante señalar que con la función de regresión se puede predecir valores de la variable
predictando, al conocer las variaciones de la variable predictor. Esta aplicación convierte al
análisis de regresio4n en una herramienta de gran utilidad. La validez de esta proyección por
regresio4n depende del grado en que están asociadas las variables y en la medida en que están.
De acuerdo a lo expresado en el numeral 5., la sustitución de una nube de puntos por una
función, se refiere a la “óptima adaptación”, la misma que dará lugar a distintos métodos de
ajuste. En este caso, por la utilidad práctica, se tratará el denominado método de los mínimos
cuadrados ordinarios.
En la regresión simple solo intervienen dos variables con una relación de causalidad directa o
indirecta, es decir que la regresión debe aplicarse a variables que tengan una relación lógica, es
decir, que exista razonablemente dependencia entre las variables.
Para ello es indispensable disponer de información acerca de los valores de cada una de las
variables en distintos periodos (análisis histórico cronológico) o en distintos lugares (corte
transversal en el tiempo). De esta manera, se contará con un diagrama de dispersión, la misma
que permitirá decidir si la función adecuada es una recta, una hipérbola, una parábola, una
función potencial, una función exponencial.
Una vez que se ha decidido cual es la función adecuada para el ajuste de regresión, es posible
determinar los parámetros de la función elegida.
Para la línea recta. La aplicación del método especial al ajuste de una recta, dada una
determinada nube de puntos, permite cuantificar los parámetros a y b de la expresión general
de la recta a ajustar: Yc = a + b X
Proceso. Considerando el fundamento o condición base del método especial de los mínimos
cuadrados ordinarios:
∑ (Yi−Yc)2 es igual a un valor mínimo.
Y aplicando derivadas, se tiene el sistema de ecuaciones normales correspondientes.
En este sentido, considerando el fundamento o condición base del método especial de los
mínimos cuadrados ordinarios:
La aplicación del método especial al ajuste de una función exponencial, dada una determinada
nube de puntos, permite cuantificar los parámetros a y b de la expresión general de la función
exponencial a ajustar Yc = a b x
9. PROCEDIMIENTO NEMOTÉCNICO
Para determinar las ecuaciones normales que correspondan a funciones lineales (o linealizadas)
y en forma directa, se procede de la siguiente manera:
Se multiplica la función general (lineal o linealizada) de ajuste, por el coeficiente del primer
parámetro a determinar y se aplica el operador de la sumatoria. Se multiplica la función general
(lineal o linealizada) de ajuste, por el coeficiente del segundo parámetro a determinar y se
aplica el operador de la sumatoria.
Y: variable dependiente
X1, X2, X3,……..: variables independientes
Donde Yc es la parte exacta, dada por una función matemática, y e i es el error aleatorio debido
a factores imprevistos.
El análisis de regresión consiste, como antes, en obtener una función matemática que permita
tener los valores Yc en función de las variables independiente X1, X2, X3, …
En este caso se limita a tres variables independientes. Para el caso de dos variables solo hacer
b3 = 0
El método más utilizado para obtener los parámetros es el de los mínimos cuadrados
ordinarios, consistente en buscar el valor de esos parámetros tal que ∑ ei2=mínimo
La correlación señala el grado de covariación (asociación) entre dos o más variables, sin exigir
ningún tipo de relación especial entre ellas. Solo permite, pues conocer o describir la existencia
de covariación. Si no hay una relación lógica entre las variables no puede ser utilizada para
obtener predicciones.
En este caso se tiene la correlación directa o positiva cuando las variables varían en el mismo
sentido, y la correlación inversa o negativa, cuando al variar una variable en un sentido positivo
la otra variable varía en sentido negativo.
Teniendo en cuenta que las variaciones de una variable se miden por su varianza, resulta que la
variación de las Yi se puede medir por Sy2, la variación de las Yc por Syc2 y la variación de las ei
por Se2.
En tal caso se cumple la siguiente relación, la misma que tiene validez general, cualquiera sea la
función analítica estudiada y ajustada.
Para cuantificar el mayor o menor grado en que los puntos están concentrados
alrededor de la función de ajuste, es necesario determinar un coeficiente e indicadores.
A continuación, se presentan varias medidas o coeficientes que permiten cuantificar el
grado de asociación de las variables.
La línea de regresión que se obtiene, tiene categoría de “Línea Media.” Que discurre por entre
la nube de puntos y que trata de sintetizarlos o resumirlos. A un valor de Xi le pueden
corresponder varios valores de Yi, pero solo le corresponde un valor de Yc dado por la línea.
Ahora bien, ¿cuán representativa es la línea de regresión con respecto a la nube de puntos?
La medida de dispersión más utilizada, cuando la regresión se ajusta por mínimos cuadrados, es
la varianza no explicada. Esta varianza revive el nombre específico de varianza residual porque
los errores ei se denominan residuos. Por ello, si la varianza residual es grande, quiere decir que
los residuos son grandes y consecuentemente la representatividad es pequeña.
Una medida de dispersión de las Yi observadas con respecto a las “medias” Yc, es un
instrumento complementario valiosos e imprescindible en el análisis de regresión. El error
estándar es la raíz cuadrada de la varianza no explicada; este error da un promedio de los
errores o residuos, por lo tanto, lo que mide es el tamaño medio de dichos errores o residuos y
viene expresado en la misma unidad que la variable independiente.
En los hechos, la variable X no explica todas las variaciones de Y, sino solamente una parte; la
parte que no explica, la restante es el error o residuo.
Teniendo en cuenta que las variaciones de una variable se miden por su varianza, resulta que la
variación de las Yi se puede medir por Sy2, la de las Yc por Syc2 y la de las ei por Se2.
Es decir que la variación total de la variable dependiente – o sea la variación que se desea
explicar – es igual a la variación debida a la variable explicativa, (según cierto modelo de ajuste)
más la variación de los errores aleatorios.
Por lo tanto, si Syc2 (un sumando) se divide por Sy2 (el total), se tendrá la parte relativa de la
variación total que viene explicada por el modelo. Este cociente se denomina coeficiente de
determinación y se representa genéricamente por R2. Su fórmula de definición es por tanto:
Es una medida de la proporción en que la variación total indicada por Sy2 viene explicada por
uno de sus componentes Syc2, y está definido por el cociente entre esta parte y el todo. En la
segunda fórmula, el coeficiente de determinación queda expresado en función de la varianza
total y de la varianza residual. Por tanto. Es un indicador independiente de toda unidad de
medida.
Conviene señalar una propiedad muy importante del coeficiente de determinación que aparece
implícita en lo anterior. Se trata de que este solo toma valores comprendidos entre 0 y 1.
Cuando el valor de R2 es 1, entonces no hay errores o residuos y absolutamente todas las
variaciones de Y viene explicadas por X.
Cuando el valor de R2 es 0, en este caso las variaciones de X no explican en absoluto nada las
variaciones de Y.
5. COEFICIENTE DE CORRELACIÓN SIMPLE LINEAL.
Para el caso de dos variables X e Y, y de covariación lineal (de ahí el nombre de simple y lineal),
el coeficiente de correlación que se representa por r, se define así:
Si bien las varianzas son siempre positivas, y consecuentemente las desviaciones estándar, la
covarianza puede ser positiva o negativa. Es positiva, cuando las dos variables se mueven en el
mismo sentido, es decir cuando al aumentar una aumenta la otra, y es negativa si se mueven en
sentido contrario. Cuando la covarianza es positiva se dice que la covariación de las dos
variables es positiva o directa; cuando es negativa la covariación es negativa o inversa, y si es
nula, no hay covariación.
Es posible demostrar que el cuadrado del coeficiente de correlación (lineal simple) es igual al
coeficiente de determinación cuando se utiliza como modelo una línea recta. (Es decir, r es
igual a la raíz cuadrado de R2). Por tanto, como el coeficiente de determinación solo toma
valores comprendidos entre 0 y 1, el coeficiente de correlación tomará valores comprendidos
entre -1 y +1, lo que hace útil al coeficiente de correlación. Las conclusiones que se pueden
obtener en base a lo anterior son las siguientes:
Los análisis precedentes permiten concluir que cuando existe escasa dispersión de los puntos
alrededor de su tendencia, se dice que hay alta correlación. Cuando hay mucha dispersión,
existirá poca correlación.
R. Coeficiente de determinación R2
Las variaciones de las cantidades de producción explican en un 98%, las variaciones del
costo de producción, a través del modelo de regresión Yc = 56 + 1,6 Xi
R2 = 0,98; por tanto, r = √2 0,98 = 0,99 significa que existe alto grado de asociación entre
las variables, volumen de producción y costo total de producción.
- Ejemplo. Se relacionan las variables, gastos anuales de consumo (Y) e ingresos anuales
de hogares familiares (X), donde el coeficiente de determinación es igual a 0.81 y donde
la función de regresión es igual a: Yc = 15 000 + 0,40 Xi ¿Cómo explicaría la variabilidad
de los gastos de consumo?
Respuesta. Las variaciones de los ingresos anuales de hogares familiares, explican las
variaciones de los gastos anuales de consumo, en un 81% (R 2 = 0,81), a través del
modelo de regresión, Yc = 15 000 + 0,40 Xi