Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para iniciar nuestro estudio de la estadística presentaremos dos variables aleatorias continuas
cuyas distribuciones se aplican en los métodos estadísticos que veremos posteriormente. Estas
variables aleatorias son la t de Student y la F de Snedecor (Fisher).
En 1908 publicó su artículo en la revista Biometrika, pero tuvo algunas dificultades, ya que en la
cervecería Guinness los patrones no toleraban las publicaciones de investigaciones de sus
empleados. Para evadir esta desaprobación, publicó su trabajo en secreto bajo el seudónimo
“Student” (estudiante), que es como lo conocemos actualmente el tipo de estadística que
desarrollo.
La t de Student es una distribución que surge del problema de estimar la media de la población
normalmente distribuida cuando el tamaño de la muestra es pequeña (n < 30).
Se caracteriza por:
La distribución t de Student
√ √
( )
( )
√ ( )
Aquí observamos algunas curvas de densidades t de Student para distintos valores de sus grados
de libertad (n)
Recordemos que la densidad de una variable aleatoria continua es una función matemática no
negativa cuya integral da 1 (uno), ya que la densidad cumple las mismas propiedades que las
probabilidades para una variable discreta.
( )
Como vimos, existen diferentes distribuciones t, cada una de ellas relacionada con lo que se
denomina “grados de libertad” (df), que definimos cuando estudiamos la distribución Chi-
Cuadrado como el número de valores que podemos elegir libremente, es decir, el número de
observaciones o tamaño de la muestra. A medida que los grados de libertad son más grandes y
tienden a , las formas de las curvas de las densidades t de Student tienden a ser más próximas a
la forma de la curva Normal Standard. Cada curva t está relacionada con sus grados de libertad y
por ende no se pueden usar valores únicos estandarizados como en el caso de la Normal Standard.
Existe una tabla de la distribución t de Student distinta para cada uno de los posibles grados de
libertad. Sin embargo, a partir de unos n = 10 df se puede utilizar la tabla Z = N (0;1) en reemplazo
de la t de Student.
Es importante resaltar que por ser una distribución simétrica, al tener información sobre un valor
positivo de una se obtiene automáticamente el dato para el mismo valor con signo negativo.
Ejemplo 1: Intervalo de confianza para µ con σ desconocida
El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4,
9.8, 10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza del 95% para la
media de todos los contenedores si se supone una distribución aproximadamente
normal.
Solución:
Σ Xi/ n = 70 / 7
10
s2
= Σ xi2/ n - ̅
s2
= 700,48/7 – 102
s=√ –
S = 0,261
v=n–1=7–1
v=6
̅ ̅
√ √
En la tabla t de Student se encuentra que t0.025=2.447 con 6 grados de libertad por
lo tanto el intervalo de confianza al 95% para µ es:
t = 9,758 t = +10,241
Con un nivel de confianza del 95% se sabe que el promedio del contenido de los
contenedores está entre 9.758 y 10.241 litros.
Ejemplo 2:
∑ = 59630
Σ xi2 = 237.158.728
2.2
0.025; 2.145
2.1
1.9
1.8
0.05; 1.761
1.7
0.02 0.025 0.03 0.035 0.04 0.045 0.05 0.055
Para interpolar linealmente hacemos la siguiente proporción :
Para encontrar s
s2= [ΣXi2/ n] – 2
sS2 = 7333,257
sS = 85,63
̅ ̅
√ √
Entonces:
(3929,6; 4021,05)
1-α
0,94
α/2 = 0,03
t = 3929,6 t = 4021,05
Ejemplo 3: Método del valor crítico para la prueba t de hipótesis sobre la media
En una fábrica que produce muebles, en el año 2016 se obtuvo que el costo
de producción era de U$$ 6540, por lo que el gerente del área de producción
desea extraer una conclusión sobre si ésta cantidad ha variado o no
significativamente en el año 2017.
Realizaremos un test de hipótesis para la media poblacional. Elegiremos
como nivel de significación α= 0,05. La desviación standard de la población es
desconocida y suponemos que la misma sigue una distribución Normal tipificada.
El jefe del área de producción le proporciona la siguiente información:
Septiembre
Noviembre
Diciembre
Octubre
Febrero
Año 2016
Agosto
Marzo
Enero
Mayo
Junio
Julio
Abril
Costo de
Producción 6100 5980 8240 7125 5980 6455 4980 5590 4980 6570 4865 6130
(U$$)
H0 µ = USS 6540
H1 µ ≠ USS 6540
α = 0,05
√
que sigue una distribución t de Student con n-1 grados de libertad (v).
v=n–1
v = 12 – 1
v = 11
0,95
PASO 5: Calculamos ahora el estadístico de contraste
Media Poblacional:
µ = 6540
Media muestral:
= Σ xi / n = 72995 / 12 ̅ = 6082,91
s2= [Σxi2 / n] – ̅
s2 = 454319975 / 12 - ̅
s2 = 37859997,92 – 37001794,07
s=√
s = 926,39
Tamaño de la muestra: n = 12
6082,91 - 6540
t =
926,39 / √12
t = - 1,709
PASO 6: Aplicamos la Regla de Decisión correspondiente, extraemos las
conclusiones y tomamos una decisión basada en el análisis estadístico.
La distribución F de Fisher – Snedecor puede construirse como cociente de dos variables aleatorias
Chi- Cuadrado independientes, cada una dividida por sus grados de libertad:
Como toda distribución continua, la F de Fisher – Snedecor tiene una densidad, que es la siguiente:
( )( )
( )
( )
donde, según recordaremos, ∫ .Esto representa una familia de graficas de
acuerdo a los df del numerador (m) y los df del denominador (n). Algunos de estos casos aparecen
graficados aquí:
( )
donde I es la función Beta incompleta regularizada, que es definida en términos de la función beta
incompleta y de la función beta completa y esto es:
Este resultado es muy útil cuando tenemos que realizar Test de Hipótesis o Intervalos de Confianza
e) si ( )
Las tablas nos dicen que, para m = 10 y n = 6, el percentil del 90% es 2,94 y el percentil 95% es
4,06. Calcular los valores de la distribución F de 6 y 10 grados de libertad que dejan a su izquierda
una probabilidad de 0.1 y 0.05 respectivamente.
SOLUCION
( )
( )
( )
( )
Apunte de cátedra
Probabilidad y Estadística
Parte III
2017
1
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Estadística Descriptiva y Estimación de Parámetros
Estimación de parámetros
Recordemos que un parámetro poblacional verdadero θ es un número fijo, habitualmente
desconocido, que caracteriza a una r.v. X o identifica a una población.
Ejemplos:
a) X: estatura de los argentinos.
θ: μ (promedio de estatura de todos los argentinos)
Es muy difícil de obtener este valor poblacional porque para calcularlo necesitaríamos
conocer en un mismo momento las estaturas de TODOS los argentinos, sin excepción.
Hay varios métodos de estimación para obtener estimadores ̂ de parámetros θ, entre otros :
Puntuales ̂
Por intervalos de confianza IC (θ) = ( ̂ ̂ )
De Máxima Verosimilitud
Por Mínimos Cuadrados
Regresión (una recta u otra función)
Test de Hipótesis
También hay estimadores ̂ mejores que otros, según tengan o no las siguientes cualidades y
propiedades.
Estadística descriptiva
Una vez recolectados los datos de una muestra ( ) de una r.v X, comenzamos
con un análisis exploratorio inicial de ellos. Este análisis introductorio consiste en calcular sus
Medidas Resumen, elaborar gráficos y extraer conclusiones inmediatas de las mismas. En un paso
posterior, profundizaremos este análisis de la estadística descriptiva con métodos más finos que
componen la llamada “estadística inferencial”. Esta nos permitirá arribar a conclusiones distintas a
las anteriores en el sentido de que proponen modelos de predicción del comportamiento de la r.v
X, así como también información mucho más detallada de los parámetros de X.
Comenzaremos con el tratamiento de una sola variable X, es decir con lo que se denomina análisis
univariado. Posteriormente consideraremos la incorporación simultanea de mas variables
aleatorias, cuyo comportamiento estudiaremos en conjunto. Estas técnicas se denominan análisis
multivariado.
Medidas resumen:
Los tipos de datos más usuales que aparecen en estadística se pueden dividir en cualitativos y
cuantitativos. Los cualitativos son datos no matemáticos como por ejemplo colores, marcas de
productos, nombres de empresas, plantas y animales, lugares geográficos, partidos políticos,
programas de televisión, clubes de fútbol, etc. Cuando tenemos esta clase de datos solo se pueden
contar cuantos casos hay de cada uno y por lo general se tratan mediante técnicas denominadas
de Estadística No Paramétrica. Son llamadas variables de conteo y sus datos se organizan en las
llamadas tablas de contingencia. No tienen un orden matemático natural, por lo que se dificulta su
organización, si bien en ciertas situaciones se les puede asociar un orden como por ejemplo en los
elementos de la tabla periódica o en la escala cromática de colores, los que se pueden por su
longitud y frecuencia de onda.
Desde el punto de vista matemático las variables cuyos datos son más interesantes son las
cuantitativas o numéricas. Éstas, a su vez se pueden clasificar en discretas, continuas y
categorizadas o categóricas. Las continuas son las más ricas desde el punto de vista paramétrico
3
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
para el tratamiento estadístico de los datos en cuanto a la gran cantidad de test y otras técnicas
que se pueden aplicar. Algunos ejemplos son longitudes, tiempo, errores de medición, datos
antropométricos, datos climáticos, datos económicos.
En la realidad siempre vamos a tener una muestra de tamaño n de una variable aleatoria
X. Esos datos así como se obtuvieron, sin ningún orden ni organización se denominan datos no
agrupados o “crudos”. Se pueden analizar así como están y calcular los estimadores de los
parámetros de posición o tendencia, de dispersión o variabilidad, y de forma con los datos
“crudos" tal como veremos en el punto siguiente.
Datos agrupados
Para un mejor tratamiento de las observaciones o registros, en especial cuando estos son
muchos, se los suele organizar en grupos denominados Intervalos de Clase (IC), tratando de que
todos los IC tengan la misma longitud. Una vez agrupados los datos por IC, se construye una Tabla
de Frecuencias en la que se van poniendo las frecuencias Absolutas, Relativas, Absolutas
Acumuladas, Relativas Acumuladas, Marcas de clase, Desvíos con respecto a la marca de clase.
4
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Medidas de dispersión, error o variabilidad
El rango
La varianza
El desvio standard
Los cuartiles
El coeficiente de variación
Medidas de forma
( ) ̅
( )
( ) ̂
( )
etc.
Tipos de datos :
Los datos estadísticos suelen presentarse bajo tres formatos posibles: simples (o “crudos”), y
agrupados. Los agrupados a su vez pueden ser por frecuencias o por intervalos de clase (IC).
Veamos cómo se calculan las medidas resumen en cada uno de estos casos.
5
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Datos simples
∑
̂ ̅
̂ ̅ √∏
̂ ̅
con la condición de que ∑ , es decir que la suma de todos los pesos o cargas o
probabilidades debe ser 1.
La mediana: es el registro que nos deja la mitad inferior de los datos (ordenados
crecientemente) a su izquierda, y la mitad superior de los datos a su derecha. Si la
cantidad de datos es un número impar, existirá este dato central o mediana. Si la cantidad
de datos es un número par, promediamos los dos datos centrales.
La definición de la mediana es lafuncióncuantil ( ), es decir la imagen inversa o
preimágen de la distribución (acumulada)F(x) en 0.5.
( )
La moda: es el dato o registro que tiene la frecuencia absoluta más alta, es decir la
observación que se repite más veces. Puede darse que sean dos los datos con la
frecuencia más alta, en este caso diremos que la distribución es bimodal. También puede
ser trimodal o en general multimodal .
6
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Medidas de dispersión, error o variabilidad
La varianza muestral sesgada:
∑ ( ̅)
̂
La varianza muestralinsesgada
∑ ( ̅)
̂
Observaciones: cuando n es grande, son parecidas. La diferencia entre ellas se nota cuando n es
pequeña.
Calculemos para eso la esperanza del estimador de la varianza. Antes de ello observemos que de
la expresión de la varianza de la rv X obtenemos lo siguiente:
( ) ( ) , ( )- ( )
( )
( ̅) (̅ ) , ( ̅ )- (̅ )
(̅ )
∑ ( ̅ )
(̂ ) ( )
[∑( ̅) ]
[∑( ̅ ̅ )]
7
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
[∑( ) ̅ ∑( ) ∑( ̅ )]
[∑( ̅ ̅ )]
[∑( ̅ )]
[∑ ( ) ( ̅ )]
[∑( ) ( )]
[∑( ) ]
[∑( )] , -
( ) (̂ )
Como vemos, este estimador de la varianza no es insesgado ya que su media no coincide con el
valor verdadero del parámetro poblacional. Por ello llamaremos sesgado al estimador ̂ . Pero
observemos que si en lugar de ̂ usamos como estimador de la varianza a
∑ ( ̅)
̂
es decir dividiendo la suma cuadrática del numerador por n-1 en lugar de hacerlo por n,
obtenemos un estimador muestralinsesgado de la varianza poblacional verdadera
Desvío Standard
El inconveniente de la varianza es que las unidades originales de los datos quedan
elevadas al cuadrado, por lo tanto no se puede comparar con la media, la mediana, la
moda o con los mismos datos. Para solucionar este inconveniente es habitual utilizar la
raíz cuadrada de la varianza. Este parámetro nuevo se denomina desvío standard y de este
modo recuperamos las unidades iniciales de los datos. Al tener dos varianzas posibles
(sesgada e insesgada) también tendremos dos desvíos standard opcionales.
8
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
∑ ( ̅)
̂ √
∑ ( ̅)
̂ √
Los cuartiles
Son medidas de variabilidad asociadas a la mediana. Al igual que ella, dependen del orden
de los números reales. Los cuartiles son dos, y , que marcan respectivamente el 25%
y el 75% de los datos menores a la izquierda de cada cuartil. Es decir que la cuarta parte
más pequeña de los datos queda a la izquierda de , y la cuarta parte más grande de los
datos queda a la derecha de . Luego, la mitad central de los datos queda comprendida
entre, y . Las definiciones de los cuartiles, análogas a la definición de la mediana,
quedan establecidas por la función cuantil que es la función inversa ( ) de la
distribución (acumulada) F(x), de la siguiente manera
( )
( )
Box Plot
Cuando el Coeficiente de Variación C.V (X) es alto (mayor que un 5% o hasta un 20%)
podemos hacer otro análisis estadístico e intentar algunos cambios para reducirlo. Este
análisis se denomina Box Ploto “diagrama de caja”. En síntesis se trata de construir un
esquema utilizando los cuartiles como bordes y levantando unas barreras que son límites
o extremos que nos van a indicar la presencia de datos muy extremos. Si encontramos
este tipo de datos, a los que llamaremos “outliers”, intentaremos recortarlos (trimming) y
recalcular el coeficiente de variación.
9
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ahora colocamos todos los datos de X en el diagrama. Observemos que el 50% de los
datos (los centrales) están dentro de la caja (box).Tratemos de detectar la presencia de
datos muy extremos, que son los que se ubican por fuera de las barreras externas (BEI y
BED).
Si se detectan outliers, que son los datos muy extremos quedesestabilizan a la media ̅ , la
intención es eliminarlos o recortarlos.Luego del recorte, que no se recomienda que
exceda de un 3% o un 5% del total n de datos, se recalcula el C.V (X), ahora recortado.
Luego observamos si el C.V bajó a niveles aceptables. En este caso, tomaremos la media
recortada μ como medida de tendencia y el desvío standard recortado (σ) como medida
de dispersión o error.
En el ejemplo anterior de las temperaturas media diaria de julio 2011 en Río Gallegos, en
ºC, calculemos las medidas de dispersión
Ejemplo:
( )
̅
10
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
34% es muy alto, existe mucha heterogeneidad, los datos aparecen muy dispersos
alrededor de la media. Esto amerita la construcción de un box plot.
Medidas de forma
Sesgo
También llamado coeficiente de asimetría, mide cuan simétrica es la distribución de la
población o de los datos de la muestra en el caso en que lo estemos estimando. Existen
dos versiones del sesgo alrededor de la media, una “gruesa” o coeficiente de asimetría de
Pearson y otra “fina” o coeficiente de asimetría de Fisher. El sesgo medido en forma
rápida y gruesa es
(̅ )
Una medida mucho más fina del sesgo se obtiene utilizando el tercer momento centrado
en la media
∑ ( ̅)
*( ) +
11
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Coeficiente de asimetría de Bowley:
Esta medida de la asimetría se aplica cuando queremos observar si la distribución de los
datos y de la población de la que fueron extraídos tiene un comportamiento simétrico
alrededor de la mediana.
( )
12
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
La kurtosis
Mide la homogeneidad o heterogeneidad de los datos alrededor de la media
∑ ( ̅)
A diferencia del sesgo, cuyo valor de referencia es 0 (simetría perfecta), la kurtosis se compara
con el valor 3, que representa una kurtosis media, típica de la distribución Normal Standard. Por lo
tanto, una vez calculado su estimador usualmente debemos restarle 3 para obtener un valor de
kurtosis referido al 0.
Podemos evaluar el sesgo y la kurtosis de manera teórica para todas las variables aleatorias que
hemos estudiado. Para esto solo tenemos que aplicar la definición de ambos conceptos. Veamos
entonces el sesgo y la kurtosis de las distribuciones que hemos estudiado:
En el caso de la ( )Binomial:
13
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Sesgo:
√ ( )
( )
Kurtosis: ( )
Para la distribución Geométrica obtenemos por cálculo directo que, si ( ):
Sesgo:
√
Kurtosis:
Distribución Hipergeométrica, si ( ):
( ) ( ) ( )
Sesgo:
, ( ) ( )- ( )
( ) ( ) ( ) ( )( )
Kurtosis: 0 1 0 1
( )( )( ) ( )
Distribución de Poisson, si ( ):
Sesgo:
Kurtosis:
Kurtosis:
( )
Distribución Normal, si ( )
Sesgo: 0
Kurtosis: 3
Distribución Gamma, si ( )
Sesgo:
√
Kurtosis:
Distribución Exponencial, si ( )
Sesgo: 2
Kurtosis: 9
Distribución t de Student , si
Sesgo: 0 para n > 3
Kurtosis:
Distribución F de Snedecor , si ( )
( )√ ( )
Sesgo: para
( )√ ( )
[( ) ( ) ( ) ( )]
Kurtosis:
( ) ( ) ( )
Ejemplo de aplicación
X : T (temperatura media diaria de julio 2011 en Río Gallegos, en ºC, datos oficiales del
Servicio Meteorológico Nacional, SMN)
Los datos observados son los siguientes:
∑ ∑
Media aritmética: ̂ ̅
16
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Con los resultados obtenidos a partir de esta tabla en Excel, podemos hallar
inmediatamente las medidas buscadas.
∑ ( ̅)
Varianza sesgada: =
∑ ( ̅)
Varianza insesgada:
Sesgado: √
Insesgado: √
En consecuencia el coeficiente de variación es:
CV = ̅
que resulta ser muy alto ya que se interpreta como que hay un 113% de dispersión,
variabilidad, error, o “ruido” de los datos alrededor de la media ̅ . Esto nos
indica precisamente que la media no es representativa ni confiable como medida de
tendencia o posición. En consecuencia debemos valernos de otra medida de tendencia,
como por ejemplo la mediana, que ya hemos calculado y vale 1,90 °C, y sus correspondientes
medidas de dispersión que son los cuartiles, que en este caso valen:
∑ ( ̅)
*( ) +
Este valor nos indica que la distribución de los datos esta sesgada a izquierda. Esta
asimetría negativa se reflejará gráficamente en una “cola larga” hacia la izquierda, y
significa que existen valores o datos extremos a la izquierda (menores) de la media.
17
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
∑ . ̅/
Kurtosis:
Este valor nos indica que la distribución de los datos es mesocúrtica, es decir que los datos se
concentran alrededor de la media de manera similar a lo que ocurriría si los mismos siguieran una
distribución Normal.
Observemos que también podríamos haber tomado un estimador insesgado para la kurtosis, es
decir dividiendo por n-1 en lugar de dividir por n en el numerador de k. En este caso, el estimador
de la kurtosis nos da
∑ . ̅/
3
Recordemos que en la literatura del tema y en los software estadísticos se acostumbra a restarle 3
(que es el valor de referencia para la kurtosis) a este resultado.
Agrupemos los datos del ejercicio de aplicación con una r.v. X: T temperatura media diaria del mes
de Julio en Río Gallegos, que ya analizamos con los datos “crudos”.
Tomemos 5 I.C.
Mínimo: 5 IC
R= 6,5
18
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
IC1 IC2 IC3 IC4 IC5
1,4 1,4
IC f Fa fr Fra mi
TOTAL 31 - - 1 -
f = frecuencia absoluta
fr = frecuencia relativa
( ) ( ) ( ) ( ) ( )
̅̅̅
19
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
∑ ( ̅ )
Varianza (agrupada): (sesgada)
2(2,3 1, 4483) 2 3(0,9 1, 4483) 2 6(0,5 1, 4483) 2 12(1,9 1, 4483) 2 8(3,3 1, 4483) 2
S
2
A 2,57
31
∑ ( ̅ )
(insesgada)
Desvío Standard
√ √
√ √
C.V (agrupado)
̅
(sesgada)
̅
(insesgada)
(∑ )
Mediana (agrupada) = * +
donde
20
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Calculemos la Mediana Agrupada a partir de la tabla de frecuencias, para la temperatura media
diaria de julio 2011 en Río Gallegos.
31 9
11 2 1, 4
1, 2 2 1, 4 1, 2 1, 725
12 12
Moda: la moda puede deducirse de una distribución de frecuencias o de un histograma a
partir de la siguiente fórmula:
[ ]
donde:
∑ ( ̅)
(̅ ) ( )
∑ ( ̅)
*( ) +
21
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ejemplo de la mediana agrupada por IC:
Calculemos la Mediana Agrupada a partir de la tabla de frecuencias, para la temperatura media
diaria de julio 2011 en Río Gallegos.
31 9
2 11 2 1, 4
1, 2 1, 4 1, 2 1, 725
12 12
0,75
0,5
0,25
T
-3 -2 -1 0 1 2 3 4
( )
22
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Para datos agrupados por IC podemos utilizar las siguientes expresiones de los cuartiles
. /
[ ]
. /
[ ]
donde
0,4
0,3
0,2
0,1
T
mc mc mc mc mc
-4 -3 -2 -1 0 1 2 3 4
23
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Polígono de frecuencias: es otra aproximación más precisa a la densidad de la variable aleatoria.
Se construye uniendo con una poligonal los puntos medios superiores de las barras del
histograma.
Diagrama Circular o Torta es un círculo que representa al 100% de la muestra, dividido en sectores
circulares cuyas áreas son proporcionales a las frecuencias relativas de los I.C.
La media aritmética
∑
̂ ̅
∑ ( ̅)
̂
24
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
La varianza muestralinsesgada
∑ ( ̅)
̂
Desvío Standard
∑ ( ̅)
̂ √
∑ ( ̅)
̂ √
Tabla de frecuencias
1 2 0,025 2 0,025
2 5 0,0625 7 0,0875
3 6 0,075 13 0,1625
4 28 0,35 41 0,5125
5 20 0,25 61 0,7625
6 11 0,1375 72 0,9
7 5 0,0625 77 0,9625
8 3 0,0375 80 1
Total 80 1
26
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Frecuencias absolutas
30
25
20
15
10
0
0 2 4 6 8 10
Medidas resumen:
La media aritmética
∑
̂ ̅
∑ ( ̅)
̂
27
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
La varianza muestralinsesgada
∑ ( ̅)
̂
Desvío Standard
∑ ( ̅)
̂ √
∑ ( ̅)
̂ √
Es decir que tenemos un CV del 32%, lo que nos indica que es alto y en
consecuencia la media ̅ no es confiable, en el sentido de que no es representativa
de la cantidad de hojas que entregaron los alumnos porque presenta un elevado
grado de variabilidad, error o dispersión de los datos a su alrededor. En
consecuencia podemos optar por utilizar la mediana como medida de posición o
tendencia en lugar de la media
28
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Mediana para datos agrupados por frecuencias
( )
donde F es la frecuencia relativa acumulada. De la tabla de frecuencias
observamos directamente que en este caso la mediana corresponde al dato o valor
de X = 4.
Moda para datos agrupados por frecuencias
También usamos la tabla de frecuencias para encontrarla. Vemos que el dato que
tiene la frecuencia absoluta más alta es de nuevo X = 4.
( )
( )
BOX PLOT
Recordemos nuevamente esta definición: cuando el Coeficiente de Variación C.V (X) es alto (mayor
que un 5% o un 10%) podemos hacer otro análisis y algunos cambios para reducirlo.
29
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ahora colocamos todos los datos de X en el diagrama. Observemos que el 50% de los datos (los
centrales) están dentro de la caja (box).
Tratemos de detectar la presencia de datos muy extremos, que son los que se ubican por fuera de
las barreras externas (BEI y BED).
Si se detectan outliers, que son los datos muy extremos quedesestabilizan a la media, la intención
es eliminarlos o recortarlos.
Luego del recorte, que no debe exceder de un 3% o un 5% del total n de datos, se recalcula el C.V
(X), ahora recortado.
Luego observamos si el C.V bajó a niveles aceptables. En este caso, tomaremos la media recortada
μ como medida de tendencia y el desvío standard recortado (σ) como medida de dispersión o
error.
Si el CV recortado C.V.r no se redujo hasta un valor aceptable, tomamos la mediana como medida
de posición o tendencia y los cuartiles como medida de dispersión o error.
30
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Recalculamos el cv recortado:
Recalculamos el cv
( )
̅
31
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Estimadores de máxima verosimilitud
La estimación por máxima verosimilitud (conocida también como EMV y, en ocasiones, MLE
Maximun Likelihood Estimations) es un método de estimación puntual basado en optimizar
(maximizar) una función llamada de verosimilitud o credibilidad, que depende de la densidad (caso
X continua) o distribución de probabilidades (caso X discreta) de la variable aleatoria X que
depende de un parámetro . Fue recomendada, analizada y popularizada por Ronald Fisher
aproximadamente en 1920 pero fue previamente planteado por Bernoulli, Euler, entre otros.
Dada una muestra aleatoria de una r.v. que depende de un parámetro ; el estimador
de máxima verosimilitud de , llamado ̂, es el valor de que maximiza a ( )
donde L es la función de verosimilitud, la densidad conjunta de la muestra que explicaremos a
continuación.
( ) ∏ ( )
3- Ahora bien, las P (Xi = xi) siguen una distribución que depende de un parámetro θ
desconocido, con lo cual también lo hará la correspondiente función de densidad conjunta
L. es decir,
( ) ( )
1
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
La función L se podría pasar como una probabilidad condicional, siendo
A=* + el evento en el cual suceden las n experiencias aleatorias, θ el
parámetro desconocido y ̂ un valor particular (estimador) de dicho parámetro.
̂
( ) ( ̂)
De este modo tendremos diferentes L según sea el estimador ̂ elegido, en realidad lo que
interesa no es la función en s{i, sino la razón entre las funciones de verosimilitud:
(̂ )̂(̂ )
Dicha razón resulta útil para determinar cuál de los dos valores de ̂ es más verosímil.
Propiedades:
1- Los EMV pueden ser sesgados, es decir, el valor esperado no coincide con el parámetro.
Pero se puede corregir multiplicando el estimador EMV por una constante.
( ̂) ( ( ))
2- Consistencia o convergencia bajo condiciones muy generales, los EMV son convergentes,
es decir, si los tamaños de muestra sobre los cuales se basan son grandes, el EMV será
“próximo” al valor del parámetro que se estima.
̂ ( ) ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗
3- Propiedad asintótica: Esta propiedad es mucho más fuerte que la primera, dado que la
esta propiedad ahora nos describe cual es la condición probabilística de ̂ para un n
grande.
̂ ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ( , ( )- )
Recordemos que la táctica usada por el método de máxima verosimilitud consiste en proponer
aquella expresión para la cual L sea máxima.
Como L es la probabilidad conjunta de todos los valores muestrales , lo que en realidad se hace
al elegir esta estrategia es suponer que la muestra fue la muestra que mayores probabilidades
tenia de ocurrir, de aquí la expresión “máxima verosimilitud”.
Debemos entonces encontrar la expresión de θ que haga que:
2
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
∏ ( )
Sea máxima
Hallando el estimador:
En la mayoría de los casos el estimador del parámetro θ para el cual L es máxima se obtiene
derivando la expresión de L respecto de θ e igualando a cero.
Debido a que L es una productoria puede resultar muy útil trabajar con el logaritmo natural de L,
en lugar de L. Esto es válido en el contexto en el que estamos trabajando, dado que Ln(L)es
monótona y estrictamente creciente con L, con lo cual Ln(L) tendrá un máximo en donde Ltenga su
máximo.
El valor de θ para el cual la derivada de Ln(L) sea cero es en realidad estimador, ̂.
X: Cantidad de vehículos que pasan por una determinada esquina los días de semana, desde las
13hs hasta las 14hs.
N: 16 observaciones.
A = {25, 36, 21, 14, 19, 15, 22, 29, 11, 32, 19, 24, 31, 27, 18, 22}
( ) ∏ ( ) ∏
( ( )) ( ∑ ) ∑ ( )
X: tiempo de vida útil, en horas, de una determinada marca de lámparas de bajo consumo.
N: 15 observaciones.
A: {310, 300, 290, 400, 352, 325, 388, 415, 288, 321, 194, 246, 312, 279, 227}
( ) ∏ ( ) ∏
( ( )) ( ) ∑
3
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ejemplo:
Estimadores de máxima verosimilitud para una distribución Gamma
( ) ( )
Observemos que en este caso la variable aleatoria no depende de un solo parámetro sino de dos,
. Por lo tanto, para maximizar la función de verosimilitud la tendemos que derivar
parcialmente con respecto a los dos parámetros. Luego igualaremos a 0 cada una de esas dos
derivadas parciales y resolveremos el sistema de ecuaciones que nos quede para encontrar los
EMV de Primero construimos la función de verosimilitud L:
( ) (∏ ) ( ∑ )
( )
, ( )-
Ahora tomamos logaritmo natural en ambos miembros
( )∑ ∑ ( )
( )
∑
( )
( )
̅ ∑
( )
Ejemplo:
Estimadores de máxima verosimilitud para una distribución Normal, supongamos que X tiene una
distribución N ( ) y la densidad es:
( ) ( 0 1 )
√
( ) ( ) { ∑[ ] }
4
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
. / ( ) ( ∑[ ] )
( )
Entonces primero tenemos ∑ , lo que nos da ̂ ̅ , el promedio muestral.
( )
Y ∑ que nos da ̂ ∑ ( ) ∑ ( ̅) .
5
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Análisis Multivariado
Análisis de Correlación
Análisis de Correlación
Buscaremos en primer lugar analizar si existe una asociación lineal (porque la línea recta es la
función matemática más simple como modelo de análisis) entre las r.v. univariadas X e Y a través
de medir cuál es el grado o intensidad de ese vínculo lineal.
En los casos afirmativos, luego trataremos de encontrar la ecuación de la línea recta que mejor las
relacione en algún sentido matemático. Para determinar si existe una asociación o tendencia lineal
(sin considerar la relación de dependencia entre ellas) entre dos r.v. X e Y, se utiliza un coeficiente
llamado (rho) de Pearson.
Coeficiente de correlación (rho) de Pearson, creado en 1896 por Karl Pearson, un pionero
estadístico británico, nacido en Londres el 27 de Marzo de 1857 y muerto en Coldharbour, Surrey,
27 de Abril de 1936. Mide el grado de intensidad de la asociación lineal entre dos r.v. X e Y, y se lo
define de la siguiente manera:
cov x, y
xy
x y
donde:
cov( x, y ) es la covarianza ó co-variación conjunta entre x e y, y está definida así :
-
+
µy
x
µx
+ -
cov( x, y)
X X Y Y
cov( x, y)
La covarianza mide la asociación lineal i.e. la tendencia que tienen las r.v. X e Y a formar una recta
o alinearse, y el grado de la misma o pendiente. Este parámetro actúa de la siguiente manera para
medir la intensidad del vinculo lineal entre X e Y: observemos el diagrama de arriba en el que se
han colocado los puntos de la población (X ; Y); en el mismo también hemos señalado claramente
el punto ( ). Podemos separar los puntos de la población de acuerdo a cuál de los 4
“cuadrantes” ocupe cada punto. Aquellos que se ubiquen en el cuadrante superior derecho y en el
inferior izquierdo aportan covarianza positiva ya que el resultado de la operación básica
( ) será positivo. Por el contrario aquellos que se ubiquen en el cuadrante superior
izquierdo y en el inferior derecho aportan covarianza negativa ya que el resultado de la operación
básica ( ) será negativo. Luego, en la covarianza sumamos todos estos aportes y si
esa suma da positiva, quiere decir que tienen más peso los puntos de los cuadrantes superior
derecho e inferior izquierdo. Esto significa que los puntos tienden a alinearse de manera que
forman una recta con pendiente positiva. Por el contrario si la suma total de la covarianza es
negativa quiere decir que tienen más peso los puntos de los cuadrantes superior izquierdo e
inferior derecho. Esto significa que los puntos tienden a alinearse de manera que forman una recta
con pendiente negativa. En cualquiera de los dos casos dividimos la covarianza por el producto de
los desvíos standard solo para unificar o normalizar las unidades y la magnitud de las dos variables
X e Y, que pueden ser muy diferentes.
Tipos de covarianza
No significativa No significativa
Rango de y su interpretación:
El coeficiente de correlación (rho) de Pearson solo puede tomar valores reales entre -1 y 1
porque la covarianza ha sido dividida por los desvíos standard.
1 1
Los distintos valores que puede tomar el (rho) de Pearson se interpretan así :
1 1
P ? -1 P? 0 P? 1
-1 0 1
linealidad significativa
ρ→0
Cálculo del estimador r del de Pearson
Cuando tengamos los n datos de una muestra bivariada de un par aleatorio (X,Y) :
X1 , Y1 ; X 2 , Y2 ; X 3 , Y3 ; ; X n , Yn
∑ ̅ ̅
̂
̅ ̅
√∑ √∑
( X Y X Y XY XY )
i 1
i i i i
n
n n
(X
i 1
i
2
2Xi X X ) 2
Y
i 1
i
2
2YY
i Y 2
n n
n n n
X Y Y X
i 1
i i
i 1
i X Yi nXY )
i 1
n
n n n n
X
i 1
i
2
2 X X i nX 2
i 1
Y
i 1
i
2
2Y Yi nY 2
i 1
n n
n n n
X iYi Xi Y i
nXY
i 1
Y i 1
X i 1
n n n n
n n n n
X i
2
X i
nX 2 Y i
2
Y i
nY 2
i 1
2X i 1
i 1
2Y i 1
n n n n n n
XY i i
i 1
YX XY XY
n
n n
X i
2
Y i
2
i 1
2 XX X 2 i 1
2YY Y 2
n n
XY i i
i 1
YX
n
n n
X i
2
Y i
2
i 1
X2 i 1
Y 2
n n
̂
∑ ̅̅
̂
√∑ ̅ √∑ ̅
a. El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir
las variables X e Y.
c. El coeficiente de correlación mide solo la relación con una línea recta. Dos variables pueden
tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña. Por tanto cuando
analicemos las relaciones entre dos variables debemos representarlas gráficamente y
posteriormente calcular el coeficiente de correlación.
d. El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado de
las variables a estudio ya que la relación existente entre X e Y puede cambiar fuera de dicho rango.
Ejemplo
Veamos si la temperatura media diaria (X = T) y la humedad media relativa del ambiente (Y = H)
para el mes de Julio de 2011 en Río Gallegos, tienen una asociación lineal significativa, es decir si
están correlacionadas.
Día (Julio) T H 12 0.1 88 24 2.2 92
1 2.2 79 13 1.9 90 25 3.2 94
2 1.3 84 14 2.4 99 26 3.2 89
3 2.2 82 15 -0.3 86 27 3.1 92
4 1.7 80 16 -1.8 86 28 0.3 82
5 1.3 88 17 1 78 29 -2.8 85
6 2.6 90 18 0.4 73 30 -0.8 80
7 2.4 85 19 1.2 67 31 0.7 78
8 2.2 86 20 3.6 65
9 0.2 86 21 3.7 69
10 -1.2 87 22 2.6 73
11 2.4 85 23 3.5 74
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil VersiónDiagrama
Estudiantil de
Versión Estudiantil
Dispersion Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
100,70
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Humedad media relativa (H)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
91,35
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
82,00
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
72,65
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
63,30
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
-3,13 -1,34 0,45 2,24 4,03
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Temperatura media diaria (T)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
La conclusión es que no existe una asociación o tendencia lineal significativa entre la temperatura
media diaria y la humedad relativa del ambiente durante el mes de Julio de 2011 en Río Gallegos.
Rho de Spearman
∑ [ ]
∑ [ ]
Estima la relación entre dos variables ordinales, es decir que su aplicación es ideal para el caso no
paramétrico de variables cualitativas ordinales. Se interpreta igual que el índice de Pearson. Este
coeficiente se utiliza para medir el grado de correspondencia entre dos categorías y evaluar el
nivel de significación de esta correspondencia. En otras palabras, mide la intensidad de la
asociación entre las tabulaciones cruzadas. Fue desarrollado por Maurice Kendall en 1938.
Donde
El coeficiente tau (τ) de Kendall está basada más en los intervalos jerarquizados de las
observaciones que los propios datos, esto hace que la distribución de τ sea independiente de la
que presentan las variables X y Y, siempre y cuando que los datos representados por estas 2
variables sean (1) independientes y (2) continuas. Algunos investigadores prefieren este
coeficiente sobre el de Spearman, por la ventaja de que el τ tiende más rápido a la distribución
normal que el de Spearman, especialmente, en el caso de la certeza de Ho.
Si los dos rankings o categorías que se evalúan son iguales, el coeficiente tiene un valor de
1
Si el valor de uno de los rankings o categorías es opuesto al otro, el coeficiente tiene un
valor de -1
Para todas las otras combinaciones, el valor del coeficiente varia entre -1 y 1. Si las
categorías son totalmente independientes, el coeficiente es 0
Test de Hipótesis
Tests Paramétricos
Las pruebas o tests de hipótesis son procedimientos o métodos estadísticos de estimación que
nos ayudan a la toma de decisiones sobre poblaciones, con base en la información que nos da
la muestra, es decir que permite decidir si a partir de una muestra se puede definir el
comportamiento de una población en términos de los parámetros de la misma.
Esta técnica consiste en suponer que uno o más parámetros que caracterizan e identifican una
variable aleatoria X tienen un cierto valor que tenemos a priori por información previa. A este
valor supuesto lo denominaremos Hipótesis Nula (H0) y la someteremos a una prueba de
resistencia estadística. Plantearemos esta prueba como un contraste entre nuestra Hipótesis
Nula (H0) y otra Hipótesis Alterna (Ha).
Las Hipótesis Estadísticas son entonces ciertos supuestos o conjeturas sobre el valor de los
parámetros de las poblaciones. Es decir que son aquellas suposiciones acerca del valor de uno
o más parámetros de una población que se consideran con el propósito de discutir su validez.
Dichas hipótesis se formularan sobre la media poblacional μ, la proporción poblacional p, la
varianza , la homogeneidad de dos varianzas y , una diferencia de medias , el
coeficiente de correlación de Pearson (concepto que veremos en breve), etc.
Media Poblacional (μ): esta medida resume en un valor las características de una constante
teniendo en cuenta a todos los casos y se utiliza con variables cuantitativas.
Si se tiene una muestra estadística de valores para una variable X con distribución de
probabilidad F(x, θ) (donde θ es un conjunto de parámetros de la distribución).
o también, e.g.
El siguiente paso es elegir un estadístico de contraste, al que llamaremos E, y del que tenemos
que conocer su distribución estadística como variable aleatoria. El estadístico E se calcula a
partir de los datos de una muestra (X1, X2,…,Xn) de la r.v. X bajo estudio. E es un número real.
Si se supone que la hipótesis nula es verdadera, pero encontramos que los resultados de una
muestra aleatoria difieren marcadamente de los esperados bajo la hipótesis nula (por sobre el
azar de la teoría del muestreo) podremos decir que las diferencias observadas son
significativas (demasiado grandes) y nos inclinamos a rechazar la hipótesis nula, o al menos a
no aceptarla debido a la evidencia obtenida.
V: verdadera F: falsa
Real
Test H0 (V) H0 (F)
Generalmente el error más grave que se puede cometer en un test o prueba es el del Tipo 1.
Por ejemplo, si una persona acude a un hospital porque sospecha que tiene una enfermedad
infecciosa altamente contagiosa, y en el hospital le realizan una prueba, análisis o test, y el
resultado es negativo siendo que en realidad ha contraído esa enfermedad (Error Tipo 1), la
persona seguirá su vida normal pensando que no está infectada y contagiará a todo su
entorno. Por otra parte, si no está infectado y el resultado del test le da positivo (Error Tipo 2),
lo peor que puede suceder es que lo internen un tiempo y lo sometan a un tratamiento, hecho
incomparablemente menos grave que el anterior. Es por ello que acostumbramos a minimizar
la probabilidad de cometer un error Tipo 1, es decir que elegimos un margen de error muy
pequeño (e.g. =0,05 ó = 0,03, = 0,01, = 0,001, o menor a 1).
Luego, con este vamos a una tabla de la distribución estadística de E y luego definimos él o
los valores críticos EC.
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil 1-α
Versión Estudiantil Versión Estudiantil Versión Estudiantil
Zona de no Rechazo
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil (de H0) Versión Estudiantil Versión
Versión Estudiantil ZonaEstudiantil
de Rechazo (de H0) Estudiantil
Versión
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil α
Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Ec (valor critico ó teórico)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
Ahora ubicamos en el eje real por el valor del estadístico E:
La región crítica será aquella región del campo de variación del estadístico tal que si contiene
al valor evaluado del mismo con los datos muestrales nos llevará a rechazar la hipótesis. La
designaremos por R1. Otro concepto importante es el de región de aceptación que es la región
complementaria de la anterior. Si el valor evaluado del estadístico pertenece a ella No
rechazamos la hipótesis (las hipótesis nunca se aceptan de forma definitiva, sólo se aceptan
provisionalmente, es decir ,no se rechazan, a la espera de una nueva información que
eventualmente pueda llevarnos a rechazarla en el futuro). La designaremos por R0.
Evidentemente los conjuntos de puntos que forman ambas regiones son disjuntos.
Regla de decisión:
Se debe distinguir entre dos tipos de contraste o test, que determinan la región de aceptación
y la región de rechazo.
Estadísticos de contraste para tests de hipótesis
paramétricos
vs.
̅
Estadístico de contraste
√
vs.
̅
Estadístico de contraste
√
vs.
̅ ̅
Estadístico de contraste
√
vs.
Estadístico de contraste
̅ ̅
√
donde
vs.
Estadístico de contraste
̅ ̅
donde
( )
( ) ( )
Sean las diferencias entre los datos apareados de ambas muestras, es decir de
dos mediciones X e Y realizadas sobre la misma unidad de recolección. Suponemos que estas
diferencias son independientes y normales
vs.
Estadístico de contraste
̅ ̅
√
donde
∑ ̅
Test de hipótesis para una varianza
Para la varianza
vs.
Estadístico de contraste
vs.
Estadístico de contraste
vs.
Donde mna es la mediana teórica de la población X de la cual fue extraída una muestra de
tamaño n, y es la mediana empírica de la muestra
Estadístico de contraste
U = cantidad de positivos ~ B ( )
Donde
y B es la distribución Binomial.
vs.
Estadístico de contraste
√
∑ ̅
√
√
∑
̅ ̅
̂
∑ ∑
√ ̅ √ ̅
Ho : = 0
vs.
Ha : ≠ 0 (bilateral a 2 colas)
vs.
El estadístico de contraste es
̅
| |
Estamos interesados en evaluar la temperatura media diaria en Rio Gallegos durante el mes de
Julio de 2011.
X : T (temperatura media diaria de julio 2011 en Río Gallegos, en ºC, datos oficiales del Servicio
Meteorológico Nacional, SMN)
Los datos observados son los siguientes:
̅ √
Al indicar de esta manera la hipótesis alterna queremos decir que sospechamos que la
temperatura media puede ser mayor que 1,3°C. En consecuencia estamos planteando en este
caso un test unilátero o a “una cola”. También podríamos haber testeado la hipótesis nula
contra una hipótesis alterna que estableciera que ≠ 0 = 1,3 (°C). De ese modo estaríamos
planteando un test bilátero o “a dos colas”
Calculamos el estadístico E:
̅ √
̅ √
Buscamos ahora por tabla Z el valor crítico , que coincide con el valor critico y elegimos el
nivel de significación, =0,05 o simplemente trabajamos con el p-valor si es que disponemos
de un software estadístico.
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil
No Rechazo
Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil 0,95
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
α = 0,05 Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
E = 0,47
Versión Estudiantil Versión Estudiantil Ec = 1,645
Versión Estudiantil Versión Estudiantil Versión Estudiantil
estadístico
Se lleva a cabo un estudio estadístico de recursos humanos para analizar si los salarios por
hora de los obreros de la construcción, categoría “oficial especializado”, son los mismos,
mayores o menores en la provincia de Buenos Aires que en Santa Cruz. Los datos obtenidos en
las dos muestras independientes tomadas en Junio de 2017 son, en pesos:
vs.
Notamos:
̅ : Media de la muestra de los salarios de la provincia de Buenos Aires,
̅ : Media de la muestra de los salarios de la provincia de Santa Cruz,
̅ ̅
En nuestro caso:
√
√
( )
( ) ( )
( )
( ) ( )
vs.
Estadístico de contraste
= 0,04105769
= 0,04408846
El estadístico de contraste
El valor crítico teórico tabular para el contraste lo obtenemos de una tabla F de Fisher -
Snedecor con 13 grados de libertad en el numerador y 13 en el denominador, y nos da:
Fc (tabla) = 2,577
Regla de decision: como no
rechazamos la hipotesis nula y en consecuencia podemos suponer que las varianzas de ambas
poblaciones son homogeneas en el sentido de que su diferencia no es estadisticamente
significativa.
Una nueva empresa de colectivos de línea se instala en la ciudad de Rio Gallegos, y desea
ganar una buena imagen con los habitantes haciendo que sus conductores sean puntuales en
los horarios de llegada a las paradas. La empresa desea que haya poca variabilidad en dichos
tiempos y que la varianza sea de 4 minutos o menos. Esta hipótesis se va a testear con un nivel
de significación
Se tomó una muestra aleatoria de 24 llegadas a la parada que se encuentra ubicada en la calle
Zapiola esquina Fagnano, de la cuales la varianza muestral encontrada es de
vs.
∑
̅ ̅
̂
∑ ∑
√ ̅ √ ̅
No Rechazo
Rechazo Rechazo
0,025 0,025
-1,96 1,68 1,96
t0 estadístico
Regla de decisión
Como t0 = 1,68 < t29; 0,975 = 1,96 No rechazamos Ho y consideramos
válido = 0, con una P (error tipo I) = 0,05 = P (rechazar H0 siendo
verdadera) = α
En consecuencia podemos asumir que no existe una asociación lineal (proporcional) entre la
temperatura media y la humedad en Julio de 2011 para la ciudad de Rio Gallegos.
Recordemos una vez mas que en lugar de establecer un nivel de significación α y utilizar las
tablas estadísticas Z y t de Student, podemos trabajar con el p-valor si disponemos de un
software estadístico.
p – valor
A partir del uso de las computadoras ya no se utilizan más las tablas de las distribuciones
estadísticas en la vida práctica porque los software estadísticos específicos (como por ejemplo
Infostat, SPSS, SAS, Statistics, Stata, etc) las tienen incorporadas. Por este motivo tampoco se
usa más el nivel de significación ya que no es necesario. En lugar de la tabla y el nivel de
significación , el software nos informa cual es el p -valor (p – value) correspondiente al test.
Este número llamado p – valor es el área o probabilidad que queda entre el estadístico de
contraste y el final de la cola de rechazo, es decir que el p – valor es la probabilidad que queda
a la derecha (o a la izquierda, o en ambas colas, según se haya planteado la hipótesis alterna)
del estadístico.
Si el p – valor es muy pequeño, por ejemplo menor que un milésimo, podemos considerar que
el estadístico ha caído en lo profundo de la cola de rechazo, y en consecuencia podemos
interpretar la regla de decisión como que rechazamos H 0. Si por el contrario el p – valor no es
pequeño, por ejemplo mayor que un centésimo, podemos considerar que el estadístico de
contraste no se encuentra en lo profundo de la cola de rechazo, y en consecuencia podemos
aceptar la hipótesis nula. No hay valores fijos determinados del tamaño del p – valor tanto
para rechazar como para aceptar H0, el valor y la interpretación de los mismos quedan a
consideración de quien realiza el test y del contexto del mismo así como del grado de exigencia
del resultado.
Test de Hipótesis No Paramétricos
Cuando trabajamos con variables aleatorias cualitativas o categorizadas o son cuantitativas pero
no se conoce su distribución, se aplican métodos estadísticos denominados NO PARAMÉTRICOS.
Esta situación se presenta habitualmente cuando se trabaja con variables de conteo univariadas,
es decir, cuando se recuentan casos. Como por ejemplo, en las encuestas políticas, de opinión, de
marketing, de medición de audiencias (rating), trabajos de sociología, psicología, nutricionismo,
medicina, etc. Tal es el caso también de las tablas de contingencia, en las que el análisis es
bivariado, es decir que tenemos dos variables aleatorias X e Y.
Dentro de los métodos no paramétricos, se destacan los tests de hipótesis introducidos por Karl
Pearson hacia 1896, aplicando la distribución Chi-Cuadrado. Las principales versiones de este test
se utilizan para los siguientes casos no parametricos:
Bondad de Ajuste
En el primer caso se emplea un test Chi-Cuadrado para decidir cuándo un conjunto de datos de
una muestra se apega a una distribución de probabilidad dada. Se desea verificar que la variable
aleatoria X de la cual proviene una muestra aleatoria tiene una distribución teórica conocida F(X).
Las hipótesis para este test son:
vs.
̅
∑ ̅
Regla de decisión: finalmente comparamos el estadístico de contraste con el valor teórico crítico
tabular , y decidimos rechazar o no rechazar H0 de acuerdo a donde se ubique el estadístico.
p – valor: recordemos que otra opción es no definir ningún valor de α , y (en el caso de trabajar
con un software estadístico en una computadora) observar el valor del p – valor que nos entrega
el ordenador. Si este es muy pequeño, por ejemplo inferior al 1%, podemos rechazar H0. En caso
contrario decidimos no rechazarla.
Observación importante: para que el test Chi-Cuadrado no paramétrico funcione bien tenemos
que verificar que cada frecuencia o valor esperado sea por lo menos 5. Si no es así podemos
colapsar o unificar las últimas categorías, clases o conjuntos hasta que sus valores esperados
sumen 5 o más.
Solución:
vs.
Dado que el parámetro 𝜆 es desconocido, se lo debe estimar a partir de los datos de la muestra. Lo
calculamos 𝜆= 0,75
𝜆
{ }
Como la frecuencia esperada para más de 3 accidentes es menor a 5, se combinan las dos últimas
celdas, obteniendo:
(Observada -
Accidentes Frecuencia Frecuencia
Esperada)^2 /
por día esperada observada
Esperada
0 28,32 32 0,47819209
1 21,24 15 1,833220339
2 ó más 10,44 13 0,627739464
Total 60 60 2,939151893
Grados de libertad: gl = 3-1-1=1, donde r = 1 dado que la media de la muestra fue utilizada como
estimador del único parámetro de la distribución de Poisson a partir de los datos.
Regla de decisión: como el estadístico 2,94 es menor que el valor teórico tabular crítico 3,84, no
se rechaza Ho. Podemos asumir en consecuencia que la distribución de los accidentes es Poisson.
En la siguiente tabla se muestran la cantidad de clientes (xi) que llegaron en una cantidad fi de
intervalos de 1 minuto, así como el resto de los cálculos necesarios para construir el modelo de
Poisson y calcular el correspondiente estadístico Chi- Cuadrado.
Cantidad de categorías que quedaron después de agrupar las 3 últimas para que la
frecuencia esperada sea al menos 5 : n = 9 categorías
Regla de decisión :
( )
∑∑
vs
Ha : Las proporciones de insumos defectuosos dependen de los distribuidores, sus
proporciones no son homogéneas y no están igualmente repartidas
Debemos realizar un test de homogeneidad para concluir si entre los distribuidores
existen diferencias de confiabilidad referente al mismo insumo. Calculemos los valores
esperados correspondientes:
El estadístico del contraste será entonces, teniendo en cuenta que los df son (m-1).(k-1) =
(3-1).(2-1) = 2 :
∑
Este valor del estadístico de contraste Chi-Cuadrado es mayor que el valor tabular crítico
para el nivel de significación del 5%, que es
Independencia
Ahora queremos verificar si dos variables aleatorias, X e Y pertenecientes a la misma población
están relacionadas entre si, o no lo están. Planteamos entonces las hipótesis correspondientes
vs.
Se forma a partir de esos datos una TABLA DE CONTINGENCIA con las frecuencias conjuntas
observadas.
n = (filas – 1) . (columnas – 1) = (m – 1) . (k – 1)
el estadístico de contraste Chi-Cuadrado se calcula de manera análoga al caso de la bondad de
ajuste siguiendo la siguiente expresión
( )
∑ ∑ [ ]
Donde es la frecuencia esperada de la categoría AiBj
TABLA DE CONTINGENCIA
X/Y B1 B2 … Bk Total
A1 n11 n12 … n1k n1.
A2 n21 n22 … n2k n2.
… … … …
Am nm1 nm2 … nmk nm.
Total n.1 n.2 n.k n
Grado Silicosis
Tipo de Trabajo Total
I II III
Oficina 42 24 30 96
Terreno 54 78 72 204
Total 96 102 102 300
¿Es posible establecer con estos datos que el tipo de trabajo afecta el grado de silicosis de los
trabajadores?
Solución
vs.
Se calcula el estadístico de contraste luego de evaluar los valores esperados de cada categoría,
según se muestra en la siguiente tabla:
Tipo de Trabajo -
nij eij (nij - eij)2 / eij
Grado Silicosis
Oficina - I 42 30.7 4.142
Oficina - II 24 32.6 2.287
Oficina - III 30 32.6 0.214
Terreno - I 54 65.3 1.949
Terreno - II 78 69.4 1.076
Terreno - III 72 69.4 0.100
Total 150.00 161.28 8.59
Grados de libertad: (2-1) . (3-1)= 2
Regla de decisión: como el estadístico de contraste 8,59 es mayor a 5,9915 que es el valor critico
tabular teórico, se rechaza Ho. No existe independencia entre las variables, es decir que existe
alguna relación entre ellas.
∑ = 0,1078
Regla de decisión :
Homogeneidad
(Las muestras provienen de poblaciones iguales)
Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos comparar las
frecuencias observadas en cada una de las muestras y para cada categoría con las frecuencias bajo
el supuesto de homogeneidad en las poblaciones. En este caso las frecuencias observadas
corresponde al número de individuos de la muestra i en la clase j, i.e., nij. Tenemos m muestras de
un tamaño ni cada una, es decir que ∑ , y tenemos k clases o categorías en cada una
de las muestras. El estadístico de contraste será
( )
∑∑
Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad, que puede representarse
como ni . pj , es decir, el número de individuos en la muestra i por la probabilidad de que ocurra la
característica j en la población. Para el cálculo de las probabilidades de pertenecer un individuo a
cada una de las categorías podemos utilizar: . Por lo tanto : ⋅ Observar
que este valor será la suma de n.k números no negativos.
vs
Debemos realizar un test de homogeneidad para concluir si entre los distribuidores existen
diferencias de confiabilidad referente al mismo insumo. Calculemos los valores esperados
correspondientes :
El estadístico del contraste será entonces, teniendo en cuenta que los df son (m-1).(k-1) = (3-1).(2-
1) = 2 :
Este valor del estadístico de contraste Chi-Cuadrado es mayor que el valor tabular crítico para el
nivel de significación del 5%, que es
por lo tanto Rechazamos Ho y debemos concluir que no existe homogeneidad y por lo tanto que
hay diferencias significativas entre los tres distribuidores.
Intervalos de confianza (IC)
Es un método de estimación paramétrica no puntual. Por ejemplo, si queremos estimar una media
µ ó una varianza σ2, o un desvío standard σ, o un coeficiente ρ de correlación de Pearson, o
cualquier otro parámetro poblacional verdadero θ, este método no nos da una estimación
puntual, sino un intervalo ( ) que tiene cierta probabilidad p = 1 – α , de contener al valor
verdadero del parámetro θ, que es en general una probabilidad alta (por lo tanto tomaremos α
pequeño, e.g. α=0,05; α=0,01; α=0,001, etc). para maximizar i.e.
Para construir los primeros IC nos basamos en una consecuencia del CLT:
Si tomamos muchas muestras al azar, todas de tamaño n, de una r.v. X que tiene E(x) = µ, y Var (x)
= σ2, digamos (X1, …, Xn) y calculamos el promedio ̅ de cada muestra, entonces el CLT nos asegura
que:
P z Z z 1
2 2
P z
X n z 1
2
2
P z X n z 1
2 2
z z
2
P X 2 1
n n
z z
2
P X 2
X 1
n n
z z
2
P X 2
X 1
n n
z z
P X 2 X 2 1
n n
Entonces, el IC para µ, con un nivel de confianza 1- α es:
depende de α
t s t s
IC X 2
;X 2
n n
Observación 2: también conviene usar esta forma de IC (μ) cuando la muestra es pequeña, i.e. n
es pequeño (e.g. n ≤ 10 ) aunque se conozca el valor verdadero de σ.
̂̂ ̂̂
̂ ⁄
√ ̂ ⁄
√
Para la varianza:
( ) ( )
⁄ ⁄
( ̅ ̅ ) ⁄
√ ( ̅ ̅ ) ⁄
√
( ̅ ̅ ) ⁄
√ ( ̅ ̅ ) ⁄
√
La transformación es:
Tras calcular los intervalos de confianza con el valor z debemos volver a realizar el proceso inverso
para calcular los intervalos del coeficiente r
1° Graficamos el Diagrama de Dispersión o Data Plot. Por ejemplo, para el caso en que X es la
temperatura media diaria, e Y es la humedad media relativa del ambiente en el ejemplo visto
en correlación, para la cuidad de Rio Gallegos en el mes de Julio de 2011, obtenemos el
siguiente diagrama de dispersión.
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil VersiónDiagrama
Estudiantil de
Versión Estudiantil
Dispersion Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
100,70
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Humedad media relativa (H)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
91,35
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
82,00
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
72,65
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
63,30
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
-3,13 -1,34 0,45 2,24 4,03
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Temperatura media diaria (T)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
cov x, y
xy
x y
∑
̅̅̅̅
̂
√∑ ̅ √∑ ̅
El criterio o método que tomaremos para encontrar esa recta se denomina Método de
mínimo cuadrados (que abreviaremos L.S. : Least Squares). Este método consiste en
minimizar la suma de los cuadrados de los residuos verticales o discrepancias entre los valores
observados en la muestra ( ) y los valores predichos por la recta ( ̂ ). Fue desarrollado en
1805 por el matemático francés Adrien-Marie Legendre (París, 18 de septiembre de 1752-
París 10 de enero de 1833) y, paralelamente por el alemán Johann Carl Friedrich Gauss
(Brunswick, 30 de abril de 1777-Gotinga, 23 de febrero de 1855) entre 1795 y 1801.
Comenzamos pensando en toda la población (X,Y). Planteamos así un modelo inicial
poblacional
y = α + βx + ε
Poblacion x, y
Modelo poblacional
Poblacion x, y
xk , yk valores reales
y a x
: termino aleatorio
: pendiente
y = a + bx + e
xk , yk
n
modelo muestral
Poblacion xn , yn Y a bx e
a
b coeficiente de regresion
a
b tg
X
Y x
Modelo LS : utilizamos el método de mínimos cuadrados (LS : Least Squares) para encontrar
los estimadores a y b de los parámetros poblacionales verdaderos α y β
Y k a bx
Yk
ek Y k Yk
Yk
Yi X k , Yk
Xi Xk X
Para que no se confundan los errores positivos con los negativos, elevamos todos los errores al
cuadrado, y así serán todos positivos.
2 2 2
e = (Ŷ - Y ) = (Y - Ŷ )
k k k k k
El método de mínimos cuadrados (LS) consiste en encontrar una recta (que llamaremos de
regresión lineal)
Ŷ = a + bx
2
de manera que haga mínima la suma de todos los errores cuadráticos e , para todos los
k
puntos o datos de la muestra, es decir para k = 1,…,n.
Entonces buscamos a y b tales que hagan al mínima la suma de los errores al cuadrado :
n 2
min ek
k 1
n 2
min ek a, b
k 1
n 2
min Yk Y k a, b
k 1
n 2
min Yk a bx a, b
k 1
n 2
min Yk a bx a, b
k 1
Recordemos que la condición necesaria para la existencia de extremos (Máximos y Mínimos)
es que se anulen las primeras derivadas parciales :
a, b a, b a, b n 2
0 Yk a bxk 0
a b a a k 1
a, b n 2
a, b n
Yk a bxk 0 2 Yk a bxk 1 0
a k 1 a a k 1
a, b n
a, b n n
2 Yk a bxk 0 2 Yk na b X k 0
a k 1 a k 1 k 1
n n
Y k b X k
a Y bX
k 1 k 1
a
n
Ahora calculamos b, la pendiente de la recta de regresión, llamada coeficiente de regresión ,
para ello derivamos parcialmente con respecto a b e igualamos a cero :
a, b n a, b n 2
Yk a bxk 0
2
Yk a bxk 0
b b k 1
b k 1 b
a, b n a, b n
2 Yk a bxk xk 0 2 Yk a bxk xk 0
b k 1 b k 1
a, b n n n
X k Yk a X k b X k2 0
k 1 k 1 k 1
Ecuaciones Normales
Ahora resolvemos el sistema de 2 ecuaciones con 2 incógnitas que nos ha quedado, y que se
llaman ecuaciones normales, por el método de sustitución. De esa manera encontramos
finalmente los estimadores de mínimos cuadrados (LSE : least Square Estimators) a y b de los
parámetros verdaderos poblacionales α y β, la ordenada al origen y la pendiente –
respectivamente- de la recta de regresión lineal:
n n n
X kYk Y bX X k b X k2 0
k 1 k 1 k 1
n n n n
X kYk Y X k bX X k b X k2 0
k 1 k 1 k 1 k 1
n n
n n
b X X k X k2 Y X k X kYk
k 1 k 1 k 1 k 1
n n
Y X k X k Yk
b k 1
n
k 1
n
X X k X k2
k 1 k 1
Ahora que tenemos a y b, ellos son los LSE (Least Square Estimators)
a = LSE(α) = ̂
b = LSE (β) = ˆ
Podemos escribir entonces la ecuación que buscamos de la recta de regresión lineal :
Ŷ = a + bx
Y graficarla sobre el diagrama de dispersión :
Y a bx e
xk , yk
Para plantear correctamente un modelo de regresión lineal, primero debemos tomar ciertas
precauciones, llamados supuestos o hipótesis del modelo.
1° Linealidad: Existe asociación lineal significativa entre las r.v. X e Y. Para saber si se cumple
este supuesto nos valemos del r = ̂ de Pearson.
Y
X
xk
COˆ V ( X , Y ) Eˆ ( XY ) Eˆ ( X ) Eˆ (Y )
donde r ˆ
ˆ x .ˆ y ˆ x .ˆ y
( xi ).( y i )
xi y i sy
sy n
Luego b1 r. .
sx sx .sy sx
xi y i xi y i
xy xy
n n
ss x2 n
( xi x ) 2
1
(x i x ).( y i y )
ˆ xy ss xy s xy
i 1
2
n
ˆ x 2
(x
ss x sx
i x)2
i 1
i .e .
sy s xy
b1 r.
sx s x2
La intención es ahora dividir la suma cuadrática total en dos partes, una suma cuadrática
residual o de error residual no explicado por el modelo de la recta de regresión que hemos
elegido, y otra parte correspondiente al error explicado o debido al modelo de regresión .
Comenzaremos analizando la suma cuadrática del error residual no explicado por la regresión :
n n 2
1 c 1
n n n
( yi y ) 2 2b1. ( xi x )( yi y ) b1 . ( xi x ) 2
2
i 1 i 1 i 1
SS x
SS y 2b1.SS xy b12 .SS x (como b1 )
SS xy
n
SS y b1 .SS xy
1
(y i yˆ i ) 2 SSE SSres
SS y b1 .SS xy SSE
n
(y
c 1
i yi ) 2 b1.SS xy SSE
Entonces: :
n n
SCTot ( yi yi ) 2 b1.SSxy . ( yi yˆ i ) 2
i 1 c 1
(1)
n
b12 . ( xi x ) 2 b12 .SS x b1 .b1 .SS x b1 .SS xy
i 1
i 1
( yi y ) 2
i 1
( yˆ i y ) 2 ( y i yˆ i ) 2
i 1
i.e.
SSTOTAL SS reg SS res ó
n 1 1 ( n 2)
Este método, que fue planteado por Karl Friedrich Gauss en 1795 y publicado por él mismo en
1809 dentro de la segunda parte de su tratado de mecánica celeste “Theoria Motus Corporum
Coelestium in sectionibus conicis solem ambientium”, pero que también fue desarrollado y
publicado de manera independiente por el francés Adrien Marie Legendre en 1805, consiste
en minimizar la suma de los cuadrados de las distancias verticales entre los puntos observados
y sus correspondientes estimados ̂ sobre la recta de regresión :
n n
Min ( f (a, b)) Min ( ek2 ) Min ( ( y k yˆ k ) 2 )
k 1 k 1
n
Min ( [Yk (a byk ) 2 ])
k 1
f ( a, b) n
[ y k a bxk ] 2
a k 1 a
n
2 [ y k a bxk ].( 1) 0
k 1
n
2 [ y k a bxk ] 0
k 1
n n
y k na b xk 0
k 1 k 1
n n
Yk b xk na
k 1 k 1
n y k
y
k 1
k b. k 1
n
a
y bx a (1)
f ( a, b) n
{ [ y k a bxk ] 2 }
b b k 1
n
[ y k a bxk ] 2
k 1 b
n
2 [ y k a bxk ].( x k )
k 1
n
2 [ y k a bxk ]( x k ) 0
k 1
[ y
k 1
k y k ax k bxk2 ] 0
n n n
xk y k a xk b xk2 0
k 1 k 1 k 1
Re emplazando (1 ) en a :
n n n
x
k 1
k y k a x k b x k2
k 1 k 1
n n n
xk y k ( y bx ) . xk b xk2
k 1 k 1 k 1
n n n
xk y k a xk b xk2
k 1 k 1 k 1
Por lo tanto podemos calcular ahora el valor de a y b , los estimadores de mínimos cuadrados
de la ordenada al origen (α) y de la pendiente o coeficiente de regresión (β) :
n n x n
n
y
x .y . x k b ( x k2 x x k )
k
k k
k 1 n
n n
n xk . . y k.
xk . y k k 1
n
k 1
ˆ y
k 1
b ˆ . (2)
n ( x k ) 2 ˆ x
x
k 1
2
k
n
Las ecuaciones (1) y (2) forman el sistema de dos ecuaciones con dos incógnitas, a y b, que se
llaman ecuaciones normales, y cuya solución –a partir de los datos- nos darán como resultado
los dos estimadores a y b de los parámetros α (ordenada al origen) y β (coeficiente de
regresión o pendiente) para poder obtener la recta de regresión muestral.