Está en la página 1de 114

Distribución t de Student

Para iniciar nuestro estudio de la estadística presentaremos dos variables aleatorias continuas
cuyas distribuciones se aplican en los métodos estadísticos que veremos posteriormente. Estas
variables aleatorias son la t de Student y la F de Snedecor (Fisher).

La distribución t de Student fue descubierta y desarrollada en 1899 por el


especialista en estadística llamado William Sealy Gosset (13 de junio de 1876 Canterbury, Reino
Unido – 16 de octubre de 1937 Beaconsfield, Reino Unido) que trabajaba en el departamento de
fermentación de la cerveza Guinness en Irlanda. Las circunstancias en las que se llevan a cabo los
procesos de fermentación en la producción de cerveza demostraron a Gosset las limitaciones de la
teoría de muestras grandes y le enfatizo la necesidad de un método correcto para el tratamiento
de muestras pequeñas.

En 1908 publicó su artículo en la revista Biometrika, pero tuvo algunas dificultades, ya que en la
cervecería Guinness los patrones no toleraban las publicaciones de investigaciones de sus
empleados. Para evadir esta desaprobación, publicó su trabajo en secreto bajo el seudónimo
“Student” (estudiante), que es como lo conocemos actualmente el tipo de estadística que
desarrollo.

La t de Student es una distribución que surge del problema de estimar la media de la población
normalmente distribuida cuando el tamaño de la muestra es pequeña (n < 30).

Se caracteriza por:

 Ser una distribución continua, con dominio R


 Tener media cero [µ = 0] y ser simétrica respecto a la media.
 Tener una forma acampanada y simétrica.
 No existe una sola distribución t de Student, sino que hay una “familia” de distribuciones t,
todas con media nula, pero con su respectiva desviación estándar diferente de acuerdo
con el tamaño de la muestra n, identificada con los grados de libertad.
 Ésta distribución se aproxima a la distribución Normal Standard Z = N (0 ; 1) cuando los
grados de libertad n aumentan a partir de 30. Su diferencia principal con respecto a la
Z = N (0 ; 1) radica en que las áreas de las colas son más amplias como consecuencia de
que, al trabajar con muestras pequeñas, aumenta la varianza.
 No tiene aplicación práctica, es decir que no sirve para modelar ninguno de los fenómenos
naturales o de la industria que nos rodean. Su aplicación será modelar sumas cuadráticas y
actuar como distribución estadística de diversos estadísticos de contraste cuando
estudiemos la técnica del test de hipótesis.

La distribución t de Student

Podemos definir la distribución estadística continua t de Student a partir de las distribuciones


Normal Standard Z = N (0;1) y la Chi-Cuadrado

√ √

Función de densidad de la t de Student

( )
( )
√ ( )

Aquí observamos algunas curvas de densidades t de Student para distintos valores de sus grados
de libertad (n)
Recordemos que la densidad de una variable aleatoria continua es una función matemática no
negativa cuya integral da 1 (uno), ya que la densidad cumple las mismas propiedades que las
probabilidades para una variable discreta.

Función de distribución de la t de Student

( )

Como vimos, existen diferentes distribuciones t, cada una de ellas relacionada con lo que se
denomina “grados de libertad” (df), que definimos cuando estudiamos la distribución Chi-
Cuadrado como el número de valores que podemos elegir libremente, es decir, el número de
observaciones o tamaño de la muestra. A medida que los grados de libertad son más grandes y
tienden a , las formas de las curvas de las densidades t de Student tienden a ser más próximas a
la forma de la curva Normal Standard. Cada curva t está relacionada con sus grados de libertad y
por ende no se pueden usar valores únicos estandarizados como en el caso de la Normal Standard.
Existe una tabla de la distribución t de Student distinta para cada uno de los posibles grados de
libertad. Sin embargo, a partir de unos n = 10 df se puede utilizar la tabla Z = N (0;1) en reemplazo
de la t de Student.

Es importante resaltar que por ser una distribución simétrica, al tener información sobre un valor
positivo de una se obtiene automáticamente el dato para el mismo valor con signo negativo.
Ejemplo 1: Intervalo de confianza para µ con σ desconocida

El contenido de siete contenedores similares de ácido sulfúrico son 9.8, 10.2, 10.4,
9.8, 10.0, 10.2, y 9.6 litros. Encuentre un intervalo de confianza del 95% para la
media de todos los contenedores si se supone una distribución aproximadamente
normal.

Solución:

La media muestral y la desviación standard para los datos dados son:

Σ Xi/ n = 70 / 7

10

s2
= Σ xi2/ n - ̅

s2
= 700,48/7 – 102

s=√ –

S = 0,261

Los grados de libertad son:

v=n–1=7–1

v=6

Recordemos que un intervalo de confianza para la media con varianza


desconocida se construye así

̅ ̅
√ √
En la tabla t de Student se encuentra que t0.025=2.447 con 6 grados de libertad por
lo tanto el intervalo de confianza al 95% para µ es:

10,0 – (2,477).[0,261 / √7] <µ < 10,0 + (2,477).[0,261 / √7]

t = 9,758 t = +10,241

Con un nivel de confianza del 95% se sabe que el promedio del contenido de los
contenedores está entre 9.758 y 10.241 litros.

Ejemplo 2:

Intervalo de confianza para µ con σ desconocida, interpolando

Para calcular el ciclo medio de vida operativa de una muestra aleatoria de


15 focos de bajo consumo se proporciona la siguiente tabla. Se supone que el
ciclo de vida operativo en general tiene una distribución aproximadamente Normal
y estimaremos el ciclo medio de vida operativa de la población de focos
calculando un intervalo de confianza al 94% de confianza. Data:

3890 3955 4100


3849 4000 4062
4013 4043 3973
3961 3964 4059
4081 3816 3864
Solución:

Del enunciado podemos extraer los siguientes valores:

∑ = 59630

Σ xi2 = 237.158.728

̅ = 3975,33 horas (media de la muestra)

La muestra es de tamaño (n) = 15

Los grados de libertad son: v = 15 – 1  v = 14

Como establecimos un nivel de confianza de 0,94

El nivel de significación será:

1- α = 0,94  α = 0,06  α/2 = 0,03

Con los grados de libertad (14) y el valor de α/2, podemos ir a la tabla de la


distribución t de Student para percentiles y veremos que ese valor no se encuentra
tabulado, así que debemos interpolar linealmente para encontrarlo:

2.2

0.025; 2.145
2.1

1.9

1.8
0.05; 1.761

1.7
0.02 0.025 0.03 0.035 0.04 0.045 0.05 0.055
Para interpolar linealmente hacemos la siguiente proporción :

0,05 – 0,025 1,761 – 2,145


=
0,03 – 0,025 t (n) – 2,145

Luego, t (n) = 2,068 para 0,03 al realizar la interpolación lineal directa.

Para encontrar s

s2= [ΣXi2/ n] – 2

sS2 = 7333,257

sS = 85,63

Aplicando la fórmula del encontraremos el intervalo de confianza para


la media poblacional:

̅ ̅
√ √

Entonces:

3975,33 – (2,068).[85,63/ √15] < µ < 3975,33 + (2,068).[85,63 / √15]

(3929,6; 4021,05)

1-α
0,94
α/2 = 0,03

t = 3929,6 t = 4021,05
Ejemplo 3: Método del valor crítico para la prueba t de hipótesis sobre la media

En una fábrica que produce muebles, en el año 2016 se obtuvo que el costo
de producción era de U$$ 6540, por lo que el gerente del área de producción
desea extraer una conclusión sobre si ésta cantidad ha variado o no
significativamente en el año 2017.
Realizaremos un test de hipótesis para la media poblacional. Elegiremos
como nivel de significación α= 0,05. La desviación standard de la población es
desconocida y suponemos que la misma sigue una distribución Normal tipificada.
El jefe del área de producción le proporciona la siguiente información:

Septiembre

Noviembre

Diciembre
Octubre
Febrero

Año 2016

Agosto
Marzo
Enero

Mayo

Junio

Julio
Abril

Costo de
Producción 6100 5980 8240 7125 5980 6455 4980 5590 4980 6570 4865 6130
(U$$)

Para hacer el t-test, seguiremos los pasos correspondientes

PASO 1: Planteamos la Hipótesis Nula y la Hipótesis Alternativa.

H0  µ = USS 6540

H1  µ ≠ USS 6540

PASO 2: Fijamos el nivel de significación (α) y el tamaño de la muestra.


La Región de Rechazo se divide en 2 colas de igual área, es decir, es una
prueba a dos colas, por lo que el área se divide en 2 partes iguales de 0,025 cada
una.

α = 0,05

El tamaño de la muestra es de n =12

PASO 3: Determinamos el estadístico de contraste y su distribución estadistica.

El estadístico de contraste t de Student para la media con σ desconocida es:


que sigue una distribución t de Student con n-1 grados de libertad (v).

v=n–1

v = 12 – 1

v = 11

ahora vamos a la tabla t de Student con 11 df:


Encontramos entonces que los valores críticos teóricos tabulados son: -2,2010 y
+2,2010

PASO 4: en función de estos valores críticos tabulares, dividimos las zonas de


Rechazo y No Rechazo, según los valores anteriores -2,201 < t < +2,201

0,95
PASO 5: Calculamos ahora el estadístico de contraste

Media Poblacional:

µ = 6540

Media muestral:

= Σ xi / n  = 72995 / 12  ̅ = 6082,91

Desviación standard de la muestra:

s2= [Σxi2 / n] – ̅

s2 = 454319975 / 12 - ̅

s2 = 37859997,92 – 37001794,07

s=√

s = 926,39

Tamaño de la muestra: n = 12

A continuación calcularemos el estadístico de prueba para confirmar o


rechazar la hipótesis:

6082,91 - 6540
t =
926,39 / √12

t = - 1,709
PASO 6: Aplicamos la Regla de Decisión correspondiente, extraemos las
conclusiones y tomamos una decisión basada en el análisis estadístico.

Regla de Decisión: como el estadístico de contraste es t n = -1,709, y dicho valor se


encuentra en el intervalo que hallamos con la tabla t de Student para la zona de
No Rechazo, tomamos la decisión de NO rechazar la hipótesis nula H0.

En otras palabras, no encontramos evidencia estadística suficiente de que el


costo de producción sea diferente a U$S 6450 por mes en el año 2017.

Ejemplo de uso de la tabla t de Student :

Calcular la probabilidad de que una distribución t de Student de con 10 grados


libertad tome valores entre 0,260 y 1,812.
Solución:
[ ]
Distribución F de Fisher - Snedecor

La distribución F de Fisher – Snedecor es una variable aleatoria continua


conocida con este nombre en virtud de haber sido presentada por el matemático y biólogo
americano George Waddel Snedecor (20 de Octubre de 1881 Memphis, Tennessee, USA – 15 de
Febrero de 1974 Amherst, Massachusetts, USA) quien la bautizó de este modo en honor de Sir
Ronald Aylmer Fisher (17 Febrero de 1890 en Londres, Inglaterra- 29 Julio de 1962 en Adelaida,
Australia) que ya la había estudiado anteriormente en 1924.

Snedecor introdujo la distribución F en un pequeño libro “Calculation and Interpretation of


Analysis of Variance and Covariance” que publicó en 1934 mientras trabajaba en la sede de Ames
de la Universidad de Iowa, y que tambien incluye en su libro “Statistical Methods Applied to
Experiments in Agriculture and Biology”, ambos de la editorial Collegiate Press, Ames, Iowa.
Snedecor también fue un precursor del diseño experimental

La distribución F de Fisher – Snedecor puede construirse como cociente de dos variables aleatorias
Chi- Cuadrado independientes, cada una dividida por sus grados de libertad:

Para sintetizar la escritura notaremos asi:


X

Como toda distribución continua, la F de Fisher – Snedecor tiene una densidad, que es la siguiente:

( )( )
( )
( )
donde, según recordaremos, ∫ .Esto representa una familia de graficas de
acuerdo a los df del numerador (m) y los df del denominador (n). Algunos de estos casos aparecen
graficados aquí:

La distribución (acumulada) F (x) de la variable aleatoria F de Fisher – Snedecor, obtenida por


integración en base a la definición genérica que hemos visto, tiene la siguiente forma

( )

donde I es la función Beta incompleta regularizada, que es definida en términos de la función beta
incompleta y de la función beta completa y esto es:

Recordemos que la función Beta es

Usando la función Gamma, se puede escribir la función Beta así:


Algunas propiedades de la F de Snedecor:
a) la aplicación mas importante de la variable aleatoria F de Snedecor es modelar la
distribución de cocientes de sumas de cuadrados (formas cuadráticas) que aparecen en
diversas técnicas estadísticas como por ejemplo el Test de Hipótesis y los Intervalos de
Confianza. La propiedad a la que hacemos alusión es la siguiente:
Si y son m+n variables aleatorias Normales e independientes, con
media 0 y varianza constante , entonces:

b) sean r.v. Normales, con distribución N ,e r.v Normales,


con distribución N ( ), provenientes de dos muestras independientes. Entonces

Este resultado es muy útil cuando tenemos que realizar Test de Hipótesis o Intervalos de Confianza

c) otra propiedad interesante y de aplicación necesaria para utilizar las tablas de la


distribución F de Snedecor es:
d) si

e) si ( )

f) Propiedad importante de la distribución F para el uso de su tabla. Si se escribe


para con m y n grados de libertad, se obtiene:

La variable aleatoria F de Snedecor no tiene función generadora de momentos (f.g.m) ya que al


aplicar la definición de f.g.m y evaluar la integral correspondiente, esta se indetermina. Los
principales parámetros poblacionales de la F de Snedecor son los siguientes, calculados por
definición:

donde n son los df de la r.v Chi – Cuadrado del denominador de la F

La moda de la r.v F de Snedecor es:

Coeficiente de simetría de Pearson



Ejemplo de uso de la tabla F:

Las tablas nos dicen que, para m = 10 y n = 6, el percentil del 90% es 2,94 y el percentil 95% es
4,06. Calcular los valores de la distribución F de 6 y 10 grados de libertad que dejan a su izquierda
una probabilidad de 0.1 y 0.05 respectivamente.

SOLUCION
( )
( )

( )

( )
Apunte de cátedra

Probabilidad y Estadística

Parte III

2017

Lic. José Luis Sáenz


Profesor Adjunto Ordinario

1
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Estadística Descriptiva y Estimación de Parámetros

Estimación de parámetros
Recordemos que un parámetro poblacional verdadero θ es un número fijo, habitualmente
desconocido, que caracteriza a una r.v. X o identifica a una población.

Ejemplos:
a) X: estatura de los argentinos.
θ: μ (promedio de estatura de todos los argentinos)
Es muy difícil de obtener este valor poblacional porque para calcularlo necesitaríamos
conocer en un mismo momento las estaturas de TODOS los argentinos, sin excepción.

b) X: nieve caída en El Calafate en Julio(en toda su historia)


θ: σ (Desvío Standard verdadero)
Aquí ni siquiera se cuenta con el registro de TODO los datos históricos.

Conclusión: es virtualmente imposible conocer el valor verdadero θ de un parámetro poblacional.


En un censo sí se pueden tener todos los datos de una población, pero es un proceso muy largo y
excesivamente costoso, de manera que no es habitual hacerlo. En estadística trabajaremos
entonces con MUESTRAS de tamaño n, y no con poblaciones.

Solución: calculemos aproximaciones numéricas, llamadas “estimaciones” ̂del parámetro θ. Para


ello tomaremos muestras de tamaño n (lo más reducido posible) de la población.

Hay varios métodos de estimación para obtener estimadores ̂ de parámetros θ, entre otros :

 Puntuales ̂
 Por intervalos de confianza IC (θ) = ( ̂ ̂ )
 De Máxima Verosimilitud
 Por Mínimos Cuadrados
 Regresión (una recta u otra función)
 Test de Hipótesis

También hay estimadores ̂ mejores que otros, según tengan o no las siguientes cualidades y
propiedades.

Propiedades de los estimadores:

1. Insesgadura: Un estimador ̂ de un parámetro θ es insesgado si ( ̂)


2. Varianza mínima: ̂es de varianza mínima si: ̂ ̂
̂
3. Consistencia o convergencia:
2
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
̂es convergente si: {| ̂|}⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ , donde n es el tamaño de la muestra.

Estadística descriptiva
Una vez recolectados los datos de una muestra ( ) de una r.v X, comenzamos
con un análisis exploratorio inicial de ellos. Este análisis introductorio consiste en calcular sus
Medidas Resumen, elaborar gráficos y extraer conclusiones inmediatas de las mismas. En un paso
posterior, profundizaremos este análisis de la estadística descriptiva con métodos más finos que
componen la llamada “estadística inferencial”. Esta nos permitirá arribar a conclusiones distintas a
las anteriores en el sentido de que proponen modelos de predicción del comportamiento de la r.v
X, así como también información mucho más detallada de los parámetros de X.

Comenzaremos con el tratamiento de una sola variable X, es decir con lo que se denomina análisis
univariado. Posteriormente consideraremos la incorporación simultanea de mas variables
aleatorias, cuyo comportamiento estudiaremos en conjunto. Estas técnicas se denominan análisis
multivariado.

Análisis univariado de datos: Medidas Resumen


 Tenemos una r.v. X que estamos estudiando
 Tenemos una población de tamaño N.
 Tomamos una muestra ( ) de tamaño n de esa población.
 Con los datos, registros u observaciones de la muestra, obtenemos por cálculo las medidas
resumen o estimaciones puntuales de los parámetros de la población.

Medidas resumen:
Los tipos de datos más usuales que aparecen en estadística se pueden dividir en cualitativos y
cuantitativos. Los cualitativos son datos no matemáticos como por ejemplo colores, marcas de
productos, nombres de empresas, plantas y animales, lugares geográficos, partidos políticos,
programas de televisión, clubes de fútbol, etc. Cuando tenemos esta clase de datos solo se pueden
contar cuantos casos hay de cada uno y por lo general se tratan mediante técnicas denominadas
de Estadística No Paramétrica. Son llamadas variables de conteo y sus datos se organizan en las
llamadas tablas de contingencia. No tienen un orden matemático natural, por lo que se dificulta su
organización, si bien en ciertas situaciones se les puede asociar un orden como por ejemplo en los
elementos de la tabla periódica o en la escala cromática de colores, los que se pueden por su
longitud y frecuencia de onda.

Desde el punto de vista matemático las variables cuyos datos son más interesantes son las
cuantitativas o numéricas. Éstas, a su vez se pueden clasificar en discretas, continuas y
categorizadas o categóricas. Las continuas son las más ricas desde el punto de vista paramétrico

3
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
para el tratamiento estadístico de los datos en cuanto a la gran cantidad de test y otras técnicas
que se pueden aplicar. Algunos ejemplos son longitudes, tiempo, errores de medición, datos
antropométricos, datos climáticos, datos económicos.

Datos sin agrupar (“crudos”)

En la realidad siempre vamos a tener una muestra de tamaño n de una variable aleatoria
X. Esos datos así como se obtuvieron, sin ningún orden ni organización se denominan datos no
agrupados o “crudos”. Se pueden analizar así como están y calcular los estimadores de los
parámetros de posición o tendencia, de dispersión o variabilidad, y de forma con los datos
“crudos" tal como veremos en el punto siguiente.

Datos agrupados

Para un mejor tratamiento de las observaciones o registros, en especial cuando estos son
muchos, se los suele organizar en grupos denominados Intervalos de Clase (IC), tratando de que
todos los IC tengan la misma longitud. Una vez agrupados los datos por IC, se construye una Tabla
de Frecuencias en la que se van poniendo las frecuencias Absolutas, Relativas, Absolutas
Acumuladas, Relativas Acumuladas, Marcas de clase, Desvíos con respecto a la marca de clase.

Existen 3 tipos de medidas resumen que caracterizan el comportamiento de la variable


aleatoria X que estamos estudiando y de la que tenemos una muestra:

 Medidas de posición o de tendencia central


 Medidas de dispersión, error o variabilidad (“ruido”)
 Medidas de forma

Veamos estas medidas en detalle :

Medidas de posición o tendencia central

 La media: aritmética, geométrica y ponderada


 La mediana
 La moda

4
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Medidas de dispersión, error o variabilidad

 El rango
 La varianza
 El desvio standard
 Los cuartiles
 El coeficiente de variación

Medidas de forma

 El sesgo o coeficiente de asimetría de Pearson, de Fisher y de Bowley


 La kurtosis

Comenzaremos observando el vinculo entre algunos parámetros poblacionales


verdaderos y sus correspondientes estimadores

Parámetros verdaderos estimador muestral

( ) ̅

( )

( ) ̂
( )

etc.

Tipos de datos :
Los datos estadísticos suelen presentarse bajo tres formatos posibles: simples (o “crudos”), y
agrupados. Los agrupados a su vez pueden ser por frecuencias o por intervalos de clase (IC).
Veamos cómo se calculan las medidas resumen en cada uno de estos casos.

5
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Datos simples

Medidas de posición o tendencia central


 La media aritmética: es un estimador ̂ de la esperanza o valor esperado . Se define así


̂ ̅

 La media geométrica es otro estimador de

̂ ̅ √∏

 La media ponderada es también un estimador de

̂ ̅

con la condición de que ∑ , es decir que la suma de todos los pesos o cargas o
probabilidades debe ser 1.

 La mediana: es el registro que nos deja la mitad inferior de los datos (ordenados
crecientemente) a su izquierda, y la mitad superior de los datos a su derecha. Si la
cantidad de datos es un número impar, existirá este dato central o mediana. Si la cantidad
de datos es un número par, promediamos los dos datos centrales.
La definición de la mediana es lafuncióncuantil ( ), es decir la imagen inversa o
preimágen de la distribución (acumulada)F(x) en 0.5.

( )

 La moda: es el dato o registro que tiene la frecuencia absoluta más alta, es decir la
observación que se repite más veces. Puede darse que sean dos los datos con la
frecuencia más alta, en este caso diremos que la distribución es bimodal. También puede
ser trimodal o en general multimodal .

6
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Medidas de dispersión, error o variabilidad
 La varianza muestral sesgada:
∑ ( ̅)
̂

 La varianza muestralinsesgada
∑ ( ̅)
̂

Observaciones: cuando n es grande, son parecidas. La diferencia entre ellas se nota cuando n es
pequeña.

Veamos que el estimador muestral = ̂ de la varianza poblacional σ2 es sesgado, i.e. que no


posée la importante propiedad de la insesgadura.

Calculemos para eso la esperanza del estimador de la varianza. Antes de ello observemos que de
la expresión de la varianza de la rv X obtenemos lo siguiente:

( ) ( ) , ( )- ( )

( )

Por otra parte, de la varianza de la media aritmética( ̅ )deducimos que

( ̅) (̅ ) , ( ̅ )- (̅ )

(̅ )

∑ ( ̅ )
(̂ ) ( )

[∑( ̅) ]

[∑( ̅ ̅ )]

7
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
[∑( ) ̅ ∑( ) ∑( ̅ )]

[∑( ̅ ̅ )]

[∑( ̅ )]

[∑ ( ) ( ̅ )]

[∑( ) ( )]

[∑( ) ]

[∑( )] , -

( ) (̂ )

Como vemos, este estimador de la varianza no es insesgado ya que su media no coincide con el
valor verdadero del parámetro poblacional. Por ello llamaremos sesgado al estimador ̂ . Pero
observemos que si en lugar de ̂ usamos como estimador de la varianza a

∑ ( ̅)
̂

es decir dividiendo la suma cuadrática del numerador por n-1 en lugar de hacerlo por n,
obtenemos un estimador muestralinsesgado de la varianza poblacional verdadera

 Desvío Standard
El inconveniente de la varianza es que las unidades originales de los datos quedan
elevadas al cuadrado, por lo tanto no se puede comparar con la media, la mediana, la
moda o con los mismos datos. Para solucionar este inconveniente es habitual utilizar la
raíz cuadrada de la varianza. Este parámetro nuevo se denomina desvío standard y de este
modo recuperamos las unidades iniciales de los datos. Al tener dos varianzas posibles
(sesgada e insesgada) también tendremos dos desvíos standard opcionales.

8
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
∑ ( ̅)
̂ √

∑ ( ̅)
̂ √

 Coeficiente de Variación (CV)


Este parámetro mide el grado de dispersión de la población X alrededor de la media, en
porcentaje :

 Los cuartiles
Son medidas de variabilidad asociadas a la mediana. Al igual que ella, dependen del orden
de los números reales. Los cuartiles son dos, y , que marcan respectivamente el 25%
y el 75% de los datos menores a la izquierda de cada cuartil. Es decir que la cuarta parte
más pequeña de los datos queda a la izquierda de , y la cuarta parte más grande de los
datos queda a la derecha de . Luego, la mitad central de los datos queda comprendida
entre, y . Las definiciones de los cuartiles, análogas a la definición de la mediana,
quedan establecidas por la función cuantil que es la función inversa ( ) de la
distribución (acumulada) F(x), de la siguiente manera

( )
( )

 Box Plot
Cuando el Coeficiente de Variación C.V (X) es alto (mayor que un 5% o hasta un 20%)
podemos hacer otro análisis estadístico e intentar algunos cambios para reducirlo. Este
análisis se denomina Box Ploto “diagrama de caja”. En síntesis se trata de construir un
esquema utilizando los cuartiles como bordes y levantando unas barreras que son límites
o extremos que nos van a indicar la presencia de datos muy extremos. Si encontramos
este tipo de datos, a los que llamaremos “outliers”, intentaremos recortarlos (trimming) y
recalcular el coeficiente de variación.

9
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ahora colocamos todos los datos de X en el diagrama. Observemos que el 50% de los
datos (los centrales) están dentro de la caja (box).Tratemos de detectar la presencia de
datos muy extremos, que son los que se ubican por fuera de las barreras externas (BEI y
BED).

Si se detectan outliers, que son los datos muy extremos quedesestabilizan a la media ̅ , la
intención es eliminarlos o recortarlos.Luego del recorte, que no se recomienda que
exceda de un 3% o un 5% del total n de datos, se recalcula el C.V (X), ahora recortado.

Luego observamos si el C.V bajó a niveles aceptables. En este caso, tomaremos la media
recortada μ como medida de tendencia y el desvío standard recortado (σ) como medida
de dispersión o error.

Si el CV recortado C.V.r no se redujo hasta un valor aceptable, tomamos la mediana como


medida de posición o tendencia y los cuartiles como medida de dispersión o error.

En el ejemplo anterior de las temperaturas media diaria de julio 2011 en Río Gallegos, en
ºC, calculemos las medidas de dispersión
Ejemplo:

Sea X = las edades de las personas que están en el aula.


x1  18 x2  19 x3  21 x4  22 x5  22 x6  19 x7  21 x8  20
x9  21 x10  22 x11  20 x12  24 x13  20 x14  27 x15  52

( )
̅

10
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
34% es muy alto, existe mucha heterogeneidad, los datos aparecen muy dispersos
alrededor de la media. Esto amerita la construcción de un box plot.

Hemos detectado un outlier


X15 = 52

Recortamos ese dato: Estamos recortando 1/15 ≈ 0.06 = 6% de los datos

Recalculamos el cv recortado: ̅ Este es el valor de la nueva media


Desvio Standard recordado ( )

Medidas de forma
 Sesgo
También llamado coeficiente de asimetría, mide cuan simétrica es la distribución de la
población o de los datos de la muestra en el caso en que lo estemos estimando. Existen
dos versiones del sesgo alrededor de la media, una “gruesa” o coeficiente de asimetría de
Pearson y otra “fina” o coeficiente de asimetría de Fisher. El sesgo medido en forma
rápida y gruesa es

(̅ )

Una medida mucho más fina del sesgo se obtiene utilizando el tercer momento centrado
en la media
∑ ( ̅)
*( ) +

Interpretación del sesgo:

11
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Coeficiente de asimetría de Bowley:
Esta medida de la asimetría se aplica cuando queremos observar si la distribución de los
datos y de la población de la que fueron extraídos tiene un comportamiento simétrico
alrededor de la mediana.
( )

donde es el tercer cuartil, es el primer cuartil y Me(X) es la mediana de la


distribución.

Interpretación del coeficiente de asimetría de Bowley:

Si <0: la distribución tiene una asimetría negativa, puesto que la distancia de la


mediana al primer cuartil es menor que al tercero.
Si =0: la distribución es simétrica, ya que el primer y tercer cuartil están a la misma
distancia de la mediana.
Si >0: la distribución tiene una asimetría positiva, ya que la distancia de la mediana al
tercer cuartil es mayor que al primero.

12
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
 La kurtosis
Mide la homogeneidad o heterogeneidad de los datos alrededor de la media
∑ ( ̅)

A diferencia del sesgo, cuyo valor de referencia es 0 (simetría perfecta), la kurtosis se compara
con el valor 3, que representa una kurtosis media, típica de la distribución Normal Standard. Por lo
tanto, una vez calculado su estimador usualmente debemos restarle 3 para obtener un valor de
kurtosis referido al 0.

Podemos evaluar el sesgo y la kurtosis de manera teórica para todas las variables aleatorias que
hemos estudiado. Para esto solo tenemos que aplicar la definición de ambos conceptos. Veamos
entonces el sesgo y la kurtosis de las distribuciones que hemos estudiado:

 En el caso de la ( )Binomial:

13
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
 Sesgo:
√ ( )
( )
 Kurtosis: ( )
 Para la distribución Geométrica obtenemos por cálculo directo que, si ( ):

 Sesgo:

 Kurtosis:

 Distribución Hipergeométrica, si ( ):
( ) ( ) ( )
 Sesgo:
, ( ) ( )- ( )

( ) ( ) ( ) ( )( )
 Kurtosis: 0 1 0 1
( )( )( ) ( )

 Distribución de Poisson, si ( ):

 Sesgo:
 Kurtosis:

 Distribución de Pascal o Binomial Negativa, si ( ):


 Sesgo:
√ ( )

 Kurtosis:
( )

 Distribución Normal, si ( )
 Sesgo: 0
 Kurtosis: 3

 Distribución Gamma, si ( )
 Sesgo:

 Kurtosis:

 Distribución Exponencial, si ( )
 Sesgo: 2
 Kurtosis: 9

 Distribución Chi Cuadrado, si


14
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
 Sesgo: √
 Kurtosis: 12/k

 Distribución t de Student , si
 Sesgo: 0 para n > 3
 Kurtosis:

 Distribución F de Snedecor , si ( )
( )√ ( )
 Sesgo: para
( )√ ( )
[( ) ( ) ( ) ( )]
 Kurtosis:
( ) ( ) ( )

Ejemplo de aplicación
X : T (temperatura media diaria de julio 2011 en Río Gallegos, en ºC, datos oficiales del
Servicio Meteorológico Nacional, SMN)
Los datos observados son los siguientes:

Día (Julio) T 12 0.1 24 2.2


1 2.2 13 1.9 25 3.2
2 1.3 14 2.4 26 3.2
3 2.2 15 -0.3 27 3.1
4 1.7 16 -1.8 28 0.3
5 1.3 17 1 29 -2.8
6 2.6 18 0.4 30 -0.8
7 2.4 19 1.2 31 0.7
8 2.2 20 3.6
9 0.2 21 3.7
10 -1.2 22 2.6
11 2.4 23 3.5

∑ ∑
Media aritmética: ̂ ̅

Moda: 2,2 °C y 2,4 °C, 3 veces cada una.


Mediana: 1,90 °C

Ahora calcularemos las medidas de dispersión y forma ayudándonos con la planilla de


cálculo Excel
15
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
( ̅) ( ̅) ( ̅)
Día (Julio) T Media
1 2,2 1,44 0,58 0,44 0,33
2 1,3 1,44 0,02 -0,00 0,00
3 2,2 1,44 0,58 0,44 0,33
4 1,7 1,44 0,07 0,02 0,00
5 1,3 1,44 0,02 -0,00 0,00
6 2,6 1,44 1,35 1,56 1,81
7 2,4 1,44 0,92 0,88 0,85
8 2,2 1,44 0,58 0,44 0,33
9 0,2 1,44 1,54 -1,91 2,36
10 -1,2 1,44 6,97 -18,40 48,58
11 2,4 1,44 0,92 0,88 0,85
12 0,1 1,44 1,80 -2,41 3,22
13 1,9 1,44 0,21 0,10 0,04
14 2,4 1,44 0,92 0,88 0,85
15 -0,3 1,44 3,03 -5,27 9,17
16 -1,8 1,44 10,50 -34,01 110,20
17 1 1,44 0,19 -0,09 0,04
18 0,4 1,44 1,08 -1,12 1,17
19 1,2 1,44 0,06 -0,01 0,00
20 3,6 1,44 4,67 10,08 21,77
21 3,7 1,44 5,11 11,54 26,09
22 2,6 1,44 1,35 1,56 1,81
23 3,5 1,44 4,24 8,74 18,01
24 2,2 1,44 0,58 0,44 0,33
25 3,2 1,44 3,10 5,45 9,60
26 3,2 1,44 3,10 5,45 9,60
27 3,1 1,44 2,76 4,57 7,59
28 0,3 1,44 1,30 -1,48 1,69
29 -2,8 1,44 17,98 -76,23 323,19
30 -0,8 1,44 5,02 -11,24 25,18
31 0,7 1,44 0,55 -0,41 0,30
SUMA 81,06 -99,09 625,30

16
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Con los resultados obtenidos a partir de esta tabla en Excel, podemos hallar
inmediatamente las medidas buscadas.

∑ ( ̅)
Varianza sesgada: =

∑ ( ̅)
Varianza insesgada:

Los correspondientes desvíos standard son:

Sesgado: √

Insesgado: √
En consecuencia el coeficiente de variación es:

CV = ̅
que resulta ser muy alto ya que se interpreta como que hay un 113% de dispersión,
variabilidad, error, o “ruido” de los datos alrededor de la media ̅ . Esto nos
indica precisamente que la media no es representativa ni confiable como medida de
tendencia o posición. En consecuencia debemos valernos de otra medida de tendencia,
como por ejemplo la mediana, que ya hemos calculado y vale 1,90 °C, y sus correspondientes
medidas de dispersión que son los cuartiles, que en este caso valen:

Finalmente calculemos e interpretemos las medidas de forma:

Sesgo (coeficiente de asimetría)


(̅ ) ( )

∑ ( ̅)
*( ) +

Este valor nos indica que la distribución de los datos esta sesgada a izquierda. Esta
asimetría negativa se reflejará gráficamente en una “cola larga” hacia la izquierda, y
significa que existen valores o datos extremos a la izquierda (menores) de la media.
17
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
∑ . ̅/

Kurtosis:

Este valor nos indica que la distribución de los datos es mesocúrtica, es decir que los datos se
concentran alrededor de la media de manera similar a lo que ocurriría si los mismos siguieran una
distribución Normal.

Observemos que también podríamos haber tomado un estimador insesgado para la kurtosis, es
decir dividiendo por n-1 en lugar de dividir por n en el numerador de k. En este caso, el estimador
de la kurtosis nos da

∑ . ̅/

3
Recordemos que en la literatura del tema y en los software estadísticos se acostumbra a restarle 3
(que es el valor de referencia para la kurtosis) a este resultado.

Datos agrupados por intervalos de clase (IC)


Cuando los datos son muchos (n grande) se los agrupa en intervalos de clases (I.C.). la cantidad de
I.C. es arbitrara, aunque por lo general el mínimo es 5.

Agrupemos los datos del ejercicio de aplicación con una r.v. X: T temperatura media diaria del mes
de Julio en Río Gallegos, que ya analizamos con los datos “crudos”.

Tomemos 5 I.C.

Para ello buscamos el dato máximo y el mínimo redondeando.

Datos agrupados:(Análisis univariado de datos)

r.v. X: T (temperatura media diaria julio 2011)

Agrupamos los datos en intervalos de clase (I.C.)

Mínimo: 5 IC

Rango = Máximo – Mínimo

R = 3,7 – (-2,8) redondeo = R = 4 – (-3) = 7

R= 6,5

18
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
IC1 IC2 IC3 IC4 IC5

-3 -1,6 -0,2 1,2 2,6 4


T° (c)
R

1,4 1,4

IC f Fa fr Fra mi

IC1 , ) 2 2 0,064 0,064 -2,3

IC2 , ) 3 5 0,096 0,16 -0,9

IC3 , ) 6 11 0,1995 0,3535 0,5

IC4 , ) 12 23 0,387 0,7405 1,9

IC5 , ) 8 31 0,2580 0,9985 3,3

TOTAL 31 - - 1 -

f = frecuencia absoluta

Fa = frecuencia absoluta acumulada

fr = frecuencia relativa

Fra = frecuencia relativa acumulada

mi= marca de clase o punto medio de cada I.C.

Cálculos de los parámetros agrupados:



 Media aritmética (agrupada): ̅̅̅

( ) ( ) ( ) ( ) ( )
̅̅̅

19
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
∑ ( ̅ )
 Varianza (agrupada): (sesgada)

2(2,3  1, 4483) 2  3(0,9  1, 4483) 2  6(0,5  1, 4483) 2  12(1,9  1, 4483) 2  8(3,3  1, 4483) 2
S 
2
A  2,57
31

∑ ( ̅ )
(insesgada)

 Desvío Standard

√ √

√ √

 C.V (agrupado)

̅
(sesgada)

̅
(insesgada)

(∑ )
 Mediana (agrupada) = * +

donde

= límite inferior del intervalo de clase de la mediana

N = cantidad de datos (frecuencia total)

(∑ ) = suma de las frecuencias absolutas hasta la clase anterior a la de la mediana.

= frecuencia absoluta de la clase de la mediana

C = ancho del intervalo de clase de la mediana.

20
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Calculemos la Mediana Agrupada a partir de la tabla de frecuencias, para la temperatura media
diaria de julio 2011 en Río Gallegos.

 31  9 
  11  2  1, 4 
1, 2   2   1, 4  1, 2     1, 725
 12   12 
   
 Moda: la moda puede deducirse de una distribución de frecuencias o de un histograma a
partir de la siguiente fórmula:

[ ]

donde:

= frontera interior de la clase modal (clase que contiene a la moda).

= exceso de la frecuencia modal sobre la de la clase inferior inmediata.

= exceso de la frecuencia modal sobrela clase superior inmediata.

C = anchura del intervalo de la clase modal

∑ ( ̅)

(̅ ) ( )

∑ ( ̅)
*( ) +

21
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ejemplo de la mediana agrupada por IC:
Calculemos la Mediana Agrupada a partir de la tabla de frecuencias, para la temperatura media
diaria de julio 2011 en Río Gallegos.

 31  9 
2  11   2  1, 4 
1, 2    1, 4  1, 2     1, 725
 12   12 
   

Para encontrar los cuartiles graficamos la distribución de Fra.

0,75

0,5

0,25

T
-3 -2 -1 0 1 2 3 4

IC1 IC2 IC3 IC4 IC5

 Cuartiles (tomo la Marca de clase)


( )

( )

22
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Para datos agrupados por IC podemos utilizar las siguientes expresiones de los cuartiles

. /
[ ]

. /
[ ]

donde

= límite inferior del intervalo de clase de

N = cantidad de datos (frecuencia total)

= frecuencia absoluta acumulada hasta la clase anterior a la de

= frecuencia absoluta de la clasede

C = ancho del intervalo de clase de la mediana.

HISTOGRAMA= gráfico de barras de la Fr, es una aproximación de la densidad de la r.v.

0,4

0,3

0,2

0,1

T
mc mc mc mc mc
-4 -3 -2 -1 0 1 2 3 4

-1,6 -0,2 1,2 -2,6

23
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Polígono de frecuencias: es otra aproximación más precisa a la densidad de la variable aleatoria.
Se construye uniendo con una poligonal los puntos medios superiores de las barras del
histograma.

Diagrama Circular o Torta es un círculo que representa al 100% de la muestra, dividido en sectores
circulares cuyas áreas son proporcionales a las frecuencias relativas de los I.C.

Datos agrupados por frecuencia


Cuando tenemos muchos datos repetidos es aconsejable agruparlos en una tabla en la que figuren
los distintos valores de ( ) de la variable y sus frecuencias absolutas ( ). Luego completamos la
tabla de frecuencias y calculamos las medidas resumen.

 La media aritmética


̂ ̅

donde c es la cantidad de datos distintos que tenemos

Medidas de dispersión, error o variabilidad

 La varianza muestral sesgada:

∑ ( ̅)
̂

24
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
 La varianza muestralinsesgada

∑ ( ̅)
̂

 Desvío Standard

∑ ( ̅)
̂ √

∑ ( ̅)
̂ √

 Mediana para datos agrupados por frecuencias


( )
donde F es la frecuencia relativa acumulada

 Moda para datos agrupados por frecuencias


Es aquel dato, observación o registro que tenga la frecuencia
absoluta mas alta

 Los cuartiles para datos agrupados por frecuencias


( )
( )

donde F es la frecuencia relativa acumulada

 Coeficiente de Variación para datos agrupados por frecuencias


25
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ejemplo de datos agrupados por frecuencias:
Se pidió a los alumnos de Estadística de la universidad que elaboren un informe con conclusiones
para la toma de decisiones. El curso tiene 80 alumnos y 2 alumnos realizaron el trabajo en una
hoja, 5 en 2 hojas, 6 en 3 hojas, 27 en 4 hojas, 21 en 5 hojas, 6 en 11 hojas, 7 en 5 hojas y 8 en 3
hojas. Analizar los datos agrupándolos por frecuencias, confeccionando la tabla, los gráficos y
calcular las medidas resumen para su posterior análisis.

Primero definimos la variable aleatoria correspondiente

X : cantidad de hojas que entregó cada alumno.

Clasifiquemos esta variable: cuantitativa, discreta, finita.

Tabla de frecuencias

1 2 0,025 2 0,025
2 5 0,0625 7 0,0875
3 6 0,075 13 0,1625
4 28 0,35 41 0,5125
5 20 0,25 61 0,7625
6 11 0,1375 72 0,9
7 5 0,0625 77 0,9625
8 3 0,0375 80 1
Total 80 1

26
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Frecuencias absolutas
30

25

20

15

10

0
0 2 4 6 8 10

Frecuencias relativas acumuladas


1.2
1
0.8
0.6
0.4
0.2
0
0 2 4 6 8 10

Medidas resumen:

 La media aritmética


̂ ̅

 La varianza muestral sesgada:

∑ ( ̅)
̂

27
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
 La varianza muestralinsesgada

∑ ( ̅)
̂

 Desvío Standard

∑ ( ̅)
̂ √

∑ ( ̅)
̂ √

 Coeficiente de Variación para datos agrupados por frecuencias

Es decir que tenemos un CV del 32%, lo que nos indica que es alto y en
consecuencia la media ̅ no es confiable, en el sentido de que no es representativa
de la cantidad de hojas que entregaron los alumnos porque presenta un elevado
grado de variabilidad, error o dispersión de los datos a su alrededor. En
consecuencia podemos optar por utilizar la mediana como medida de posición o
tendencia en lugar de la media

28
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
 Mediana para datos agrupados por frecuencias
( )
donde F es la frecuencia relativa acumulada. De la tabla de frecuencias
observamos directamente que en este caso la mediana corresponde al dato o valor
de X = 4.
 Moda para datos agrupados por frecuencias
También usamos la tabla de frecuencias para encontrarla. Vemos que el dato que
tiene la frecuencia absoluta más alta es de nuevo X = 4.

 Los cuartiles para datos agrupados por frecuencias


( )
( )

Nuevamente utilizamos la tabla de frecuencias para encontrar sus valores. De la misma


podemos observar que, buscando en la columna de la frecuencia relativa acumulada,
hallamos que

( )
( )
 BOX PLOT

Recordemos nuevamente esta definición: cuando el Coeficiente de Variación C.V (X) es alto (mayor
que un 5% o un 10%) podemos hacer otro análisis y algunos cambios para reducirlo.

Este análisis se denomina Box Plot o diagrama de caja.

29
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ahora colocamos todos los datos de X en el diagrama. Observemos que el 50% de los datos (los
centrales) están dentro de la caja (box).

Tratemos de detectar la presencia de datos muy extremos, que son los que se ubican por fuera de
las barreras externas (BEI y BED).

Si se detectan outliers, que son los datos muy extremos quedesestabilizan a la media, la intención
es eliminarlos o recortarlos.

Luego del recorte, que no debe exceder de un 3% o un 5% del total n de datos, se recalcula el C.V
(X), ahora recortado.

Luego observamos si el C.V bajó a niveles aceptables. En este caso, tomaremos la media recortada
μ como medida de tendencia y el desvío standard recortado (σ) como medida de dispersión o
error.

Si el CV recortado C.V.r no se redujo hasta un valor aceptable, tomamos la mediana como medida
de posición o tendencia y los cuartiles como medida de dispersión o error.

Retomemos el ejemplo de las edades

X: edades de las personas que están en el aula.

Hemos detectado un outlierX15 = 52

Recortamos ese dato:

Estamos recortando 1/15 ≈ 0.06 = 6% de los datos

30
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Recalculamos el cv recortado:

Desvio standard recortado ( )

Recalculamos el cv

( )
̅

Llegamos a la conclusión de que tomamos como media de posición o tendencia de x a la media


recortada:

31
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Estimadores de máxima verosimilitud
La estimación por máxima verosimilitud (conocida también como EMV y, en ocasiones, MLE
Maximun Likelihood Estimations) es un método de estimación puntual basado en optimizar
(maximizar) una función llamada de verosimilitud o credibilidad, que depende de la densidad (caso
X continua) o distribución de probabilidades (caso X discreta) de la variable aleatoria X que
depende de un parámetro . Fue recomendada, analizada y popularizada por Ronald Fisher
aproximadamente en 1920 pero fue previamente planteado por Bernoulli, Euler, entre otros.

Ronald Fisher en 1913

Dada una muestra aleatoria de una r.v. que depende de un parámetro ; el estimador
de máxima verosimilitud de , llamado ̂, es el valor de que maximiza a ( )
donde L es la función de verosimilitud, la densidad conjunta de la muestra que explicaremos a
continuación.

Pasos para encontrar un EMV:

1- Calculamos la función de verosimilitud que es la densidad conjunta de la muestra. Esta es una


función de los parámetros de una distribución probabilística, que permite realizar
interferencias acerca de sus valores, a partir de una muestra dada.
Dicha función, que notaremos con la letra L, se define como la probabilidad de que ocurran
simultáneamente todos los valores obtenidos en la muestra, para r.v discreta esto es:

( ) ∏ ( )

2- Hallamos un máximo de L. Si es necesario previamente se aplica Ln (L), y luego resolvemos


la derivada igualada a cero (condición de máximo) y se obtiene ̂ ( )

3- Ahora bien, las P (Xi = xi) siguen una distribución que depende de un parámetro θ
desconocido, con lo cual también lo hará la correspondiente función de densidad conjunta
L. es decir,

( ) ( )
1
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
La función L se podría pasar como una probabilidad condicional, siendo
A=* + el evento en el cual suceden las n experiencias aleatorias, θ el
parámetro desconocido y ̂ un valor particular (estimador) de dicho parámetro.
̂
( ) ( ̂)

De este modo tendremos diferentes L según sea el estimador ̂ elegido, en realidad lo que
interesa no es la función en s{i, sino la razón entre las funciones de verosimilitud:

(̂ )̂(̂ )

Dicha razón resulta útil para determinar cuál de los dos valores de ̂ es más verosímil.

Propiedades:
1- Los EMV pueden ser sesgados, es decir, el valor esperado no coincide con el parámetro.
Pero se puede corregir multiplicando el estimador EMV por una constante.

( ̂) ( ( ))

2- Consistencia o convergencia bajo condiciones muy generales, los EMV son convergentes,
es decir, si los tamaños de muestra sobre los cuales se basan son grandes, el EMV será
“próximo” al valor del parámetro que se estima.
̂ ( ) ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗

3- Propiedad asintótica: Esta propiedad es mucho más fuerte que la primera, dado que la
esta propiedad ahora nos describe cual es la condición probabilística de ̂ para un n
grande.
̂ ⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗⃗ ( , ( )- )

4- Invariancia Si ̂ ( ) entonces ( ̂) ( ) donde h es una función


biyectiva y diferenciable.

Recordemos que la táctica usada por el método de máxima verosimilitud consiste en proponer
aquella expresión para la cual L sea máxima.
Como L es la probabilidad conjunta de todos los valores muestrales , lo que en realidad se hace
al elegir esta estrategia es suponer que la muestra fue la muestra que mayores probabilidades
tenia de ocurrir, de aquí la expresión “máxima verosimilitud”.
Debemos entonces encontrar la expresión de θ que haga que:

2
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
∏ ( )

Sea máxima

Hallando el estimador:
En la mayoría de los casos el estimador del parámetro θ para el cual L es máxima se obtiene
derivando la expresión de L respecto de θ e igualando a cero.
Debido a que L es una productoria puede resultar muy útil trabajar con el logaritmo natural de L,
en lugar de L. Esto es válido en el contexto en el que estamos trabajando, dado que Ln(L)es
monótona y estrictamente creciente con L, con lo cual Ln(L) tendrá un máximo en donde Ltenga su
máximo.
El valor de θ para el cual la derivada de Ln(L) sea cero es en realidad estimador, ̂.

Ejemplo de aplicación de la función de verosimilitud.


Distribución de Poisson:

X: Cantidad de vehículos que pasan por una determinada esquina los días de semana, desde las
13hs hasta las 14hs.
N: 16 observaciones.
A = {25, 36, 21, 14, 19, 15, 22, 29, 11, 32, 19, 24, 31, 27, 18, 22}

L para la distribución de Paisson (λ)

( ) ∏ ( ) ∏

( ( )) ( ∑ ) ∑ ( )

Ejemplo de aplicación de la función de verosimilitud – Distribución Exponencial.

X: tiempo de vida útil, en horas, de una determinada marca de lámparas de bajo consumo.
N: 15 observaciones.
A: {310, 300, 290, 400, 352, 325, 388, 415, 288, 321, 194, 246, 312, 279, 227}

L para la distribución Exponencial Exp (λ)

( ) ∏ ( ) ∏

( ( )) ( ) ∑

3
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Ejemplo:
Estimadores de máxima verosimilitud para una distribución Gamma

( ) ( )

Observemos que en este caso la variable aleatoria no depende de un solo parámetro sino de dos,
. Por lo tanto, para maximizar la función de verosimilitud la tendemos que derivar
parcialmente con respecto a los dos parámetros. Luego igualaremos a 0 cada una de esas dos
derivadas parciales y resolveremos el sistema de ecuaciones que nos quede para encontrar los
EMV de Primero construimos la función de verosimilitud L:

( ) (∏ ) ( ∑ )
( )
, ( )-
Ahora tomamos logaritmo natural en ambos miembros

( )∑ ∑ ( )

Luego debemos resolver simultáneamente y . Esas ecuaciones llegan a ser:

( )

( )

Veremos que da directamente ̂ ̅. Por lo tanto después de sustituir por ̂ vemos


que la derivada de la función nos queda así:

( )
̅ ∑
( )

Ejemplo:
Estimadores de máxima verosimilitud para una distribución Normal, supongamos que X tiene una
distribución N ( ) y la densidad es:
( ) ( 0 1 )

Si( ) es una muesra de X, sun función de verosimilitud está dada por:

( ) ( ) { ∑[ ] }

4
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
. / ( ) ( ∑[ ] )

Debemos resolver simultáneamente y

( )
Entonces primero tenemos ∑ , lo que nos da ̂ ̅ , el promedio muestral.

( )
Y ∑ que nos da ̂ ∑ ( ) ∑ ( ̅) .

Finalmente podemos observar que el método de EMV produce un estimador sesgado de ,


puesto que ya hemos visto que un estimador insesgado es de la forma ( ) ∑ ( ̅)

5
Apunte de cátedra – Probabilidad y Estadística – Parte III
Lic. José Luis Sáenz
Análisis Multivariado

Análisis de Correlación

Análisis Estadístico Bivariado


Trabajaremos ahora con dos r.v. X e Y, recordando lo que ya hemos visto para r.v.
bidimensionales, por ejemplo las distribuciones conjunta, marginales y condicionales. El caso
bivariado es el menor posible de los casos multivariados.

Análisis de Correlación
Buscaremos en primer lugar analizar si existe una asociación lineal (porque la línea recta es la
función matemática más simple como modelo de análisis) entre las r.v. univariadas X e Y a través
de medir cuál es el grado o intensidad de ese vínculo lineal.

En los casos afirmativos, luego trataremos de encontrar la ecuación de la línea recta que mejor las
relacione en algún sentido matemático. Para determinar si existe una asociación o tendencia lineal
(sin considerar la relación de dependencia entre ellas) entre dos r.v. X e Y, se utiliza un coeficiente
llamado  (rho) de Pearson.

Coeficiente de correlación  (rho) de Pearson, creado en 1896 por Karl Pearson, un pionero
estadístico británico, nacido en Londres el 27 de Marzo de 1857 y muerto en Coldharbour, Surrey,
27 de Abril de 1936. Mide el grado de intensidad de la asociación lineal entre dos r.v. X e Y, y se lo
define de la siguiente manera:

cov  x, y 
   xy 
 x  y

donde:
cov( x, y ) es la covarianza ó co-variación conjunta entre x e y, y está definida así :

cov( x, y)  E  X   X Y  Y  


y

-
+

µy

x
µx

+ -

  cov( x, y) 
 X   X Y  Y 
  cov( x, y) 

La covarianza mide la asociación lineal i.e. la tendencia que tienen las r.v. X e Y a formar una recta
o alinearse, y el grado de la misma o pendiente. Este parámetro actúa de la siguiente manera para
medir la intensidad del vinculo lineal entre X e Y: observemos el diagrama de arriba en el que se
han colocado los puntos de la población (X ; Y); en el mismo también hemos señalado claramente
el punto ( ). Podemos separar los puntos de la población de acuerdo a cuál de los 4
“cuadrantes” ocupe cada punto. Aquellos que se ubiquen en el cuadrante superior derecho y en el
inferior izquierdo aportan covarianza positiva ya que el resultado de la operación básica
( ) será positivo. Por el contrario aquellos que se ubiquen en el cuadrante superior
izquierdo y en el inferior derecho aportan covarianza negativa ya que el resultado de la operación
básica ( ) será negativo. Luego, en la covarianza sumamos todos estos aportes y si
esa suma da positiva, quiere decir que tienen más peso los puntos de los cuadrantes superior
derecho e inferior izquierdo. Esto significa que los puntos tienden a alinearse de manera que
forman una recta con pendiente positiva. Por el contrario si la suma total de la covarianza es
negativa quiere decir que tienen más peso los puntos de los cuadrantes superior izquierdo e
inferior derecho. Esto significa que los puntos tienden a alinearse de manera que forman una recta
con pendiente negativa. En cualquiera de los dos casos dividimos la covarianza por el producto de
los desvíos standard solo para unificar o normalizar las unidades y la magnitud de las dos variables
X e Y, que pueden ser muy diferentes.
Tipos de covarianza

cov( x, y )  0 significativa positiva cov( x, y)  0 significativa negativa

Cov (X,Y) ≃ 0 (Amorfo) Cov (X,Y) ≃ 0 (Modelo no lineal)

No significativa No significativa

Rango de  y su interpretación:

El coeficiente de correlación  (rho) de Pearson solo puede tomar valores reales entre -1 y 1
porque la covarianza ha sido dividida por los desvíos standard.
1    1

Los distintos valores que puede tomar el  (rho) de Pearson se interpretan así :

linealidad significativa negativa linealidad significativa positiva

  1  1
P ? -1 P? 0 P? 1

-1 0 1
linealidad significativa

ρ→0
Cálculo del estimador r del  de Pearson

Cuando tengamos los n datos de una muestra bivariada de un par aleatorio (X,Y) :

 X1 , Y1  ;  X 2 , Y2  ;  X 3 , Y3  ; ;  X n , Yn 

calculamos un estimador muestral ̂ del parámetro  , llamado coeficiente muestral r de


Pearson. Para ello aplicamos la siguiente fórmula que proviene de sustituir cada factor de la
definición de por sus correspondientes estimadores muestrales:

∑ ̅ ̅
̂
̅ ̅
√∑ √∑

 ( X Y  X Y  XY  XY )
i 1
i i i i

 n 
n n

(X
i 1
i
2
 2Xi X  X ) 2
Y
i 1
i
2
 2YY
i Y 2


n n
n n n

 X Y Y  X
i 1
i i
i 1
i  X  Yi  nXY )
i 1

 n 
n n n n

X
i 1
i
2
 2 X  X i  nX 2
i 1
Y
i 1
i
2
 2Y  Yi  nY 2
i 1

n n

n n n

 X iYi  Xi Y i
nXY
i 1
Y i 1
X i 1

n n n n
 
n n n n

X i
2
X i
nX 2 Y i
2
Y i
nY 2
i 1
 2X i 1
  i 1
 2Y i 1

n n n n n n

XY i i
i 1
 YX  XY  XY
 n 
n n

X i
2
Y i
2

i 1
 2 XX  X 2  i 1
 2YY  Y 2
n n

XY i i
i 1
 YX
 n 
n n

X i
2
Y i
2

i 1
X2  i 1
Y 2
n n

̂
∑ ̅̅
̂
√∑ ̅ √∑ ̅

llamada fórmula de trabajo para ̂

El coeficiente de correlación posee las siguientes propiedades:

a. El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir
las variables X e Y.

b. El valor del coeficiente de correlación se altera significativamente ante la presencia de valores


extremos de X o Y. Lo mismo ocurre con la desviación típica. En este caso conviene plantear una
transformación funcional de los datos que cambie las escalas de medición como, por ejemplo, una
transformación logarítmica.

c. El coeficiente de correlación mide solo la relación con una línea recta. Dos variables pueden
tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña. Por tanto cuando
analicemos las relaciones entre dos variables debemos representarlas gráficamente y
posteriormente calcular el coeficiente de correlación.

d. El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado de
las variables a estudio ya que la relación existente entre X e Y puede cambiar fuera de dicho rango.

e. La correlación no implica causalidad. La causalidad es un juicio de valor que requiere más


información que un simple valor cuantitativo de un coeficiente de correlación.

f. El coeficiente de correlación es simétrico, es decir que . Esto surge directamente de


la definición del coeficiente

Ejemplo
Veamos si la temperatura media diaria (X = T) y la humedad media relativa del ambiente (Y = H)
para el mes de Julio de 2011 en Río Gallegos, tienen una asociación lineal significativa, es decir si
están correlacionadas.
Día (Julio) T H 12 0.1 88 24 2.2 92
1 2.2 79 13 1.9 90 25 3.2 94
2 1.3 84 14 2.4 99 26 3.2 89
3 2.2 82 15 -0.3 86 27 3.1 92
4 1.7 80 16 -1.8 86 28 0.3 82
5 1.3 88 17 1 78 29 -2.8 85
6 2.6 90 18 0.4 73 30 -0.8 80
7 2.4 85 19 1.2 67 31 0.7 78
8 2.2 86 20 3.6 65
9 0.2 86 21 3.7 69
10 -1.2 87 22 2.6 73
11 2.4 85 23 3.5 74
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil VersiónDiagrama
Estudiantil de
Versión Estudiantil
Dispersion Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
100,70
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Humedad media relativa (H)

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
91,35
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
82,00
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
72,65
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
63,30
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
-3,13 -1,34 0,45 2,24 4,03
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Temperatura media diaria (T)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

El cálculo del estimador del coeficiente de correlación r de Pearson nos dá ̂ -0,09595

La conclusión es que no existe una asociación o tendencia lineal significativa entre la temperatura
media diaria y la humedad relativa del ambiente durante el mes de Julio de 2011 en Río Gallegos.

Rho de Spearman

El coeficiente de correlacion de Spearman es una medida de correlacion entre dos variables


aleatorias continuas, que se calcula ordenando los datos y reemplanzando por su respectivo
orden. Este coeficiente es menos sensible que el de Pearson para los valores muy lejos de lo
esperado, y suele utilizarse cuando la distribución de las variables que se estudian no es normal.

Asi el de Spearman viene dado por la expresión

∑ [ ]

Ejemplo de aplicación ρ de Spearman:

En el ejemplo anterior en el que calculamos el coeficiente de correlación de Pearson en base a los


datos de temperatura media diaria (X = T) y la humedad media relativa del ambiente (Y = H) para
el mes de Julio de 2011 en Río Gallegos; encontremos ahora el coeficiente de Spearman

Temperatura Humedad Rango (T) Rango (H) (R(T) - R(H))^2


2.2 79 18,5 1 306,25
1.3 84 13,5 2 132,25
2.2 82 18,5 3 240,25
1.7 80 15 4,5 110,25
1.3 88 13,5 4,5 81
2.6 90 24,5 6 342,25
2.4 85 21,6 7,5 198,81
2.2 86 18,5 7,5 121
0.2 86 7 9 4
-1.2 87 3 10,5 56,25
2.4 85 21,6 10,5 123,21
0.1 88 6 12,5 42,25
1.9 90 16 12,5 12,25
2.4 99 21,6 14 57,76
-0.3 86 5 16 121
-1.8 86 2 16 196
1.0 78 11 16 25
0.4 73 9 19,5 110,25
1.2 67 12 19,5 56,25
3.6 65 30 19,5 110,25
3.7 69 31 19,5 132,25
2.6 73 24,5 22 6,25
3.5 74 29 23,5 30,25
2.2 92 18,5 23,5 25
3.2 94 27,5 25 6,25
3.2 89 27,5 26,5 1
3.1 92 26 26,5 0,25
0.3 82 8 28,5 420,25
-2.8 85 1 28,5 756,25
-0.8 80 4 30 676
0.7 78 10 31 441
SUMA = 4941,28

Entonces hallamos el de Spearman

∑ [ ]

Coeficiente de correlación Tau Kendall

Estima la relación entre dos variables ordinales, es decir que su aplicación es ideal para el caso no
paramétrico de variables cualitativas ordinales. Se interpreta igual que el índice de Pearson. Este
coeficiente se utiliza para medir el grado de correspondencia entre dos categorías y evaluar el
nivel de significación de esta correspondencia. En otras palabras, mide la intensidad de la
asociación entre las tabulaciones cruzadas. Fue desarrollado por Maurice Kendall en 1938.

Donde

P: es la suma, sobre todas las categorías de las clases rankeadas (ordenadas)

Cantidad de pares (ordenaciones de n pares) posibles:

El coeficiente tau (τ) de Kendall está basada más en los intervalos jerarquizados de las
observaciones que los propios datos, esto hace que la distribución de τ sea independiente de la
que presentan las variables X y Y, siempre y cuando que los datos representados por estas 2
variables sean (1) independientes y (2) continuas. Algunos investigadores prefieren este
coeficiente sobre el de Spearman, por la ventaja de que el τ tiende más rápido a la distribución
normal que el de Spearman, especialmente, en el caso de la certeza de Ho.

Divide por 2 porque se toman indistintamente (X , Y) o (Y , X)


Propiedades del coeficiente Tau de Kendall:

 Si los dos rankings o categorías que se evalúan son iguales, el coeficiente tiene un valor de
1
 Si el valor de uno de los rankings o categorías es opuesto al otro, el coeficiente tiene un
valor de -1
 Para todas las otras combinaciones, el valor del coeficiente varia entre -1 y 1. Si las
categorías son totalmente independientes, el coeficiente es 0
Test de Hipótesis
Tests Paramétricos

Las pruebas o tests de hipótesis son procedimientos o métodos estadísticos de estimación que
nos ayudan a la toma de decisiones sobre poblaciones, con base en la información que nos da
la muestra, es decir que permite decidir si a partir de una muestra se puede definir el
comportamiento de una población en términos de los parámetros de la misma.

Esta técnica consiste en suponer que uno o más parámetros que caracterizan e identifican una
variable aleatoria X tienen un cierto valor que tenemos a priori por información previa. A este
valor supuesto lo denominaremos Hipótesis Nula (H0) y la someteremos a una prueba de
resistencia estadística. Plantearemos esta prueba como un contraste entre nuestra Hipótesis
Nula (H0) y otra Hipótesis Alterna (Ha).

Las Hipótesis Estadísticas son entonces ciertos supuestos o conjeturas sobre el valor de los
parámetros de las poblaciones. Es decir que son aquellas suposiciones acerca del valor de uno
o más parámetros de una población que se consideran con el propósito de discutir su validez.
Dichas hipótesis se formularan sobre la media poblacional μ, la proporción poblacional p, la
varianza , la homogeneidad de dos varianzas y , una diferencia de medias , el
coeficiente de correlación de Pearson (concepto que veremos en breve), etc.

Recordemos brevemente alguno de estos conceptos:

Media Poblacional (μ): esta medida resume en un valor las características de una constante
teniendo en cuenta a todos los casos y se utiliza con variables cuantitativas.
Si se tiene una muestra estadística de valores para una variable X con distribución de
probabilidad F(x, θ) (donde θ es un conjunto de parámetros de la distribución).

Proporción Poblacional (p): se define como , donde x es el número de elementos en


la población que poseen cierta característica y n es el total de elementos de la población.
En general, la media en una muestra suele ser distinta a la media de la población, de la cual se
extrae la muestra. Lo normal suele ser que tal diferencia entre la media muestral y poblacional
sea pequeña y debida al azar, pero podría suceder que dicha diferencia no esté justificada por
el azar y se deba a un cambio en la población, y debamos modificar los datos que conocemos
previamente. Para ello se aplican los test de hipótesis

Pasos para realizar un TEST de HIPOTESIS


1. Establecer la hipótesis nula y la alternativa

 Hipótesis Nula (H0): Es una afirmación acerca del valor de un parámetro de la


población, y es aquella que se formula y la cual se quiere contrastar o rechazar. Sirven
por ejemplo, para decidir si un procedimiento es mejor que otro, y tiene como base
definir que no hay diferencia entre los procedimientos.
 Hipótesis Alterna (Ha): Es una afirmación que es aceptada si la muestra provee la
evidencia de que la hipótesis nula es falsa. Es decir, es cualquier otra hipótesis
contraria a la hipótesis nula, de forma que la aceptación de la hipótesis nula implica el
rechazo de la hipótesis alternativa, y viceversa, el rechazo de la hipótesis nula implica
la aceptación de la hipótesis alternativa.

Ha)  ≠ 0  bilateral a 2 colas

o también, e.g.

Ha)  > 0  unilateral a una sola cola


Ha)  < 0  unilateral a una sola cola

2. Establecer el estadístico de contraste

El siguiente paso es elegir un estadístico de contraste, al que llamaremos E, y del que tenemos
que conocer su distribución estadística como variable aleatoria. El estadístico E se calcula a
partir de los datos de una muestra (X1, X2,…,Xn) de la r.v. X bajo estudio. E es un número real.

Si se supone que la hipótesis nula es verdadera, pero encontramos que los resultados de una
muestra aleatoria difieren marcadamente de los esperados bajo la hipótesis nula (por sobre el
azar de la teoría del muestreo) podremos decir que las diferencias observadas son
significativas (demasiado grandes) y nos inclinamos a rechazar la hipótesis nula, o al menos a
no aceptarla debido a la evidencia obtenida.

3. Seleccionar el nivel de significación.

El nivel de significación se refiere a la probabilidad de rechazar la Hipótesis Nula (H0) cuando


en realidad es verdadera. Utilizaremos para identificarlo y 1 – para identificar el nivel de
confianza.

Tipos de error: Al hacer un test pueden ocurrir cuatro situaciones:

V: verdadera F: falsa

Real
Test H0 (V) H0 (F)

H0 (V) Correcto Error Tipo 2

H0 (F) Error Tipo 1 Correcto


 Error Tipo 1: Rechazar H0, siendo que es verdadera. La probabilidad de cometer un
error de Tipo 1 es el nivel de significación , i.e. P (Error Tipo 1) = 

 Error Tipo 2: aceptar la hipótesis nula siendo que es falsa (H0)

Generalmente el error más grave que se puede cometer en un test o prueba es el del Tipo 1.
Por ejemplo, si una persona acude a un hospital porque sospecha que tiene una enfermedad
infecciosa altamente contagiosa, y en el hospital le realizan una prueba, análisis o test, y el
resultado es negativo siendo que en realidad ha contraído esa enfermedad (Error Tipo 1), la
persona seguirá su vida normal pensando que no está infectada y contagiará a todo su
entorno. Por otra parte, si no está infectado y el resultado del test le da positivo (Error Tipo 2),
lo peor que puede suceder es que lo internen un tiempo y lo sometan a un tratamiento, hecho
incomparablemente menos grave que el anterior. Es por ello que acostumbramos a minimizar
la probabilidad de cometer un error Tipo 1, es decir que elegimos un margen de error  muy
pequeño (e.g.  =0,05 ó  = 0,03,  = 0,01,  = 0,001, o menor a 1).

4. Identificar las regiones de Rechazo y de No Rechazo

Recordemos que el estadístico de contraste es un valor numérico determinado a partir de la


información de la muestra, usado para decidir si rechazar o no la hipótesis nula. Recordemos
también que podemos considerar al estadístico de contraste como una variable aleatoria de la
cual conocemos su distribución estadística. Esta distribución depende del parámetro que
estamos testeando, y puede ser una ley Binomial, Normal, Poisson, Geométrica,
Hipergeométrica, Binomial negativa (Pascal), Multinomial, Exponencial, Chi Cuadrado, Beta,
etc.
Valor crítico: El punto que divide la región entre el lugar en el que la hipótesis nula es
rechazada y la región donde la hipótesis nula es no rechazada.

Luego, con este  vamos a una tabla de la distribución estadística de E y luego definimos él o
los valores críticos EC.
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil 1-α
Versión Estudiantil Versión Estudiantil Versión Estudiantil
Zona de no Rechazo
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil (de H0) Versión Estudiantil Versión
Versión Estudiantil ZonaEstudiantil
de Rechazo (de H0) Estudiantil
Versión
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil α
Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
n Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Ec (valor critico ó teórico)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estu
Ahora ubicamos en el eje real por el valor del estadístico E:

ón Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil


Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil No Rechazo
Versión Estudiantil Versión Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil
(H0) Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil - α Estudiantil
1Versión Zona Versión
de Rechazo (de H0)
Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil
E
Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudian
ón Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
E Ec (valor critico ó teórico)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudian

5. Formular una regla de decisión.

La región crítica será aquella región del campo de variación del estadístico tal que si contiene
al valor evaluado del mismo con los datos muestrales nos llevará a rechazar la hipótesis. La
designaremos por R1. Otro concepto importante es el de región de aceptación que es la región
complementaria de la anterior. Si el valor evaluado del estadístico pertenece a ella No
rechazamos la hipótesis (las hipótesis nunca se aceptan de forma definitiva, sólo se aceptan
provisionalmente, es decir ,no se rechazan, a la espera de una nueva información que
eventualmente pueda llevarnos a rechazarla en el futuro). La designaremos por R0.
Evidentemente los conjuntos de puntos que forman ambas regiones son disjuntos.

Regla de decisión:

• Si E > Ec  rechazamos Ho con un nivel de significación 


• Si E < Ec  no rechazamos Ho y nos quedamos con Ha con un nivel de significación 

Se debe distinguir entre dos tipos de contraste o test, que determinan la región de aceptación
y la región de rechazo.
Estadísticos de contraste para tests de hipótesis
paramétricos

Test de hipótesis para una media


Con varianza conocida

vs.

̅
Estadístico de contraste

Con varianza desconocida

vs.

̅
Estadístico de contraste

Test de hipótesis para diferencia de medias


Con varianzas

vs.

̅ ̅
Estadístico de contraste

Con varianzas e iguales

vs.

Estadístico de contraste
̅ ̅


donde

Con varianzas y distintas

vs.

Estadístico de contraste

̅ ̅

donde

( )

( ) ( )

Para observaciones pareadas

Sean las diferencias entre los datos apareados de ambas muestras, es decir de
dos mediciones X e Y realizadas sobre la misma unidad de recolección. Suponemos que estas
diferencias son independientes y normales

Haremos un test acerca de estas diferencias en base a los posibles valores de :

vs.

Estadístico de contraste
̅ ̅


donde

∑ ̅
Test de hipótesis para una varianza
Para la varianza

vs.

Estadístico de contraste

Test de hipótesis para homogeneidad de varianzas


Antes de realizar un test de diferencias de medias antes debemos asegurarnos que las
varianzas de las dos poblaciones o muestras sean parecidas estadísticamente. Para saber si dos
poblaciones de las cuales hemos tomado una muestra de cada una tienen varianzas parecidas
o si por el contrario son muy diferentes, se puede realizar un test de homogeneidad de
varianzas. En este test se utiliza un estadístico que sigue la distribución F para ver si podemos
asegurarnos la homogeneidad de varianzas y entonces pasar a realizar el test de diferencia de
medias.

vs.

Estadístico de contraste

donde son, respectivamente los df de las distribuciones Chi-Cuadrado independientes


del numerador y del denominador de la distribución F de Fisher- Snedecor

Test de hipótesis para la mediana


(test del signo)

vs.
Donde mna es la mediana teórica de la población X de la cual fue extraída una muestra de
tamaño n, y es la mediana empírica de la muestra

Estadístico de contraste
U = cantidad de positivos ~ B ( )

Donde

y B es la distribución Binomial.

Test de hipótesis para el coeficiente de correlación estimado

vs.

Estadístico de contraste

∑ ̅


que tiene una distribución estadística t de Student con n – 2 grados de libertad.

Veamos con un poco más de detalle este ultimo test

Test de hipótesis para el de Pearson


Recordemos que: , y recordemos también que se trata de un parámetro
poblacional.
Su estimador muestral, como ya vimos anteriormente, es:


̅ ̅
̂
∑ ∑
√ ̅ √ ̅

Podemos someter el estimador r = ̂ de Pearson a un test de hipótesis para evaluar su


calidad. Las hipótesis correspondientes son:

Ho :  = 0
vs.
Ha :  ≠ 0 (bilateral a 2 colas)

Tomemos un nivel de significación α, e.g. α = 0,05 ; α = 0,01 ; o α = 0,001

El estadístico de contraste para este test y su distribución estadística son

Ejemplo de aplicación (Test de media con varianza conocida)

Un gremio se encuentra atravesando un periodo de alta conflictividad con su patronal.


Se cree que el tiempo medio que está en paro un trabajador de ese gremio es de 13.5 días por
bimestre. Para contrastar esta hipótesis al nivel de significación del 5 % frente a la alternativa
que sostiene el gremio de que no es cierto, se tomó una muestra de 45 trabajadores que
estuvieron en paro en ese sector y se obtuvo una media de 17,2 días por bimestre,
conociéndose que el desvío típico poblacional es de 15,3 días. Queremos comprobar si
estadísticamente hablando, debemos aceptar o rechazar dicha hipótesis.

En primer lugar plantemos las hipótesis a contrastar

vs.

Tomamos como nivel de significación o probabilidad de cometer un Error de Tipo 1,


de la manera que planteamos la hipótesis alterna, estamos pensando en un test bilatero, “a
dos colas”. Descargamos en cada una de las dos colas y encontramos en la
tabla Z = N (0 ; 1) los cuantiles correspondientes a esas colas, que resultan ser -1,96 (umbral
izquierdo) y 1,96 (umbral derecho). Así determinamos las regiones de rechazo y no rechazo de
la hipótesis nula.

El estadístico de contraste es
̅

De acuerdo a los datos obtenemos el estadístico de contraste

Regla de decisión: como -1,96 = - , no rechazamos la . En


consecuencia podemos asumir que la es verdadera, lo que significa que el supuesto de que
un trabajador de ese gremio está en paro 13,5 días por bimestre es correcto

Otra forma: viendo si el p-valor es o no inferior al nivel de significación del 5

| |

Por tanto se acepta la hipótesis nula

Ejemplo de aplicación (Test de una media  con varianza desconocida)

Estamos interesados en evaluar la temperatura media diaria en Rio Gallegos durante el mes de
Julio de 2011.

X : T (temperatura media diaria de julio 2011 en Río Gallegos, en ºC, datos oficiales del Servicio
Meteorológico Nacional, SMN)
Los datos observados son los siguientes:

Día (Julio) T 12 0.1 24 2.2


1 2.2 13 1.9 25 3.2
2 1.3 14 2.4 26 3.2
3 2.2 15 -0.3 27 3.1
4 1.7 16 -1.8 28 0.3
5 1.3 17 1 29 -2.8
6 2.6 18 0.4 30 -0.8
7 2.4 19 1.2 31 0.7
8 2.2 20 3.6
9 0.2 21 3.7
10 -1.2 22 2.6
11 2.4 23 3.5

Recordemos que en este caso el estadístico de contraste es:

̅ √

Como en este caso no conocemos la varianza poblacional debemos estimarla con su


estimador muestral
∑ ̅

Establecemos las hipótesis correspondientes para testear el parámetro  = 

H0:  = 0 = 1,3 (°C)


vs
Ha:  > 0

Al indicar de esta manera la hipótesis alterna queremos decir que sospechamos que la
temperatura media puede ser mayor que 1,3°C. En consecuencia estamos planteando en este
caso un test unilátero o a “una cola”. También podríamos haber testeado la hipótesis nula
contra una hipótesis alterna que estableciera que  ≠ 0 = 1,3 (°C). De ese modo estaríamos
planteando un test bilátero o “a dos colas”

Calculamos el estadístico E:
̅ √

Como dijimos recién, al no conocer la varianza poblacional debemos estimarla con y


entonces la distribución del estadístico de contraste pasa a ser t de Student con n – 1 grados
de libertad. Calculamos entonces este estadístico de contraste:

̅ √

Como vemos, estamos aproximando la distribución verdadera del estadístico de contraste


con la normal standard Z. Esto puede hacerse en virtud de que, como hemos visto al estudiar
la distribución t de Student, cuando sus grados de libertad son 10 o más tiende a coincidir con
la normal standard. Luego, bajo H0

Buscamos ahora por tabla Z el valor crítico , que coincide con el valor critico y elegimos el
nivel de significación, =0,05 o simplemente trabajamos con el p-valor si es que disponemos
de un software estadístico.

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil
No Rechazo
Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil 0,95
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
α = 0,05 Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
E = 0,47
Versión Estudiantil Versión Estudiantil Ec = 1,645
Versión Estudiantil Versión Estudiantil Versión Estudiantil
estadístico

Regla de decisión: Como = 0,47 < = 1,645  no rechazamos H0, i.e,


consideramos que  = 0 = 1,3 (°C)

Ejemplo de aplicación (Test de diferencia de medias con varianzas desconocidas e iguales y


muestras independientes)

Se lleva a cabo un estudio estadístico de recursos humanos para analizar si los salarios por
hora de los obreros de la construcción, categoría “oficial especializado”, son los mismos,
mayores o menores en la provincia de Buenos Aires que en Santa Cruz. Los datos obtenidos en
las dos muestras independientes tomadas en Junio de 2017 son, en pesos:

Provincia Salarios medios por Desviación standard Tamaño de la


hora de la muestra muestra
Buenos Aires 90.41 4.41 200
Santa Cruz 138.79 9.15 175
La empresa consultora desea probar la hipótesis a un nivel de significación del 5% de que (en
promedio) no hay diferencia estadística significativa entre los salarios por hora de dichos
trabajadores de las dos provincias. Planteamos las hipótesis del test. En principio proponemos
una hipótesis alterna bilatera (a dos colas) para abarcar las dos alternativas, es decir que en
algunas de las dos provincias el salario medio sea diferente:

vs.

Notamos:
̅ : Media de la muestra de los salarios de la provincia de Buenos Aires,
̅ : Media de la muestra de los salarios de la provincia de Santa Cruz,

: Desvío standard de la muestra de los salarios de la provincia Buenos Aires,


: Desvío standard de la muestra de los salarios de la provincia de Santa Cruz,

: Tamaño de la muestra en provincia de Buenos Aires


: Tamaño de la muestra en provincia de Santa Cruz

En nuestro ejemplo: ̅ = 90.41; = 4,41; = 200 y ̅ = 138.79; 9.15, = 175.

El estadístico de contraste correspondiente es

̅ ̅

En nuestro caso:


donde sabemos que bajo , , y los grados de libertad v los calculamos


con la expresión

( )

( ) ( )
( )

( ) ( )

Como la distribución del estadístico es entonces podemos utilizar directamente la


tabla Z = N (0 ; 1) para establecer las regiones de rechazo y no rechazo de a un nivel de
significación del 5%, bilatero.

Regla de decisión: como , rechazamos la hipótesis


nula al 5% de significación. En consecuencia podemos asumir que los salarios medios de los
obreros de la construcción son significativamente diferentes desde el punto de vista
estadístico entre Buenos Aires y Santa Cruz.

Ejemplo de aplicación (Test de hipótesis para homogeneidad de varianzas)

Supongamos que estamos comparando el largo de un perno (en centímetros) de una


misma marca, pero algunos fabricados en una planta de Mendoza y otros en una planta de San
Juan. Queremos saber si estas plantas producen pernos de igual calidad o si una de ellas
produce pernos de mejor calidad que la otra. Para saber si la calidad de sus producciones son
parecidas o si existe evidencia estadística suficiente como para pensar que son
significativamente distintas y en consecuencia pensar que una planta produce pernos de mejor
calidad que la otra, tomamos entonces una muestra de tamaño n = 7 de cada población
(planta) y hemos registrado las siguientes observaciones o datos acerca de la longitud de los
pernos que producen, medida en centímetros :
SAN JUAN MENDOZA
3,5 3,6
3,2 3,3
3,7 3,9
3,1 3,5
3,2 3,4
3,3 3,3
3,6 3,2
3,5 3,59
3,2 3,29
3,75 3,84
3,25 3,34
3,25 3,34
3,35 3,33
3,35 3,44

vs.

Estadístico de contraste

donde son, respectivamente los df de las distribuciones Chi-Cuadrado independientes


del numerador y del denominador de la distribución F de Fisher- Snedecor. En nuestro ejemplo
las varianzas muestrales son

= 0,04105769
= 0,04408846

El estadístico de contraste

El valor crítico teórico tabular para el contraste lo obtenemos de una tabla F de Fisher -
Snedecor con 13 grados de libertad en el numerador y 13 en el denominador, y nos da:

Fc (tabla) = 2,577
Regla de decision: como no
rechazamos la hipotesis nula y en consecuencia podemos suponer que las varianzas de ambas
poblaciones son homogeneas en el sentido de que su diferencia no es estadisticamente
significativa.

Ejemplo de aplicación (Test de hipótesis para la varianza)

Una nueva empresa de colectivos de línea se instala en la ciudad de Rio Gallegos, y desea
ganar una buena imagen con los habitantes haciendo que sus conductores sean puntuales en
los horarios de llegada a las paradas. La empresa desea que haya poca variabilidad en dichos
tiempos y que la varianza sea de 4 minutos o menos. Esta hipótesis se va a testear con un nivel
de significación

Se tomó una muestra aleatoria de 24 llegadas a la parada que se encuentra ubicada en la calle
Zapiola esquina Fagnano, de la cuales la varianza muestral encontrada es de

En primero lugar formulamos la hipótesis correspondientes

vs.

De esta manera estamos planteando un contraste unilatero (cola derecha). El estadístico de


contraste es

Grados de libertad: n-1 = 24 – 1 = 23 (renglones en la tabla)

Utilizamos la tabla de distribución Chi-Cuadrado para obtener el valor crítico

Regla de decisión: como , rechazamos la hipótesis


nula y tenemos que reconocer que la varianza del tiempo entre llegadas de colectivos a esa
parada es superior a 4.9 minutos y por lo tanto debemos ajustar y mejorar el sistema.
Ejemplo de aplicación (Test del coeficiente de correlacion de Pearson)

Recordemos que en el ejemplo climático anterior realizado un test para media de la


temperatura media diaria (T) para el mes de Julio de 2011 en Río Gallegos. Ahora queremos
observar si existe alguna asociación lineal entre la temperatura media (T) medida en °C y la
humedad relativa del ambiente (H) medida en %. Los datos observados de temperatura (T) y
humedad (H) para Julio de 2011 en Rio Gallegos son los siguientes:

Día (Julio) T H 12 0.1 88 24 2.2 92


1 2.2 79 13 1.9 90 25 3.2 94
2 1.3 84 14 2.4 99 26 3.2 89
3 2.2 82 15 -0.3 86 27 3.1 92
4 1.7 80 16 -1.8 86 28 0.3 82
5 1.3 88 17 1 78 29 -2.8 85
6 2.6 90 18 0.4 73 30 -0.8 80
7 2.4 85 19 1.2 67 31 0.7 78
8 2.2 86 20 3.6 65
9 0.2 86 21 3.7 69
10 -1.2 87 22 2.6 73
11 2.4 85 23 3.5 74

Aplicando la fórmula de trabajo que expusimos más arriba


̅ ̅
̂
∑ ∑
√ ̅ √ ̅

Obtenemos un valor de ̂ -0,09595 ( correlación lineal significativa) con n = 31.

Planteamos, para testear el , las hipótesis nula y alterna:


Ho :  = 0
Ha :  ≠ 0 (bilateral a 2 colas)
t29 ~Z = N (0,1)

No Rechazo

Rechazo Rechazo

0,025 0,025
-1,96 1,68 1,96
t0 estadístico

Regla de decisión
Como t0 = 1,68 < t29; 0,975 = 1,96  No rechazamos Ho y consideramos
válido  = 0, con una P (error tipo I) = 0,05 = P (rechazar H0 siendo
verdadera) = α

En consecuencia podemos asumir que no existe una asociación lineal (proporcional) entre la
temperatura media y la humedad en Julio de 2011 para la ciudad de Rio Gallegos.

Recordemos una vez mas que en lugar de establecer un nivel de significación α y utilizar las
tablas estadísticas Z y t de Student, podemos trabajar con el p-valor si disponemos de un
software estadístico.
p – valor
A partir del uso de las computadoras ya no se utilizan más las tablas de las distribuciones
estadísticas en la vida práctica porque los software estadísticos específicos (como por ejemplo
Infostat, SPSS, SAS, Statistics, Stata, etc) las tienen incorporadas. Por este motivo tampoco se
usa más el nivel de significación ya que no es necesario. En lugar de la tabla y el nivel de
significación , el software nos informa cual es el p -valor (p – value) correspondiente al test.
Este número llamado p – valor es el área o probabilidad que queda entre el estadístico de
contraste y el final de la cola de rechazo, es decir que el p – valor es la probabilidad que queda
a la derecha (o a la izquierda, o en ambas colas, según se haya planteado la hipótesis alterna)
del estadístico.
Si el p – valor es muy pequeño, por ejemplo menor que un milésimo, podemos considerar que
el estadístico ha caído en lo profundo de la cola de rechazo, y en consecuencia podemos
interpretar la regla de decisión como que rechazamos H 0. Si por el contrario el p – valor no es
pequeño, por ejemplo mayor que un centésimo, podemos considerar que el estadístico de
contraste no se encuentra en lo profundo de la cola de rechazo, y en consecuencia podemos
aceptar la hipótesis nula. No hay valores fijos determinados del tamaño del p – valor tanto
para rechazar como para aceptar H0, el valor y la interpretación de los mismos quedan a
consideración de quien realiza el test y del contexto del mismo así como del grado de exigencia
del resultado.
Test de Hipótesis No Paramétricos

Cuando trabajamos con variables aleatorias cualitativas o categorizadas o son cuantitativas pero
no se conoce su distribución, se aplican métodos estadísticos denominados NO PARAMÉTRICOS.

Esta situación se presenta habitualmente cuando se trabaja con variables de conteo univariadas,
es decir, cuando se recuentan casos. Como por ejemplo, en las encuestas políticas, de opinión, de
marketing, de medición de audiencias (rating), trabajos de sociología, psicología, nutricionismo,
medicina, etc. Tal es el caso también de las tablas de contingencia, en las que el análisis es
bivariado, es decir que tenemos dos variables aleatorias X e Y.

Dentro de los métodos no paramétricos, se destacan los tests de hipótesis introducidos por Karl
Pearson hacia 1896, aplicando la distribución Chi-Cuadrado. Las principales versiones de este test
se utilizan para los siguientes casos no parametricos:

 Medir el ajuste de la distribución de una población o muestra a una función de


distribución teórica conocida (Bondad de Ajuste)
 Probar si existe independencia entre dos variables aleatorias (Independencia)
 Detectar homogeneidad entre dos muestras o poblaciones (Homogeneidad de
Proporciones)

Bondad de Ajuste
En el primer caso se emplea un test Chi-Cuadrado para decidir cuándo un conjunto de datos de
una muestra se apega a una distribución de probabilidad dada. Se desea verificar que la variable
aleatoria X de la cual proviene una muestra aleatoria tiene una distribución teórica conocida F(X).
Las hipótesis para este test son:

Ho = La variable X sigue una distribución F(X).

vs.

Ha = La variable X no sigue una distribución F(X).

Dado un nivel de significancia 𝛼 se define un valor crítico para el rechazo de la Ho propuesta.


Para ello utilizamos una tabla , donde los grados de libertad son k = m – r – 1 , siendo m las
categorías o clases que vamos a comparar y r la cantidad de parámetros que se están
estimando
Se toma una muestra de tamaño n, se clasifican los valores observados en A 1, A2,…, Am conjuntos,
clases o categorías distintas. Para cada conjunto, clase o categoría distinta, sean:
̅ ̅̅̅ ̅̅̅̅ los valores esperados correspondientes a la distribución teórica ̅̅̅̅̅̅̅
los valores empíricos observados en la muestra

El estadístico de contraste para realizar el test es

̅
∑ ̅

Donde r es la cantidad de parámetros que caracterizan a la distribución y que deben estimarse a


partir de la muestra, y m es la cantidad de conjuntos, clases o categorías.

Regla de decisión: finalmente comparamos el estadístico de contraste con el valor teórico crítico
tabular , y decidimos rechazar o no rechazar H0 de acuerdo a donde se ubique el estadístico.

p – valor: recordemos que otra opción es no definir ningún valor de α , y (en el caso de trabajar
con un software estadístico en una computadora) observar el valor del p – valor que nos entrega
el ordenador. Si este es muy pequeño, por ejemplo inferior al 1%, podemos rechazar H0. En caso
contrario decidimos no rechazarla.

Observación importante: para que el test Chi-Cuadrado no paramétrico funcione bien tenemos
que verificar que cada frecuencia o valor esperado sea por lo menos 5. Si no es así podemos
colapsar o unificar las últimas categorías, clases o conjuntos hasta que sus valores esperados
sumen 5 o más.

Ejemplo del Test de Bondad de Ajuste


Se propone que el número de accidentes que ocurren en una fábrica sigue una distribución de
Poisson. Se toman 60 días al azar y se analizan los accidentes ocurridos:
Accidentes por Frecuencia
día observada
0 32
1 15
2 9
3 ó más 4
Total 60
¿Muestran estos datos suficiente evidencia estadística para decir que siguen una distribución de
Poisson?

Nivel de significación 𝛼 = 0,05

Solución:

Ho = La variable Accidentes Ocurridos tiene distribución de Poisson

vs.

Ha = La variable Accidentes Ocurridos no tiene la distribución de Poisson

Dado que el parámetro 𝜆 es desconocido, se lo debe estimar a partir de los datos de la muestra. Lo
calculamos 𝜆= 0,75

Con este valor estimado de λ construimos el modelo correspondiente de la distribución de Poisson


y calculamos las probabilidades y los valores teóricos esperados:

𝜆
{ }

Accidentes por Frecuencia Frecuencia


Probabilidad
día esperada observada
0 0,472 28,32 32
1 0,354 21,24 15
2 0,133 7,98 9
3 ó más 0,041 2,46 4
Total 1 60 60

Como la frecuencia esperada para más de 3 accidentes es menor a 5, se combinan las dos últimas
celdas, obteniendo:
(Observada -
Accidentes Frecuencia Frecuencia
Esperada)^2 /
por día esperada observada
Esperada
0 28,32 32 0,47819209
1 21,24 15 1,833220339
2 ó más 10,44 13 0,627739464
Total 60 60 2,939151893
Grados de libertad: gl = 3-1-1=1, donde r = 1 dado que la media de la muestra fue utilizada como
estimador del único parámetro de la distribución de Poisson a partir de los datos.

Valor crítico teórico tabular = 3,84146

Regla de decisión: como el estadístico 2,94 es menor que el valor teórico tabular crítico 3,84, no
se rechaza Ho. Podemos asumir en consecuencia que la distribución de los accidentes es Poisson.

Test Chi Cuadrado


Otro ejemplo de Test de Bondad de Ajuste contra Poisson
Queremos saber si el movimiento que se registra en el buffete de una universidad sigue una
distribución de Poisson. Para ello hemos tomado registros de la cantidad de clientes que llegan a la
misma en intervalos de 1 minuto.

X : cantidad de clientes que llegan por minuto a la cafetería de la Universidad

En la siguiente tabla se muestran la cantidad de clientes (xi) que llegaron en una cantidad fi de
intervalos de 1 minuto, así como el resto de los cálculos necesarios para construir el modelo de
Poisson y calcular el correspondiente estadístico Chi- Cuadrado.

xi obs (fi) xi . fi pk est=pk.446 esperados observados (obs-esp)2/esp


0 15 0 0,04510985 20,1189919 20,11 15 1,298463451
1 55 55 0,13977984 62,3418091 62,34 55 0,864222008
2 105 210 0,21656473 96,5878703 96,58 105 0,734069165
3 110 330 0,22368644 99,764153 99,76 110 1,051098637
4 80 320 0,17328176 77,2836657 77,28 80 0,09573499
5 45 225 0,10738807 47,8950789 47,89 45 0,174401754
6 20 120 0,05545976 24,735052 24,73 20 0,904686615
7 10 70 0,02455009 10,9493408 10,94 10 0,080767824
8 3 24 0,00950903 4,24102829 6,15 6 0,003658537
9 2 18 0,00327391 1,4601647
10 1 10 0,00101447 0,45245462
SUMA 446 1382 0,99961796 445,829609 Chi obs = 5,207102982

Lambda estimado= 3,0987

Tomamos α = 0.05 (ó dejamos el p-value)

Tomamos α = 0.05 (ó dejamos el p-value)


Ho : X ~ Poisson (3,0987) vs Ha : X no es Poisson

Cantidad de categorías que quedaron después de agrupar las 3 últimas para que la
frecuencia esperada sea al menos 5 : n = 9 categorías

Valor crítico tabular :

Regla de decisión :

Como y podemos asumir que


efectivamente X ~ Poisson (3,0987)
Homogeneidad

(Las muestras provienen de poblaciones iguales)


Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos comparar las
frecuencias observadas en cada una de las muestras y para cada categoría con las
frecuencias bajo el supuesto de homogeneidad en las poblaciones. En este caso las
frecuencias observadas corresponde al número de individuos de la muestra i en la clase j,
i.e., nij. Tenemos m muestras de un tamaño ni cada una, es decir que ∑ ,y
tenemos k clases o categorías en cada una de las muestras. El estadístico de contraste
será

( )
∑∑

Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad, que puede


representarse como ni . pj , es decir, el número de individuos en la muestra i por la
probabilidad de que ocurra la característica j en la población. Para el cálculo de las
probabilidades de pertenecer un individuo a cada una de las categorías podemos utilizar:
. Por lo tanto : ⋅ Observar que este valor será la suma de n*k
números no negativos.
El numerador de cada término es la diferencia entre la frecuencia observada y la
frecuencia esperada. Por tanto, cuanto más cerca estén entre sí ambos valores más
pequeño será el numerador, y viceversa. El denominador permite relativizar el tamaño del
numerador. Las ideas anteriores sugieren que, cuanto menor sean el valor del estadístico
, más coherentes serán las observaciones obtenidas con los valores esperados. Por
el contrario, valores grandes de este estadístico indicarán falta de concordancia entre las
observaciones y lo esperado. En este tipo de contraste se suele rechazar la hipótesis nula
(los valores observados son coherentes con los esperados) cuando el estadístico es mayor
que un determinado valor crítico. Notas: (1) El valor del estadístico se podrá
aproximar por una distribución Chi-cuadrado cuando el tamaño muestral n sea grande
(n > 30), y todas las frecuencias esperadas sean iguales o mayores a 5 (en ocasiones
deberemos agrupar varias categorías a fin de que se cumpla este requisito). (2) Las
observaciones son obtenidas mediante muestreo aleatorio en cada muestra a partir de
una población particionada en categorías. Concretamente, usaremos el estadístico de
contraste

Con (m-1)(k – 1) grados de libertad (df).

EJEMPLO de Test de Homogeneidad de Proporciones:


Estamos interesados en estudiar la confiabilidad de cierto insumo informático con
relación al distribuidor que lo provée. Para esto, tomamos una muestra de 100 insumos
de cada uno de los 3 distribuidores que nos traen el producto comprobando el número de
defectuosos en cada lote. La siguiente tabla muestra el número de defectuosos en para
cada uno de los distribuidores, o valores observados.

Distrib / Defect Defectuosos Buenos Marg Distrib


Distr 1 16 94 100
Distr 2 24 76 100
Distr 3 9 81 100
Marginal Defect 49 251 300

Ho : Las proporciones de insumos defectuosos no dependen de los distribuidores, sus


proporciones son homogéneas y están igualmente repartidas

vs
Ha : Las proporciones de insumos defectuosos dependen de los distribuidores, sus
proporciones no son homogéneas y no están igualmente repartidas
Debemos realizar un test de homogeneidad para concluir si entre los distribuidores
existen diferencias de confiabilidad referente al mismo insumo. Calculemos los valores
esperados correspondientes:

Distrib / Defect Defectuosos Buenos Marg Distrib


Distr 1 16.33 83.66 100
Distr 2 16.33 83.66 100
Distr 3 16.33 83.66 100
Marginal Defect 49 251 300

El estadístico del contraste será entonces, teniendo en cuenta que los df son (m-1).(k-1) =
(3-1).(2-1) = 2 :

Este valor del estadístico de contraste Chi-Cuadrado es mayor que el valor tabular crítico
para el nivel de significación del 5%, que es

por lo tanto Rechazamos Ho y debemos concluir que no existe homogeneidad y por lo


tanto que hay diferencias significativas entre los tres distribuidores.

Independencia
Ahora queremos verificar si dos variables aleatorias, X e Y pertenecientes a la misma población
están relacionadas entre si, o no lo están. Planteamos entonces las hipótesis correspondientes

Ho = Existe independencia entre X e Y.

vs.

Ha = No existe independencia entre X e Y.

Se toma una muestra aleatoria de n datos bidimensionales de las variables X e Y, y se clasifican en


m categorías o clases A1, A2,…, Am para X, y en k categorías B1, B2,…, Bk para Y.

Se forma a partir de esos datos una TABLA DE CONTINGENCIA con las frecuencias conjuntas
observadas.

Se calculan las frecuencias conjuntas esperadas, y el estadígrafo de prueba.

Para calcular las frecuencias esperadas aplicamos la siguiente formula

En base al nivel de significación 𝛼 establecido, se busca en la tabla el valor crítico teórico . Se


lo compara y se rechaza, o no, Ho. Los grados de libertad en este test de independencia se
calculan asi

n = (filas – 1) . (columnas – 1) = (m – 1) . (k – 1)
el estadístico de contraste Chi-Cuadrado se calcula de manera análoga al caso de la bondad de
ajuste siguiendo la siguiente expresión

( )
∑ ∑ [ ]
Donde es la frecuencia esperada de la categoría AiBj

TABLA DE CONTINGENCIA

X/Y B1 B2 … Bk Total
A1 n11 n12 … n1k n1.
A2 n21 n22 … n2k n2.
… … … …
Am nm1 nm2 … nmk nm.
Total n.1 n.2 n.k n

Ejemplo de Test de Independencia


Una empresa minera hizo un estudio para verificar si el tipo de trabajo se relaciona con el grado
de silicosis de los trabajadores. Se toma una muestra al azar de 300 trabajadores y se registraron
las observaciones en la siguiente tabla de contingencia:

Grado Silicosis
Tipo de Trabajo Total
I II III
Oficina 42 24 30 96
Terreno 54 78 72 204
Total 96 102 102 300
¿Es posible establecer con estos datos que el tipo de trabajo afecta el grado de silicosis de los
trabajadores?

Nivel de significancia 𝛼 = 0,05.

Solución

Ho = Existe independencia entre el tipo de trabajo y el grado de silicosis

vs.

Ha = No existe independencia entre el tipo de trabajo y el grado de silicosis

Se calcula el estadístico de contraste luego de evaluar los valores esperados de cada categoría,
según se muestra en la siguiente tabla:
Tipo de Trabajo -
nij eij (nij - eij)2 / eij
Grado Silicosis
Oficina - I 42 30.7 4.142
Oficina - II 24 32.6 2.287
Oficina - III 30 32.6 0.214
Terreno - I 54 65.3 1.949
Terreno - II 78 69.4 1.076
Terreno - III 72 69.4 0.100
Total 150.00 161.28 8.59
Grados de libertad: (2-1) . (3-1)= 2

Valor crítico teórico tabular 5,9915

Regla de decisión: como el estadístico de contraste 8,59 es mayor a 5,9915 que es el valor critico
tabular teórico, se rechaza Ho. No existe independencia entre las variables, es decir que existe
alguna relación entre ellas.

Otro ejemplo Test de Independencia


Queremos saber si existe o no una relación entre los resultados de las cursadas de Algebra Lineal y
Análisis Matemático I de los alumnos del Profesorado en Matemática de la UNPA UARG.
Comenzamos definiendo las variables

X : Resultado de la cursada de Algebra Lineal

Y : Resultado de la cursada de Análisis Matemático I

Tabla de contingencia (Valores Observados) DATA

X (ALGLIN) / Y (AM1) Aprobados Desaprobados Marg ALGLIN


Aprobados 5 6 11
Desaprobados 30 29 59
Marg AM1 35 35 70

Ho : X e Y son independientes vs Ha : X e Y no son independientes

Valores esperados = Marg AM1 . Marg ALGIN / Total

Tabla de Valores Esperados

X (ALGLIN) / Y (AM1) Aprobados Desaprobados Marg ALGLIN


Aprobados 5,5 5,5 11
Desaprobados 29,5 29,5 59
Marg AM1 35 35 70
Estadístico Chi Cuadrado (Observado)

En este caso tenemos 4 categorías. Los df son (filas – 1).(columnas – 1) = 1

Tomamos α = 0.05 (ó dejamos el p-value). En este caso el estadístico de contraste vale :

∑ = 0,1078

El valor crítico tabular es

Regla de decisión :

Como y podemos asumir que


efectivamente X e Y son independientes.

Homogeneidad
(Las muestras provienen de poblaciones iguales)
Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos comparar las
frecuencias observadas en cada una de las muestras y para cada categoría con las frecuencias bajo
el supuesto de homogeneidad en las poblaciones. En este caso las frecuencias observadas
corresponde al número de individuos de la muestra i en la clase j, i.e., nij. Tenemos m muestras de
un tamaño ni cada una, es decir que ∑ , y tenemos k clases o categorías en cada una
de las muestras. El estadístico de contraste será

( )
∑∑

Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad, que puede representarse
como ni . pj , es decir, el número de individuos en la muestra i por la probabilidad de que ocurra la
característica j en la población. Para el cálculo de las probabilidades de pertenecer un individuo a
cada una de las categorías podemos utilizar: . Por lo tanto : ⋅ Observar
que este valor será la suma de n.k números no negativos.

El numerador de cada término es la diferencia entre la frecuencia observada y la frecuencia


esperada. Por tanto, cuanto más cerca estén entre sí ambos valores más pequeño será el
numerador, y viceversa. El denominador permite relativizar el tamaño del numerador. Las ideas
anteriores sugieren que, cuanto menor sean el valor del estadístico , más coherentes serán
las observaciones obtenidas con los valores esperados. Por el contrario, valores grandes de este
estadístico indicarán falta de concordancia entre las observaciones y lo esperado. En este tipo de
contraste se suele rechazar la hipótesis nula (los valores observados son coherentes con los
esperados) cuando el estadístico es mayor que un determinado valor crítico. Notas: (1) El valor del
estadístico se podrá aproximar por una distribución Chi-cuadrado cuando el tamaño
muestral n sea grande (n > 30), y todas las frecuencias esperadas sean iguales o mayores a 5 (en
ocasiones deberemos agrupar varias categorías a fin de que se cumpla este requisito). (2) Las
observaciones son obtenidas mediante muestreo aleatorio en cada muestra a partir de una
población particionada en categorías. Concretamente, usaremos el estadístico de contraste

Con (m-1)(k – 1) grados de libertad (df).

Ejemplo de Test de Homogeneidad de Proporciones:


Estamos interesados en estudiar la confiabilidad de cierto insumo informático con relación al
distribuidor que lo provée. Para esto, tomamos una muestra de 100 insumos de cada uno de los 3
distribuidores que nos traen el producto comprobando el número de defectuosos en cada lote. La
siguiente tabla muestra el número de defectuosos en para cada uno de los distribuidores, o
valores observados.

Distrib / Defect Defectuosos Buenos Marg Distrib


Distr 1 16 94 100
Distr 2 24 76 100
Distr 3 9 81 100
Marginal Defect 49 251 300

Ho : Las proporciones de insumos defectuosos no dependen de los distribuidores, sus


proporciones son homogéneas y están igualmente repartidas

vs

Ha : Las proporciones de insumos defectuosos dependen de los distribuidores, sus proporciones


no son homogéneas y no están igualmente repartidas

Debemos realizar un test de homogeneidad para concluir si entre los distribuidores existen
diferencias de confiabilidad referente al mismo insumo. Calculemos los valores esperados
correspondientes :

Distrib / Defect Defectuosos Buenos Marg Distrib


Distr 1 16.33 83.66 100
Distr 2 16.33 83.66 100
Distr 3 16.33 83.66 100
Marginal Defect 49 251 300

El estadístico del contraste será entonces, teniendo en cuenta que los df son (m-1).(k-1) = (3-1).(2-
1) = 2 :

Este valor del estadístico de contraste Chi-Cuadrado es mayor que el valor tabular crítico para el
nivel de significación del 5%, que es

por lo tanto Rechazamos Ho y debemos concluir que no existe homogeneidad y por lo tanto que
hay diferencias significativas entre los tres distribuidores.
Intervalos de confianza (IC)

Es un método de estimación paramétrica no puntual. Por ejemplo, si queremos estimar una media
µ ó una varianza σ2, o un desvío standard σ, o un coeficiente ρ de correlación de Pearson, o
cualquier otro parámetro poblacional verdadero θ, este método no nos da una estimación
puntual, sino un intervalo ( ) que tiene cierta probabilidad p = 1 – α , de contener al valor
verdadero del parámetro θ, que es en general una probabilidad alta (por lo tanto tomaremos α
pequeño, e.g. α=0,05; α=0,01; α=0,001, etc). para maximizar i.e.

Para construir los primeros IC nos basamos en una consecuencia del CLT:

Si tomamos muchas muestras al azar, todas de tamaño n, de una r.v. X que tiene E(x) = µ, y Var (x)
= σ2, digamos (X1, …, Xn) y calculamos el promedio ̅ de cada muestra, entonces el CLT nos asegura
que:

En consecuencia, standarizando la nueva rv “promedios” ̅

Construyamos entonces un IC para µ a partir de este resultado.


Tomamos un valor de α arbitrario (llamaremos nivel de confianza a 1- α) y lo dividimos en 2
colas o partes iguales:

 
P   z  Z  z   1  
 2 2 


P   z 
 X    n  z   1  
 
 2
 
2 

 
P   z    X    n  z    1  
 2 2 
  z  z  
 2 
P   X     2   1 
 n n
 

  z  z  
 2 
P  X    2
 X   1 
 n n 
 

 z   z  
 2 
P X  2
 X   1
 n n 
 

 z  z  
 
P  X  2    X  2   1
 n n 
 
Entonces, el IC para µ, con un nivel de confianza 1- α es:

El tamaño del IC depende del radio


depende de α

depende de la dispersión poblacional

√ (n: tamaño de la muestra)


Observemos que el tamaño del IC depende del radio, y cuanto menor sea el radio, más
precisión vamos a tener en la estimación del parámetro.
Observemos también que en general, nunca se conoce la µ poblacional y por lo tanto
tampoco se conoce el valor verdadero de σ.
En este caso, reemplazamos el parámetro verdadero σ por un estimador muestral que es
la varianza muestral sesgada :
∑ ( ̅)
̂

Pero al reemplazar σ por un estimador muestral σ =S , cambia también la distribución de


las frecuencias de los promedios de las muestras. Ya no será Z~N (0,1) , sino t_(n-1) .
Entonces, el IC para µ con varianza σ2 desconocida toma la forma:

 t  s t  s 
IC      X  2
;X  2 
 n n 

Observación 1: conviene utilizar el S insesgado (dividir por n-1 al estimar la varianza).

Observación 2: también conviene usar esta forma de IC (μ) cuando la muestra es pequeña, i.e. n
es pequeño (e.g. n ≤ 10 ) aunque se conozca el valor verdadero de σ.

Intervalos de Confianza para distintos parámetros


 Para una proporción:

̂̂ ̂̂
̂ ⁄
√ ̂ ⁄

 Tamaño de la muestra correspondiente:



̂̂

 Para la varianza:
( ) ( )
⁄ ⁄

 Para diferencia de medias ( ):


a. Conociendo y

( ̅ ̅ ) ⁄
√ ( ̅ ̅ ) ⁄

b. Con varianzas iguales pero desconocidas


( ̅ ̅ ) ⁄ √ ( ̅ ̅ ) ⁄ √
( ) ( )
donde

c. Con varianzas distintas y desconocidas

( ̅ ̅ ) ⁄
√ ( ̅ ̅ ) ⁄

 Para el coeficiente de correlación de Pearson

La distribución del coeficiente de correlación de Pearson no es normal pero no se puede


transformar r para conseguir un valor z que sigue una distribución normal (transformación de
Fisher) y calcular a partir del valor z el intervalo de confianza.

La transformación es:

LN representa el logaritmo neperiano en la base e

donde n representa el tamaño maestral. El 95% intervalo de confianza de z se calcula de la


siguiente forma:

Tras calcular los intervalos de confianza con el valor z debemos volver a realizar el proceso inverso
para calcular los intervalos del coeficiente r

Utilizando el ejemplo de la Tabla 1, obtenemos r = 0.885

95% intervalo de confianza de z


REGRESION LINEAL SIMPLE

En el caso en que el coeficiente de correlación de Pearson nos de un valor significativo,


podemos pensar en plantear el correspondiente modelo lineal, esto es buscar cual es la
“mejor” recta que se aproxima o ajusta a los puntos de la muestra que tenemos. Esta recta se
denomina de regresión en honor a uno de los pioneros en desarrollarla, Sir Francis Galton,
quien al estudiar las estaturas comparadas de padres e hijos concluyó que las alturas de ellos
tendían a “regresar” al promedio.
Planteamos entonces la búsqueda de una recta que nos permita modelar el comportamiento
funcional entre las variables X e Y. Consideraremos a X como variable aleatoria aunque si fuera
necesario podemos “controlarla” en el sentido de asignarle los valores que deseamos que
aparezcan. Esta variable X también se denomina “independiente” o “regresora”. La variable
respuesta Y es aleatoria aunque depende funcionalmente de X según el modelo lineal que
plantearemos. También se denomina “dependiente” o “regresada” y no es posible controlarla.
Veamos los pasos para construir nuestro modelo de regresión lineal simple.

Tomemos una muestra bivariada (X,Y) de tamaño n : (x ,y ), (x ,y ),…, (x ,y ).


1 1 2 2 n n

1° Graficamos el Diagrama de Dispersión o Data Plot. Por ejemplo, para el caso en que X es la
temperatura media diaria, e Y es la humedad media relativa del ambiente en el ejemplo visto
en correlación, para la cuidad de Rio Gallegos en el mes de Julio de 2011, obtenemos el
siguiente diagrama de dispersión.
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil VersiónDiagrama
Estudiantil de
Versión Estudiantil
Dispersion Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
100,70
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Humedad media relativa (H)

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
91,35
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
82,00
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
72,65
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
63,30
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
-3,13 -1,34 0,45 2,24 4,03
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Temperatura media diaria (T)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil

2° Calculamos el coeficiente de correlación  de Pearson

cov  x, y 
   xy 
 x  y

̅̅̅̅
̂
√∑ ̅ √∑ ̅

Recordemos que para el grafico anterior el coeficiente de correlación ̂ .


Tambien recordemos que si la correlación estimada era de  → ± 1   linealidad significativa
entre X e Y, y ahora queremos encontrar la expresión explícita de esa línea recta, i.e. queremos
hallar la ecuación de la recta que “mejor” se aproxime, con cierto criterio, a los puntos (x ,y )
k k
del diagrama de dispersión.
Tenemos que entender que existen muchas rectas que se ajustan bien a los datos de la
muestra. Pero tenemos que elegir una de ellas para nuestro modelo lineal. Por lo tanto
debemos seleccionar uno de los varios criterios que existen para elegir la recta de regresión.

El criterio o método que tomaremos para encontrar esa recta se denomina Método de
mínimo cuadrados (que abreviaremos L.S. : Least Squares). Este método consiste en
minimizar la suma de los cuadrados de los residuos verticales o discrepancias entre los valores
observados en la muestra ( ) y los valores predichos por la recta ( ̂ ). Fue desarrollado en
1805 por el matemático francés Adrien-Marie Legendre (París, 18 de septiembre de 1752-
París 10 de enero de 1833) y, paralelamente por el alemán Johann Carl Friedrich Gauss
(Brunswick, 30 de abril de 1777-Gotinga, 23 de febrero de 1855) entre 1795 y 1801.
Comenzamos pensando en toda la población (X,Y). Planteamos así un modelo inicial
poblacional
y = α + βx + ε

Poblacion  x, y 

Modelo poblacional
Poblacion  x, y 

  xk , yk  valores reales

y  a  x 
 : termino aleatorio
 : pendiente

Llamaremos residuales, errores o residuos a las discrepancias o desvíos ̂


entre los valores observados y los valores estimados o predichos ̂ por el modelo lineal.
Pero como no trabajamos con poblaciones, sino con muestras, estimamos el modelo
poblacional anterior con un modelo muestral

y = a + bx + e
 xk , yk 
n

modelo muestral
Poblacion  xn , yn  Y  a  bx  e
a 
b    coeficiente de regresion 


a

b  tg

X

Y   x 

Modelo LS : utilizamos el método de mínimos cuadrados (LS : Least Squares) para encontrar
los estimadores a y b de los parámetros poblacionales verdaderos α y β
Y k  a  bx
Yk

ek  Y k  Yk
Yk
Yi  X k , Yk 

Xi Xk X

Para que no se confundan los errores positivos con los negativos, elevamos todos los errores al
cuadrado, y así serán todos positivos.
2 2 2
e = (Ŷ - Y ) = (Y - Ŷ )
k k k k k

El método de mínimos cuadrados (LS) consiste en encontrar una recta (que llamaremos de
regresión lineal)
Ŷ = a + bx
2
de manera que haga mínima la suma de todos los errores cuadráticos e , para todos los
k
puntos o datos de la muestra, es decir para k = 1,…,n.
Entonces buscamos a y b tales que hagan al mínima la suma de los errores al cuadrado :
 n 2
min   ek 
 k 1 

Entonces comencemos con este cálculo :

 n 2
min   ek     a, b 
 k 1 

 n 2

min   Yk  Y k      a, b 
 k 1   
 

 n 2

min   Yk   a  bx       a, b 
 k 1 
 

 n 2

min   Yk  a  bx      a, b 
 k 1 
 
Recordemos que la condición necesaria para la existencia de extremos (Máximos y Mínimos)
es que se anulen las primeras derivadas parciales :

  a, b    a, b    a, b    n 2

 0    Yk  a  bxk    0
a b a a  k 1 

  a, b  n  2
  a, b  n
  Yk  a  bxk   0   2 Yk  a  bxk   1  0
a k 1 a a k 1

  a, b  n
  a, b   n n

 2 Yk  a  bxk   0  2  Yk  na  b X k   0
a k 1 a  k 1 k 1 
n n

Y k  b X k
a  Y  bX
k 1 k 1
a
n
Ahora calculamos b, la pendiente de la recta de regresión, llamada coeficiente de regresión ,
para ello derivamos parcialmente con respecto a b e igualamos a cero :

  a, b    n    a, b  n  2

  Yk  a  bxk   0
2

   Yk  a  bxk    0
b b  k 1 
 b k 1 b

  a, b  n   a, b  n
  2 Yk  a  bxk    xk   0  2 Yk  a  bxk   xk   0
b k 1 b k 1

  a, b  n n n
  X k Yk  a  X k  b X k2  0
 k 1 k 1 k 1

Ecuaciones Normales

Ahora resolvemos el sistema de 2 ecuaciones con 2 incógnitas que nos ha quedado, y que se
llaman ecuaciones normales, por el método de sustitución. De esa manera encontramos
finalmente los estimadores de mínimos cuadrados (LSE : least Square Estimators) a y b de los
parámetros verdaderos poblacionales α y β, la ordenada al origen y la pendiente –
respectivamente- de la recta de regresión lineal:
n n n

 X kYk  Y  bX   X k  b X k2  0
k 1 k 1 k 1

n n n n

 X kYk  Y  X k  bX  X k  b X k2  0
k 1 k 1 k 1 k 1

 n n
 n n
b  X  X k   X k2   Y  X k   X kYk
 k 1 k 1  k 1 k 1

n n
Y  X k   X k Yk
b k 1
n
k 1
n
X  X k   X k2
k 1 k 1

Ahora que tenemos a y b, ellos son los LSE (Least Square Estimators)
a = LSE(α) = ̂
b = LSE (β) = ˆ
Podemos escribir entonces la ecuación que buscamos de la recta de regresión lineal :
Ŷ = a + bx
Y graficarla sobre el diagrama de dispersión :

Y  a  bx  e
 xk , yk 

Para plantear correctamente un modelo de regresión lineal, primero debemos tomar ciertas
precauciones, llamados supuestos o hipótesis del modelo.

Supuestos del modelo lineal

1° Linealidad: Existe asociación lineal significativa entre las r.v. X e Y. Para saber si se cumple
este supuesto nos valemos del r = ̂ de Pearson.

2° Normalidad: de los errores : ε ~ N ( 0 ; σ2 )


2
3° Homocedasticidad: σ es desconocida pero es constante, fija para los valores x k.
Para saber si se cumple, haremos un análisis de los residuales ek.

4° Normalidad: de las poblaciones yki para cada xk

5º Independencia: de los errores ε, tanto para un mismo valor de xk como para


diferentes valores de xk .

Y 
 


 

X
xk

Descomposición de las sumas cuadráticas – ANOVA

Recordemos el modelo de regresión lineal :


y
  E ( y / x)   y   . ( x   x) ( poblacional )
x
y/x

También recordemos que una vez tomada una muestra bivariada


( x1 , y1 ) ; ( x2 , y2 ) ; ( x3 , y3 ) ; . . . . ; ( xi , yi ) ; . . . . ( xn , yn)
de tamaño n de la r.v. bidimensional ( X , Y ) que estamos estudiando,
pasamos al modelo muestral que aproxima al poblacional con los estimadores de los
parámetros calculados a través del método de mínimos cuadrados :
 sy
y  y  r. ( x  x ) (muestral)
sx
 sy sy
y  ( y  r. x )  r. . x
sx sx
y  b0  b1 x

y i  b0  b1 xi
sy
con b0  y  r. x  y  b1 x
sx
sy
b1  r.
sx

COˆ V ( X , Y ) Eˆ ( XY )  Eˆ ( X ) Eˆ (Y )
donde r  ˆ  
ˆ x .ˆ y ˆ x .ˆ y

( xi ).( y i )
 xi y i  sy
sy n
Luego b1  r.  . 
sx sx .sy sx

 xi y i  xi y i
 xy  xy
 n  n 
ss x2 n

 ( xi  x ) 2

 1

 (x i  x ).( y i  y )
ˆ xy ss xy s xy
 i 1
   2
n
ˆ x 2

 (x
ss x sx
i  x)2
i 1

i .e .
sy s xy
b1  r. 
sx s x2

La intención es ahora dividir la suma cuadrática total en dos partes, una suma cuadrática
residual o de error residual no explicado por el modelo de la recta de regresión que hemos
elegido, y otra parte correspondiente al error explicado o debido al modelo de regresión .

Comenzaremos analizando la suma cuadrática del error residual no explicado por la regresión :
n n 2

SSres  SSE   (y i  yˆ i )    yi  (b0  b1 xi )


2

1 c 1

Descomponemos esta suma cuadrática :


n n

 [yi  ( y  b1 x  b1 xi )]2   [( yi  y )  b1 ( xi  x )]2 


i 1 i 1

n n n
  ( yi  y ) 2  2b1. ( xi  x )( yi  y )  b1 . ( xi  x ) 2 
2

i 1 i 1 i 1

SS x
 SS y  2b1.SS xy  b12 .SS x  (como b1  )
SS xy

 SS y  2b1SS xy  b1.b1. SS xy  SS y  2b1 SS xy  b1 .SS xy

n
 SS y  b1 .SS xy  

1
(y i  yˆ i ) 2  SSE  SSres

 SS y  b1 .SS xy  SSE

n
 (y
c 1
i  yi ) 2  b1.SS xy  SSE

Entonces: :
n n
SCTot   ( yi  yi ) 2  b1.SSxy .  ( yi  yˆ i ) 2
i 1 c 1
(1)

Ahora analizamos la suma cuadrática (SS) explicada por la regresión :


SS reg  SSR 
n n
=  ( yˆ i  y ) 2 =
c 1
[(b
i 1
0  b1 xi )  y ]2 
n n
  [( y  b1 x  b1 xi )  y ]2 
i 1
 [b . ( x
i 1
1 i  x )] 2 

n
 b12 . ( xi  x ) 2  b12 .SS x  b1 .b1 .SS x  b1 .SS xy
i 1

Reemplazando esta SS reg  SSR en ( 1 ) nos queda que:


n n n


i 1
( yi  y ) 2  
i 1
( yˆ i  y ) 2   ( y i  yˆ i ) 2
i 1

i.e.
SSTOTAL  SS reg  SS res ó

SST  SSR  SSE ó

SCtotal  SCexp licada  SCno exp licada

y los df son , respectivamente:

n  1  1  ( n  2)

Luego, el coeficiente de det er min ación R 2 se calcula así

SCtotal SCexp licada SCno exp licada


 
SCtotal SCtotal SCtotal

SCexp licada SS reg


1  R2   R2 
SCtotal SStotal

Desarrollo de las Ecuaciones Normales – Método de Mínimos Cuadrados

Este método, que fue planteado por Karl Friedrich Gauss en 1795 y publicado por él mismo en
1809 dentro de la segunda parte de su tratado de mecánica celeste “Theoria Motus Corporum
Coelestium in sectionibus conicis solem ambientium”, pero que también fue desarrollado y
publicado de manera independiente por el francés Adrien Marie Legendre en 1805, consiste
en minimizar la suma de los cuadrados de las distancias verticales entre los puntos observados
y sus correspondientes estimados ̂ sobre la recta de regresión :
n n
Min ( f (a, b))  Min ( ek2 )  Min ( ( y k  yˆ k ) 2 ) 
k 1 k 1

n
Min ( [Yk  (a  byk ) 2 ])
k 1

 f ( a, b) n 
  [ y k  a  bxk ] 2
a k 1 a

n
  2 [ y k  a  bxk ].( 1)  0
k 1

n
 2 [ y k  a  bxk ]  0
k 1

n n

 y k  na  b xk  0
k 1 k 1

n n

 Yk  b xk  na
k 1 k 1

n y k

y
k 1
k  b. k 1

n
a
y  bx  a (1)

 f ( a, b)  n
 { [ y k  a  bxk ] 2 }
b b k 1

n

 [ y k  a  bxk ] 2
k 1 b

n
  2 [ y k  a  bxk ].(  x k ) 
k 1

n
 2 [ y k  a  bxk ]( x k )  0 
k 1

[ y
k 1
k y k  ax k  bxk2 ]  0 

n n n

 xk y k  a xk  b xk2  0
k 1 k 1 k 1

Re emplazando (1 ) en a :
n n n

x
k 1
k y k  a  x k  b x k2
k 1 k 1

n n n

 xk y k  ( y  bx ) .  xk  b xk2
k 1 k 1 k 1

n n n

 xk y k  a xk  b xk2
k 1 k 1 k 1

Por lo tanto podemos calcular ahora el valor de a y b , los estimadores de mínimos cuadrados
de la ordenada al origen (α) y de la pendiente o coeficiente de regresión (β) :
n n x n

 xk y k y. xk  bx  xk b xk2


k 1 k 1 k 1 k 1

n
y
 x .y  . x k  b ( x k2  x  x k )
k
k k
k 1 n

n n

n  xk . . y k.

 xk . y k  k 1

n
k 1
ˆ y
k 1
 b  ˆ . (2)
n ( x k ) 2 ˆ x
x
k 1
2
k 
n

Las ecuaciones (1) y (2) forman el sistema de dos ecuaciones con dos incógnitas, a y b, que se
llaman ecuaciones normales, y cuya solución –a partir de los datos- nos darán como resultado
los dos estimadores a y b de los parámetros α (ordenada al origen) y β (coeficiente de
regresión o pendiente) para poder obtener la recta de regresión muestral.

También podría gustarte