Está en la página 1de 18

ESTADISTICA

(Conceptos básicos)
Estadística descriptiva 1D

Definiciones

Mediana: Valor central del conjunto de datos ordenado de menor a mayor. Cuando es un numero impar de datos se
toma el único valor central, cuando es un numero par se toma el valor más chico de los dos valores centrales. Una
ventaja de la mediana por sobre otras formas de medir el centro de un conjunto de datos es su robustez, esto quiere
decir que es poco sensible a datos atípicos.

Profundidad: Definimos la profundidad, para encontrar fácilmente la mediana,


como un valor numérico que representa que tan lejos está de extremo del arreglo
ordenado de mediciones.

Cuartil inferior y superior (q): Dos datos que determinan los extremos del conjunto de
datos centrales que contiene al 50% de los datos totales. Cuartil inferior es la medición
más chica que deja a su izquierda incluyéndose al menos al 25% del total de los datos.
Cuartil superior es la medición más chica que deja a su izquierda al menos el 75% del
total de los datos. A la diferencia entre los cuartiles se le llama rango intercuartílico (R).

Datos atípicos: Mediciones que difieren notoriamente de las demás mediciones. Suelen causar problemas por lo que
es necesario tener reglas para identificarlos.

Promedio: Otra forma de medir el centro de una distribución de datos y frecuentemente usada es
el promedio o media. Suele ser más fácil de calcular que la mediana, pero se ve más influenciado
por datos atípicos.

Desvío estándar: Otra forma de caracterizar la dispersión de un conjunto de


mediciones es el desvío estándar. Así como el promedio es análogo a la esperanza,
el desvío estándar es análogo a la raíz de la varianza. Mas delante se profundizará,
pero técnicamente sería más preciso dividir entre n-1 en vez de n, pero los cálculos
son más difíciles, dependiendo del contexto usaremos una o la otra, y con n grande
tienden a dar lo mismo.

Diagrama de tallo y hojas

Forma de organizar tablas de datos bajo cierto criterio que permite extraer información más fácilmente de las
mismas. Los tallos se ordenan verticalmente y las hojas horizontalmente en el valor del tallo correspondiente.
Existen distintas variaciones, espalda a espalda sirve para comparar distintas muestras del mismo tipo de medición y
el extendido como para analizar más precisamente la distribución de las mediciones dentro de un mismo tallo.

Diagrama simple Espalda a espalda Diagrama extendido

Histograma

Histogramas de puntos o barras: Para muchas


investigaciones estadísticas es munificente saber
cuántas mediciones caen dentro de límites
específicos sin conoces su valor preciso.

Histogramas de área uno: Dado a que los


intervalos son de igual longitud, las áreas de las
barras son proporcionales a las frecuencias, por lo
que el área total bajo el histograma depende del número de mediciones. Para
facilitar la comparación de dos conjuntos de datos se divide a las frecuencias
absolutas entre el número de mediciones para así obtener las frecuencias relativas.
El área de cada barra indicia en este caso la proporción del conjunto total de datos que cae en el intervalo
correspondiente.

Resumen de los cinco números

A veces menos detalles suelen ser suficiente e incluso preferible. El resumen de los cinco números fue propuesto
como una forma simple e informativa de indicar donde se centran las mediciones y que tan dispersas esta.

El resumen consiste en listar la mediana, cuartiles inferior y superior, y máximo y


mínimo de un conjunto de datos de la siguiente manera:

Identificando posibles datos atípicos

Cualquier edición que este a más de 1.5XR de distancia del cuartil más
cercano se clasifica como sospechosa de ser atípica.

Diagrama de caja: Diagrama que proporciona una traducción visual de un


resumen de los cinco puntos y permite visualizar fácilmente los datos
atípicos. Consiste en una caja central limitada por los cuartiles y que de ella
se desprenden dos líneas (bigotes) que distan de los cuartiles la distancia
previamente mencionada como sospechosa

Estadística descriptiva 2D
Nuestro objetivo es estimar el valor promedio de una variable Y para un
determinado valor de X cuando ambas variables están relacionadas. Cuán
difícil es estimar estos valores depende de cuan fuerte sea la asociación
entre ambas. Realizando una elipse que represente de mejor manera la
nube de puntos es fácil visualizar a grandes rasgos el tipo de asociación
que hay entre las variables. El centro de la elipse es el punto compuesto
por el promedio de ambas coordenadas.

Diagrama de dispersión: Grafico muy


útil para describir la relación entre dos
variables. Se utiliza cunado las
observaciones están apareadas.

v v

Previamente habíamos definido la recta de regresión, nuevamente resulta de


utilidad, por lo que su representación muestral queda definida de la siguiente
manera:

ESTADISTICA (Modelo de tratamiento y modelo de población)


Test de Hipótesis (TdH)

Tema abarcativo de la estadística. Consiste en poner a prueba una hipótesis mediante distintos procedimientos
dependiendo del contexto en particular. Formalmente, todo lo que requiere un TdH es H0, HA, un estadístico y una
región de rechazo.

En particular trabajaremos con los test de significancia que son un subtema de este gran tema. Existen
esencialmente dos modelos: el modelo de tratamientos y el modelo de población. Dentro de cada modelo existen
diferentes test que se pueden hacer para poner a prueba la hipótesis, estos tests suelen basarse en estadísticos y su
distribución bajo la hipótesis nula. Ejemplos: Test de permutaciones (modelo de tratamientos), Test z o t (modelo de
población). El modelo de tratamientos busca comparar dos tipos distintos de tratamientos, primero saber si existe
una diferencia entre ellos y segundo estimar cuantitativamente esta diferencia. El modelo de población busca inferir
alguna propiedad de una población a partir de una muestra de la misma, un ejemplo típico son las encuestas.

En una primera aproximación debemos dividir los estudios estadísticos en dos clases. Los experimentos controlados
y los estudios observacionales. Por ejemplo, en un estudio que compara dos tratamientos, si el investigador asigna
de forma aleatoria y controlada los individuos a los distintos tratamientos, se trata de un experimento controlado, si
en cambio, el investigador no puede realizar esta asignación, se trata de un estudio observacional. Del mismo modo
ocurre con los modelos poblacionales, si en una encuesta la muestra se elige al azar de forma controlada se trata de
un experimento, pero si la muestra consiste de personas que pasan por una determinada esquina a una determinada
hora se trata de un estudio observacional.

Terminología de los TdH

Hipótesis simples y compuestas: Una hipótesis simple es una para la cual podemos especificar su distribución por
completo, suele ser cuando un parámetro de interés toma un valor especifico. Una hipótesis compuesta es una para
la cual no podemos especificar completamente su distribución, suele ser cuando el parámetro de interés se
encuentra en un rango de valores, es como muchas hipótesis en una.

Razonamiento por improbable: En estadística existe un razonamiento parecido al razonamiento por absurdo, y se le
denomina razonamiento por improbable. Este consiste en suponer que una hipótesis es verdadera y a partir de esta
suposición calcular la probabilidad de observar algo tanto o más extremo que lo observado. Si esta probabilidad es
muy baja concluimos que la hipótesis es falsa. Al aplicar este razonamiento siempre podemos equivocarnos, porque
probabilidad baja no quiere decir nula, el principio se basa en no creer demasiado en las coincidencias. El ejemplo “El
gurú de los exámenes” muestra cómo se puede usar esta idea para crear la ilusión de una extrema coincidencia
donde termina sucediendo el evento tan poco probable, por lo que suele ser beneficioso que otros hagan el
experimento además de nosotros. A su vez que una probabilidad sea pequeña es bastante subjetivo, por lo que se
suele acordar un valor umbral (pu) para el cual las
probabilidades más chicas que el mismo son consideradas
lo suficientemente chicas como para rechazar o afirmar el
supuesto, igualmente uno se puede decidir por otro nivel
de significación.

P-Valor: A esta probabilidad de observar algo tanto o más


extremo de lo observado suponiendo una hipótesis
verdadera se le denomina p-Valor (P(X>=Xobs)).

Tipos de error: Podemos cometer dos tipos de errores al rechazar o no una hipótesis. Un error de tipo I es rechazar
erróneamente H0 y un error de tipo II es cuando no rechazamos (“aceptamos”) erróneamente H0. En total hay cuatro
probabilidades importantes que corresponden a la tabla de errores. Las probabilidades en las que nos centramos son
el nivel de significación (α, probabilidad de rechazar erróneamente) y la potencia. De la misma manera definimos las
regiones de rechazo Ir según el α que decidamos tomar.

Elementos básicos de un TdH

H0: Hipótesis nula. Supuesto por defecto para el modelo que genera los datos. Ejemplo: las diferencias observadas se
deben simplemente al azar. No la rechazaremos a menos que tengamos pruebas convincentes.

HA: Hipótesis alternativa. Si rechazamos la hipótesis nula, aceptamos esta alternativa como la mejor explicación para
los datos.

X: Estadístico de prueba. Calculamos esto a partir de los datos.

Distribución nula: Distribución de probabilidad de X asumiendo H0.

Región de rechazo: Si X está en la región de rechazo se rechaza H0 a favor de HA. Consiste en datos que son extremos
bajo la hipótesis nula. Esta región está determinada por el nivel de significación que tomemos.

Región de no rechazo: El complemento de la región de rechazo. Si X está en esta región no rechazamos H0. Observar
que “no rechazamos”, esto no quiere decir “aceptamos”.

Nivel de significación y potencia: El nivel de significación (α) es la probabilidad de rechazar erróneamente y la


potencia (π) es la probabilidad de rechazar correctamente. Se utilizan para cuantificar la calidad del TdH, lo ideal
sería que no cometiera errores, pero dentro de lo factible es buscar que el α este cerca de 0 y el π cerca de 1.

Diseñando un TdH

1. Elegir la hipótesis nula H0. La elección de H0 y HA no es matemática, es arte y costumbre. En general H0


representa la explicación más simple o cautelosa de los datos.
2. Decidís si HA es a una o a dos colas. En muchas situaciones se desea comparar con una HA a una sola cola
porque se sabe por conocimientos precios que la otra alternativa no es posible o relevante.
3. Elegir un estadístico. Por ejemplo, la media muestral, la mediana, la varianza muestra, etc. Algunos
estadísticos habituales son z, t, y χ². Un aspecto importante es que las distribuciones que acompañan a estos
estadísticos son siempre condicionadas bajo la hipótesis nula.
4. Elegir un nivel de significación y determinar la región de rechazo. Los valores típicos son 0.1, 0.05, 0.001.
Quedará determinado el error que vamos a cometer. Una vez elegido el nivel de significación podemos
determinar la región de rechazo, casi siempre en la(s) cola(s) de la distribución nula.
5. Determinar la(s) potencia(s). Una vez establecida la región de rechazo podemos determinar la potencia del
test en varios valores de la hipótesis alternativa.

MODELO DE TRATAMIENTOS
Se desea comparar dos tratamientos, entre un grupo de control y el de tratamiento, donde cada individuo es
asignado al azar entre uno o el otro. La asignación puede ser hecha de modo que las cantidades de individuos en
cada grupo sean diferentes. Para evaluar el efecto de los tratamientos el investigador mide una respuesta a cada
individuo. Se asume que cada individuo tiene una respuesta potencial para cada tratamiento (riC y riT). El problema
principal de la inferencia es que el investigador no puede medir las dos respuestas, solo una es observable, si ambas
fueran observables el problema estaría resuelto. Por lo que el problema se basa en “adivinar” las respuestas no
observadas en base a las respuestas si observadas.

En general se desea poner a prueba la H0: el tratamiento no tiene ningún efecto (riC = riT), suponiendo que es
verdadera y a partir de esto calcular la probabilidad de observar algo tanto o más extremo de lo observado (razonar
por improbable). Observar que al asumir H0 todos los ri quedan determinados.

Test de permutaciones

Para poner a prueba la hipótesis la idea es crear un conjunto de realidades hipotéticas, de todos los resultados que
pudieron haber ocurrido, aunque solo hayamos observado uno solo. Luego se elige un estadístico X, el cual se calcula
mediante la respuesta de los individuos, estadísticos comunes son diferencia de promedios, suma de respuestas,
diferencia de medianas, etc. Para finalizar se calcula el p-valor y en el caso de ser lo suficientemente pequeño
rechazamos H0, y en el caso de que no lo sea concluimos que no hay evidencia suficiente para rechazarla.

Ejemplo
H0 : No hay diferencia entre los productos

Tratamiento = Producto A Control = Producto B


X = (suma A) – (suma B) Xobs = 42

X: Ω --> R, con Ω todas las asignaciones de las 16 cuerdas, en dos grupos de 8 c/u

Son equiprobables, 1/12870

Pval(42) = 2min { PH0 (X>=42), PH0 (X<=42) } = 2 PH0 (X>=42) = 2 (76+64+….+1) / 12870 = 2 x 0.023

Pval(42) = 0.046 < 0.05 entonces rechazamos H0

MODELO DE POBLACION

Este modelo se basa en la noción de población y muestreo. Dada una población grande, de entidades generales,
estamos interesados en una o varias características de las mismos que podemos medir experimentalmente. Una
parte muy importante consiste en precisar qué tipo de distribución tiene X, por lo que primero hay que definir si X es
una variable discreta o continua. Luego a partir de la función de probabilidad de X podemos hablar de la o las
características en cuestión. Un modelo paramétrico consiste en suponer que la formula p(x) es conocida, excepto
por algunos parámetros, los mismos no tienen por qué representar ninguna verdad intrínseca de la realidad, son
parte de nuestro modelo y como todo modelo son simplificaciones, no son la realidad, y no hay nada de verdadero
en ellos.

Los estimadores de parámetros resultan fundamentales al momento de analizar la o las características de una
población por lo que es importante ver cómo encontrarlos (Métodos de estimación) y cuáles son sus propiedades
(Sesgo, ECM, Consistencia).

Métodos de estimación

Como no conocemos los parámetros de la población, surge la cuestión de como estimarlos. Para esto se utiliza el
método de muestreo aleatorio, el cual es distinto de la noción de muestra. Existen muchísimos métodos diferentes
que sistematizan la búsqueda de estimadores, entre ellos los siguientes.

Método de los momentos:


Método de máxima verosimilitud:

Método para encontrar estimadores con buenas


propiedades asintóticas, que consiste en buscar el
valor que maximiza la probabilidad de que suceda el
evento que observamos al hacer un experimento.
Luego por el principio de máxima verosimilitud
inferimos que ese valor es un buen estimador dado
que es altamente probable, que el valor que hace que
el evento observado sea el más probable de ocurrir,
sea efectivamente el parámetro que buscábamos.

Propiedades de los estimadores


Puede haber varios estimadores razonables para un mismo parámetro. Es por esto que rinde tener criterios que
permitan elegir un estimador entre varios. Dependiendo del contexto ciertas personas priorizan ciertos criterios por
sobre otros por lo que no hay un estimador por excelencia. Para esto primero hay que distinguir dos propiedades;
exactitud y precisión. La primera refiere al sesgo de un estimador y la segunda al error cuadrático medio. En
definitiva, los estimadores pueden variar su “proximidad” al parámetro al cual buscan parecerse bajo distintos
criterios y los mismos son los siguientes.

Sesgo de un estimador: Un estimador puede estar centrado o no. El sesgo de un estimador es la diferencia entre el
valor esperado del estimador y el parámetro.

Error cuadrático medio de un estimador: Un estimador puede tener una mayor varianza o una menor. Debido a que
a veces es necesario utilizar un estimador sesgado, definimos el error cuadrático medio como la cantidad que mide
esta precisión, como el cuadrado esperado de la diferencia entre el estimador y el parámetro.

Consistencia de un estimador: Un estimador puede a su vez cambiar su


comportamiento a medida que la cantidad de datos que lo compone crece, por
esto se define un estimador como consistente si tiende al parámetro a medida
que la cantidad de datos.

Test z

Un test z sirve para poner a prueba una hipótesis basándose en el estadístico Z que sigue la distribución normal
estándar bajo la hipótesis nula y fácilmente definir la región de rechazo con las tablas. Cuando el estadístico es
asintóticamente normal bajo la hipótesis nula se puede (por TCL), cuando el tamaño de la muestra es
razonablemente grande (n>=30), definir la región de rechazo usando los valores críticos de la distribución normal.

¿Cuándo es útil usar este test?

El test z se usa comúnmente cuando 1) Se desea decidir sobre el valor de la media de una población, 2) Se desea
comparar las medias de dos poblaciones normales. En ambos casos se asumen las varianzas conocidas.

¿Cómo se calcula el estadístico?

Se hace el promedio estandarizado de las mediciones.

¿Cómo se decide si rechazar o no?

Al diseñar el test se tuvo que decidir un nivel de significación y con el mismo se decidieron los valores críticos de la
región de rechazo, por lo que para rechazar solo hace falta que el pval caiga dentro de la zona de rechazo.

Test χ²

Un test χ² sirve para poner a prueba una hipótesis basándose en el estadístico QL (estadístico de la razón de
verosimilitud) que sigue la distribución χ² bajo la hipótesis nula por el teorema de Wilks. y fácilmente definir la
región de rechazo con las tablas.

¿Cuándo es útil usar este test?

El test χ² se usa para 1) Bondad de ajuste para distribuciones discretas, 2) Independencia para distribuciones
discretas

¿Cómo se calcula el estadístico?

Se aplica el método de la razón de verosimilitud.

Observaciones: Lmax se alcanza en tita-techo el estimador de máxima verosimilitud de tita, cuando la hipótesis nula
no es simple, es decir tiene muchos parámetros, el error de tipo I es el peor de los errores de los parámetros por eso
el supremo, y el -2 está para que quede una chi2 es una constante que normaliza.

Igualmente hacer cuentas con logaritmo es propenso a error por lo que hay una forma aproximada más fácil de
hacerlo que es el estadístico de Pearson. Se vuelve más preciso a medida que n crece.

¿Cómo se decide si rechazar o no?

Al diseñar el test se tuvo que decidir un nivel de significación y con el mismo se calcula el “c” tal que PH0(QL > c) = α,
donde c = χ2k(α). Por lo que si (QLobs >= χ2k(α)) se rechaza H0.



Puede pasar a su vez que queramos investigar la independencia
de
dos clasificaciones por lo que sería necesario adaptar un poco el test

Test t

Un test t sirve para poner a prueba una hipótesis basándose en el estadístico Tn que sigue la distribución t de student
con n-1 grados de libertad, bajo la hipótesis nula y fácilmente definir la región de rechazo con las tablas.

¿Cuándo es útil usar este test?

El test t se usa cuando los datos son normales, n es relativamente pequeño y la varianza es desconocida. Si se
conociera la varianza se podría aplicar el test z, pero cuando estamos en estas condiciones y no la tenemos es
necesario aplicar el test t.

¿Cómo se calcula el estadístico?

¿Cómo se decide si rechazar o no?

Al diseñar el test se tuvo que decidir un nivel de significación y con el mismo se calcula el “c” tal que PH0(tn-1 > c) = α,
donde c = tn-1(α/2). Por lo que si (tobs >= tn-1(α/2)) se rechaza H0.

ESTADISTICA (Temas de utilidad)


Teorema central del limite

Intervalos de confianza

z-intervalo

z-intervalo asintotico

t-intervalo

Distribuciones

Distribución de χ²:

Distribución t de Student: Asumiendo Xi normales

Distribucion hipergeometrica:

Tablas de distribución

χ²
t

Diferencia entre test z y test t


Observación: con n grande el test
Test z (tengamos o no la
Grande z y t son equivalentes ya que la
varianza podemos
estimarla con Sn por TCL) distribución t de student se
aproxima a una normal.
Muestra n

Población normal
Chica (n<30)
Test t (al tener pocos datos si desconocemos
~ t(n-1) la varianza no podemos aproximarla por Sn
por lo que es útil este test)

Población no normal Observación: en el test t es difícil


No sabemos
calcular la potencia por lo que no
se pide, decidir a partir de eso
capaz

También podría gustarte