Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen Estadistica 2do Parcial PDF
Resumen Estadistica 2do Parcial PDF
Guía de estudios
- Modelo de distribución Binomial. Condiciones que deben cumplirse para que una variable tenga
esta distribución. Significado de los parámetros n y p. Botella 13.2.2., pág. 313 y 314. Ejemplos de
variables con distribución binomial.
- Modelo de distribución Normal. Sus características. Tipo de variables a las que se aplica.
Significado de los parámetros µ y σ. Importancia de este modelo. Botella 13.3.2, pág. 318-322.
Ejemplos de variables para las cuales este modelo parece razonable.
Estadística inferencial
Se llama así porque a través de sus procedimientos realizamos inferencias a nivel
poblacional, y para hacerlas se basa en la idea de probabilidad.
Modelos de distribución de probabilidades
En psicología es común el uso de modelos teóricos para explicar las regularidades del
comportamiento o funcionamiento mental. Así tenemos modelos que, por ejemplo,
explican el funcionamiento de la memoria o cómo se desarrollan ciertos trastornos.
En estadística también se usan, pero estos modelos teóricos describen el comportamiento
de las variables, describen cómo se presentaría la variable de interés en la población que
es objeto de estudio.
Un modelo es una construcción teórica, una representación simplificada de la realidad
que posibilita una mejor comprensión de la misma, facilita su análisis e interpretación, y
permite también formular conclusiones y realizar predicciones. Contar con un modelo para
una variable le permite al investigador deducir conclusiones que luego confrontará con la
realidad observada, es decir, pondrá a prueba para ver si explican o predicen bien lo que
sucede en la realidad.
Ejemplo: si tuviéramos que pensar un modelo de cómo se presenta usualmente la
variable “Sexo” en la población de alumnos de nuestra facultad, podríamos decir, basados
en la experiencia (recorrer las aulas, halls y pasillos) que hay más mujeres que varones, y
podríamos arriesgar alguna idea más precisa. No hace falta decir la cantidad concreta de
varones y mujeres que hay, generalmente no tenemos ese dato, y aquí no es necesario.
Lo que queremos expresar, se puede plantear perfectamente indicando qué porcentaje de
mujeres y varones creemos que hay. Algunos podrían decir que suponen que hay un
60% de mujeres contra un 40% de hombres. Otros podrían creer que hay un 70% de
mujeres y un 30% de varones, por ejemplo. Estos son distintos modelos que podemos
tener de esa realidad. No son la realidad, sino que son una construcción teórica que trata
de describirla. Luego podremos ver cuál de estos modelos explica o describe mejor la
realidad de los alumnos.
Entonces, no estamos hablando de la cantidad concreta de varones y mujeres que hay.
Por más que tuviéramos ese dato, se trataría de valores que cambian de un año a otro. El
modelo trata de ser una explicación general de lo que usualmente podemos esperar que
se de en una población determinada, y en este sentido, es más adecuado pensar en qué
proporción se darían los distintos valores de la variable. Lo que queremos expresar se
representa mejor con las frecuencias relativas. Recordemos que éstas nos informan qué
parte del todo corresponde a cada valor de la variable. Las frecuencias porcentuales
representan lo mismo que éstas, pero multiplicado por 100.
La tabla dice “frecuencia relativa teórica”, porque esta frecuencia relativa es supuesta, no
se fundamenta en la observación directa, no es la que surgió de la realidad de contar
todos los casos reales, sino que son postuladas. La experiencia previa justifica los valores
propuestos, o es deducida a partir de ciertas condiciones teóricas (es lo que suponemos
en base a la experiencia o a la teoría que manejamos). No es un dato de la muestra como
el que veníamos trabajando hasta ahora.
A las frecuencias relativas teóricas las vamos a llamar probabilidades. De esta manera,
las diferenciamos más de las frecuencias relativas muestrales. La probabilidad de un valor
de la variable es la proporción de casos que se espera que ese valor de la variable tenga
en una población. Entonces, la probabilidad de un valor de la variable puede interpretarse
como una medida de la posibilidad de que dicho valor sea observado en la población. A
esta medida, desde sus orígenes, se la ha representado en tantos * 1, es decir, en
proporciones. Entonces:
→ Media (μ): se obtiene sumando los productos de los valores de la variable por sus
correspondientes probabilidades. De esta manera, la diferenciamos de la media
muestral.
→ Varianza (σ2): se obtiene sumando los cuadrados de los desvíos a la media por la
probabilidad correspondiente. De esta manera, la diferenciamos de la varianza
muestral.
Como el desvío es la raíz cuadrada de la varianza, se simboliza con la letra σ.
Estos resúmenes se simbolizan con letras griegas, ya que se tratan de parámetros: son
propiedades descriptivas de la población.
La moda y la mediana se calculan en forma similar a como se lo hace cuando se tiene
una distribución de frecuencias observada. Por lo tanto, al trabajar con modelo podemos
calcular los resúmenes que conocemos, y de esta manera podremos saber qué media y
desvío son las esperadas en la población según el modelo planteado.
Como vimos hasta acá, contar con un modelo de probabilidades para las variables que
estudiamos, nos permite describir su comportamiento en la población, y sacar
conclusiones que luego puedan ser puestas a prueba comparándolas con la realidad. Si la
realidad que conocemos a través de las muestras coincide con lo planteado por el
modelo, podremos decir que el modelo se sostiene.
La estadística ha desarrollado una gran variedad de modelos de probabilidades. Estos
describen el comportamiento de distintos tipos de variables. Cada tipo de modelo tiene su
nombre propio, dos de ellos son: el modelo binomial (variables cuantitativas discretas) y
el modelo normal (variables cuantitativas continuas).
Modelo Binomial
Una variable sigue un modelo de probabilidad binomial si es una variable cuantitativa
discreta que cuenta la cantidad de éxitos que ocurren en n observaciones de una
variable dicotómica de parámetro p, que son independientes y con la misma probabilidad
de éxito p. IMPORTANTE: estas variables siempre empiezan con “cantidad de…”,
“número de…”.
Ejemplo: se tira cuatro veces un dado al aire y se registra el número de veces que sale “2”
en las cuatro tiradas. Entonces, el resultado obtenido en cada lanzamiento puede
considerarse una variable dicotómica con probabilidad de éxito 1/6 (una en seis). Luego,
la cantidad de “2” en cuatro tiradas del dado es una variable binomial de parámetros n = 4
y p = 1/6.
Otro ejemplo:
→ Se aplica sobre variables dicotómicas. Esta variable dicotómica no es aún la
variable binomial, pero su presencia es imprescindible para que ésta se genere.
Entonces, las variables dicotómicas son variables que admiten sólo dos valores
(habitualmente 0 y 1), y pueden ser auténticas variables dicotómicas o
dicotomizadas artificialmente.
→ Los valores de una variable binomial van desde 0 (ninguno) a n (todos). Es decir,
el recorrido de la variable es n + 1.
→ ¿Cómo se obtienen las probabilidades
asociadas a cada uno de los valores de la
variable binomial? A través de la aplicación
de una fórmula matemática de la cual hay que informar los parámetros:
• Uno es П (probabilidad de éxito). En los ejercicios, puede aparecer como
porcentaje, proporción, o dar explícitamente la probabilidad de éxito.
• El otro es n (tamaño del grupo con el que se va a trabajar).
Condiciones necesarias para aplicar el modelo Binomial.
1) Condición de estabilidad. La probabilidad de éxito debe permanecer constante
en las observaciones n de la variable dicotómica. En el primer ejemplo, la
probabilidad de que salga 2 en cada tirada del dado es 1/6. No va cambiando por
cada tirada, sino que se mantiene constante la probabilidad de éxito. Al contrario,
si con cada tirada se retirara un dado, esta condición no se cumpliría.
En el segundo ejemplo, la probabilidad de que un paciente de los 7 consultados
termine el tratamiento es 0,6. Si por alguna razón esta probabilidad aumenta o
disminuye durante el tratamiento, la probabilidad de éxito cambia, y no se
mantendría la condición de estabilidad.
2) Condición de independencia. La probabilidad de éxito en una observación no
aumenta ni disminuye si se conoce el resultado de otra observación. En el primer
ejemplo, la probabilidad de que salga 2 en la tercera tirada no cambia si se sabe
que en los lanzamientos anteriores salió 2.
En el segundo ejemplo, la probabilidad de conocer que un paciente terminó su
tratamiento, por ejemplo el quinto, nada informa acerca de si el sexto o séptimo lo
harán. Es decir, conocer los resultados de ensayos anteriores no modifica mi
probabilidad de predecir los ensayos que van a venir.
Ejercicios:
Modelo Normal
Cuando se habla de un modelo de distribución se refiere a una forma que adquieren los
datos debido a la variabilidad que presentan, y dependiendo de cómo es esa forma se
pueden derivar probabilidades teóricas de ocurrencia de un evento. Podemos tener
distintos patrones según la forma. Uno de esos patrones o formas es la distribución
normal.
Esta distribución normal tiene una forma característica y un modelo de probabilidad
asociado teórico que tiene determinadas características:
Esto quiere decir que la curva no toca el eje x (horizontal), salvo en ±∞. Como hemos
visto, la curva se va acercando hacia el eje de las x, pero se mantiene un poquito
distanciado, y recién va a ser igual a 0 cuando lleguemos a ±∞.
→ Poder identificar claramente cuáles son los parámetros de esa distribución. Esto
es, identificar μ (media poblacional) y σ (desvío estándar poblacional).
Fórmula de tipificación.
Fórmula de destipificación.
Guía de estudios
- Distribución de la media muestral según el Teorema Central del Límite. Importancia de este
resultado. PDF de la Cátedra sobre Distribución de la Media Muestral.
- Inferencia estadística. Objetivo y métodos. Pardo pág. 127 y 128.
- Contraste de hipótesis. En qué consiste y cuál es su lógica. Pardo 3.1, pág. 128, 129 y 130
- Hipótesis estadística. Qué es y cómo se vincula con una hipótesis científica. Ejemplificar. Pardo
3.1.1, pág. 131, 132 y 133.
- Estadístico de contraste y regla de decisión. Conceptos. Pardo 3.1.3 y 3.1.4, pág. 135 a 139.
- Qué se entiende por "mantener" y por "rechazar" la hipótesis nula. Pardo 3.1.5., pág. 140 y 141.
- Posibles consecuencias que se siguen de una prueba de hipótesis: decisiones correctas, errores
de tipo I y II. Conceptos de nivel de significación y de potencia. Relación entre α y β. Pardo 3.2.,
pág. 143 a 148. Concepto de nivel crítico y su utilidad. Pardo 3.4., pág. 154 a 158.
- Supuestos que fundamentan cada una de las pruebas de hipótesis. Hoja de la Cátedra
"Esquemas de pruebas de hipótesis". Pardo 3.1.2., pág. 133, 134 y 135.
Contraste de hipótesis
Es habitual que en una investigación se pretenda determinar el grado de veracidad de una
afirmación en la población de referencia. Por ejemplo:
“¿Es la técnica terapéutica A más apropiada que la B para aliviar los síntomas de los
pacientes depresivos?”
“¿Son los sujetos que se sienten inseguros más agresivos que los que sienten seguros?”
→ Hipótesis nula (H0): esta es la única que vamos a poder rechazar o no rechazar
(mantener, corroborar). Todo el procedimiento recae sobre la hipótesis nula. Esta
hipótesis se conoce popularmente, aunque no es algo general, como la hipótesis
de la igualdad (cuando aparece el = la hipótesis seguramente sea nula). Esa
igualdad tiene que ver con mantener lo normativo o lo instituido, mantener el status
quo, mantener lo histórico. Básicamente, mantener la hipótesis nula dice que nada
cambia.
→ Hipótesis alternativa, complementaria de la anterior (H1): en general es la hipótesis
de investigación, la que quiere probar quien sea que esté usando estadística para
tomar decisiones. Esta hipótesis, a diferencia de la nula, tiene otras opciones (<, >,
≠).
Siguiendo el ejemplo, sería:
H0: µ ≤ 4
H1: µ > 4
Tenemos entonces dos hipótesis que contrastar. En la teoría de los contrastes de
hipótesis, siempre la decisión tomada va a estar referenciada a H0, es decir que cuando
los datos de la muestra nos hagan decidir que H0 no es verdadera, hablaremos de
rechazar H0, y cuando los datos nos hagan decidir que H0 es verdadera, hablaremos
entonces de aceptar o no rechazar H0.
La particular característica que tienen los contrastes de hipótesis que es decidir sobre la
veracidad de una hipótesis o afirmación a nivel de población a partir de la información que
provee una muestra hace que sea posible que la decisión tomada pueda ser errónea.
Esto es independiente de cuán buena y representativa sea la muestra, depende
solamente de esta particularidad que es decidir sobre el todo a partir de la información de
una parte. Por esto es posible cometer un error al decidir rechazar o aceptar H0 utilizando
un contraste de hipótesis. Estos dos tipos de errores son:
• Error de tipo 1: rechazar H0 cuando es verdadera.
• Error de tipo 2: aceptar H0 cuando es falsa.
Tipos de errores
Contraste de hipótesis para la media de una distribución normal con sigma conocido
Este tipo de contraste es usado cuando es necesario verificar hipótesis que pueden
representarse a partir de la media de una variable. Para el desarrollo de esta técnica nos
basaremos en el supuesto de normalidad de la variable, es decir, vamos a suponer que
la variable que es necesario medir para conocer información sobre la hipótesis que
estamos trabajando tiene una distribución normal cuya media es µ y su desvío es σ en la
población. Además, supondremos que la hipótesis científica del investigador puede ser
expresada como una hipótesis estadística utilizando el parámetro µ.
Es importante considerar que las muestras aleatorias pueden verse de dos formas
diferentes:
1) Como un conjunto de números, cuando efectivamente las mediciones sobre X ya
han sido hechas y se tienen esos valores.
2) Antes de que las mediciones se hagan, los valores pertenecientes a una muestra
aleatoria pueden pensarse como si fueran variables todas idénticas a la variable X
que se está midiendo y con la misma distribución que esta variable tiene.
Esto hace que cualquier cuenta que pueda hacerse sobre los valores de una muestra,
tenga también este carácter dual de ser un número y una variable cuando los valores de
la muestra son también variables. Esto hace que uno pueda calcular estimadores de los
parámetros de una distribución normal si es que cuenta con una muestra aleatoria, y es
así como sabemos que:
• Si se quiere estimar la media µ de una variable normal de una muestra, su
estimador óptimo es el promedio: .
• Si se quiere estimar el desvío σ, su estimador óptimo es el desvío estándar
de la muestra: S.
Otro resultado de gran importancia está vinculado a la distribución del promedio en el
caso de contar con una muestra aleatoria de una distribución normal. Este resultado
teórico dice que el promedio () también tiene distribución normal, y los valores de la
muestra provienen de una distribución normal. Además de eso, el
valor medio del promedio es el mismo µ original y el desvío de
es σ dividido la raíz cuadrada de n (tamaño de la muestra).
Otro resultado que se deduce del enunciado anteriormente, dice
que al tipificar , es decir, al restarle su media y al dividirlo por su
desvío, obtenemos una distribución normal unitaria.
Hipótesis científica: el tratamiento es efectivo.
Hipótesis complementaria: el tratamiento no es efectivo.
X: cantidad de horas dormidas luego de aplicado el tratamiento.
µ: promedio poblacional de horas dormidas luego del tratamiento.
Supuestos:
• Se tiene una muestra aleatoria de tamaño 25.
• X tiene distribución normal.
• σ: es conocido y su valor es 1.2 hs.
µ: promedio poblacional de horas dormidas luego del tratamiento es desconocido.
“El tratamiento es efectivo” 🡪 µ > 4
“El tratamiento no es efectivo” 🡪 µ ≤ 4
Una vez expresadas las hipótesis en términos de µ, es necesario decidir cuál será H0 y
cuál H1. La norma habitualmente utilizada es poner como H1 aquella hipótesis que es del
interés del investigador. Esto se basa en el hecho de que, como sólo uno de los
posibles errores puede controlarse, poner la hipótesis del investigador en H1 hace que el
error controlado sea la probabilidad de que el investigador se equivoque al afirmar la
veracidad de su hipótesis (error de tipo 2).
Otro detalle para destacar es que, por convención, siempre en la H0 se expresará como
una igualdad entre µ y el valor crítico contra el cual se compara, en este caso 4 hs. Esto
es totalmente equivalente a la expresión formal que vemos arriba (imagen) y que muestra
la complementariedad entre las dos hipótesis que se contrastan.
¿Cómo decidir si H0 debe o no ser rechazada?
Las hipótesis están expresadas en términos de µ, y µ es un parámetro poblacional
desconocido. Pero el hecho de haber supuesto que nuestra variable sigue la distribución
normal y al tener una muestra de esa población, sabemos que aun cuando µ sea
desconocido, su valor puede estimarse con suma precisión utilizando . Entonces, una
primera forma de comparar es decir, no conozco µ pero sé que siempre es muy
próximo a su valor. Se compara con el valor crítico (4) y si su valor es mayor se
rechaza H0 y si no es mayor no rechazo H0. Esto sería una regla de decisión basada en la
muestra.
Este razonamiento es correcto pero insuficiente, porque no hay forma de asegurar que la
probabilidad de rechazar H0 cuando esta sea verdadera (error de tipo 2) sea igual a α.
La solución a este problema es generar una regla de decisión no sólo basada en el valor
de , sino en su distribución (que sabemos que es normal) cuando H0 es verdadera.
Cuando esto ocurre, tiene una distribución normal que es conocida, porque si
suponemos que H0 es verdadera, el valor de µ también lo suponemos igual a 4. Habrá un
montón de valores de mayores que 4 que siguen siendo probables de obtener aun
cuando H0 es verdadera. Lo que tenemos que determinar es cuán grande tiene que ser
para que decidamos rechazar H0 y que la probabilidad de equivocarnos sea del α fijado.
Lo que tenemos que encontrar es cuál es el valor de que hace que la probabilidad de
que el valor muestral de sea mayor que ese número, sea igual a α. Una vez
encontrado ese valor, vamos a definir como la ZR al conjunto de que sean mayores
que ese valor prefijado.
Criterio de decisión con valor P
Ventaja de que ya no es necesario conocer la ZR que depende de la h1 considerada, sino
q directamente al calcular el valor p y compararlo con el nivel de significación q se usa en
el problema, puede decidir rechazar o no h0.
Contraste de hipótesis para la media de una distribución normal con sigma desconocido
Aquí supondremos que la variable X del problema estará distribuida de forma normal con
media µ y desvío σ, ambos parámetros desconocidos, y además, la hipótesis científica
puede ser expresada como una hipótesis estadística utilizando µ.
¿Dónde aparecen las diferencias en el método?
El principal problema que tenemos es la imposibilidad de calcular el estadístico de prueba
del test. La solución que da la estadística es reemplazar σ por su estimador natural:
desvío estándar de la muestra (S). Ahí obtenemos el estadístico de prueba para este
contraste. Esto tiene un efecto en lo que es la distribución del estadístico de prueba, el
cual deja de tener distribución normal (0,1) y pasa a tener otra distribución de probabilidad
que es la denominada t de student. Esta distribución es simétrica y centrada en 0, muy
similar a la normal, pero no igual. La normal depende de dos parámetros (µ y σ), sin
embargo la t de student depende de un solo parámetro que se denomina grados de
libertad, y es el que se pone como subíndice de la distribución. En este caso particular,
los grados de libertad son “n – 1”, es decir, el tamaño muestral menos 1: tn-1
Al cambiar el estadístico de prueba y al tener éste una distribución de probabilidad
diferente, necesariamente las zonas críticas del test van a variar.
Cabe destacar que los σ han sido sacados de la formula y reemplazados por un
estimador de los desvíos (Sp) que es una combinación lineal de los desvíos muestrales
calculados para las muestras disponibles. Este estadístico de prueba, al ser los desvíos
desconocidos, deja de tener distribución normal y pasa a tener una distribución t de
student donde los grados de libertad también están relacionados con los tamaños de las
muestras respectivas.
En este caso será necesario utilizar el estadístico que supone que los desvíos son
desconocidos, y deberemos agregar el supuesto de que aún siendo desconocidos
suponemos que son iguales entre sí. Por lo tanto nos queda el siguiente estadístico:
→ Cuantía: refiere al grado en que la relación entre dos variables queda bien
descripta con un índice de asociación lineal como el R.
→ Sentido: se refiere al tipo de relación (directa o inversa).
En cuantía, un valor de ±1 indica un grado perfecto de asociación entre las dos
variables. En la medida en que el coeficiente de relación se acerca a 0, la relación entre
las dos variables está más débil.
En sentido, la dirección de la relación es indicada por el signo del coeficiente: signo
positivo – relación directa, signo negativo – relación inversa o negativa entre las dos
variables.
Los gráficos asociados al coeficiente de relación R de Pearson se denominan diagramas
de dispersión o dispersogramas, y la configuración de puntos resultante se denomina
nube de puntos.
Por ejemplo, podemos encontrar un R de 0,7 entre estas dos variables. Esto quiere decir
que están asociadas en forma positiva, y además que esta asociación está relativamente
cerca de 1, o sea es relativamente alta.