Está en la página 1de 8

TEORIA PROBABILIDAD Y ESTADISITICA

CONCEPTOS EN LA MUESTRA EN LA POBLACION
Denominación Estadísticas Parámetros
Simbología
x ; Me; S
x
2
; S
x
;
µ
x
;

o
x
2
;o
x
;
Función Son Estimadores Deben Ser estimados
Características Son conocidos
Son variables
Son desconocidos
Son fijos

2 - TIPOS DE ESTIMACIONES: Hay dos tipos fundamentales de estimaciones:
a) Estimación puntual: es un procedimiento de estimación en el que se estima al parámetro
mediante un solo valor muestral. los estimadores puntuales están constituidos por las estadísticas,
denominación que se da a los cálculos muestrales conocidos que permiten estimar a los
correspondientes valores poblacionales desconocidos, denominados parámetros
b) Estimación por intervalos: es un procedimiento que permite, a partir de un estimador
puntual, obtener dos valores que limitan un intervalo denominado intervalo de confianza dentro del
cual se encuentra el parámetro a estimar con una cierta probabilidad conocida cercana a uno,
denominada nivel de confianza.

Condiciones: el muestreo debe basarse en las siguientes condiciones:
- la representatividad: significa que la muestra debe integrarse con una
proporción de elementos similares a la composición existente en la
población. Esta condición, si bien es importante, debe tener algún tipo de
limitación, ya que si se exige una composición exactamente igual a la de la
población, se terminará extrayendo una muestra de tamaño igual a aquélla,
de modo que la representatividad debe cumplirse con aquéllos atributos
que son fundamentales.
- la confiabilidad: resulta ser, en cierto modo, consecuencia de lo anterior,
pero asimismo constituye un principio sobre la seguridad de que la toma de
la información no producirá sesgos o errores en los resultados que se
obtienen, tomando en consideración que un dato erróneo en la muestra
incide en la confiabilidad mucho más que uno en la población.


Estimación por intervalos: como ya se ha dicho, consiste en un procedimiento que permite, a
partir de un estimador puntual, encontrar dos valores que limitan un intervalo denominado
intervalo de confianza, dentro del cual puede encontrarse el parámetro a estimar con una cierta
probabilidad conocida, cercana a uno, que se denomina nivel de confianza y que se simboliza NC.
Este punto será desarrollado más adelante con mayor profundidad.
Algunas características de los intervalos de confianza:
1º) El intervalo de confianza tiene dos límites que se obtienen sumando y restando
un mismo valor al estimador puntual media muestral x . Estos límites se denominan límite
superior y límite inferior del intervalo de confianza.
2º) Si el Nivel de Confianza aumenta, su superficie en el gráfico sería mayor y eso
se correspondería con mayores valores para los z
1
. En ese caso, a mayor NC, mayor amplitud en el
intervalo de confianza. Pero asimismo, una mayor amplitud para el intervalo implica que hay más
valores posibles para estimar la media poblacional µ
x
, lo que convierte a la estimación en algo
menos precisa, es decir que a mayor amplitud del intervalo, menor precisión en la estimación.
Conclusión: a mayor nivel de confianza, menor precisión en la estimación.
3º) Si el Nivel de confianza llegara a tomar el valor extremo máximo para una
probabilidad, es decir un valor igual a 1, el valor de los z
1
sería, según se puede observar en la tabla
normal, el máximo posible, es decir que los z
1
serían iguales a ·. En ese caso, no sería posible
obtener resultados para los límites del intervalo de confianza porque darían un resultado
indefinido. Conclusión: no puede exigirse un nivel de confianza igual a la unidad porque no se
obtendrían resultados prácticos para los límites del intervalo.
4º) La decisión de tomar al Nivel de Confianza entre dos valores simétricos de z
1
no sólo es
la única solución posible desde el punto de vista de la búsqueda inversa en la tabla; también
conduce a un intervalo mínimo, ya que el intervalo conseguido es más pequeño que cualquier
otro que pueda obtenerse tomando los valores de z
i
de cualquier otra forma diferente.
5º) El Nivel de Confianza es una probabilidad, y como tal, según el planteo pascaliano, es el
resultado de realizar un cociente entre el número de casos favorables sobre el número de casos
posibles. Recordando este concepto, puede decirse entonces que de cada cien intervalos que se
construyan, en una proporción de ellos igual a NC el parámetro quedará encerrado en el
intervalo construido. Esta es una forma de medir la confianza existente de que en un porcentaje
de los casos se estime correctamente el parámetro desconocido.
Población
Consiste en la totalidad de las observaciones en las que estamos interesados. Es el conjunto
de todos los elementos a los que se somete a un estudio estadístico.

Individuo
Un individuo o unidad estadística es cada uno de los elementos que componen la
población

Tamaño de población
Es el número de observaciones en la población, puede ser finito o infinito.

En el campo de la inferencia estadística el estadístico se interesa en llegar a conclusiones con
respecto a al población cuando es imposible o poco práctico observar todo el conjunto de
observaciones que constituyen la población. Aveces es imposible probar TODOS, por eso
debemos depende de un subconjunto de observaciones de la población para ayudarnos a
hacer inferencias con respecto a la misma población.
P-valor
El p-valor es una medida directa de lo verosímil que resulta obtener una muestra como la
actual si es cierta H0. Los valores pequeños indican que es muy infrecuente obtener una
muestra como la actual, en cambio, los valores altos que es frecuente. El p-valor se emplea
para indicar cuánto (o cuán poco) contradice la muestra actual la hipótesis alternativa.
- Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la
estadística de prueba es significativo.
- El valor P es el nivel de significancia más pequeño que conduce al rechazo de la
hipótesis nula Ho.
- El valor P es el mínimo nivel de significancia en el cual Ho sería rechazada cuando se
utiliza un procedimiento de prueba especificado con un conjunto dado de información.
Una vez que el valor de P se haya determinado, la conclusión en cualquier
nivel particular resulta de comparar el valor P con


Muestra
Es un subconjunto de una población. Esta debe ser representativa para la población, porque a
veces nos vemos tentados a elegir muestras mediante la selección de miembros más
convenientes para la población. Y esto nos puede llevar a inferencias erróneas con respecto a
la población.
La muestra es una fracción del total de los resultados experimentales que genéricamente
llamamos población.
Muestreo
Es la reunión de datos que se desea estudiar, obtenidos de una proporción
reducida y representativa de la población.

Estimador
Para θ, parámetro desconocido de una población X , los estimadores serán herramientas
que permitirán la estimación de tal parámetro. A tal efecto, entenderemos
como estimador cualquier variable aleatoria, Θ(X1,X2,...,Xn) (o simplemente Θ) , que se defina
a partir de la sucesión de variables aleatorias, X1,X2,...,Xn ; que integran una muestra de
tamaño n extraída al azar de una población, es decir, toma un valor para
cada n observaciones o datos. Estos datos corresponden a los valores de la variable que
representan a la población en los n "individuos" de la muestra.

Estimación puntual
Si a partir de las observaciones de una muestra se calcula un solo valor como estimación de un
parámetro de la población desconocido, el procedimientose denomina estimación puntual.
Un estimador puntual T de un parámetro es cualquier estadística que nos permita a partir de los
datos muestrales obtener valores aproximados del parámetro .
Para indicar que T es un estimador del parámetro escribimos =T .


Sesgado
Cualquier procedimiento de muestreo que produzca inferencias que sobrestimen o
subestimen de forma consistente alguna característica de la población se dice que esta
Sesgado. Para eliminar cualquier posibilidad de sesgo en el procedimiento de muestreo, es
deseable elegir una muestra aleatoria en el sentido de que las observaciones se realizan de
forma independiente y al azar.
Xi, i=1,2,…, n es una variable aleatoria que representa la i-esima medición o valor de la
muestra que observamos. Entonces las variables aleatorias X1,X2,Xn constituirán entonces una
muestra aleatoria de la población f(x) con valores numéricos x1,x2,,xn si las mediciones se
obtienen al repetir el experimento n veces independientes bajo esencialmente las mismas
condiciones.
Aclaración: debido a las condiciones idénticas bajo las que se seleccionan los elementos de la
muestra, es razonable suponer que las n variables aleatorias son independientes y que cada
una tiene la misma distribución de probabilidad f(x). F(x1,x2,,xn)= f(x1),f(x2,),…, f(xn)
En estadística se llama sesgo de un estimador a la diferencia entre su esperanza matemática y
el valor numérico del parámetro que estima. Un estimador cuyo sesgo es nulo se
llama insesgado o centrado.

Estimador insesgado
Se denomina así a aquel estimador cuya esperanza matemática da como resultado el parámetro a
estimar.
Demostración de que es insesgado:
E x E
n
x
n
E x
n
E x
n n
n
i i i x x x
( ) ( ) = = = = = =
¿ ¿ ¿ ¿
|
\

|
.
|
|
1 1 1 1 1
µ µ µ
(buscar una para la varianza)

Muestra aleatoria
Sean X1,X2,Xn variables aleatorias independientes, cada una con al misma distribución de
probabilidad f(x). Definimos entonces a X1,X2,Xn como una muestra aleatoria de tamaño n de la
población f(x) y escribimos su distribución de probabilidad conjunta como:
F(x1,x2,,xn)= f(x1),f(x2,),…, f(xn)

Estadística
Cualquier función de las variables aleatorias que forman una muestra aleatoria
Nota: “u” y “o
2
”,miden el centro de localización y la variabilidad de una distribución de
probabilidad. Estos parámetros son constantes y de ninguna manera resultan afectados o
influidos por las observaciones de una muestra aleatoria.



Media
Es la media de localización central mas comúnmente utilizada en estadística. Emplea toda ala
información disponible. Su única desventaja real es que puede resultar afectada de manera
adversa por valores extremos. La media aritmética es el valor promedio de la
distribución

Mediana
La mediana es fácil e calcular si el nro. De observaciones es relativamente pequeño. No resulta
influida por los valores extremos y en consecuencia da un mejor centro de los datos. Al
trabajar con muestras que se seleccionan de poblaciones, las medias de las muestras por lo
general no varían tanto de la muestra a otra como la mediana.

La Moda
Para conjuntos pequeños de datos su valor casi no tiene utilidad si es que existe. Solo ene le
caso de una gran cantidad de datos tiene un sentido significativo. Sus dos ventajas principales
son que no requiere cálculo y se puede usar para datos cualitativos así como para
cuantitativos. La moda es el valor que más se repite en una distribución.

Rango de la muestra
Puede ser una medida pobre d la variabilidad, en particular si el tamaño de la muestra o
población es grande. Considera solo los valores extremos y no nos dice nada acerca de la
distribución de los valores intermedios.

Varianza de la muestra
Que considera la posición de cada observación en relación con la media de la muestra.

Estadística
Es una variable aleatoria que depende solo de la muestra observada

Distribución muestral
Es la distribución de probabilidad de una estadística. Esta depende del tamaño de la
población, el tamaño de las muestras y el método de elección de las muestras.

La distribución muestra de X con tamaño muestral n es la distribución que resulta cuando un
experimento se lleva a cabo una y otra vez y resultan diversos valores de X. Esta distribución
muestral entonces, describe la variabilidad de los promedios muéstrales alrededor de la
media de población u. Se aplica el mismo principio en el caso de la distribución de S
2
, la
distribución muestral produce información acerca de la variabilidad de los valores de s
2

alrededor de o
2
en experimentos que se repiten.







Distribuciones muéstrales de medias
Suponga que una muestra aleatoria de n observaciones se toma de una población normal con
media u y varianza o2. Cada observación Xi, i=1,2,…, n de la muestra aleatoria tendrá entonces
la misma distribución normal que la población que se muestra. De aquí por la propiedad
reproductiva de la distribución normal que se establece:
Teorema a usar:
Si X1,X2,Xn son variables aleatorias independientes que tienen distribuciones normales con
media u1,u2,…,un y varianzas o21,o22,…,o2n respectivamente, entonces la variable aleatoria:
Y=a1X1 + a2X2 + … + anXn
Tiene una distribución normal con media
Uy= a1u
1
+ a2u
2
+… + anu
n

Y varianza
0
2
1 = a12o
2
1 + a22o
2
2 + a
2
no
2
n
Por eso concluimos que:
X = (X1 + X2 +… + Xn ) / n
Tiene distribución normal con media
Ux= (u + u +… + u)/ n = u
O
2
x= o
2
+ o
2
+… + o
2
= o
2
/n
Si tomamos muestra de una población con distribución desconocida, finita o infinita, la
distribución muestral de X aun será aproximadamente normal con media u y varianza o2/n
siempre que el tamaño de la muestra sea grande. Esta es una consecuencia inmediata del
teorema del límite central.

Inferencia estadística
Es una teoría que consiste en aquellos métodos por los que se realizan inferencias o
generalizaciones acerca de una población. Esta se puede dividir en dos áreas principales:
estimaciones y pruebas de hipótesis.

Una estimación puntual de algún parámetro de la población U es solo un valor Û de una
estadística Û.

Estimador insesgado
Sea Û une estimador cuyo valor Û es una estimación puntual de algún parámetro poblacional
desconocido U. Ciertamente, desearíamos que la distribución muestral de Û tuviera una media
igual al parámetro estimado. Se dice que un estimador que posee esta propiedad es insesgado.

Estimador mas eficiente
Si consideramos todos los posibles estimadores insesgado de algún parámetro, el de menor
varianza se llama así.

Una estimación por intervalo de un parámetro poblacional U es un intervalo de la forma
Û1<U< Û2 , donde Û1 y Û2 dependen del valor de la estadística Û para una muestra particular y
también de la distribución de muestreo Û.

De esta manera el intervalo estimado indica, por su longitud, la precisión de la estimación
puntual.
P(Û1<U< Û2) = 1 – alfa .

- Intervalo de confianza : Û1<U< Û2 de (1- alfa)*100% .
- Coeficiente de confianza o grado de confianza : La fracción 1 – alfa
- Limites de confianza: ÛL y ÛU

Entre más amplio sea el intervalo de confianza, podemos tener mas confianza de que el
intervalo dado contenga el parámetro desconocido.

Error tipo I
El error de tipo I se comete cuando la hipótesis nula es verdadera y, como
consecuencia del contraste, se rechaza. La probabilidad de cometer Error de
tipo I es el nivel de significación α.
Este tipo de error se denomina error de tipo I (eI), de modo que o es, precisamente, la
probabilidad de cometer ese tipo de error, es decir, es la probabilidad de rechazar una
hipótesis que es verdadera. Luego: o = P(e
I
)


Error tipo 2
El error de tipo II se comete cuando la hipótesis nula es falsa y, como consecuencia
del contraste se acepta. La probabilidad de cometer Error de tipo II depende del
verdadero valor del parámetro. Se hace tanto menor cuanto mayor sea n.

En los experimentos aleatorios no se puede predecir el resultado, ya que éste depende
del azar.


Resulta imposible controlar simultáneamente ambos errores, por lo que en Teoría de Decisión se
determina que el único error que puede controlarse anticipadamente es el error de tipo I, por lo cual
debe fijarse o con anterioridad a la realización de cualquier prueba de hipótesis.

Nivel Significancia
La probabilidad alfa mas alta de rechazar H0 cuando H0 es cierto.

Hipótesis nula H0: afirmación acerca del valor de un parámetro poblacional.
Hipótesis alterna H1: afirmación que se aceptará si los datos muestrales
proporcionan evidencia de que la hipótesis nula es falsa.
Nivel de significancia: probabilidad de rechazar la hipótesis nula cuando es
verdadera.

Teorema Central del limite
Si una población tiene media μ y desviación típica σ, y tomamos muestras de
tamaño n (n>30, ó cualquier tamaño si la población es "normal"), las medias de
estas muestras siguen aproximadamente la distribución: N(μ, σ/raíz(n)).

Regresión Lineal
La muestra consiste en pares ordenados de datos. Básicamente consideramos a una de ellas
como dato cierto o conocido mientras que la otra variable es de tipo aleatorio.
La ventaja consiste en una reducción del error estándar que muchas veces es fuertemente
significativo. Las predicciones que hagamos con el promedio de regresión dinámico se
adecuan mucho más a la realidad que aquellas que analizamos con el promedio aritmético.

Recta de Regresion
Esa recta tiene una característica. No tiene que pasar por ningún par de puntos, pero al mismo
tiempo debe pasar a menor distancia de todas las observaciones que cualquier otra recta. Es la
recta que hace mínimos los errores. O recta de cuadrados mínimos porque los errores suelen
medirse en escala cuadrática. [Ŷ] (^ es aproximación lineal) [ Ŷ = a + (b * x) ]
Para que se cumpla esa condición, la pendiente y la ordenada se calculan con fórmulas
específicas.

Recta regresión poblacional

Recta regresión muestral

- Hipótesis Nula” (H0), que es la Hipótesis concreta que se formula acerca del valor del
parámetro, y que consiste en suponer que el parámetro toma un valor determinado. Se
denomina así porque el propósito del estudio es anularla o rechazarla.
- “Hipótesis Alternativa” (H1), que constituye otra Hipótesis diferente de la Hipótesis
Nula.
- Las “Pruebas de Hipótesis” son los procedimientos estadísticos apropiados que
permiten probar la validez de cualquier supuesto formulado respecto del valor de un
parámetro

La principal diferencia, ya anticipada, entre la Teoría de Estimación y la Teoría de Decisión, es
que en la primera no se sabe cuál es el valor de un parámetro y se intenta estimarlo mediante
una investigación muestral, mientras que en la segunda se supone un valor determinado para
un parámetro y mediante una investigación muestral se trata de probar si ese supuesto es
correcto.

Para poder establecer un método objetivo, se debe elegir una probabilidad cercana a cero
(0,01; 0,05 ó 0,10 se consideran los valores más comunes), llamada “Nivel de significación”,
que se simboliza con o, y que se representa como un área (como toda probabilidad en una
función de densidad), que se ubica a la derecha, a la izquierda o a ambos lados (en este caso,
con la mitad de o en cada lado) según como se haya definido la Hipótesis alternativa

“valor crítico” simbolizado con zc (o eventualmente tc), que divide al eje de las abscisas en
dos zonas: la “zona de rechazo”, que se extiende por debajo de o, y la “zona de no rechazo”,
que se extiende a lo largo del resto del eje.