Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Alumno:
Tema de Investigación:
Experimentos Bernoulli
“Éxito” y “y no éxito”
Son experimentos donde la situación final solo puede resultar en dos resultados o
sucesos excluyentes:
Para que una variable aleatoria se considere que sigue una distribución
binomial, tiene que cumplir las siguientes propiedades:
En cada ensayo, experimento o prueba solo son posibles dos resultados
(éxito o fracaso).
La probabilidad del éxito ha de ser constante. Esta se representa mediante
la letra p. La probabilidad de que salga cara al lanzar una moneda es 0,5 y
esta es constante dado que la moneda no cambia en cada experimento y
las probabilidades de sacar cara son constantes.
La probabilidad de fracaso ha de ser también constate. Esta se representa
mediante la letra q = 1-p. Es importante fijarse que mediante esa ecuación,
sabiendo p o sabiendo q, podemos obtener la que nos falte.
El resultado obtenido en cada experimento es independiente del anterior.
Por lo tanto, lo que ocurra en cada experimento no afecta a los siguientes.
Los sucesos son mutuamente excluyentes, es decir, no pueden ocurrir los 2
al mismo tiempo. No se puede ser hombre y mujer al mismo tiempo o que al
lanzar una moneda salga cara y cruz al mismo tiempo.
Los sucesos son colectivamente exhaustivos, es decir, al menos uno de los
2 ha de ocurrir. Si no se es hombre, se es mujer y, si se lanza una moneda,
si no sale cara ha de salir cruz.
La variable aleatoria que sigue una distribución binomial se suele
representar como X~(n,p), donde n representa el número de ensayos o
experimentos y p la probabilidad de éxito.
Las probabilidades p y q son constantes en todas las pruebas ,por tanto , las
pruebas ,son independientes (si se trata de un proceso de "extracción" éste se
llevará a , cabo con devolución del individuo extraído) .
Las distribuciones de probabilidad de variable continua se definen mediante una
función y=f(x) llamada función de probabilidad o función de densidad.
Así como en el histograma la frecuencia viene dada por el área, en la función de
densidad la probabilidad viene dada por el área bajo la curva, por lo que:
El área encerrada bajo la totalidad de la curva es 1.
Para obtener la probabilidad p(a£X£b) obtenemos la proporción de área
que hay bajo la curva desde a hasta b.
La probabilidad de sucesos puntuales es 0, p(X=a)=0
De manera que la función de distribución resultará:
Su representación gráfica será :
A pesar de la sencillez analítica de sus funciones de definición, la distribución
exponencial tiene una gran utilidad práctica ya que podemos considerarla como un
modelo adecuado para la distribución de probabilidad del tiempo de espera entre
dos hechos que sigan un proceso de Poisson. De hecho la distribución
exponencial puede derivarse de un proceso experimental de Poisson con las
mismas características que las que enunciábamos al estudiar la distribución de
Poisson, pero tomando como variable aleatoria , en este caso, el tiempo que tarda
en producirse un hecho
Obviamente, entonces , la variable aleatoria será continua. Por otro lado existe
una relación entre el parámetro a de la distribución exponencial , que más tarde
aparecerá , y el parámetro de intensidad del proceso l , esta relación es a = l
Al ser un modelo adecuado para estas situaciones tiene una gran utilidad en los
siguientes casos:
Función de densidad.
Dada una variable aleatoria X que tome valores reales no negativos {x ³ 0}
diremos que tiene una distribución exponencial de parámetro a con a ³ 0, si y sólo
si su función de densidad tiene la expresión:
En este caso se estarán calculando probabilidades de experimentos
Binomiales de una forma muy aproximada con la distribución Normal, esto
puede llevarse a cabo si n¥® y p = p(éxito) no es muy cercana a 0 y 1, o
cuando n es pequeño y p tiene un valor muy cercano a ½ ; esto es,
Donde:
x = variable de tipo discreto; solo toma valores enteros
m = np = media de la distribución Binomial
s = = desviación estándar de la distribución Binomial
Cuando ocurren las condiciones anteriores, la gráfica de la distribución
Binomial, es muy parecida a la distribución Normal, por lo que es adecuado
calcular probabilidades con la Normal en lugar de con la Binomial y de una
forma más rápida.
En resumen, se utiliza la aproximación Normal para evaluar probabilidades
Binomiales siempre que p no esté cercano a 0 o 1. La aproximación es
excelente cuando n es grande y bastante buena para valores pequeños
de n si p está razonablemente cercana a ½. Una posible guía para determinar
cuando puede utilizarse la aproximación Normal es tener en cuenta el cálculo
de np y nq. Sí ambos, np y nq son mayores o iguales a 5, la aproximación será
buena.
Antes de empezar a resolver problemas con la aproximación Normal, es bueno
aclarar que se están evaluando probabilidades asociadas a una variable
discreta x, con una distribución que evalúa variables de tipo continuo como es
la Normal,
Por lo que z sufre un pequeño cambio como se muestra a continuación:
Nombre del docente:
Alumno:
Tema de Investigación:
Ahora es más sencillo interpretar los datos. Por ejemplo, podemos apreciar
inmediatamente que el intervalo con mayor número de datos es el 34-39, o que el
75% de los datos tiene valor inferior a 46.
Este tipo de tabla es denominado "tabla de datos agrupados en intervalos".
Elementos básicos de las tablas de intervalos:
Intervalo: Cada uno de los grupos de valores de la variable que ocupan una fila en
una distribución de frecuencias
Límites aparentes: Valores mayor y menor del intervalo que son observados en la
tabla. Dependen de la precisión del instrumento de medida. En el ejemplo, los
límites aparentes del intervalo con mayor número de frecuencias son 34 y 39.
Límites exactos: Valores máximo y mínimo del intervalo que podrían medirse si se
contara con un instrumento de precisión perfecta. En el intervalo 34-39, estos
límites son 33.5 y 39.5
Punto medio del intervalo (Mco Marca de clase): Suma de los límites dividido por
dos. Mc del intervalo del ejemplo= 36.5
Amplitud del intervalo: Diferencia entre el límite exacto superior y el límite exacto
inferior. En el ejemplo es igual a 6.
Las medidas de tendencia central son medidas estadísticas que pretenden resumir
en un solo valor a un conjunto de valores. Representan un centro en torno al cual
se encuentra ubicado el conjunto de los datos. Las medidas de tendencia central
más utilizadas son: media, mediana y moda. Las medidas de dispersión en
cambio miden el grado de dispersión de los valores de la variable. Dicho en otros
términos las medidas de dispersión pretenden evaluar en qué medida los datos
difieren entre sí. De esta forma, ambos tipos de medidas usadas en conjunto
permiten describir un conjunto de datos entregando información acerca de su
posición y su dispersión.
Según este criterio, haremos primero el estudio de las medidas estadísticas para
datos no agrupados y luego para datos agrupados.
Promedio o media
La medida de tendencia central más conocida y utilizada es la media aritmética o
promedio aritmético. Se representa por la letra griega µ cuando se trata del
promedio del universo o población y por Ȳ (léase Y barra) cuando se trata del
promedio de la muestra. Es importante destacar que µ es una cantidad fija
mientras que el promedio de la muestra es variable puesto que diferentes
muestras extraídas de la misma población tienden a tener diferentes medias. La
media se expresa en la misma unidad que los datos originales: centímetros, horas,
gramos, etc.
Mediana
Moda
Medidas de dispersión
Rango de variación
Se define como la diferencia entre el mayor valor de la variable y el menor valor de
la variable.
Coeficiente de variación
Es una medida de la dispersión relativa de los datos. Se define como la desviación
estándar de la muestra expresada como porcentaje de la media muestral.
(cada dato muestral genérico) recorre todos los posibles valores que puede tomar
el j-simo elemento de una muestra de n elementos.
Por tanto , una muestra concreta (ya obtenida) será un valor particular (una
realización concreta ) de la muestra genérica.
A modo de ejemplo podemos decir que son estadísticos la media muestral ,la
varianza muestral , la cuasivarianza muestral , dado que son funciones de valores
Como hemos visto, los estadísticos son variables aleatorias por lo que tendrán
determinas distribuciones de probabilidad y determinados parámetros ( media ,
varianza , etc) .Para el desarrollo de la inferencia es imprescindible conocer dichas
distribuciones y parámetros , consiguiendo establecer entonces las relaciones
entre éstas y las de la población , pudiendo entonces inferir las características
desconocidas de ésta.
Tras un breve recorrido por las técnicas de muestreo pasaremos a desarrollar las
distribuciones de probabilidad de los principales estadísticos.
Esta es una de las razones por las que los investigadores confían en el muestreo
por conveniencia, que es la técnica de muestreo no probabilística más común,
debido a su velocidad, costo-efectividad y facilidad de disponibilidad de la muestra.
Un ejemplo de muestreo por conveniencia sería utilizar a estudiantes voluntarios
que sean conocidos del investigador. El investigador puede enviar la encuesta a
los estudiantes y ellos en este caso actuarían como muestra.
2. Muestreo consecutivo
Alumno:
Inferencia Estadistica.
Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido
de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de
un determinado grupo de individuos, puede extraerse una muestra y ofrecer como
estimación puntual la talla media de los individuos. Lo más importante de un
estimador, es que sea un estimador eficiente. Es decir, que sea
insesgado(ausencia de sesgos) y estable en el muestreo o eficiente (varianza
mínima)
En estadística, se llama intervalo de confianza a un par de números entre los
cuales se estima que estará cierto valor desconocido con una determinada
probabilidad de acierto. Formalmente, estos números determinan un intervalo, que
se calcula a partir de datos de una muestra, y el valor desconocido es
un parámetro poblacional. La probabilidad de éxito en la estimación se representa
con 1 - α y se denomina nivel de confianza. En estas circunstancias, α es el
llamado error aleatorio o nivel de significación, esto es, una medida de las
posibilidades de fallar en la estimación mediante tal intervalo.
El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma
que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de
confianza), mientras que para un intervalo más pequeño, que ofrece una
estimación más precisa, aumentan sus posibilidades de error.
Para la construcción de un determinado intervalo de confianza es necesario
conocer la distribución teórica que sigue el parámetro a estimar, θ. Es habitual que
el parámetro presente una distribución normal. También pueden construirse
intervalos de confianza con ladesigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - α por ciento para la estimación de un
parámetro poblacional θ que sigue una determinada distribución de probabilidad,
es una expresión del tipo [θ1,θ2] tal que P[θ1 ≤ θ ≤ θ2] = 1 - α, donde P es la función
de distribución de probabilidad de θ.
una prueba de hipótesis es una regla que especifica cuando se puede aceptar o
rechazar una afirmación sobre una población dependiendo de la evidencia
proporcionada por una muestra de datos.
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es la afirmación que se
está comprobando. Normalmente la hipótesis nula es una afirmación de "sin
efecto" o "sin diferencia". La hipótesis alternativa es la afirmación que se desea ser
capaz de concluir que es verdadera basándose en la evidencia proporcionada por
los datos de la muestra.
Un error común suele ser que las pruebas de hipótesis estadísticas están
diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al
diseñor una prueba de hipótesis, se configura la hipótesis nula como la que se
quiere rechazar. Dado que se fija que el nivel de significación sea pequeño antes
del análisis (normalmente, un valor de 0.05 funciona correctamente), Cuando se
rechaza la hipótesis nula, se tiene una prueba estadística de que la alternativa es
cierta. Por el contrario, si no se rechaza la hipóetesis nula, no se tiene prueba
estadística de que la hipótesis nula sea cierta. Esto es debido a que no se ha
fijado la probabilidad de que se acepte falsamente que la hipótesis nula sea
pequeña.
Ho; = 50 cm/s
Ho; = 50 cm/s
En esta unidad se verá un nuevo concepto necesario para poder utilizar a las tres
distribuciones mencionadas. Este concepto es "grados de libertad".
Alumno:
Tema de Investigación:
Nota: Los datos hay que traducirlos u ordenarlos en rangos. A los puntajes más
elevados le asignamos el rango 1 al siguiente el rango 2 y así sucesivamente. Si
se repiten dos puntajes o más se calculan las medias aritméticas.
Ejemplo ilustrativo N° 1: La siguiente tabla muestra el rango u orden obtenido en
la primera evaluación (X) y el rango o puesto obtenido en la segunda evaluación
(Y) de 8 estudiantes universitarios en la asignatura de Estadística. Calcular el
coeficiente de correlación por rangos de Spearman.
Estudiante X Y
Dyana 1 3
Elizabeth 2 4
Mario 3 1
Orlando 4 5
Mathías 5 6
Josué 6 2
Anita 7 8
Lucía 8 7
Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que
toman dos variables, el coeficiente de correlación lineal señalará lo bien o lo mal
que el conjunto de puntos representados se aproxima a una recta.
De una forma menos coloquial, la podemos definir como el número que mide el
grado de intensidad y el sentido de la relación entre dos variables.