Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• Diagramas de barras
• Histogramas
Medidas de tendencia central
• Media= suma todos los valores dividido entre el total de valores
observados. (solo variables continuas).
• Mediana=número que esta a la midad de los valores ordenados de
mayor a menor. Es mas robusto que la media
• Moda= Dato con mayor frecuencia valores cualitativos y cuantitativos
• Tipos de distribución
Medidas de dispersion
• Rango: diferencia entre valor mayor y menor
• Varianza: sigma permite identificar la diferencia entre el promedio y
un valor dado, a mayor varianza mayor dispersion
• Desviacion estandar:
• Coeficiente de variación: se empleo para comparer la variabilidad
entre 2 grupos de datos referidos a distintas sistemas de unidadades
de medidas.
• Compara la variabilidad entre 2 grupos de datos por 2 o más
personas
• Error estandar corrige con base al numero de muestras EE= s/√ (n)
• Medidas de posición(cuantiles)
• Son valores de la distribución que divididen la curva en partes iguales
que comprenden el mismo número de valores.
• Cuartiles: dividen a la distribución en 4 partes iguales.
• Quintiles:5 partes
• Percentiles: 100 partes
• Necesariamente los datos tienen que estar ordenados de menor a
mayor
Medidas de distribución o forma
• Nos permite identificar la forma en que se separan o aglomeran los
valores de acuerdo a una representación grafica.
• Medidas de simetría: cuando la media moda y mediana coinciden es
una curva simetrica
• CA= 0 es simetrica CA >0 derecha asimetrica CA<0 Asimetrica
izquierda.
• Puntaje Z: Número de desviaciones estandar que un valor se aleja del
promedio
• Definición de Probabilidad Clásica
• La probabilidad que se dé un fenómeno determinado es igual al
cociente entre el número de casos favorables al fenómeno y el
número total de casos posibles.
• Estadística La probabilidad estimada de un suceso se toma como la
frecuencia relativa de la aparición del suceso, cuando n es muy
grande.
Distribuciones en el muestreo
• Pocas observaciones y mucho razonamiento conducen al error; muchas observaciones y poco
razonamiento, a la verdad.
Muestreo aleatorio
En multitud de ámbitos de la vida real es evidente que la mejor forma de aprender algo es a partir de la
experiencia. Eso quiere decir que solemos utilizar aquello que vemos para aprender pautas y conductas que
luego generalizamos.
• El concepto clave en este planteamiento es el de muestra aleatoria simple. Supongamos que estamos
observando una variable aleatoria, X, en una población determinada. Ya dijimos que una muestra aleatoria
simple
de X consiste en la recopilación de datos de la variable, mediante la repetición del experimento al que está
asociada, con dos condiciones básicas:
1. Que todos los elementos de la población tengan las mismas posibilidades de salir en la muestra.
2. Que las distintas observaciones de la muestra sean independientes entre sí.
• Un parámetro muestral es un parámetro (media, varianza, ...) referido
a una muestra de una variable
aleatoria.
Un parámetro poblacional es un parámetro (media, varianza, ...)
referido a la distribución poblacional de
una variable aleatoria.
• La distribución en el muestreo de un parámetro muestral es su
distribución de probabilidad.
El error estandar de un parámetro muestral es la desviación típica de
su distribución en el muestreo
• Estimación de parámetros de una
distribución
En Estadística hay tres formas de inferir un valor a un parámetro de
una población:
Estimando el valor concreto de ese parámetro.
Estimando una región de confianza para el valor del parámetro.
Tomando una decisión sobre un valor hipotético del parámetro.
• Ejemplo. El rendimiento de un equipo de trabajo en una cadena de producción
puede estar representado
por el número medio de componentes producidas. Supongamos que un ingeniero
pretende proporcionar
información acerca de este promedio en su equipo. Existen varias posibilidades:
Podría simplemente tratar de estimar el promedio de componentes producidas a
través de un único
valor estimado.
Podría proporcionar un intervalo de valores en el que tenga mucha confianza que
se encuentra el
valor promedio.
• Podría comparar el valor promedio de su equipo con un valor hipotético para, por
ejemplo, demostrar a la empresa que tiene un mejor rendimiento que el
promedio general de la empresa.
• Un estimador puntual, θ^, es una regla que nos dice cómo calcular una
estimación numérica de un parámetro
poblacional desconocido, θ, a partir de los datos de una muestra. El
número concreto que resulta de un cálculo,
para una muestra dada, se denomina estimación puntual.
• En este sentido, se define el error estandar de un estimador como la
desviación típica de dicho estimador,
y se nota s.e.
El estimador insesgado de mínima varianza de un parámetro θ es el
estimador θ^ que tiene la varianza
más pequeña de entre todos los estimadores insesgados.
• Intervalos de confianza
• Volvemos a nuestro ejemplo de la estatura de las mexicanas entre 19 y 49
en 2007. Si sacamos una muestra aleatoria de esta población de tan solo
30 observaciones. de manera que:
• Muestra = {163, 171, 171, 167, 164, 160, 153, 176, 162, 171, 166, 164, 169,
160, 151, 155, 156, 147, 162, 170, 164, 160, 158, 159, 157, 159, 156, 162,
159, 174}
• podemos calcular la media y la desviación estándar de la muestra.
Obtenemos ¯x=160,94x¯=160,94 y s = 6,89 respectivamente. Con esto
podemos calcular el error estándar:
• SE=s√N=6,89√30=s5,477=1,257
• Ahora podemos estimar que la media de la población es de
160,94 ±± 1,257. Hemos reportado muestra estimación con un
margen de error. Pero ¿cómo se interpreta este número?
• Sea μμ la media real –por convención se usa la letra griega μμ que
corresponde a m para la media de la población. La desviación de la
media de la muestra entonces es de 161,94−μ161,94−μ. Podemos
normalizar esta variable por división con la desviación estándar de la
muestra:z=161,94−μ1,257
•
• Recordemos que se usa z para la variable normalizada. Para muestras desde más o
menos 30 observaciones, z tiene una distribución normal, para darnos cuenta qué tan
probable es que nuestro valor caiga dentro o fuera de los rangos esperados. El error
estándar es, entonces, el rango de valores que caen dentro de una desviación estándar
en la curva normal del error, es decir que hay un 68% de probabilidad de que el valor real
esté dentro del rango reportado.
• Podemos valernos de esta información para calcular rangos que nos den más confianza
en nuestra estimación. La regla empírica dice que el 95% de las observaciones se
encuentran entre dos desviaciones estándar de la media. Si se expresa con un poco más
de precisión es de 1,96. Este número mágico o valor crítico de usa mucho en los textos
con análisis cuantitativo ya que se puede demostrar matemáticamente que: media de la
muestra±(1,96×SE) media de la muestra±(1,96×SE) es un estimado de la media de la
población con un 95% de confianza.
• De la misma manera tenemos:
• media de la muestra±(2,58×SE)media de la muestra±(2,58×SE)
• que nos da un rango con 99% de confianza.
• Entonces, para nuestra muestra de argentinas podemos decir que estimamos que la
media de la población (μμ) es:
• entre 160,94 y 162,20 con un 68% de confianza
• entre 159,73 y 164,66 con un 95% de confianza
• entre 158,94 y 165,44 con un 99% de confianza
• La hipótesis nula y alternativa
• Para testear una hipótesis el primer paso es establecer una hipotesis nula. Esta
hipótesis afirma que no existe el efecto que estamos investigando. Siguiendo los
lineamientos del método cientifico, ahora nuestra labor es, a través de
mediciones u observaciones, refutar esta hipótesis, con lo cual podemos
proponer otra, llamada hipótesis alternativa. Una hipótesis nula se formula como
una afirmación precisa y empiricamente refutable. En el ejemplo de los dos
grupos de estudiantes la hipotesis nula podría expresarse como: «No existe
diferencia entre la media de notas entre los dos grupos».