Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Población y muestra
Población se refiere al universo, conjunto o totalidad de elementos sobre los que se investiga
o hacen estudios. Muestra es una parte o subconjunto de elementos que se seleccionan
previamente de una población para realizar un estudio.
Población Muestra
Forma
Se puede clasificar según parte de la
¿Qué es población?
Los elementos de una población lo conforman cada uno de los individuos asociados, debido
a que comparten alguna característica en común.
La población estadística puede ser un conjunto de personas, lugares o cosas reales. Por
ejemplo, los adolescentes de un pueblo o los usos posibles del azúcar en recetas de cocina.
Al ser muy complicado realizar un estudio con todos los elementos que conforman una
población, sobre todo si es considerada una población infinita, se toma una muestra
representativa de la misma para realizar los estudios.
Tipos de poblaciones
Población finita: es aquella que se puede contar y se pueden estudiar con mayor facilidad a
sus integrantes. Por ejemplo, la cantidad de personas inscritas en un gimnasio.
Población infinita: son inmensas poblaciones donde se hace muy difícil contabilizar a sus
integrantes, por lo que suele tomarse en cuenta solo una porción de ella a la hora de realizar
un estudio, seleccionando así una muestra. Por ejemplo, la cantidad de granos de arena en
una playa.
Población real: son grupos de integrantes tangibles. Por ejemplo, la cantidad de animales en
un zoológico.
Población hipotética: son poblaciones posibles que pueden ser estudiadas ante una
eventualidad. Por ejemplo, la cantidad de nacimientos de bebés prematuros
¿Qué es muestra?
La muestra es una parte representativa de una población donde sus elementos comparten
características comunes o similares.
Se utiliza para estudiar a la población de una forma más factible, debido a que se puede
contabilizar fácilmente. Cuando se va a realizar algún estudio sobre el comportamiento,
propiedades o gustos del total de una población específica, se suelen extraer muestras.
Estos estudios que se realizan a las muestras sirven para crear normas o directrices que
permitirán tomar acciones o simplemente conocer más a la población estudiada.
Las principales ventajas de usar las muestras es la reducción de costos, pues disminuye los
elementos a estudiar y se puede realizar en menor tiempo.
Los factores más importantes a la hora de hacer un muestreo son la representatividad, para
que los elementos posean cualidades comunes según sea el propósito, y la aleatoriedad al
momento de seleccionar los elementos para evitar una muestra viciada.
Tipos de muestras
Es una técnica que ofrece la misma posibilidad a los elementos de ser seleccionados, por ser
tomados al azar. Los tipos de muestreo aleatorio son:
Muestreo aleatorio simple: los elementos se eligen de una lista al azar. Funciona más
eficazmente cuando el universo es reducido y homogéneo.
Se elige con base en el manejo de información de los elementos a estudiar, por lo que la
representatividad de la muestra puede ser subjetiva. En este caso, se corre el riesgo de que
los resultados sean sesgados.
Cuando uno solo de los estudios no es suficiente porque la población a estudiar es muy
extensa, se pueden usar dos o más tipos de muestreo
N−n
σx = σx √n (N−1) .
En muchos problemas de muestreo, el proceso tiene lugar como si una unidad fuera
reemplazada una vez que se ha sacado. Por ejemplo, si un dado se tira, hay 6 resultados
posibles (digamos 1, 2, 3, 4, 5 y 6). Si el dado se tira por segunda vez, hay también 6
resultados posibles. No se podría pensar en que si el resultado fue 1 la primera vez, es menos
probable que aparezca la segunda. El mismo resultado se puede obtener si se sacaran bolas
marcadas con los números del 1 al 6 de una bolsa y se reemplazaran antes de sacar otra.
Supongamos que se desea hacer varias mediciones de la longitud de un tablero para tomar el
promedio de ellas como una mejor estimación de la medida. Después que se obtuviera una
medición 1.80 m, ¿se podría pensar que esto reduce la probabilidad de obtener 1.80 m en el
segundo intento?
En el teorema 6-1 hemos demostrado que en el caso de muestras sin reemplazo, la media de
las medias de todas las muestras posibles es igual a la media de la población original. Un
resultado semejante se cumple para la muestras con reemplazo. Consideremos una población
de N elementos x1, x2,…, xN a partir de la cual se seleccionan muestras de tamaño n, con la
condición de que después de que cada elemento de la muestra se escoja, el elemento se
reintegre a la población. De esta manera hay N posibilidades de escoger el primer elemento
de la muestra, N para el segundo, y así sucesivamente, hasta que los n elementos se hayan
seleccionado. Por tanto, cuando el remplazo es permitido, se pueden formar N nmuestras
diferentes de tamaño n a partir de una población de tamaño N.
Ahora, vamos a deducir la relación entre la media de la población original, µx, y la media de
las medias de las muestras, µx. Por definición,
1
μx = ∑Nn
i=1 xi.
Nn
Métodos de muestreo
Los métodos de muestreo se conforman en correspondencia con los tipos de muestras que se
necesitan seleccionar. Es evidente que el tipo de muestra está en relación directa con los
objetivos del trabajo, y el tipo de estudio que se necesita hacer.
En general, se plantea que existen dos grandes tipos de muestreo, que son el
muestreo probabilístico, cuando todos los elementos de la población tienen la misma
probabilidad de ser seleccionados; y el no probabilístico, cuando no se cumple lo anterior.
* Muestreo de conveniencia: Cuando se toman los elementos de los que podemos disponer
de forma más fácil.
Ejemplo: Se pretende conocer el estado de opinión de la comunidad con respecto a la calidad
de la atención que le brinda un centro hospitalario. Para ello se decide encuestar a todas las
personas de dicha población que acuden al mismo, en el horario de visita un día determinado.
* Muestreo opinático: La selección de los elementos de la muestra se basa en la experiencia
y juicio del seleccionador.
Ejemplo: Se desea determinar cuáles son, a criterio de los profesores de una escuela, las
cualidades que debe reunir un buen alumno. Para ello se decide entrevistar a aquellos
profesores que, según la opinión del investigador, tienen el más alto nivel pedagógico dentro
del claustro.
* Muestreo aleatorio simple: Es el método de muestreo más importante, porque además se
utiliza como procedimiento en otros métodos de muestreo. Consiste en seleccionar los
elementos que integrarán la muestra mediante un procedimiento aleatorio (al azar).
Ejemplo: Se asigna un número diferente a cada elemento del universo y se seleccionan los
que integrarán la muestra por medio de una Tabla de números aleatorios o por fichas
numeradas que se extraen de un bombo.
N = 250 n = 10 k = 250/10 = 25
Se escoge como punto de arranque cualquier número entero entre 1 y 25 para iniciar la
selección. Supongamos que se escoge el 8, la muestra quedará entonces integrada por las
extracciones número: 8; 33; 58; 83; 108; 133; 158; 183; 208 y 233.
* Muestreo estratificado: Los elementos son seleccionados atendiendo a su pertenencia a
determinada clase o estrato, de manera que en la muestra estén representados los elementos
de cada clase en la misma proporción en que lo están en la población, objeto de estudio.
Ejemplo: Se quiere determinar la proporción de fumadores entre los pobladores de una
comunidad, según el sexo. Se fijó que el tamaño de la muestra debe ser de 300 individuos.
Si las mujeres representan el 55% de los habitantes y, por tanto, los hombres el 45% restante,
se escogerían al azar para integrar la muestra un total de 165 mujeres y 135 hombres. Ellos
representan el 55% y el 45% respectivamente de 300.
Queda así constituida la muestra con una representación de cada sexo, en la misma
proporción en que lo está en la población.
También pudo haberse operado de la manera siguiente: Si el tamaño de la muestra representa,
por ejemplo, el 20% del tamaño del universo, se selecciona el 20% del total de mujeres y de
hombres respectivamente
* Muestreo por conglomerado: Los elementos son seleccionados en forma agrupada del
universo, siguiendo algún criterio determinado de grupo de pertenencia.
Ejemplo: Para identificar los factores de riesgo vulnerables de la enfermedad virósica en los
trabajadores agrícolas de un pueblo, se seleccionan aleatoriamente un número de
cooperativas de producción agropecuaria y se estudian a todos los trabajadores de dichos
centros.
Distribución muestral
Por ejemplo, considere una población normal con una media y varianza .
Supongamos que repetidamente tomamos muestras de un tamaño dado de esta población y
calculamos la media aritmética para cada muestra: esta estadística se denomina media
muestral. La distribución de estos medios, o promedios, se denomina "distribución muestral
La media de una muestra de una población que tiene una distribución normal es un ejemplo
de una estadística simple tomada de una de las poblaciones estadísticas más simples. Para
otras estadísticas y otras poblaciones, las fórmulas son más complicadas y, a menudo, no
existen en forma cerrada . En tales casos, las distribuciones de muestreo pueden aproximarse
a través de simulaciones de Monte Carlo1[p. 2] , métodos bootstrap o teoría de distribución
asintótica.
cuanto mayor es el denominador (n), más pequeño es el valor del término a la izquierda del
"igual".
Ejemplo
n=25
Varianza= 0.43
n=100
Varianza= 0.11
n= 1000
Varianza= 0.01
Ejemplo
Si obtenemos una Media muestral igual a 6, y sabemos que la distribución muestral es
Normal(5,2) -el 5 es la media y el 2 la Desviación Típica de la distribución muestral- la
probabilidad de obtener puntuaciones iguales o inferiores a 6 es
b) Varianza
c) Proporción
Ejemplo
N: Tamaño de la población.
n: Tamaño de la muestra.
Estimación puntual
Una estimación es puntual cuando se usa un solo valor extraído de la muestra para estimar
el parámetro desconocido de la población. Al valor usado se le llama estimador.
Ejemplo
Se generan 100000 muestras aleatorias (n=25) de una población que sigue la distribución
Normal, y resulta:
La distribución de las Medias muestrales aproxima al modelo Normal:
En consecuencia, el intervalo dentro del cual se halla el 95% de las Medias muestrales es
(Nota: Los valores +-1.96 que multiplican la Desviación Típica de la distribución muestral
son los valores cuya función de distribución es igual a 0.975 y 0.025 respectivamente y se
pueden obtener en las tablas de la distribución Normal estandarizada o de funciones en
aplicaciones informáticas como Excel). Seguidamente generamos una muestra de la
población y obtenemos su Media, que es igual a 4.5. Si establecemos el intervalo alrededor
de la Media muestral, el parámetro poblacional (5.1) está incluido dentro de sus límites:
Ahora bien, la distancia de un punto A a un punto B es la misma que de B a A. Por esa razón,
la distancia desde m a la Media muestral es la misma que va de la Media muestral a m. En
consecuencia, si hacemos un muestreo con un número grande de muestras observamos que
el 95% de las veces (aproximadamente) el valor de la Media de la población (m) se encuentra
dentro del intervalo definido alrededor de cada uno de los valores de la Media muestral. El
porcentaje de veces que el valor de m se halla dentro de alguno de los intervalos de confianza
es del 95%, y es denominado nivel de confianza.
Si queremos establecer un intervalo de confianza en que el % de veces que m se halle dentro
del intervalo sea igual al 99%, la expresión anterior es:
Ejemplo
donde ls y le simbolizan los límites superior e inferior del intervalo de confianza al 95%.
Nueve de los diez intervalos (salvo el definido alrededor de la Media muestral igual a 3.7)
incluyen el valor del parámetro dentro sus límites.
tomar muestras de elementos. Cada una de estas muestras tiene a su vez una media. Se
puede demostrar que la media de todas las medias muestrales coincide con la media
poblacional:3
que:
En una distribución Z ~ N(0, 1) puede calcularse fácilmente un intervalo dentro del cual
caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2tales
que P[z1 ≤ z ≤ z2] = 1 - α, donde (1 - α)·100 es el porcentaje deseado (véase el uso de las
tablas en una distribución normal).
encontrará la media poblacional si solo se conoce una media muestral ( ), con una
confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por
Si suponemos que un parámetro θ tiene una estimación máximo verosímil θ*, la distribución
asintótica del estimador, bajo condiciones generales de regularidad, es Normal, de media el
valor verdadero del parámetro θ y varianza igual a la cota de Cramér-Rao σ2(θ*).
Bajo las suposiciones anteriores, es posible construir un intervalo de confianza asintótico y
con nivel de confianza (1 − α) · 100 % a partir de
donde los valores de zα/2 se calculan a partir de la distribución N(0, 1) de forma que P(|Z|
> zα/2) = α.
(n < 30)
Cuando tratamos con muestras pequeñas, no podemos invocar el teorema del límite central.
Por lo tanto, no podemos utilizar la fórmula para los intervalos de confianza a menos que sean
muestras desde una variable aleatoria normalmente distribuida.
Sin embargo, hay una cuestión más: Si conocemos la desviación estándar poblacional
σ,
entonces todo está bien, y podemos seguir adelante y utilizar la fórmula anterior para el
intervalo de confianza para muestras pequeñas (suponiendo que estamos tomando muestras
de una variable distribuida normalmente). Pero si, como suele ser el caso, no sabemos
σ,
s,
es probable que obtengamos intervalos de confianza que son demasiado pequeños. La razón
es que, mientras que la distribución muestral de
(x − μ)/σ,
(x − μ)/s
(x − μ)/s
?
R La razón que nos debemos preocupar es que, cuando utilizamos
s
en lugar de
σ,
μ.
(x − μ)/σ.
−z
σ,
−z,
ya que la distribución de
(x − μ)/s
−t
".
zα/2
tα/2.
tα/2
correspondiente a "
n−1
Muestra pequeña
100(1 − α)%
Intervalo de confianza
x ±zα/2
√ grandes
x=
media muestral
n=
tamaño muestral
σ=
zα/2 =
valor
−z
con un área de
α/2
s:
x ±tα/2
s utilizamos t en lugar de
√ z
x=
media muestral
n=
tamaño muestral
s=
valor
−t
con un área de
α/2
a la derecha
(tα/2
Proporciones
se construye el intervalo
siendo el valor que en una distribución normal estándar deja a su derecha una
probabilidad de .
En la hoja adjunta se obtiene el tamaño muestral para una fiabilidad y una precisión
determinada en el caso más desfavorable (p=q=0.5).
Intervalo de confianza sobre la diferencia de proporciones poblacionales
se construye el intervalo
siendo el valor que en una distribución normal estándar deja a su derecha una
probabilidad de .
Tamaño de muestra: 10
de Gauss. La significación estadística de " " puede ser convertida en un valor α por medio
de la función error:
Los niveles fijos de significación tales como los mencionados pueden ser considerados como
útiles en el análisis exploratorio de datos. Sin embargo, la recomendación de la estadística
moderna es que, cuando el resultado de un test es esencialmente el resultado final de un
experimento o de otro estudio, el valor p debería ser citado explícitamente. Y, sobre todo,
debería ser citado si el valor p es juzgado o no como significativo. Esto es para permitir que
el máximo de información sea transferido de un resumen de estudio al metaanálisis.
Error tipo I y II
Existe un Error Tipo I: si dicen que concluyen que hay diferencia, cuando en realidad no
Todas las pruebas de hipótesis estadísticas tienen una probabilidad de cometer errores tipo I
y tipo II.
Un error de tipo II, también conocido como un error tipo beta (β), se produce cuando la
hipótesis nula es falsa, pero erróneamente no ser rechazada.
Un error de tipo II se comete cuando dejamos de creer en una verdad. En términos de los
cuentos populares, un investigador puede dejar de ver el lobo. Una vez más, H0: ningún lobo.
Una prueba de sangre no detectar la enfermedad que fue diseñado para detectar, en un
paciente que realmente tiene la enfermedad
La probabilidad de cometer Error de tipo II depende del verdadero valor del parámetro. Se
hace tanto menor cuanto mayor sea n.
Un error de tipo I se produce cuando creemos una mentira. En términos de los cuentos
populares, un investigador puede ser "falsas alarmas" sin un lobo a la vista.
un error de tipo I conduce a la conclusión de que existe una cosa o la relación cuando en
realidad no lo hace
Modelo de regresión
Así por ejemplo, un economista podría estar interesado en determinar la relación entre el
ingreso de los trabajadores y su nivel de educación. Para esto, podría llevar acabo un modelo
de regresión en el cual la variable independiente (Y) será el ingreso del trabajador. En cuanto
a las variables explicativas (X), se deben incluir todas aquellas que podrían explicar el ingreso
entre las que se encuentran por supuesto la educación, la experiencia, la educación de los
padres, etc.
Y = A + BX + u
El caso más simple de regresión lineal ajusta a la ecuación de la recta los valores de la variable
independiente X1 a la variable dependiente Y, es decir:
Y = b0+b1X1,
La regresión lineal múltiple se basa en obtener una relación lineal entre un conjunto de
variables independientes X1,..,Xn con una variable dependiente Y, es decir:
El éxito de determinar una correlación lineal múltiple es que exista una correlación lineal
simple de cada variable independiente con la variable dependiente.
El estudio de la relación lineal simple y múltiple en R se realiza de la misma forma y se
recoge en el script_Regresion_Lineal.. Para ello se utiliza la función de regresión lineal lm().
Dicha función esta definida por una variable dependiente, y una o varias variables
independientes (si es una variable independientes estamos trabajando con una regresión lineal
simple; si son varias las variables entonces es una regresión múltiple). Por ello, se ha de
indicar a la función lm() cuál es la variable dependiente y cuales son las independientes. La
forma de expresarse en R es: variable dependiente ~ variable/s independiente/s. Por ejemplo:
También hay que indicarle dónde están guardadas esas variables y almacenarlas. Así,
añadimos data=datos a la función lm(), es decir, indicamos que las variables están
almacenadas en datos. Posteriormente las almacenamos el resultado en reg. Los pasos a
seguir son (recordar que en primer lugar se cargan los datos):
datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Y~.,data=datos)
Por último, siempre resulta práctico comprobar gráficamente los valores del modelo
predictivo (o teórico) con los valores experimentales con el objeto de cuantificar la bondad
del modelo predictivo y evaluar si el modelo se ajusta para todo el intervalo de valores. En
primer lugar, guardamos los datos del ajuste lineal (reg$fitted.values) y en segundo lugar lo
almacenarlos (con la variable Y_teor). Es decir:
Y_teor<-reg$fitted.values
Finalmente se representa gráficamente los datos experimentales (datos$Y) frente a los datos
teóricos (Y_teor) y el ajuste de la regresión lineal:
plot(datos$Y,Y_teor)
abline(lm(datos$Y~Y_teor),col="blue")
Este ejercicio se puede realizar cambiando los encabezados Cr por X1 y Ni por Y y usar la
sintaxis genérica explicada anteriormente:
datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Y~X1,data=datos)
Y_teor<-reg$fitted.values
plot(datos$Y,Y_teor)
abline(lm(datos$Y~Y_teor),col="blue")
datos<-read.table("datos.txt",header=T,blank.lines.skip=F)
reg<-lm(Ni~Cr,data=datos)
Y_teor<-reg$fitted.values
plot(datos$Ni,Y_teor)
abline(lm(datos$Ni~Y_teor),col="blue")
El objetivo de este ejercicio es seleccionar el mejor modelo lineal múltiple para predecir la
durabilidad de las rocas (variable dependiente) en función de las otras variables
(independientes). Este ejemplo muestra cómo se pueden transformar variables
independientes para que tengan una influencia lineal sobre la variable dependiente (Datos
obtenidos en: Benavente et al., (2007): The influence of petrophysical properties on the salt
weathering of porous building rocks. Environ Geol 52:197–206).
Los resultados obtenidos y el procedimiento seguido en esta práctica no son tan sencillos
cuando se aplican en muchos problemas geológicos/geoquímicos, los cuales pueden llegar a
ser mucho más complejos que el mostrado aquí. En la mayoría de los problemas
geológicos/geoquímicos se eliminan las variables que menos están relacionadas (lo que el
análisis factorial será de gran utilidad) y se intenta buscar un modelo que contenga el mayor
número de variables con el mayor valor del coeficiente de correlación.
Obtener una expresión lineal múltiple que relaciones variables de la cuenca, X1, ...,X6, con
la magnitud de la cuenca, Y, definida como el número de cursos fluviales (ríos, arroyos,
afluentes, etc.). Las variables (independientes) de la cuenca son X1: elevación de la
desembocadura de la cuenca (pies, ft); X2: relieve (profundidad) de la cuenca (pies,ft); X3:
área de cuenca (milla2); X4: longitud total del cursos fluviales (ríos, arroyos, afluentes, etc.)
(milla); X5: densidad de drenaje, definido como X4 / X3 ·100; X6: factor de forma de la
cuenca, la cual cuantifica su desviación con respecto a una sección circular. El objetivo de
esta práctica es predecir el valor de la magnitud de la cuenca, Y, a partir de todas las variables
de la cuenca debido a que cada una de ellas son importantes y necesarias para el modelo
físico. Para evaluar la fiabilidad del ajuste o estimación de Y a partir de la expresión lineal
múltiple, representar el valor real de Y frente al valor estimado por la función (Davis, 2002).
Regresión no Lineal.
Muchas de las relaciones entre variables que estudiamos en geoquímica no son lineales. Se
pueden destacar las funciones logarítmica, inversa, cuadrática, cúbica,
potencia, exponencial, etc. En la siguiente tabla se definen las funciones mas utilizadas:
En general, para determinar qué modelo utilizar se representan los datos y se ajustan al
modelo más adecuado teniendo en cuenta la bondad del ajuste dentro del rango de datos
medidos experimentalmente y/o fuera del dicho rango (debido al carácter predictivo de las
funciones).
Antes de cargar los datos, es necesario comprobar que no tengamos valores de la variable
dependiente o independiente igual a 0 debido a que en muchas transformaciones se obtiene
el logaritmo de la variable. Para ello se aconseja cambiar el valor 0 por 0.001 o eliminar fila.
Análogamente podemos tener problemas con valores negativos.
Una recta que mejor se ajusta es una línea recta que es la mejor aproximación del conjunto
de datos dado.
Una forma más precisa de encontrar la recta que mejor se ajusta es el método de mínimos
cuadrados .
Use los pasos siguientes para encontrar la ecuación de la recta que mejor se ajusta para un
conjunto de parejas ordenadas .
Ejemplo:
Use el método de mínimos cuadrados para determinar la ecuación de la recta que mejor se
ajusta para los datos. Luego grafique la recta.
Solución:
Calcule las medias de los valores de x y los valores de y , la suma de los cuadrados de los
valores de x , y la suma de cada valor de xmultiplicado por su valor correspondiente y .
Calcule la pendiente.
Calcule la intercepción en y .
Población y Muestra
https://www.diferenciador.com/poblacion-y-muestra/
Métodos de Muestreo
http://www.abc.com.py/articulos/metodos-de-muestreo-700633.html
-Kenneth D. Hopkins. Estadística Básica. Prentice Hall. México. 1997.
Distribuciones muestrales
https://es.wikipedia.org/wiki/Distribuci%C3%B3n_muestral
https://www.uv.es/webgid/Inferencial/3_media_varianza_y_proporcin.html
https://www.uv.es/webgid/Inferencial/5_estimacin_por_intervalos.html
https://es.wikipedia.org/wiki/Intervalo_de_confianza#Intervalo_de_confianza_de_la_media
_de_una_poblaci%C3%B3n
Intervalo para media con muestra grande
http://www.ub.edu/stat/GrupsInnovacio/Statmedia/demo/Temas/Capitulo8/B0C8m1t19.htm
https://www.zweigmedia.com/MundoReal/finitetopic1/confint.html
http://www5.uva.es/estadmed/inferen/estima_inter/intervalos3.htm
Nivel de significancia
https://es.wikipedia.org/wiki/Significaci%C3%B3n_estad%C3%ADstica
Error tipo I y II
https://prezi.com/uatqmo0madcj/error-tipo-i-y-tipo-ii/
Modelo de Regresión
https://economipedia.com/definiciones/modelo-de-regresion.html
https://web.ua.es/es/lpa/docencia/analisis-estadistico-de-datos-geoquimicos-con-
r/regresion-lineal-simple-y-multiple-regresion-no-lineal.html
https://www.varsitytutors.com/hotmath/hotmath_help/spanish/topics/line-of-best-fit