Está en la página 1de 24

INGENIERIA DE

SOFTWARE
Población y muestra

Las estadísticas de por sí no tienen sentido si no se consideran o se relacionan dentro del contexto
con que se trabajan.

Por lo tanto es necesario entender los conceptos de población y de muestra para lograr
comprender mejor su significado en la investigación educativa o social que se lleva a cabo.
POBLACIÓN –

Es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un
lugar y en un momento determinado.

Cuando se vaya a llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al
seleccionarse la población bajo estudio.
Entre éstas tenemos:

Homogeneidad - que todos los miembros de la población tengan las mismas características según las
variables que se vayan a considerar en el estudio o investigación.

Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si el


estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si se van a
entrevistar personas de diferentes generaciones.

Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy
abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.
Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante
porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar, además que la falta de
recursos y tiempo también nos limita la extensión de la población que se vaya a investigar.
MUESTRA
La muestra es un subconjunto fielmente representativo de la población.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán representativo
se quiera sea el estudio de la población.

ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual


oportunidad de ser incluido.

ESTRATIFICADA - cuando se subdivide en estratos o subgrupos según las


variables o características que se pretenden investigar. Cada estrato debe
corresponder proporcionalmente a la población.

SISTEMÁTICA - cuando se establece un patrón o criterio al seleccionar la


muestra. Ejemplo: se entrevistará una familia por cada diez que se detecten.
El muestreo

Es indispensable para el investigador ya que es imposible entrevistar a todos los miembros de


una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo
que se hace es estudiar una parte o un subconjunto de la población, pero que la misma sea lo
suficientemente representativa de ésta para que luego pueda generalizarse con seguridad de ellas
a la población.

El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su
estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo
a los recursos que haya disponibles. Entre más grande la muestra mayor posibilidad de ser más
representativa de la población.

En la investigación experimental, por su naturaleza y por la necesidad de tener control sobre las
variables, se recomienda muestras pequeñas que suelen ser de por lo menos 30 sujetos.

En la investigación descriptiva se emplean muestras grandes y algunas veces se recomienda


seleccionar de un 10 a un 20 por ciento de la población accesible.
Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas podemos
señalar

• Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.

• Como consecuencia del punto anterior ahorraremos costes.

• Estudiar la totalidad de los pacientes o personas con una característica determinada en


muchas ocasiones puede ser una tarea inaccesible o imposible de realizar.

• Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y
mediciones realizadas a un reducido número de individuos pueden ser más exactas y plurales
que si las tuviésemos que realizar a una población.

• La selección de muestras específicas nos permitirá reducir la heterogeneidad de una


población al indicar los criterios de inclusión y/o exclusión.
Pasos en un estudio estadístico
 Plantear hipótesis sobre una población
 Los fumadores tienen “más bajas” laborales que los no fumadores
 ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

 Decidir qué datos recoger (diseño de experimentos)


 Qué individuos pertenecerán al estudio (muestras)
 Fumadores y no fumadores en edad laboral.
 Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas?
 Qué datos recoger de los mismos (variables)
 Número de bajas
 Tiempo de duración de cada baja
 ¿Sexo? ¿Sector laboral? ¿Otros factores?

 Recoger los datos (muestreo)


 ¿Estratificado? ¿Sistemáticamente?

 Describir (resumir) los datos obtenidos


 tiempo medio de baja en fumadores y no (estadísticos)
 % de bajas por fumadores y sexo (frecuencias), gráficos,...

 Realizar una inferencia sobre la población


 Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.

 Cuantificar la confianza en la inferencia


 Nivel de confianza del 95%
 Significación del contraste: p=2%
Muestreo
Las poblaciones están formadas por individuos, pero sería mejor denominarlas unidades de muestreo o
unidades de estudio:
Personas, células, familias, hospitales, países…

La población ideal que se pretende estudiar se denomina población objetivo.


No es fácil estudiarla por completo. Aproximamos mediante muestras que den idealmente la misma
probabilidad a cada individuo de ser elegido.

Tampoco es fácil elegir muestras de la población objetivo:

Si llamamos por teléfono excluimos a los que no tienen.


Si elegimos indiv. en la calle, olvidamos los que están trabajando...

El grupo que en realidad podemos estudiar (v.g. los que tienen teléfono) se denomina población de estudio.
Fuentes de sesgo

Las poblaciones objetivos y de estudio pueden diferir en cuanto a las variables que
estudiamos.

El nivel económico en la población de estudio es mayor que en la objetivo,...


Los individuos que se eligen en la calle pueden ser de mayor edad (mayor frecuencia de
jubilados p.ej.)…

En este caso, diremos que las muestras que se elijan estarán sesgadas.

Al tipo de sesgo debido a diferencias sistemáticas entre población objetivo y población de


estudio se denomina sesgo de selección.

Hay otras fuentes de error/sesgo

No respuesta a encuestas embarazosas


Consumo de drogas, violencia doméstica, prácticas poco éticas,…
Mentir en las preguntas “delicadas”.

Para evitar este tipo de sesgo se utilizan la técnica de respuesta aleatorizada.


Técnicas de respuesta aleatorizada

Reducen la motivación para mentir (o no responder) a las encuestas.


¿Si digo la verdad, que ocurrira…?

¿Cómo se hace?

Pídele que lance una moneda antes de responder y…


Si sale cara que diga la “opción comprometida”
(no tiene por qué avergonzarse, la culpa es de la moneda)

Si sale cruz que diga la verdad


(no tiene por qué avergonzarse, el encuestador no sabe si ha salido cara o cruz)

Aunque no podamos saber cuál es la verdad en cada individuo, podemos hacernos una idea
porcentual sobre la población, viendo en cuánto se alejan las respuestas del 50%.
Ejemplo: ¿Ha tomado drogas alguna vez?
Técnicas de muestreo

Cuando elegimos individuos de una población de estudio para formar muestras podemos
encontrarnos en las siguientes situaciones:

Muestreos probabilísticos

Conocemos la probabilidad de que un individuo sea elegido para la muestra.


Interesantes para usar estadística matemática con ellos.

Muestreos no probabilísticos

No se conoce la probabilidad.
Son muestreos que seguramente esconden sesgos.

En principio no se pueden extrapolar los resultados a la población.


A pesar de ello una buena parte de los estudios que se publican usan esta técnica.
Muestreos Probabilisticos

Muestreo aleatorio simple (m.a.s.)

Se eligen individuos de la población de estudio, de manera que todos tienen la misma


probabilidad de aparecer, hasta alcanzar el tamaño muestral deseado.

Se puede realizar partiendo de listas de individuos de la población, y eligiendo individuos


aleatoriamente con un ordenador.

Normalmente tiene un costo bastante alto su aplicación.

En general, las técnicas de inferencia estadística suponen que la muestra ha sido elegida
usando m.a.s., aunque en realidad se use alguna de las que veremos a continuación.
Muestreo sistemático

Se tiene una lista de los individuos de la población de estudio. Si queremos una muestra de un
tamaño dado, elegimos individuos igualmente espaciados de la lista, donde el primero ha sido
elegido al azar.

CUIDADO: Si en la lista existen periodicidades, obtendremos una muestra sesgada.

Un caso real: Se eligió una de cada cinco casas para un estudio de salud pública en una
ciudad donde las casas se distribuyen en manzanas de cinco casas. Salieron con mucha
frecuencia las de las esquinas, que reciben más sol, están mejor ventiladas,…
Muestreo estratificado

Se aplica cuando sabemos que hay ciertos factores (variables, subpoblaciones o estratos)
que pueden influir en el estudio y queremos asegurarnos de tener cierta cantidad mínima
de individuos de cada tipo:

• Hombres y mujeres,
• Jóvenes, adultos y ancianos…

Se realiza entonces una m.a.s. de los individuos de cada uno de los estratos.

Al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo
del estrato con respecto al total de la población.
Muestreo por grupos o conglomerados

Se aplica cuando es difícil tener una lista de todos los individuos que forman parte de la
población de estudio, pero sin embargo sabemos que se encuentran agrupados naturalmente
en grupos.

Se realiza eligiendo varios de esos grupos al azar, y ya elegidos algunos podemos estudiar a
todos los individuos de los grupos elegidos o bien seguir aplicando dentro de ellos más
muestreos por grupos, por estratos, aleatorios simples,…

Para conocer la opinión de los médicos del sistema nacional de salud, podemos elegir a
varios departamentos de Colombia, dentro de ellos varios municipios, y dentro de ellos
varios centros de salud, y…

Al igual que en el muestreo estratificado, al extrapolar los resultados a la población hay que
tener en cuenta el tamaño relativo de unos grupos con respecto a otros.

Departamentos con diferente población pueden tener probabilidades diferentes de ser


elegidas, municipios, hospitales grandes frente a pequeños,…
Estimación

Un estimador es una cantidad numérica calculada sobre una muestra y que


esperamos que sea una buena aproximación de cierta cantidad con el mismo
significado en la población (parámetro).

En realidad ya hemos trabajado con estimadores cada vez que hacíamos una
práctica con muestras extraídas de una población y suponíamos que las medias,
etc… eran próximas de las de la población.

Para la media de una población:


“El mejor” es la media de la muestra.

Para la frecuencia relativa de una modalidad de una variable:


“El mejor” es la frecuencia relativa en la muestra.
Variables

Una variable es una característica observable que varía entre los diferentes individuos de una población. La
información que disponemos de cada individuo es resumida en variables.

En los individuos de la población Colombiana,


de uno a otro es variable:

El grupo sanguíneo
{A, B, AB, O} Var. Cualitativa

Su nivel de felicidad “declarado”


{Deprimido, Ni fu ni fa, Muy Feliz}
Var. Ordinal

El número de hijos
{0,1,2,3,...} Var. Numérica discreta

La altura
{1’62 ; 1’74; ...} Var. Numérica continua
Tipos de variables
Los posibles valores de una variable suelen denominarse modalidades.

Las modalidades pueden agruparse en clases (intervalos)

Edades:
Menos de 20 años, de 20 a 50 años, más de 50 años
Hijos:
Menos de 3 hijos, De 3 a 5, 6 o más hijos

Las modalidades/clases deben forman un sistema exhaustivo y excluyente

Exhaustivo: No podemos olvidar ningún posible valor de la variable

Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?


Bien: ¿Cuál es su grupo sanguíneo?

Excluyente: Nadie puede presentar dos valores simultáneos de la variable


Estudio sobre el ocio

Mal: De los siguientes, qué le gusta: (deporte, cine)


Bien: Le gusta el deporte: (Sí, No)
Bien: Le gusta el cine: (Sí, No)
Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)
Presentación ordenada de datos

Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de
presentar la información.

Las dos exponen ordenadamente la información recogida en una muestra.


Gráficos para v. cualitativas

Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.)
Se pueden aplicar también a variables discretas

Diagramas de sectores (tartas, polares)


No usarlo con variables ordinales.
El área de cada sector es proporcional a su frecuencia (abs.
o rel.)

Pictogramas
Fáciles de entender.
El área de cada modalidad debe ser proporcional a la
frecuencia. ¿De los dos, cuál es incorrecto?.

También podría gustarte