Está en la página 1de 38

A continuación usted encontrará los desarrollos teóricos correspondientes a la primera unidad, la cual se organiza

en tres temas principales:

Tema 1: Principales conceptos de Estadística. Estadística descriptiva. Medidas de posición


y dispersión.

Tema 2: Población y muestras

Tema 3: Estadística inferencial. Estimación puntual. Estimación por Intervalos.

Como lo anticipáramos en la presentación, esta unidad se propone a modo de repaso de contenidos estadísticos
básicos e imprescindibles para poder abordar con éxito el tema central del módulo que nos ocupa.

Tema 1: Principales conceptos de Estadística. Estadística descriptiva. Medidas de posición y dispersión.

La función principal de la Estadística es elaborar principios y métodos que nos ayuden a tomar decisiones frente a la
incertidumbre, por lo cual decimos que es el MÉTODO PARA LA TOMA DE DECISIONES FRENTE A LA INCERTIDUMBRE.

Se emplea hoy en toda clase de estudios científicos, en toda situación en la cual deba sacarse una conclusión,
tomarse una decisión o realizar una predicción, basada en datos empíricos.

Diremos entonces que ESTADÍSTICA es un método que, a través de la recolección en masa y el agrupamiento
racional de los hechos, permite reseñar y observar los fenómenos colectivos, obtener relaciones numéricas
sensiblemente independientes de las anomalías del azar y poner de manifiesto la regularidad de las variaciones.

La ESTADÍSTICA puede dividirse en dos ramas:

1- ESTADÍSTICA DESCRIPTIVA
Referida a la recolección, organización, presentación, descripción, análisis e interpretación de datos.

2- ESTADÍSTICA INFERENCIAL
Referida al proceso de utilización de los datos muestrales para la toma de decisiones, que puedan ser extendidos a
la población de la cual forman parte los datos analizados.

Datos Estadísticos

No toda información es considerada dato estadístico. Para cumplir con este requisito debe tratarse de un conjunto o
conjuntos de valores factibles de ser comparados, analizados e interpretados.
Así, el peso de una sola persona, no permite comparación, en cambio, el peso de 1000 personas sí lo permite.

Antes de poder procesar un conjunto de datos para la toma de decisiones, se deben encontrar los datos apropiados,
que por lo general se obtienen contando, midiendo o clasificando individuos u objetos. Estas medidas se llaman
variables porque pueden tomar muchos valores diferentes. En contraposición, una constante tiene un valor fijo.

Entonces, una variable es toda característica o dimensión de un individuo u objeto susceptible de adoptar distintos
valores o nombres (categorías).

Por ejemplo, una variable como el peso, toma valores (65 Kg., 70 Kg., etc.), mientras que otra como el sexo toma
nombres, categorías (Masculino, Femenino).

En base a ello, las variables pueden clasificarse en:

1. Cuantitativas

2. Cualitativas
Variables Cuantitativasº1

Son aquellas que arrojan valores numéricos, es decir, surgen de un proceso de conteo o medición.
Pueden ser, a su vez:

a-Discretas

Son respuestas numéricas que surgen de un proceso de conteo, es decir, la unidad no es divisible, sólo puede ser
definida en términos enteros o ciertos valores fraccionarios especificados. El número de hijos en un matrimonio es
un ejemplo, ya que la respuesta toma uno de un número finito de valores que se pueden contar. La pareja no tiene
hijos, o tiene 1, 2, 3, etc., hijos.

b- Continuas

Son respuestas numéricas que surgen de un proceso de medición. Pueden asumir cualquier valor numérico (cualquier
número real) dentro de una amplitud específica. En tal serie, valores sucesivos pueden diferir en cantidades
infinitesimales. Una serie continua es aquella en la que las unidades pueden dividirse en fracciones de cualquier
tamaño, por pequeñas que sean, de modo que haya un flujo continuo de valores con graduaciones infinitamente
pequeñas.
La estatura de una persona es un ejemplo de variable continua, ya que la respuesta puede tomar cualquier valor
dentro de un intervalo, según sea la precisión del instrumento de medición.
Es interesante observar que mientras el peso, la longitud, la altura, el tiempo y la temperatura son variables
continuas, sus mediciones son discretas, porque el instrumento de medición tiene algún límite de precisión. No
obstante, para cálculos y análisis estadísticos las consideramos por su naturaleza, como continuas.

Variables Cualitativas

También llamadas atributos, son aquellas que arrojan respuestas categóricas. Se describen por palabras. Los
individuos u objetos son poseedores o no poseedores de cierta cualidad o propiedad. Sólo pueden clasificarse, no
medirse, aunque a menudo pueden ser expresadas numéricamente, asignando 1 al elemento que tiene el atributo y
0 al que carece de él. Como ejemplo podemos mencionar sexo, nacionalidad, estado civil, etc.

RESUMEN

Cantidad de facturas defectuosas Duración de una batería


Cantidad de hojas Longitud de un tornillo
Cantidad de sillas Tiempo de viaje

Además de las consideraciones anteriores, hay tres conceptos sobre los que se asientan las técnicas estadísticas que
se utilizan para analizar datos: Variable, Unidad de Análisis y Tiempo.

Las variables según el papel que cumplen en la investigación

Según el papel, posición o función que cumplen las variables en la investigación, se habla de variables
independientes, dependientes y de control. Mientras que el nivel de medida de una variable es algo intrínseco a ella
misma, se refiere a la naturaleza de la variable, la distinción entre variables independientes, dependientes o de
control se basa en la relación que establecen entre sí: si una variable es independiente, sólo por relación a otra(s)
que es (son) dependiente (s), y viceversa, es decir que como mínimo se necesitan dos variables; mientras que una
variable es de control por relación a otras dos que actúan como independiente y dependiente, es decir que como
mínimo se necesitan tres variables. Ninguna variable en sí misma es independiente, dependiente o de control. La
relación con otras variables es lo que determina su calificación.

Variables independientes (Predictoras – Explicativas)

Se llaman variables independientes a aquellas que toman o tienen valores o categorías que influyen en otras
variables. En la investigación experimental es el investigador el que da valores (categorías) a una variable para ver
cómo influyen sobre otras variables. Por ejemplo, el investigador somete a un conjunto de personas a mirar durante
un cierto tiempo una publicidad (variable independiente: tiempo que se ve la publicidad) para observar sus
reacciones.
En la investigación no experimental los valores (categorías) no son controlados (asignados) por el investigador, sino
que los tienen los individuos (unidades, objetos de análisis). Los estudios que tiene una persona (variable
independiente) seguro que influyen en sus actitudes, opiniones, etc., sin que el entrevistador se los haya dado.
Las variables independientes también reciben el nombre de predictoras, puesto que a partir de su conocimiento
vamos a tratar de predecir los valores de otras variables, y explicativas, puesto que van a ser utilizadas para
explicar otras variables.

Variables dependientes (Criterio – Explicadas)

El valor (categoría) de las variables dependientes depende del valor que hayan tomado (investigación experimental)
o tengan (investigación no experimental) las variables independientes. Por ejemplo, según sea el nivel de estudios
de las personas (variable independiente), así serán, o puede que sean, sus ingresos (variable dependiente)
También reciben el nombre de explicadas, por ser las variables que hay que explicar en la investigación. Se trata de
las variables que dan origen a la investigación.

Población y Muestra

A fin de entender cómo se pueden aplicar los métodos estadísticos, se debe distinguir entre Población y Muestra.

Una Población, Colectivo ó Universo, es la totalidad de individuos u objetos de interés, acerca de los cuales se
desea información, según el objetivo del estudio.

Es de fundamental importancia en toda investigación definir concreta y precisamente la población motivo de


análisis, no sólo en los elementos que la integran, sino en el tiempo y espacio correspondiente, lo cual se deriva del
objetivo de la investigación.

Los elementos de la población en sentido estadístico pueden:

Ser de existencia real: automóvil, persona, casa

Ser de existencia abstracta: temperatura, voto

Coincidir con unidades naturales, como obreros, turistas, neumáticos.

Ser creados artificialmente con el propósito de la investigación. Así, cuando se analiza un campo sembrado
de trigo, es común dividir el campo en cuadrados o rectángulos; en este caso los elementos de la población
están dados por los cuadrados o rectángulos y no por cada planta de trigo.

Ser una entidad simple. Un hombre, una cosa

Ser una entidad compleja. Una familia, una escuela


Con respecto al tamaño de las poblaciones, diremos que pueden ser:

Infinitas: Comprende un número infinitamente grande de elementos (unidades de análisis, unidades


elementales).

Finitas: Sólo contiene un número finito de datos.

Una Muestra es la parte de la población que se ha seleccionado para el análisis.

En la práctica es a menudo costoso, largo y en algunos casos físicamente imposible realizar un censo (como ya lo
mencionamos), en cuyo caso se recurre al muestreo como medio más práctico para realizar el estudio. Se está
tratando de tomar una decisión acerca de la población, en base a los datos provenientes de la muestra, razón por la
cual es necesario contar con elementos representativos del total que sólo se obtendrán si la muestra en sí, es
representativa.

Elegir una muestra representativa es un problema importante en las investigaciones estadísticas. A menos que
sea sencillo y rentable medir cada elemento de la población a través de un censo, el investigador se encuentra con
el problema de cómo seleccionar una muestra representativa entre toda la población que se estudia. Una muestra
representativa puede proporcionar una visión útil de la naturaleza de la población que se estudia, mientras que
una muestra no representativa puede sugerir conclusiones totalmente incorrectas sobre la población. La Estadística
ofrece los llamados Procedimientos de Muestreo que nos indican las formas para seleccionar muestras.

Generalización o Inferencia Final

Si se ha trabajado con la totalidad de los elementos, censo o enumeración completa, un estudio finaliza con el
cálculo de medidas descriptivas. Entonces, puede describirse y revelarse las características de toda la población,
pudiendo fácilmente arribar a conclusiones o tomar una decisión sobre el problema.
Si por el contrario, el estudio se realizó en base a una muestra, es necesaria una etapa adicional, consistente en
tratar de responder, basándose en estadísticas de muestra, al problema o pregunta original formulada, que siempre
se refiere a la población, en particular a su distribución y sus parámetros.
Así, el proceso de utilización de datos muestrales para inferir o generalizar sobre la población a la que pertenecen
y de la cual fueron extraídos, requiere de los conocimientos y herramientas brindados por la Inferencia Estadística,
a través de dos técnicas: la Estimación Estadística y la Docimasia de Hipótesis.

Tema 2: Población y Muestras

POBLACIÓN Y MUESTRAS
Hemos visto que para poder investigar es necesario inferir o generalizar los valores de una muestra a la población.

Población, Colectivo o Universo, es un conjunto de elementos, individuos, etc., que tienen idéntico atributo (el
que estamos estudiando). Se la simboliza por la letra mayúscula N.

Debemos decir que:

La población no tiene porque ser grande ( elefantes blancos por ejemplo)

La población se define por el investigador. Los que tienen el atributo, la integran, lo que no, no pertenecen a
ella.

Población en medicina: enfermos de un hospital un día específico, o una semana específica, o los enfermos de
tal tipo, total de radiografías en tal hospital, certificados de nacimiento, de defunción, etc.

Hay poblaciones finitas (número de pacientes en un hospital a un momento dado) y poblaciones infinitas
(total de enfermos en el mundo).

Muestra o subpoblación es un subconjunto de elementos, individuos, etc., que tienen idéntico atributo (el que
estamos estudiando) y que provienen de determinada población. Se la simboliza por la letra minúscula n.

Marco de la muestra: se denomina así al lugar, listados, etc., de donde obtenemos los datos que integraran la
muestra. Como ejercicio podemos imaginar el listado de N = 3.400 radiografías que es la población de donde
obtendremos n = 200, que es el tamaño muestral elegido

Métodos de selección de muestras

1. El muestreo aleatorio sin reposición es un proceso de selección al azar de n unidades, que constituyen la
muestra, de una población de N unidades, sin devolver a la población ninguna unidad escogida antes de
extraer otra.

2. El muestreo aleatorio con reposición es un proceso de selección al azar de n unidades, que constituyen la
muestra, de una población de N unidades, donde cada unidad extraída es reintegrada a la población antes de
extraer otra.

Ejemplo

Supongamos que se elige una bolilla al azar de una bolsa que posee cuatro bolillas azules y seis blancas. Se observa
el color y

1. Se repone en la bolsa

2. No se repone en la bolsa

Se pregunta: ¿Cuál es la probabilidad de que la segunda bolilla sea azul, en ambos casos?

Entonces, tenemos: 10 bolillas: 4 azules


6 blancas

A partir de ello, definimos: A = (Bolillas azules)


B = (Bolillas blancas)

Veamos qué ocurre:

1. Si se repone en la bolsa la primera bolilla extraída, tenemos:

1° Elección: P(A) = 4/10 = 0,40

P(B) = 6/10 = 0,60

P(A) = 4/10 = 0,40, puesto que la respuesta, no depende del resultado de la primera elección, pues la bolilla fue
sustituida, entonces los dos sucesos son independientes, a saber, el resultado de una no modifica el resultado de la
otra, en términos de no afectar la probabilidad en la segunda extracción.

2- Si no se repone la primera bolilla, el resultado dependerá de lo ocurrido en la primera extracción.

1° Elección: P(A) = 4/10 = 0,40

P(B) = 6/10 = 0,60

2° Elección:

2.1. Si la primer bolilla sacada fue azul, quedan 9 bolillas en la bolsa, de las cuales 3 son azules, entonces P(A/A) =
3/9 (Probabilidad de que la segunda bolilla sea azul, dado que la primer bolilla es azul).

2.2. Si la primer bolilla sacada fue blanca, quedan 9 bolillas en la bolsa, de las cuales 4 son azules, entonces P(A/B)
= 4/9 (Probabilidad de que la segunda bolilla sea azul, dado que la primer bolilla es blanca).

Características de las Muestras

Una muestra debe ser representativa si va a ser usada para estimar las características de la población. Los
métodos para seleccionar una muestra representativa son numerosos, dependiendo del tiempo, dinero y habilidad
disponibles para tomar una muestra y la naturaleza de los elementos individuales de la población. Por lo tanto, se
requiere un gran volumen para incluir todos los tipos de métodos de muestreo.

Los métodos de selección de muestras pueden ser clasificados de acuerdo a:

1. El número de muestras tomadas de una población dada para un estudio y

2. La manera usada en seleccionar los elementos incluidos en la muestra. Los métodos de muestreo basados en
los dos tipos de clasificaciones son expuestos en seguida.

Métodos de muestreo clasificados de acuerdo con el número de muestras tomadas de una población.

Bajo esta clasificación, hay tres tipos comunes de métodos de muestreo. Estos son, muestreo simple, doble y
múltiple.

1. Muestreo aleatorio simple

Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de inferencia
estadística. Puesto que solamente una muestra es tomada, el tamaño de muestra debe ser lo suficientemente
grande para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo.

2. Muestreo doble

Bajo este tipo de muestreo, cuando el resultado del estudio de la primera muestra no es decisivo, una segunda
muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Este
método permite a una persona principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si
la primera muestra arroja una resultado definitivo, la segunda muestra puede no necesitarse.

Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera muestra arroja una calidad
muy alta, el lote es aceptado; si arroja una calidad muy pobre, el lote es rechazado. Solamente si la primera
muestra arroja una calidad intermedia, se requerirá la segunda muestra. Un plan típico de muestreo doble puede
ser obtenido de la Military Standard Sampling Procedures and Tables for Inspection by Attributes, publicada por el
Departamento de Defensa de los EE.UU., y también usado por muchas industrias privadas. Al probar la calidad de un
lote consistente de 3,000 unidades manufacturadas, cuando el número de defectos encontrados en la primera
muestra de 80 unidades es de 5 o menos, el lote es considerado bueno y es aceptado; si el número de defectos es 9 o
más, el lote es considerado pobre y es rechazado; si el número está entre 5 y 9, no puede llegarse a una decisión y
una segunda muestra de 80 unidades es extraída del lote. Si el número de defectos en las dos muestras combinadas
(incluyendo 80 + 80 = 160 unidades) es 12 o menos, el lote es aceptado si el número combinado es 13 o más, el lote
es rechazado.

3. Muestreo múltiple

El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto que el número de muestras
sucesivas requerido para llegar a una decisión es más de dos muestras.

Métodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los elementos de una
muestra.

Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes:

1. Basados en el juicio de una persona.

2. Selección aleatoria (al azar)

1. Muestreo de juicio

Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La
persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de
juicio es llamada una muestra NO probabilística, puesto que este método está basado en los puntos de vista
subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo.
Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo.

Muestreo no probabilístico o de juicio: lo contrario del aleatorio, lo cual no lo descalifica, sino que NO se pueden
hacer inferencias a la población. Se usa el conocimiento o criterio personal para identificar los integrantes de la
muestra. A veces no hay otro camino y a veces se usa este tipo de muestreo para hacer una muestra piloto que sirva
luego para tomar una muestra probabilística.

2. Muestreo Aleatorio

Es aquel donde la probabilidad de que un individuo sea elegido, es conocida a priori, lo cual permite hacer
inferencias a la población que en caso de no serlo, no es posible.
Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que cada elemento de la
población tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es también llamada una muestra
probabilística son generalmente preferidas por los estadísticos porque la selección de las muestras es objetiva y el
error muestral puede ser medido en términos de probabilidad bajo la curva normal. Los tipos comunes de muestreo
aleatorio son el muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo de
conglomerados.

2.1. Muestreo aleatorio simple

Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene
igual probabilidad de ser seleccionada de la población. Para obtener una muestra aleatoria simple, cada elemento
en la población tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no conducir a una
muestra aleatoria simple. Por conveniencia, este método pude ser reemplazado por una tabla de números
aleatorios. Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la población es
infinita, es obvio que la tarea de numerar cada elemento de la población es imposible. Por lo tanto, ciertas
modificaciones del muestreo aleatorio simple son necesarias. Los tipos más comunes de muestreo aleatorio
modificado son sistemáticos, estratificados y de conglomerados.

2.2. Muestreo sistemático

Una muestra sistemática es obtenida cuando los elementos son seleccionados en una manera ordenada. La manera
de la selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de
elementos en la población es, primero, dividido por el número deseado en la muestra. El cociente indicará si cada
décimo, cada onceavo, o cada centésimo elemento en la población van a ser seleccionado.
El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar la
misma precisión de estimación acerca de la población, que una muestra aleatoria simple cuando los elementos en la
población están ordenados al azar.
Los elementos se seleccionan con un intervalo uniforme que se mide en el tiempo, en el orden o en el espacio, por
ejemplo si se quiere entrevistar a cada vigésimo médico de una planta en un hospital. Debemos cuidarnos que no
haya periodicidad (o un ciclo) en el listado, por ejemplo tomar una muestra en el tiempo y que caigan siempre por
ejemplo meses de invierno o verano con sus enfermedades típicas. Si listamos los miembros de 20 familias, por
ejemplo, de 1 a 4, y el 1 es el padre, podemos seleccionar por ejemplo el 4, 8,12, y siempre seleccionaremos al
padre lo que provocará un error sistemático indeseable.

2.3. Muestreo Estratificado

Para obtener una muestra aleatoria estratificada, primero se divide la población en grupos, llamados estratos, que
son más homogéneos que la población como un todo. Los elementos de la muestra son entonces seleccionados al
azar o por un método sistemático de cada estrato. Las estimaciones de la población, basadas en la muestra
estratificada, usualmente tienen mayor precisión (o menor error muestral) que si la población entera muestreada
mediante muestreo aleatorio simple. El número de elementos seleccionado de cada estrato puede ser proporcional
o desproporcional al tamaño del estrato en relación con la población.

Este método es uno de los mejores y consiste en dividir a la población en subpoblaciones de gran homogeneidad
interna y de gran heterogeneidad externa. Da más precisión que el MAS pero es más caro. Se dice que es más eficaz
porque provee varianza menor que cualquier otro método de muestreo.

2.4. Muestreo de conglomerados

Para obtener una muestra de conglomerados, primero dividir la población en grupos que son convenientes para el
muestreo. En seguida, seleccionar una porción de los grupos al azar o por un método sistemático. Finalmente,
tomar todos los elementos o parte de ellos al azar o por un método sistemático de los grupos seleccionados para
obtener una muestra. Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual
probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria.

Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de
las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos
individuales dentro de cada “conglomerado” tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir
en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en un
muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es, por lo tanto,
frecuentemente mayor que la obtenida si la población entera es muestreada mediante muestreo aleatorio simple.
Esta debilidad puede reducida cuando se incrementa el tamaño de la muestra de área.

El incremento del tamaño de la muestra puede fácilmente ser hecho en muestras de área. Los entrevistadores no
tienen que caminar demasiado lejos en una pequeña área para entrevistar más familias. Por lo tanto, una muestra
grande de área puede ser obtenida dentro de un corto período de tiempo y a bajo costo.
Por otra parte, una muestra de conglomerados puede producir la misma precisión en la estimación que una muestra
aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es tan grande como la
de la población.

Muestreo por conglomerados: al revés del anterior, consiste en que las subpoblaciones sean internamente
heterogéneas y de gran homogeneidad entre los conglomerados. Es decir que cada conglomerado debe tratar de ser
representativo de la población

Ventajas del muestreo

El muestreo es sumamente útil en casos como los siguientes:

1. Cuando la población es infinita o suficientemente grande con lo cual el censo excede las posibilidades del
investigador, materiales, económicas, de tiempo, etc. Además el Muestreo sirve para controlar la eficiencia y
confiabilidad de los propios censos.

2. Cuando la población es lo suficientemente uniforme de manera que una muestra resulta fácilmente
representativa de la misma.

3. Cuando el proceso de medida o de investigación, implique la destrucción de las unidades tomadas para su
análisis, como es el caso de las pruebas destructivas de control de calidad.

4. Por razones económicas, cuando el censo resulte demasiado caro y cuando el censo no aporte mayor
información sobre una " buena muestra " que justifique al mayor costo.

5. Por razones de calidad, ya que más fácil lograr diseños de muestras altamente calificadas, por mejor
entrenamiento del personal, métodos de medición, mayor supervisión y control, etc.

Limitaciones del muestreo

Además del propio riesgo que implica tomar una muestra y no el todo, hay una serie de limitaciones en el uso del
muestreo a saber:

1. Cuando se necesita información sobre todos los elementos de la población, como seria el caso de pequeñas
poblaciones, donde el uso de las muestras pueden producir desconfianza en la población.

2. Otra limitación es el uso del Muestreo por parte de personas no calificadas, con lo cual se corre el riesgo
cierto de caer en sesgos (desviaciones), malos procedimientos, inferencias incorrectas, etc. El Muestreo
necesita de técnicas a veces sofisticadas que hacen necesario que sean profesionales responsables quienes las
diseñen.

Errores de muestreo

Toda población tiene su variabilidad interna (es decir diferencias entre sus integrantes) y para sacar conclusiones de
una muestra a la población (inferencia) es necesario tener en cuenta los errores que indefectiblemente se cometen,
llamados ERRORES DE MUESTREO, cuya determinación matemática se hace necesariamente para poder llevar a cabo
una investigación seria.

La fórmula que determina el tamaño de muestra necesario (*), RELACIONA el tamaño de la población (N), el valor de
la variabilidad interna, el nivel de confianza con el que desea trabajar (lo que hace que cuanto más grande sea ese
nivel más grande será la muestra) y el error de muestreo " aceptado".

Determinación del tamaño muestral

A partir de la expresión (*) podemos conocer el tamaño muestral " n ", que es:

(*)

¿Por qué es mayor o igual y no solo igual? Porque si se cumplen las condiciones establecidas, por ejemplo, con n = 30,
con mayor razón, se cumplirán con una muestra superior a 30 (por las propiedades de los estimadores). s el
valor de la tabla normal, e es el error expresado en tasa que estamos dispuestos a tolerar y por supuesto que es
la D. Estándar poblacional que si fuera 0, significaría que NO HAY DISPERSIÓN ALGUNA EN LA POBLACIÓN, o sea que
todos los elementos son iguales y que la muestra debería ser cero, LO CUAL NO TENDRÍA SENTIDO, por lo cual si lo
tiene una muestra > 0, es suficiente que sea de tamaño 1.

Veamos algunos ejemplos sumamente interesantes:[1]

1. Tamaño de la Población desconocida, valores de "p" proporción esperada de prevalencia de una enfermedad [2],
y de 1-P conocidos, trabajando con una confianza del 95% (tabla Normal) y un error de muestreo admitido del 3%. La
prevalencia de diabetes se estima en un 5%.

2. Población conocida de tamaño N = 15.000, valores de "p" proporción esperada de prevalencia de una
enfermedad, y de 1-P conocidos, trabajando con una confianza del 95% (tabla normal) y un error de muestreo
admitido del 3%. La prevalencia de diabetes se estima en un 5%.

3. Población con valores desconocidos de "p" proporción esperada de prevalencia de una enfermedad, y de 1-P
desconocidos, trabajando con una confianza del 95% (tabla normal) y un error de muestreo admitido del 3%. La
prevalencia de diabetes no se conoce y se toma como 0,50 siendo 1-p= 0,50 con lo cual el tamaño de la muestra es
máximo.

3.1 Con Población N desconocida:

3.2 Con Población N conocida = 15.000

Determinación del tamaño muestral “n” considerando el tamaño de la población “N”

Tamaño muestral determinado para un error del 0,05, y p= 0,60, población de N= 8.000, confianza del 90% ( Zα =
1,645 de la Tabla Normal)
En una reciente encuesta política, un intendente que había logrado el 60% de apoyo en las últimas elecciones, para
calcular el tamaño n para realizar una investigación, se tomó ese valor como equivalente de p= 0,60, eligiendo el
90% de confianza (1,645 en la Tabla de la distribución Normal) y un error de muestreo del 5%, la muestra -como
vemos- es de n= 250 familias

Luego de tres semanas de labor, se logró entrevistar solo a 165 familias y se decidió suspender la toma de las
muestras. Con la cantidad de muestras efectivamente realizadas, n=165, el nivel del error máximo admitido, pasó
del 5% al 6,2%, muy por debajo del hasta 10% admitido en encuestas de este tipo. ¿Cómo determinamos ese valor de
0,062 a partir de poner como "dato" a 165 y despejar el error, de la manera siguiente:

Errores ajenos al muestreo

Existen otros errores que se cometen al trabajar con muestras y que se llaman " ajenos al muestreo " y que pueden
ser sintetizados de la forma siguiente:

1. Sesgos de selección, cuando la muestra no es probabilística sino intencional o " dirigido "(el investigador
desea que sea representativa y recurre a su criterio o intención lo que no necesariamente garantiza que sea
así) o en el muestro " sin norma " (donde el investigador trabaja a la ventura por razones de comodidad - a la
salida de un cine para preguntar por ejemplo, sobre sus preferencias políticas)

2. Errores de observación o de medida

3. Errores por omisión (falta de respuesta, perdida de datos, inaccesibilidad, etc.)

4. Equivocaciones.

------------------------
Veamos un ejemplo.
Sean los datos de una población hipotética de niños de una escuela primaria a la cual se le quiere tomar datos sobre
su salud y se los seleccionará al azar usando el M. aleatorio sistemático y el M. Estratificado tomando los datos de
un listado de alturas.

La población es de N = 1.000 niños y la muestra de tamaño 80.

1. Muestreo Sistemático: la raíz se obtiene 1.000/80 = 12,50 12

O sea que elegimos al azar un número entre 1 y 12 y obtenemos 7; los valores a analizar del listado de N = 1.000
serán: 7, 19, 31, 43, etc.

2. Muestreo estratificado con afijación proporcional. Del listado de los 1.000 niños, se han dividido los mismos en
4 estratos del tamaño que se indican a continuación:

Estrato Ni ni

I( 1,00 a 1,20) 100 8

II( 1, 20 a 1,25) 200 16

III( 1,25 a 1,30) 300 24

IV( más de 1,30) 400 32

Totales 1.000 80
Los valores muestrales " proporcionales " lo son respecto del tamaño subpoblacional Ni, es decir, si la subpoblación
es del 10%, la muestra en ese estrato será también del 10%, y así sucesivamente.

3. No lo demostraremos, pero con la misma muestra de n= 80, la eficacia de este muestreo será muy superior a la
del muestreo aleatorio simple.

Del listado de los 1.000 niños, se han dividido a los mismos en 4 estratos del tamaño que se indican a continuación y
da la casualidad (ejemplo hipotético) que en cada estrato todos los niños miden lo mismo.

Estrato Ni ni

I( todos miden 1,22) 100 8

II( todos miden 1,25) 200 16

III( todos miden 1,30) 300 24

IV( todos miden 1,35) 400 32

Totales 1.000 80

Veamos algo casi increíble: en el muestreo sistemático, tomaremos como corresponde una muestra de 80 niños del
listado de 1.000, pero en el Muestreo Estratificado, por efecto de la estratificación hecha con inteligencia, que
logró una gran homogenización interna y una gran homogenización externa, será suficiente tomar una muestra de
tamaño 1, en cada estrato, o sea que con una muestra total de n= 4, tendremos la misma información que la del
sistemático; ésta es obviamente una exageración, pero nos indica claramente el poder del muestreo estratificado,
cuando él es posible, cosa que no siempre lo es…

Finalizamos este desarrollo teórico con más ejercicios ejemplo.

Ejercicios de Muestreo Sistemático

1. Tengamos una población de 3.400 comprobantes contables[3], ordenados y numerados en forma secuencial del
0001 al 3.400, perfectamente identificables. Necesitamos tomar una muestra de n=200.

Numero raíz y Razón de Muestreo: se divide el valor de N por el de n, o sea . Luego deberemos tomar

al azar un número entre 1 y 17, por ejemplo de la tabla de números aleatorios, y supongamos que sea el 12, que
denominaremos “número raíz” y k, “razón de muestreo”, que en este caso es 17.

De manera que del Marco de la Muestra de las 3.400 comprobantes, tomaremos la muestra de n = 200 de la manera
siguiente:

1. 12º ( número raíz)

2. 12 + 17 = 29º ( número raíz más la razón de muestreo)

3. 29 + 17 = 46º

4. Y así sucesivamente hasta completar las 200, a condición que tengamos el listado completo de N de donde
seleccionar con seguridad los elementos poblacionales.

2. Supongamos una población de 20.000 ítems, de la que decidimos – prescindimos por ahora como elegimos el
tamaño- tomar una muestra de 200 ítems. Dividimos 20.000 por 200 y obtenemos un intervalo de 100 ítems.

2.1. En otras palabras, Ud. va a seleccionar cada 100° ítem. Pero recuerde que Ud. debe tener un comienzo al
azar. Ud. puede partir de las tablas al azar, buscando un número entre 1 y 100, de la tabla de dígitos al azar, y sin
mirarla y con la punta del lápiz marque un lugar en la página.

Supongamos que la punta del lápiz cayó en el número de línea 731, columna 10. Él primer número es el 80.763.
Nosotros estamos interesados en las tres primeras cifras (recuerde que estamos buscando un número entre 1 y 100)
y por lo tanto, 807 está fuera de la serie. Continuamos descendiendo la columna hasta encontrar el 047. Nuestro
primer número será por lo tanto 47. Así, seleccionaremos para nuestra muestra, los ítems 47º, 147º, 247º, 347º, etc.
2.2. Pero supóngase que estemos temerosos de alguna clase de arreglo en la población, y deseamos estar seguros
que no caeremos en una trampa causada por esa parcialidad. En ese caso, podemos hacer dos partidas al azar,
tomando cada 200° ítem después de cada comienzo.

Cuando los ítems a ser seleccionados están en tarjeteros que no pueden ser seleccionados por el empleo de tablas
de números al azar, el procedimiento más simple es usar una regla para medir los intervalos. Imaginemos una
población de cerca de 12.000 tarjetas y un tamaño de muestra de 240 tarjetas. Medimos las tarjetas y
determinamos el número de las mismas por centímetro. Admitamos que entren 150 tarjetas. Divida la población de
12.000 por el tamaño de la muestra de 240 y tendrá un intervalo de 50. Luego seleccionamos un número al azar de
entre 1 y 50 de la tabla de números al asar. Supongamos que ese número sea 30. Partiendo de la tarjeta 30°,
seleccionamos cada 50° tarjetas. Dado que 50 tarjetas miden alrededor de un tercio de centímetro (150 dividido
por 50), seleccionamos cada tarjeta que está a un tercio de centímetro de la primera selección. De paso,
midiendo las tarjetas, asegúrese de que las mismas están uniformemente acomodadas.

3. Deseamos seleccionar una muestra sistemática de 50 cuadras en una comunidad que tiene 500 cuadras en la
ciudad. Determinamos ahora a k: razón de muestreo

Después seleccionamos un número al azar entre 1 y 10, a partir de una tabla de dígitos al azar. Supongamos que ese
número sea 3, entonces la tercera cuadra, será la primera en la muestra, la segunda, será el número 13, la siguiente
el número 23 y así sucesivamente.

Esto asegurará que una muestra sistemática contenga cuadras de todas las partes de la ciudad (ventaja sobre el
muestreo aleatorio).

Ocasionalmente puede ser menos eficiente que el Muestreo Aleatorio Simple, esto es cuando la población se ordena
en cierto orden periódico. Como ejemplo, supongamos que todas las cuadras de la ciudad contienen 8 casas. Un
muestreo sistemático de cada octava casa podría contener solamente casas en las esquinas y éstas pueden tener
características diferentes respecto a las familias de la cuadra.

Se puede emplear fácilmente cuando se dispone de una lista de las unidades de la población, como por ejemplo, una
guía telefónica.

Selecciona una muestra más representativa que el Muestreo Aleatorio Simple, si los elementos cercanos de la
población se asemejan más entre sí, de los que se parecen a los que quedan distantes.

Tiene la desventaja de requerir la numeración u ordenamiento de los elementos de la población, lo cual podría ser
físicamente imposible si la población abarca todo un país o una zona geográfica considerable, es decir, si se trata de
una gran población.

Debido a que el método nos asegura una muestra regularmente espaciada, nos asegura una representación uniforme
de los elementos de la población, y permite una estimación más precisa de la media de la población, que una
tomada por el Muestreo Aleatorio Simple, salvo que las unidades k-ésimas que constituyen la muestra resulten
análogas o estén correlacionadas.

Tema 3: Estadística inferencial. Estimación puntual. Estimación por Intervalos

GENERALIDADES

Según lo visto hasta ahora, existen situaciones en las cuales no podemos realizar un estudio poblacional, ya sea
porque la población que desea estudiarse es, o muy grande, o infinita, o resulta difícil acceder a su conocimiento
total por diversos motivos, vinculados al costo o no.
Ello nos imposibilita el conocimiento de los parámetros. Es, entonces, que se recurre a la idea de estimar esos
valores. ¿Y cómo puede estimarse el valor de un parámetro?
Es necesario poseer alguna información sobre la población objetivo, ya que sería imposible intentar alguna
estimación sin información alguna de ella. Esta información está provista por la muestra, en base a la cual se
establecen “Estimadores” o “Estadísticos”, que servirán para proporcionar una idea de los valores posibles de esos
parámetros poblacionales desconocidos, a través de las estimaciones realizadas.
Entonces, diremos que los parámetros se estiman utilizando estadísticos muestrales.
Según hemos analizado, existen distintos tipos de muestreo, pero para aplicar la Teoría Estadística y extender las
conclusiones de la muestra hacia la población, todos ellos deben garantizar que cada elemento de la población
tiene igual probabilidad de ser elegido en la muestra que los demás.
El método para hacer la estimación recibe el nombre de ESTIMADOR, mientras que el resultado real obtenido de la
muestra seleccionada es la ESTIMACIÓN del parámetro.
Un Estimador, es un ESTIMADOR PUNTUAL de una característica de población, si proporciona un solo número como
estimación.
En correspondencia, la estimación se llama ESTIMACIÓN PUNTUAL porque la característica de población está
estimada con un solo número basado en la muestra.
La estimación puntual se contrasta con la ESTIMACIÓN POR INTERVALOS, que veremos más adelante, donde el
parámetro se estima situado entre dos límites para una confianza dada.

PROPIEDADES DE LOS BUENOS ESTIMADORES

Las propiedades que debe poseer un buen estimador puntual se relacionan con la DISTRIBUCIÓN POR MUESTREO del
estimador, ya que como distribución de probabilidades indica qué tan lejos tiende a encontrarse la estimación
proporcionada por el estimador de la característica de la población que debe ser estimada.
Las propiedades de los buenos estimadores son:

1. Insesgabilidad

2. Consistencia

3. Eficiencia

4. Suficiencia

En resumen, son estimadores insesgados para los correspondientes parámetros, cualquiera sea la distribución:

ESTIMACIÓN PUNTUAL. LIMITACIONES.

Cualquier estimador puntual, aún cuando tenga todas las propiedades deseadas, tiene la limitación de que no
proporciona información acerca de la precisión de la estimación obtenida, esto es, de la magnitud del error debido
al muestreo.
Cuando analizamos la distribución por muestreo de , por ejemplo, se observó que el promedio basado en una
muestra aleatoria simple, puede tomar muchos valores diferentes, indicados en dicha distribución de . Además,
estos valores posibles de están agrupados en la distribución por muestreo de , alrededor de la verdadera
media de población, , y la mayoría de las caen a la derecha o a la izquierda de la media de población. Por lo
tanto, es bastante seguro que cualquier , es decir, cualquier estimación puntual, generalmente no proporcionará
el valor real de la media poblacional.

¿Qué valor, entonces, tiene la estimación puntual? Realmente tiene poco uso, a menos, que tengamos alguna
indicación sobre la precisión de la estimación, la que puede evaluarse por medio de la estimación de un intervalo,
que toma como punto de partida a la estimación puntual.

ERROR, RIESGO Y TAMAÑO DE LA MUESTRA

En esta sección definiremos el error de estimación y el riesgo de cometer un error superior a un determinado valor,
para luego analizar la relación entre ellos y el tamaño de la muestra.

En general, para el estimador media muestral la teoría estadística establece dos situaciones:

1. Cuando la muestra se selecciona aleatoriamente de una población con distribución normal, la variable
aleatoria media muestral responde a las características de la distribución normal de la población de la que
fue extraída

2. Cuando la muestra se selecciona aleatoriamente de una población sin distribución normal, la distribución de
la variable aleatoria media muestral se aproxima a la distribución normal a medida que el tamaño de la
muestra es aumentado.

Ejemplo

Supongamos una población que se distribuye normal, con media igual a 500 y desviación típica igual a 30. Tomamos
una muestra de 100 unidades y queremos conocer cuál es el riesgo de cometer un error de estimación de ,
superior a 6.

Resolución

Tenemos los siguientes valores. Población ~ N (500; 30)

Hay dos valores particulares de que nos interesan:

Gráficamente:

La variable normal tipificada es:

La probabilidad, (o sea el riesgo) de que al efectuar la estimación puntual se cometa un error, en valor absoluto,
superior a 6, es decir:

Es igual a: (usando la Tabla de la distribución Normal)


Relación entre error, riesgo y tamaño de la muestra

Antes de realizar el análisis, diremos que:

(1) El riesgo es una función inversa de z: cuando ésta aumenta, el riesgo disminuye. Cuando z disminuye, el riesgo
aumenta.

(2) Si

Si z depende de los tres elementos mencionados y a su vez z mantiene relación con el riesgo, entonces el riesgo
también depende de esos elementos.

Analizaremos ahora las relaciones, teniendo en cuenta que cuando relacionamos a dos de ellos, el resto permanece
constante, de lo contrario no podríamos asegurar las conclusiones.

a. Riesgo

Partiendo de:

Deducimos que:

1. Si incrementamos el error, incrementa z y disminuye el riesgo.

2. Si incrementamos el tamaño de la muestra, incrementa z y disminuye el riesgo.

3. Si incrementamos la desviación, disminuye z e incrementa el riesgo.

b. Error

Despejando de:
De donde deducimos que:

1. Si incrementamos el riesgo, disminuye z y disminuye el error.

2. Cuanto mayor es la desviación, mayor será el error.

3. Si incrementamos el tamaño de la muestra, disminuye el error.

Tamaño de la muestra

Partiendo de:

Y despejando n, obtendremos:

De donde deducimos que:

1. Si incrementamos el riesgo, incrementamos z y disminuye n, es decir, requerimos de menor información.

2. A mayor varianza, mayor tamaño de la muestra.

3. A mayor error, menor tamaño de la muestra.

En todos los casos las conclusiones serían a la inversa, si partimos de disminuciones.

ESTIMACIÓN POR INTERVALOS

La estimación por intervalos, consiste en obtener un cierto intervalo aleatorio [Li ; Ls], a partir de la estimación
puntual, considerando un cierto error de estimación, y un determinado grado de confianza que contiene al
parámetro que queremos estimar.

EJEMPLO ESPECIAL

Supongamos que obtenemos una estimación por intervalo de la media de la población en la siguiente forma:
seleccionamos una muestra aleatoria simple de la población y calculamos la media muestral . Después,
afirmamos que la media de la población se encuentra entre , siendo el primero, el límite
inferior del intervalo y el segundo, el límite superior del intervalo. ¿Cuáles son las implicancias de esta estimación
por intervalos?

Para responder, debemos referirnos a la distribución por muestreo de , puesto que estamos interesados en su
comportamiento.

Suponiendo que el tamaño de muestra es suficiente grande, la distribución de es aproximadamente normal con
.

Veamos la siguiente gráfica:


DISTRIBUCIÓN POR MUESTREO DE Y . DIFERENTES INTERVALOS DE CONFIANZA POSIBLES.

Obsérvese que la escala de se encuentra en blanco, pues sólo conocemos a partir de la teoría estadística, que la
E ( )= , pero no conocemos el valor de .
Debajo de la escala se encuentra la escala z, que indica la distancia desde la media, en unidades de desviación
estándar de .

Recordemos que:
~ N (0,1)

Así, +1 en la escala z, significa que este punto se encuentra 1 arriba de la media de la distribución de muestreo
de , que es ; +2 en la escala z, indica que este punto se encuentra arriba de , y así sucesivamente.

Si usamos la estimación por intervalos para estimar , la estimación particular por intervalos obtenida sobre la
base de una muestra aleatoria simple, depende de la localización de en la distribución de todas las posibles.
La gráfica indica cinco posibles posiciones en las cuales obtenida de una muestra particular, podría caer en la
distribución por muestreo de .
Supongamos que el valor de corresponde a la posición 1º . Aquí, la estimación del intervalo estaría
indicada por el segmento centrado en , en la posición 1. Los límites del intervalo se obtienen agregando a la
longitud que representa , obtenida de la escala z y restando de la longitud que representa . Los límites
obtenidos en esta forma corresponden entonces a y , que es el intervalo estimado que queríamos
encontrar.

Nótese que este intervalo cubre la media de la población . Luego, si la media de la muestra cae en la posición 1º,
el intervalo incluirá a , y la aseveración de que se encuentra dentro del intervalo será correcta.

Supongamos que la media de la muestra cae en la posición 2º, luego los límites son construidos alrededor
de localizada en la posición 2. Nuevamente está dentro del intervalo. Lo mismo ocurre para el caso en que
se localiza en la posición 3º y 4º.

¿Deja alguna vez el intervalo de incluir a ?

Sí. Puesto que los límites se obtienen sumando y restando , el intervalo no incluirá a , siempre que
caiga mas allá de tres desviaciones estándar de la media , es decir, siempre que caiga arriba de +3 o
debajo de -3 en la escala z, situación que ocurre cuando cae en la posición 5º.

Entonces, la declaración, “el valor de la media se encuentra en algún punto entre ”, será correcta si la media de la
muestra cae a una distancia menor que de la media de la población.

¿Cuál es la probabilidad de que caiga dentro de ese intervalo?

La distribución de es aproximadamente normal, así que sabemos que la probabilidad de que caiga a menos de
de la media de la distribución por muestreo de que es igual a , es 0,997.

Así pues, si tomamos un gran número de muestras aleatorias simples, suficientemente grandes, calculamos el
intervalo para cada una y en cada caso declaramos que la media de la población se encuentra dentro del
intervalo, alrededor del 99,7 % de estas aseveraciones serán correctas.

La estimación del intervalo para la media μ puede escribirse más formalmente en la siguiente forma:

La cual se lee: la media de la población μ se encuentra en algún punto entre y .

Este intervalo recibe el nombre de: intervalo de confianza para la media de la población.

Y la probabilidad de una aseveración correcta, en este caso 0,997, recibe el nombre de "coeficiente de confianza o
nivel de confianza", si se expresara en términos de porcentaje, es decir, 99,7%.

INTERVALO DE CONFIANZA PARA ESTIMAR LA MEDIA. USO DE LA DISTRIBUCIÓN NORMAL Y “t” DE STUDENT.[4]
Seguiremos para determinar la distribución aplicable, la siguiente regla:

1) POBLACIONES NORMALES 2) POBLACIONES NO NORMALES

conocida Distribución Normal conocida Por T.C.L[5]. Normal


n cualquiera

desconocida desconocida
“t” de Student -------------------

por TCL Normal por TCL Normal

Es frecuente que para estimar un parámetro se utilice el estimador análogo. Así, para estimar la media poblacional
μ, utilizaremos la media muestral .
Cuando la población es normal , la media muestral , tiene una distribución normal y lo mismo

sucede en las poblaciones no normales cuando el tamaño de la muestra n, es suficientemente grande.

El estadístico , con distribución conocida, generalmente tabulada, que se utiliza para estimar la media
poblacional es:

Si la varianza poblacional es conocida, la expresión anterior es una Normal (0,1)[6], pero si es desconocida
hay que estimarla con los datos de muestra, mediante:

En tal caso el estadístico:

es el cociente de dos variables aleatorias, y en consecuencia no tiene distribución normal, salvo que n sea grande,
porque entonces adquiere valores próximos a .

Cuando n sea pequeño el estadístico tendrá una distribución .

Caso 1: Poblaciones Normales

a. Varianza Poblacional Conocida. Muestras de cualquier tamaño

~ N pues

~ N (0,1)

Luego, planteamos que el nivel de confianza 1 – α, es:

, es decir

A partir de esta expresión despejamos al parámetro μ:


Como el parámetro a estimar es μ, multiplicamos por (-1), invirtiendo el signo de la desigualdad:

Colocamos el término menor a la izquierda y el mayor a la derecha:

Gráficamente:

Donde el subíndice de z indica la probabilidad acumulada hasta ese punto.

Reemplazando:

Llegamos así al intervalo buscado

Este enunciado de probabilidad declara que si se toman de la población muchas muestras aleatorias de tamaño n, y
para cada una se hace la aseveración:
(1-α)% de estas aseveraciones serán correctas.

Luego, los límites de la confianza obtenidos son:

Recordemos que:

Luego:

La amplitud del respectivo intervalo aleatorio {L1, Ls} depende del nivel de confianza , de la varianza
poblacional conocida y del tamaño de la muestra. El intervalo tiene siempre la misma amplitud, mientras no se
modifique el nivel de confianza, ni el tamaño de la muestra.

Su diferencia nos dará una idea sobre la "precisión" de la estimación.

La precisión es directamente proporcional al tamaño de la muestra n, e inversamente proporcional a la desviación


estándar (σ).

Como síntesis, diremos, que para reducir la amplitud de un intervalo de confianza y en consecuencia, aumentar su
precisión, debemos reducir el error estándar de la media muestral que es . Esto puede lograrse, solamente,

disminuyendo la variabilidad de los datos, ya sea homogeneizando el material ó, si esto no puede llevarse a cabo,
aumentando el tamaño de la muestra.

El intervalo planteado supone muestreo con reposición.

Gráficamente:

Reemplazamos:
c- Nivel de error: ± = ± = ± 0,65

Interpretación: Por cada 100 intervalos construidos, 95 contendrán al verdadero valor del parámetro, y 5 no lo
contendrán. "Confiamos" (de allí que se hable de intervalo de confianza), en que el intervalo construido, sea uno de
los 95, pero corremos el riesgo de que sea uno de los 5 que no contiene al verdadero valor del parámetro. Es decir,
existe un riesgo del 5%.

En caso de muestreo sin reposición, las desviaciones llevarán el factor de corrección de poblaciones finitas,
planteándose:

~ N pues

~ N (0,1)

y el intervalo:

PARÁMETROS Y ESTADÍSTICOS DE LAS DISTRIBUCIONES DE FRECUENCIA

Medidas de Posición

Media Aritmética

Mediana (no la veremos en este desarrollo teórico)

Moda ó Modo (no la veremos en este desarrollo teórico)

Medidas de Dispersión o de Concentración

Recorrido

Desviación Media (no la veremos en este desarrollo teórico)

Varianza y Desviación Estándar

Variable Desvío Estandardizada o Tipificada

Coeficiente de Variación (no la veremos en este desarrollo teórico)

Se expuso cómo podían ser reducidos los datos muestrales o poblacionales a forma compacta, comprensible y
comunicable por la distribución de frecuencias. Esto no es sólo un método para organizar datos, sino también una
medida descriptiva del modelo de distribución de una variable. Realmente, puede ser considerada como un
conjunto de medidas descriptivas, porque cada número que muestra la frecuencia (o densidad) de observaciones de
una clase es una estadística. Pero a menudo se necesitan medidas descriptivas en forma de números que pueden
concentrar mejor la atención en varias propiedades de un conjunto de datos que se investiga.

Si estas medidas de resumen descriptivas se calculan con una muestra de datos se llaman estadísticos",
"estadísticas" ó "estadígrafos". Si estas medidas descriptivas se calculan a partir de toda una población de datos, se
llaman parámetros.

Estadísticas y parámetros son calculados con las mismas ecuaciones, por lo tanto convendremos:

1. Las variables que corresponden a una población se representarán por mayúsculas, tales como X, Y, Z; y las
que corresponden a una muestra por letras minúsculas, tales como x, y, z.

2. Los tamaños de población y muestra se representarán por N y n, respectivamente.

3. Los parámetros se representarán con letras mayúsculas, tales como para la media de población; mientras
que las estadísticas por letras minúsculas, tales como para la media de la muestra.

En Resumen

Concepto Población Muestra

Variables X, Y, Z x, y, z
Cantidad de Observaciones N n
Media

Como por lo general, trabajaremos con muestras en vez de utilizar poblaciones, la preferencia será por los
estadísticos.

En términos de análisis estadístico y de aplicación, nos interesan cuatro propiedades básicas, que a menudo son
suficientes para caracterizar las distribuciones de frecuencias de datos univariables:

Desarrollaremos seguidamente, cada una de estas medidas, para el caso de trabajar con muestras, recordando que
para la población tendrán el mismo tratamiento, sólo que utilizaremos letras mayúsculas.
Medidas de Posición

Son valores típicos, en el sentido que se emplean para representar a todos los valores individuales de una serie ó de
una variable. No pasan de ser un valor más de la variable, por lo tanto, tendrán las mismas dimensiones que ella.
Deberán tenerse en cuenta los siguientes aspectos:

a. Deben definirse rigurosamente y no ser susceptibles de diferentes interpretaciones

b. Debe basarse en todas las observaciones, de lo contrario no sería una característica de toda la distribución.

c. Que sea claro y sencillo en su estructura.

d. Que pueda calcularse con facilidad y rapidez.

e. Que esté influenciado lo menos posible por “fluctuaciones muestrales”.

f. Se preste fácilmente al cálculo algebraico.

Media Aritmética

Se define y calcula dividiendo la suma de los valores de la variable por el número de observaciones.
La simbolizaremos:

Población
M(X) =
Muestra
M(x) =

Formas de Cálculo:

a. Series Simples o Datos No Agrupados

Ejemplo:

Utilizaremos el mismo ejemplo dado para series simples. Sea n = 10, siendo xi = número de hijos por familia

x1 = 2; x2 = 1; x3 = 3; x4 = 1; x5 = 2; x6 = 1;x7 = 3; x8 = 0;x9 = 2; x10 = 1

Interpretación: En promedio hay 1,6 hijos por familia (entre 1 y 2 hijos por familia)
b. Datos Agrupados

b.1. Distribuciones de Frecuencias de Variables Discretas

b.1.1.

O bien, teniendo en cuenta que , o sea considerando la frecuencia relativa:

b.1.2.

Ejemplo

Seguimos con el planteo anterior.

yi ni hi yi ni yi hi
0 1 0,10 0x1= 0 0x0,10= 0
1 4 0,40 1x4= 4 1x0,40= 0,40
2 3 0,30 2x3= 6 2x0,30=0,60
3 2 0,20 3x2= 6 3x0,20=0,60
10 1 16 1,60

Utilizando:

b.1.1.

ó bien,

b.1.2.

Los resultados que se obtienen con a) y b) son idénticos, lo cual es lógico ya que en el caso de la tabla de
distribución de frecuencias, lo único que se hace es agrupar aquellos valores que se repiten: (a) series simples, es un
caso particular, donde ni es igual a 1.
b.2. Distribuciones de Frecuencias de Variables Continuas

b.2.1.

O bien, teniendo en cuenta que , o sea considerando la frecuencia relativa:

b.2.2

donde yi es ahora, la marca de clase ó punto medio.

Ejemplo

Trabajaremos con el caso planteado en distribuciones de frecuencias de variables continuas.

45-55 50 2 0,10 100 5

55-65 60 4 0,20 240 12

65-75 70 7 0,35 490 24,5

75-85 80 4 0,20 320 16

85-95 90 3 0,15 270 13,5

20 1,00 1420 71

Entonces:

años

años
Propiedades de la media aritmética

1. La suma de las desviaciones con respecto a la media aritmética, es igual a 0, cualquiera sea la distribución.
Cuando decimos sumas, es necesario considerar las desviaciones tantas veces como se presenten.

Ejemplo

0 1 -1,60 -1,60
1 4 -0,60 -2,40
2 3 0,40 1,20
3 2 1,40 2,80
10

2. La suma de los cuadrados de las desviaciones es mínima cuando dichas desviaciones son obtenidas con
respecto a la media aritmética.

donde a es cualquier valor distinto de .

Ejemplo

Consideraremos a= 1 y = 1,6

0 1 -1,60 2,56 -1 1

1 4 -0,60 1,44 0 0

2 3 0,40 0,48 1 3

3 2 1,40 3,92 2 8

10
3. La media de una población es igual a la media ponderada de las muestras, siendo las ponderaciones los
tamaños de dichas muestras.

Ejemplo

0 1
1 4
2 3
3 2
10

Donde = 1,6 es la media poblacional para n=10, media aritmética ponderada. Supongamos,
además, que tomamos dos muestras de tamaño 4 y 6 respectivamente, siendo sus medias

En base a ello, calculamos:

Entonces:

1,60

4. La media aritmética de una constante es igual a dicha constante.

M(k) = k

Si yi = k → =k
i=1,2,...,n

Ejemplo

yi = 6,6,6,6,6
6 5 30
30

5. La media aritmética del producto de una constante por una variable es igual al producto de la constante por
la media aritmética de la variable.

M(y k) = k

Ejemplo

Salarios

200 4 800
300 4 1200
400 2 800
10 2800
Calculamos:

Luego, se incrementan al doble todos los sueldos, entonces definimos

400 4 1600

600 4 2400

800 2 1600

10 5600

Y calculamos:

Entonces la media de esta nueva variable es igual a 560, resultado al que arribamos por aplicación de la propiedad:

M(k y) = M(2y) = 2 M(Y) = (2)(280) = 560

6. Se puede utilizar para estimar una cantidad total en una población. Por ejemplo, la tarifa media de salario
por hora para una muestra de n=6 secretarias ejecutivas es de $8,00. Si en esta compañía, hay 200
secretarias, el costo total por hora de la mano de obra secretarial se calcula como:

donde N: Tamaño de la Población y : media aritmética de la muestra

; llamamos " Total " a la expresión:

7. Su cálculo se basa en cada observación, por lo tanto la media se ve afectada por cualquier valor o valores
extremos.

Ejemplo

Se observa, que un solo valor extremadamente pequeño da por resultado una gran reducción en . Por supuesto,
ocurriría el caso inverso si el valor extremo fuera mucho mayor que las otras observaciones.

Medidas de Dispersión o de Concentración

Los parámetros o estadígrafos de posición no son suficientes para caracterizar totalmente una cierta distribución de
frecuencias, ya que los valores incluidos en un grupo de datos en general varían significativamente en magnitud; es
decir, algunos de ellos son pequeños y otros grandes, estableciéndose lo que se llama dispersión o concentración de
los valores. Dos o más conjuntos de datos pueden diferir tanto en tendencia central como en dispersión o pueden
tener las mismas medidas de tendencia central, pero pueden tener grandes diferencias de dispersión.

Ejemplo

A) B) c)

Las figuras A, B y C, si bien son iguales en cuanto a su promedio, los datos en C) están más concentrados alrededor
del promedio que la figura B) y los de ésta más que los de la figura A), o dicho de otro modo, los datos de la figura
A) están más dispersos que los de la figura B) y éstos más que los de la C).

Una medida de dispersión, es importante por dos razones:

1. Indica el grado de variación entre los valores de la serie de datos recopilados.

2. Es utilizada como complemento de la medida de posición para caracterizar un conjunto de datos o para
compararlos con respecto a otro conjunto cualquiera. Cuando la dispersión es grande, el promedio tiene muy
poca significación, en cambio si la dispersión es baja, es decir los datos están muy concentrados alrededor el
promedio, éste se vuelve altamente significativo, ya que en este caso la medida de posición corresponde a un
valor muy representativo del conjunto.

Recorrido, Rango ó Amplitud

También llamado Amplitud o Campo de Variación, es la medida más simple y más bruta de dispersión.
Se define como la diferencia entre el mayor y el menor de los valores observados. Es una medida de dispersión ya
que está basada en las posiciones de ciertos elementos.

Lo simbolizaremos: R

Formas de cálculo:

a. Series Simples o Datos No Agrupados

b. Datos Agrupados

b.1. Distribuciones de Frecuencias de Variables Discretas

b.2. Distribuciones de Frecuencias de Variables Continuas

Presenta los siguientes inconvenientes:

Se ve muy influenciado por valores no usuales de los datos. Si aparece un valor fuera de lo común ya sea muy
grande o muy pequeño, no es posible utilizarlo como medida de dispersión, porque su resultado está
deformado por estos valores fuera de serie.

No es una medida de dispersión de los datos intermedios con relación al valor típico.

Es sensible al tamaño de muestra. Tiende a cambiar aunque no proporcionalmente, en la misma dirección en


que varía el tamaño de la muestra. Cuando aumenta el número, es posible que algún dato pueda tener mayor
valor que el máximo y algún otro dato un valor que el mínimo de la muestra anterior.

A pesar de sus numerosas deficiencias, puede ser usado muy provechosamente como medida de dispersión para
muchos fines:

En situaciones en las que se desea conocer sólo la extensión de la dispersión extrema en condiciones
ordinarias. Si el dato máximo o mínimo no es usual, la amplitud no revela nada acerca de la distribución
ordinaria de los datos.

Ejemplo. Los informes de mercado de acciones se expresan frecuentemente en términos de su amplitud, cotizando
precios altos y bajos de acciones durante un período de tiempo. Cuando no se producen movimientos excepcionales
de los precios de las acciones, la amplitud cotizada puede medir la variación ordinaria. Pero, cuando ocurren
movimientos excepcionales, la amplitud revela los efectos de condiciones trastornadoras temporales en el mercado.

Varianza y Desviación Estándar


Varianza. Se define como la media aritmética de los cuadrados de las desviaciones con respecto a la media
aritmética.

La simbolizaremos:

Población
V(X)=
Muestra
V(x)=

Como ya vimos el , en series simples,

y , en datos agrupados, cualquiera sea la distribución. El que esta media valga 0, se debe a las

compensaciones de las desviaciones positivas con las negativas. Esta compensación, ya fue evitada considerando el
valor absoluto de las desviaciones.

La otra forma de evitar las compensaciones es tomar una potencia par para dichas desviaciones, que al ser la
potencia 2, se transforma en la varianza, haciendo uso de esta manera de la propiedad de los mínimos cuadrados de
la media:

por lo cual, como medidas de las diferencias promedio al cuadrado en torno a la media, la varianza y la desviación
estándar, deben ser menores que cualquier otra medida de diferencias promedio al cuadrado en torno a cualquier
otro indicador de tendencia central. Dado que en el cálculo precedente, se elevó al cuadrado la diferencia,
entonces, ni la varianza, ni la desviación estándar, podrán ser nunca negativas. La única ocasión en que la varianza
y la desviación estándar son iguales a 0, se presenta cuando cada observación es exactamente la misma. Formas de
cálculo:

Series Simples o Datos No Agrupados

Datos Agrupados

1. Distribuciones de Frecuencias de Variables Discretas

2. Distribuciones de Frecuencias de Variables Continuas


Procedimiento:

1. Obtener la media aritmética

2. Obtener las desviaciones de cada valor de la variable con respecto a la media aritmética

3. Elevar al cuadrado cada desviación obtenida

4. Obtener la suma del cuadrado de las desviaciones (multiplicada por ni para el caso de datos agrupados).

5. Dividir la suma por el número de datos.

Como puede observarse el cálculo de la varianza a través de esta fórmula definicional es tedioso, además de
insumir tiempo, sobre todo, si trabajamos con una gran cantidad de datos y el cálculo es manual. Para obviar estas
dificultades, puede utilizarse la llamada fórmula de cálculo rápido o método abreviado.

A tal fórmula arribamos a partir de:

a. Series Simples o Datos No Agrupados

Resolviendo el cuadrado del numerador:

Introduciendo la sumatoria:

Recordamos que la sumatoria de una constante por una variable es la constante por la sumatoria de la variable. Así,
en el segundo término del numerador 2 y son constantes. La media de una muestra, es, para la muestra, una
constante.

La sumatoria de una constante es n veces la constante.

Luego:

, reemplazando:

Entonces:
Ejemplo. Sean: n = 10. xi = número de hijos por familia = 2, 1, 3, 1, 2, 1, 3, 0, 2, 1

Aplicamos la fórmula de cálculo:

Obtenemos

Elevamos al cuadrado cada xi y sumamos

Luego reemplazamos:

b. Datos Agrupados

que corresponde a la fórmula, a partir de la cual, y realizando igual procedimiento que para series simples,
arribamos a:

O bien, considerando las frecuencias relativas:

Ejemplo

b.1. Distribuciones de Frecuencias de Variables Discretas

Con los datos dados en Serie Simple, construimos la siguiente Tabla:


0 1 0 0 0,10 0
1 4 4 4 0,40 0,40
2 3 6 12 0,30 1,20
3 2 6 18 0,20 1,80
10 16 34 1 3,40

o bien

b.2. Distribuciones de Frecuencias de Variables Continuas

45-55 50 2 100 5.000 0,10 250


55-65 60 4 240 14.400 0,20 720
65-75 70 7 490 34.300 0,35 1.715
75-85 80 4 320 25.600 0,20 1.280
85-95 90 3 270 24.300 0,15 1.215
20 1.420 103.600 1 5.180

Desviación Estándar

También llamada Desviación Típica ó Desviación Cuadrática Media. Se define como el valor positivo de la raíz
cuadrada de la Varianza.

La simbolizaremos:

Esta medida ha sido definida con el fin de hacer comparable su resultado o valor con los valores de la variable,
dado que en el caso de la Varianza, por ser su valor de un orden superior a los valores de la variable, debido a que
es un promedio de cuadrados, no es comparable. A los fines de reducir dicho valor a la misma dimensión que los
valores de la variable, se le extrae la raíz cuadrada y se define la Desviación Estándar. Mide, al igual que la
Varianza, el grado de dispersión de los valores de la variable, con respecto al promedio. Ninguna, Varianza y
Desviación Estándar, tiene una interpretación intuitivamente obvia. Cuando comparamos dos o más conjuntos de
datos cuyas unidades de medición son idénticas, podemos decir que una muestra tiene un menor grado de dispersión
que otra, si la primera tiene una menor Varianza, ó Desviación Estándar. Sin embargo, dudaríamos de hacer una
declaración precisa acerca de un conjunto de datos cuando se da un valor específico de una u otra medida.

Cuando n es grande y la distribución de las n observaciones es aproximadamente con forma de campana,


aproximadamente Normal, puede usarse la regla empírica. En este caso las probabilidades están distribuidas
alrededor de la media según los porcentajes del gráfico.

Es decir, que si la distribución de frecuencias de un problema analizado tiene el comportamiento similar al de la


distribución normal, podemos sacar iguales conclusiones en cuanto a los porcentajes de frecuencias, u
observaciones, que se encuentran comprendidos en determinados intervalos de la variable.

Formas de Cálculo:

a. Series Simples o Datos No Agrupados

b. Datos Agrupados

b.1. Distribuciones de Frecuencias de Variables Discretas


b.2. Distribuciones de Frecuencias de Variables Continuas

Variable Desvío Estandardizada o Tipificada

Según lo visto hasta el momento, tenemos:

Media

Variable Natural

Variable Desvío

Vamos a definir ahora, a la variable desvío tipificada o estandardizada, que simbolizamos y definimos por:

Nos interesa la posibilidad que existe de llevar todas las distribuciones de distintas variables a una única escala de
valores relativos, que por ser tales pierden ya sus respectivas unidades de medida y pasan a ser valores abstractos,
y como consecuencia, podrán ser analizadas con una única distribución de probabilidad, como modelo teórico
explicativo, que es la conocida Distribución Normal Estandardizada, que veremos más adelante.

Ejemplo:

Si una distribución de sueldos tiene como media y como , una observación

cualquiera = 1.500 dará .

Si otra distribución de pesos, de aves, por ejemplo, tiene y como , una

observación cualquiera = 2,900 Kg. Dará:

En ambos casos, el valor desvío estandarizado es igual a 1, por lo tanto, dos observaciones tendrán la misma
probabilidad de presentación dentro de sus distribuciones respectivas.

Al cociente de un valor aislado de la variable menos la media, dividido por la desviación estándar se le llama
Puntaje Típico. Es una desviación relativa, a la que se llama desvío estandarizado.

Lo invitamos a proseguir con el estudio de los contenidos de la unidad 2.


[1] Tomados de la página: www.fisterra.com/material/investiga/1diseño.htm
[2] Se llama así a la proporción de personas que tienen una enfermedad o trastorno dado, en un momento dado de
tiempo

[3] Listas de cheques numerados, de socios de un club por número de orden, facturas numeradas secuencialmente,
registro de estudiantes, número de artículos que se producen secuencialmente y se les asigna un número
consecutivo, etc.

[4] Seudónimo del matemático Gosset.

[5] T.C.L.: Teorema central del límite

[6] En ese caso se utiliza la Tabla de la Distribución Normal

También podría gustarte