Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Como lo anticipáramos en la presentación, esta unidad se propone a modo de repaso de contenidos estadísticos
básicos e imprescindibles para poder abordar con éxito el tema central del módulo que nos ocupa.
La función principal de la Estadística es elaborar principios y métodos que nos ayuden a tomar decisiones frente a la
incertidumbre, por lo cual decimos que es el MÉTODO PARA LA TOMA DE DECISIONES FRENTE A LA INCERTIDUMBRE.
Se emplea hoy en toda clase de estudios científicos, en toda situación en la cual deba sacarse una conclusión,
tomarse una decisión o realizar una predicción, basada en datos empíricos.
Diremos entonces que ESTADÍSTICA es un método que, a través de la recolección en masa y el agrupamiento
racional de los hechos, permite reseñar y observar los fenómenos colectivos, obtener relaciones numéricas
sensiblemente independientes de las anomalías del azar y poner de manifiesto la regularidad de las variaciones.
1- ESTADÍSTICA DESCRIPTIVA
Referida a la recolección, organización, presentación, descripción, análisis e interpretación de datos.
2- ESTADÍSTICA INFERENCIAL
Referida al proceso de utilización de los datos muestrales para la toma de decisiones, que puedan ser extendidos a
la población de la cual forman parte los datos analizados.
Datos Estadísticos
No toda información es considerada dato estadístico. Para cumplir con este requisito debe tratarse de un conjunto o
conjuntos de valores factibles de ser comparados, analizados e interpretados.
Así, el peso de una sola persona, no permite comparación, en cambio, el peso de 1000 personas sí lo permite.
Antes de poder procesar un conjunto de datos para la toma de decisiones, se deben encontrar los datos apropiados,
que por lo general se obtienen contando, midiendo o clasificando individuos u objetos. Estas medidas se llaman
variables porque pueden tomar muchos valores diferentes. En contraposición, una constante tiene un valor fijo.
Entonces, una variable es toda característica o dimensión de un individuo u objeto susceptible de adoptar distintos
valores o nombres (categorías).
Por ejemplo, una variable como el peso, toma valores (65 Kg., 70 Kg., etc.), mientras que otra como el sexo toma
nombres, categorías (Masculino, Femenino).
1. Cuantitativas
2. Cualitativas
Variables Cuantitativasº1
Son aquellas que arrojan valores numéricos, es decir, surgen de un proceso de conteo o medición.
Pueden ser, a su vez:
a-Discretas
Son respuestas numéricas que surgen de un proceso de conteo, es decir, la unidad no es divisible, sólo puede ser
definida en términos enteros o ciertos valores fraccionarios especificados. El número de hijos en un matrimonio es
un ejemplo, ya que la respuesta toma uno de un número finito de valores que se pueden contar. La pareja no tiene
hijos, o tiene 1, 2, 3, etc., hijos.
b- Continuas
Son respuestas numéricas que surgen de un proceso de medición. Pueden asumir cualquier valor numérico (cualquier
número real) dentro de una amplitud específica. En tal serie, valores sucesivos pueden diferir en cantidades
infinitesimales. Una serie continua es aquella en la que las unidades pueden dividirse en fracciones de cualquier
tamaño, por pequeñas que sean, de modo que haya un flujo continuo de valores con graduaciones infinitamente
pequeñas.
La estatura de una persona es un ejemplo de variable continua, ya que la respuesta puede tomar cualquier valor
dentro de un intervalo, según sea la precisión del instrumento de medición.
Es interesante observar que mientras el peso, la longitud, la altura, el tiempo y la temperatura son variables
continuas, sus mediciones son discretas, porque el instrumento de medición tiene algún límite de precisión. No
obstante, para cálculos y análisis estadísticos las consideramos por su naturaleza, como continuas.
Variables Cualitativas
También llamadas atributos, son aquellas que arrojan respuestas categóricas. Se describen por palabras. Los
individuos u objetos son poseedores o no poseedores de cierta cualidad o propiedad. Sólo pueden clasificarse, no
medirse, aunque a menudo pueden ser expresadas numéricamente, asignando 1 al elemento que tiene el atributo y
0 al que carece de él. Como ejemplo podemos mencionar sexo, nacionalidad, estado civil, etc.
RESUMEN
Además de las consideraciones anteriores, hay tres conceptos sobre los que se asientan las técnicas estadísticas que
se utilizan para analizar datos: Variable, Unidad de Análisis y Tiempo.
Según el papel, posición o función que cumplen las variables en la investigación, se habla de variables
independientes, dependientes y de control. Mientras que el nivel de medida de una variable es algo intrínseco a ella
misma, se refiere a la naturaleza de la variable, la distinción entre variables independientes, dependientes o de
control se basa en la relación que establecen entre sí: si una variable es independiente, sólo por relación a otra(s)
que es (son) dependiente (s), y viceversa, es decir que como mínimo se necesitan dos variables; mientras que una
variable es de control por relación a otras dos que actúan como independiente y dependiente, es decir que como
mínimo se necesitan tres variables. Ninguna variable en sí misma es independiente, dependiente o de control. La
relación con otras variables es lo que determina su calificación.
Se llaman variables independientes a aquellas que toman o tienen valores o categorías que influyen en otras
variables. En la investigación experimental es el investigador el que da valores (categorías) a una variable para ver
cómo influyen sobre otras variables. Por ejemplo, el investigador somete a un conjunto de personas a mirar durante
un cierto tiempo una publicidad (variable independiente: tiempo que se ve la publicidad) para observar sus
reacciones.
En la investigación no experimental los valores (categorías) no son controlados (asignados) por el investigador, sino
que los tienen los individuos (unidades, objetos de análisis). Los estudios que tiene una persona (variable
independiente) seguro que influyen en sus actitudes, opiniones, etc., sin que el entrevistador se los haya dado.
Las variables independientes también reciben el nombre de predictoras, puesto que a partir de su conocimiento
vamos a tratar de predecir los valores de otras variables, y explicativas, puesto que van a ser utilizadas para
explicar otras variables.
El valor (categoría) de las variables dependientes depende del valor que hayan tomado (investigación experimental)
o tengan (investigación no experimental) las variables independientes. Por ejemplo, según sea el nivel de estudios
de las personas (variable independiente), así serán, o puede que sean, sus ingresos (variable dependiente)
También reciben el nombre de explicadas, por ser las variables que hay que explicar en la investigación. Se trata de
las variables que dan origen a la investigación.
Población y Muestra
A fin de entender cómo se pueden aplicar los métodos estadísticos, se debe distinguir entre Población y Muestra.
Una Población, Colectivo ó Universo, es la totalidad de individuos u objetos de interés, acerca de los cuales se
desea información, según el objetivo del estudio.
Ser creados artificialmente con el propósito de la investigación. Así, cuando se analiza un campo sembrado
de trigo, es común dividir el campo en cuadrados o rectángulos; en este caso los elementos de la población
están dados por los cuadrados o rectángulos y no por cada planta de trigo.
En la práctica es a menudo costoso, largo y en algunos casos físicamente imposible realizar un censo (como ya lo
mencionamos), en cuyo caso se recurre al muestreo como medio más práctico para realizar el estudio. Se está
tratando de tomar una decisión acerca de la población, en base a los datos provenientes de la muestra, razón por la
cual es necesario contar con elementos representativos del total que sólo se obtendrán si la muestra en sí, es
representativa.
Elegir una muestra representativa es un problema importante en las investigaciones estadísticas. A menos que
sea sencillo y rentable medir cada elemento de la población a través de un censo, el investigador se encuentra con
el problema de cómo seleccionar una muestra representativa entre toda la población que se estudia. Una muestra
representativa puede proporcionar una visión útil de la naturaleza de la población que se estudia, mientras que
una muestra no representativa puede sugerir conclusiones totalmente incorrectas sobre la población. La Estadística
ofrece los llamados Procedimientos de Muestreo que nos indican las formas para seleccionar muestras.
Si se ha trabajado con la totalidad de los elementos, censo o enumeración completa, un estudio finaliza con el
cálculo de medidas descriptivas. Entonces, puede describirse y revelarse las características de toda la población,
pudiendo fácilmente arribar a conclusiones o tomar una decisión sobre el problema.
Si por el contrario, el estudio se realizó en base a una muestra, es necesaria una etapa adicional, consistente en
tratar de responder, basándose en estadísticas de muestra, al problema o pregunta original formulada, que siempre
se refiere a la población, en particular a su distribución y sus parámetros.
Así, el proceso de utilización de datos muestrales para inferir o generalizar sobre la población a la que pertenecen
y de la cual fueron extraídos, requiere de los conocimientos y herramientas brindados por la Inferencia Estadística,
a través de dos técnicas: la Estimación Estadística y la Docimasia de Hipótesis.
POBLACIÓN Y MUESTRAS
Hemos visto que para poder investigar es necesario inferir o generalizar los valores de una muestra a la población.
Población, Colectivo o Universo, es un conjunto de elementos, individuos, etc., que tienen idéntico atributo (el
que estamos estudiando). Se la simboliza por la letra mayúscula N.
La población se define por el investigador. Los que tienen el atributo, la integran, lo que no, no pertenecen a
ella.
Población en medicina: enfermos de un hospital un día específico, o una semana específica, o los enfermos de
tal tipo, total de radiografías en tal hospital, certificados de nacimiento, de defunción, etc.
Hay poblaciones finitas (número de pacientes en un hospital a un momento dado) y poblaciones infinitas
(total de enfermos en el mundo).
Muestra o subpoblación es un subconjunto de elementos, individuos, etc., que tienen idéntico atributo (el que
estamos estudiando) y que provienen de determinada población. Se la simboliza por la letra minúscula n.
Marco de la muestra: se denomina así al lugar, listados, etc., de donde obtenemos los datos que integraran la
muestra. Como ejercicio podemos imaginar el listado de N = 3.400 radiografías que es la población de donde
obtendremos n = 200, que es el tamaño muestral elegido
1. El muestreo aleatorio sin reposición es un proceso de selección al azar de n unidades, que constituyen la
muestra, de una población de N unidades, sin devolver a la población ninguna unidad escogida antes de
extraer otra.
2. El muestreo aleatorio con reposición es un proceso de selección al azar de n unidades, que constituyen la
muestra, de una población de N unidades, donde cada unidad extraída es reintegrada a la población antes de
extraer otra.
Ejemplo
Supongamos que se elige una bolilla al azar de una bolsa que posee cuatro bolillas azules y seis blancas. Se observa
el color y
1. Se repone en la bolsa
2. No se repone en la bolsa
Se pregunta: ¿Cuál es la probabilidad de que la segunda bolilla sea azul, en ambos casos?
P(A) = 4/10 = 0,40, puesto que la respuesta, no depende del resultado de la primera elección, pues la bolilla fue
sustituida, entonces los dos sucesos son independientes, a saber, el resultado de una no modifica el resultado de la
otra, en términos de no afectar la probabilidad en la segunda extracción.
2° Elección:
2.1. Si la primer bolilla sacada fue azul, quedan 9 bolillas en la bolsa, de las cuales 3 son azules, entonces P(A/A) =
3/9 (Probabilidad de que la segunda bolilla sea azul, dado que la primer bolilla es azul).
2.2. Si la primer bolilla sacada fue blanca, quedan 9 bolillas en la bolsa, de las cuales 4 son azules, entonces P(A/B)
= 4/9 (Probabilidad de que la segunda bolilla sea azul, dado que la primer bolilla es blanca).
Una muestra debe ser representativa si va a ser usada para estimar las características de la población. Los
métodos para seleccionar una muestra representativa son numerosos, dependiendo del tiempo, dinero y habilidad
disponibles para tomar una muestra y la naturaleza de los elementos individuales de la población. Por lo tanto, se
requiere un gran volumen para incluir todos los tipos de métodos de muestreo.
2. La manera usada en seleccionar los elementos incluidos en la muestra. Los métodos de muestreo basados en
los dos tipos de clasificaciones son expuestos en seguida.
Métodos de muestreo clasificados de acuerdo con el número de muestras tomadas de una población.
Bajo esta clasificación, hay tres tipos comunes de métodos de muestreo. Estos son, muestreo simple, doble y
múltiple.
Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de inferencia
estadística. Puesto que solamente una muestra es tomada, el tamaño de muestra debe ser lo suficientemente
grande para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo.
2. Muestreo doble
Bajo este tipo de muestreo, cuando el resultado del estudio de la primera muestra no es decisivo, una segunda
muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Este
método permite a una persona principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si
la primera muestra arroja una resultado definitivo, la segunda muestra puede no necesitarse.
Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera muestra arroja una calidad
muy alta, el lote es aceptado; si arroja una calidad muy pobre, el lote es rechazado. Solamente si la primera
muestra arroja una calidad intermedia, se requerirá la segunda muestra. Un plan típico de muestreo doble puede
ser obtenido de la Military Standard Sampling Procedures and Tables for Inspection by Attributes, publicada por el
Departamento de Defensa de los EE.UU., y también usado por muchas industrias privadas. Al probar la calidad de un
lote consistente de 3,000 unidades manufacturadas, cuando el número de defectos encontrados en la primera
muestra de 80 unidades es de 5 o menos, el lote es considerado bueno y es aceptado; si el número de defectos es 9 o
más, el lote es considerado pobre y es rechazado; si el número está entre 5 y 9, no puede llegarse a una decisión y
una segunda muestra de 80 unidades es extraída del lote. Si el número de defectos en las dos muestras combinadas
(incluyendo 80 + 80 = 160 unidades) es 12 o menos, el lote es aceptado si el número combinado es 13 o más, el lote
es rechazado.
3. Muestreo múltiple
El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto que el número de muestras
sucesivas requerido para llegar a una decisión es más de dos muestras.
Métodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los elementos de una
muestra.
Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes:
1. Muestreo de juicio
Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La
persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de
juicio es llamada una muestra NO probabilística, puesto que este método está basado en los puntos de vista
subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo.
Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo.
Muestreo no probabilístico o de juicio: lo contrario del aleatorio, lo cual no lo descalifica, sino que NO se pueden
hacer inferencias a la población. Se usa el conocimiento o criterio personal para identificar los integrantes de la
muestra. A veces no hay otro camino y a veces se usa este tipo de muestreo para hacer una muestra piloto que sirva
luego para tomar una muestra probabilística.
2. Muestreo Aleatorio
Es aquel donde la probabilidad de que un individuo sea elegido, es conocida a priori, lo cual permite hacer
inferencias a la población que en caso de no serlo, no es posible.
Una muestra se dice que es extraída al azar cuando la manera de selección es tal, que cada elemento de la
población tiene igual oportunidad de ser seleccionado. Una muestra aleatoria es también llamada una muestra
probabilística son generalmente preferidas por los estadísticos porque la selección de las muestras es objetiva y el
error muestral puede ser medido en términos de probabilidad bajo la curva normal. Los tipos comunes de muestreo
aleatorio son el muestreo aleatorio simple, muestreo sistemático, muestreo estratificado y muestreo de
conglomerados.
Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene
igual probabilidad de ser seleccionada de la población. Para obtener una muestra aleatoria simple, cada elemento
en la población tenga la misma probabilidad de ser seleccionado, el plan de muestreo puede no conducir a una
muestra aleatoria simple. Por conveniencia, este método pude ser reemplazado por una tabla de números
aleatorios. Cuando una población es infinita, es obvio que la tarea de numerar cada elemento de la población es
infinita, es obvio que la tarea de numerar cada elemento de la población es imposible. Por lo tanto, ciertas
modificaciones del muestreo aleatorio simple son necesarias. Los tipos más comunes de muestreo aleatorio
modificado son sistemáticos, estratificados y de conglomerados.
Una muestra sistemática es obtenida cuando los elementos son seleccionados en una manera ordenada. La manera
de la selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de
elementos en la población es, primero, dividido por el número deseado en la muestra. El cociente indicará si cada
décimo, cada onceavo, o cada centésimo elemento en la población van a ser seleccionado.
El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar la
misma precisión de estimación acerca de la población, que una muestra aleatoria simple cuando los elementos en la
población están ordenados al azar.
Los elementos se seleccionan con un intervalo uniforme que se mide en el tiempo, en el orden o en el espacio, por
ejemplo si se quiere entrevistar a cada vigésimo médico de una planta en un hospital. Debemos cuidarnos que no
haya periodicidad (o un ciclo) en el listado, por ejemplo tomar una muestra en el tiempo y que caigan siempre por
ejemplo meses de invierno o verano con sus enfermedades típicas. Si listamos los miembros de 20 familias, por
ejemplo, de 1 a 4, y el 1 es el padre, podemos seleccionar por ejemplo el 4, 8,12, y siempre seleccionaremos al
padre lo que provocará un error sistemático indeseable.
Para obtener una muestra aleatoria estratificada, primero se divide la población en grupos, llamados estratos, que
son más homogéneos que la población como un todo. Los elementos de la muestra son entonces seleccionados al
azar o por un método sistemático de cada estrato. Las estimaciones de la población, basadas en la muestra
estratificada, usualmente tienen mayor precisión (o menor error muestral) que si la población entera muestreada
mediante muestreo aleatorio simple. El número de elementos seleccionado de cada estrato puede ser proporcional
o desproporcional al tamaño del estrato en relación con la población.
Este método es uno de los mejores y consiste en dividir a la población en subpoblaciones de gran homogeneidad
interna y de gran heterogeneidad externa. Da más precisión que el MAS pero es más caro. Se dice que es más eficaz
porque provee varianza menor que cualquier otro método de muestreo.
Para obtener una muestra de conglomerados, primero dividir la población en grupos que son convenientes para el
muestreo. En seguida, seleccionar una porción de los grupos al azar o por un método sistemático. Finalmente,
tomar todos los elementos o parte de ellos al azar o por un método sistemático de los grupos seleccionados para
obtener una muestra. Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual
probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisión de
las estimaciones acerca de la población) que una muestra aleatoria simple del mismo tamaño. Los elementos
individuales dentro de cada “conglomerado” tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir
en el mismo barrio, mientras que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en un
muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es, por lo tanto,
frecuentemente mayor que la obtenida si la población entera es muestreada mediante muestreo aleatorio simple.
Esta debilidad puede reducida cuando se incrementa el tamaño de la muestra de área.
El incremento del tamaño de la muestra puede fácilmente ser hecho en muestras de área. Los entrevistadores no
tienen que caminar demasiado lejos en una pequeña área para entrevistar más familias. Por lo tanto, una muestra
grande de área puede ser obtenida dentro de un corto período de tiempo y a bajo costo.
Por otra parte, una muestra de conglomerados puede producir la misma precisión en la estimación que una muestra
aleatoria simple, si la variación de los elementos individuales dentro de cada conglomerado es tan grande como la
de la población.
Muestreo por conglomerados: al revés del anterior, consiste en que las subpoblaciones sean internamente
heterogéneas y de gran homogeneidad entre los conglomerados. Es decir que cada conglomerado debe tratar de ser
representativo de la población
1. Cuando la población es infinita o suficientemente grande con lo cual el censo excede las posibilidades del
investigador, materiales, económicas, de tiempo, etc. Además el Muestreo sirve para controlar la eficiencia y
confiabilidad de los propios censos.
2. Cuando la población es lo suficientemente uniforme de manera que una muestra resulta fácilmente
representativa de la misma.
3. Cuando el proceso de medida o de investigación, implique la destrucción de las unidades tomadas para su
análisis, como es el caso de las pruebas destructivas de control de calidad.
4. Por razones económicas, cuando el censo resulte demasiado caro y cuando el censo no aporte mayor
información sobre una " buena muestra " que justifique al mayor costo.
5. Por razones de calidad, ya que más fácil lograr diseños de muestras altamente calificadas, por mejor
entrenamiento del personal, métodos de medición, mayor supervisión y control, etc.
Además del propio riesgo que implica tomar una muestra y no el todo, hay una serie de limitaciones en el uso del
muestreo a saber:
1. Cuando se necesita información sobre todos los elementos de la población, como seria el caso de pequeñas
poblaciones, donde el uso de las muestras pueden producir desconfianza en la población.
2. Otra limitación es el uso del Muestreo por parte de personas no calificadas, con lo cual se corre el riesgo
cierto de caer en sesgos (desviaciones), malos procedimientos, inferencias incorrectas, etc. El Muestreo
necesita de técnicas a veces sofisticadas que hacen necesario que sean profesionales responsables quienes las
diseñen.
Errores de muestreo
Toda población tiene su variabilidad interna (es decir diferencias entre sus integrantes) y para sacar conclusiones de
una muestra a la población (inferencia) es necesario tener en cuenta los errores que indefectiblemente se cometen,
llamados ERRORES DE MUESTREO, cuya determinación matemática se hace necesariamente para poder llevar a cabo
una investigación seria.
La fórmula que determina el tamaño de muestra necesario (*), RELACIONA el tamaño de la población (N), el valor de
la variabilidad interna, el nivel de confianza con el que desea trabajar (lo que hace que cuanto más grande sea ese
nivel más grande será la muestra) y el error de muestreo " aceptado".
A partir de la expresión (*) podemos conocer el tamaño muestral " n ", que es:
(*)
¿Por qué es mayor o igual y no solo igual? Porque si se cumplen las condiciones establecidas, por ejemplo, con n = 30,
con mayor razón, se cumplirán con una muestra superior a 30 (por las propiedades de los estimadores). s el
valor de la tabla normal, e es el error expresado en tasa que estamos dispuestos a tolerar y por supuesto que es
la D. Estándar poblacional que si fuera 0, significaría que NO HAY DISPERSIÓN ALGUNA EN LA POBLACIÓN, o sea que
todos los elementos son iguales y que la muestra debería ser cero, LO CUAL NO TENDRÍA SENTIDO, por lo cual si lo
tiene una muestra > 0, es suficiente que sea de tamaño 1.
1. Tamaño de la Población desconocida, valores de "p" proporción esperada de prevalencia de una enfermedad [2],
y de 1-P conocidos, trabajando con una confianza del 95% (tabla Normal) y un error de muestreo admitido del 3%. La
prevalencia de diabetes se estima en un 5%.
2. Población conocida de tamaño N = 15.000, valores de "p" proporción esperada de prevalencia de una
enfermedad, y de 1-P conocidos, trabajando con una confianza del 95% (tabla normal) y un error de muestreo
admitido del 3%. La prevalencia de diabetes se estima en un 5%.
3. Población con valores desconocidos de "p" proporción esperada de prevalencia de una enfermedad, y de 1-P
desconocidos, trabajando con una confianza del 95% (tabla normal) y un error de muestreo admitido del 3%. La
prevalencia de diabetes no se conoce y se toma como 0,50 siendo 1-p= 0,50 con lo cual el tamaño de la muestra es
máximo.
Tamaño muestral determinado para un error del 0,05, y p= 0,60, población de N= 8.000, confianza del 90% ( Zα =
1,645 de la Tabla Normal)
En una reciente encuesta política, un intendente que había logrado el 60% de apoyo en las últimas elecciones, para
calcular el tamaño n para realizar una investigación, se tomó ese valor como equivalente de p= 0,60, eligiendo el
90% de confianza (1,645 en la Tabla de la distribución Normal) y un error de muestreo del 5%, la muestra -como
vemos- es de n= 250 familias
Luego de tres semanas de labor, se logró entrevistar solo a 165 familias y se decidió suspender la toma de las
muestras. Con la cantidad de muestras efectivamente realizadas, n=165, el nivel del error máximo admitido, pasó
del 5% al 6,2%, muy por debajo del hasta 10% admitido en encuestas de este tipo. ¿Cómo determinamos ese valor de
0,062 a partir de poner como "dato" a 165 y despejar el error, de la manera siguiente:
Existen otros errores que se cometen al trabajar con muestras y que se llaman " ajenos al muestreo " y que pueden
ser sintetizados de la forma siguiente:
1. Sesgos de selección, cuando la muestra no es probabilística sino intencional o " dirigido "(el investigador
desea que sea representativa y recurre a su criterio o intención lo que no necesariamente garantiza que sea
así) o en el muestro " sin norma " (donde el investigador trabaja a la ventura por razones de comodidad - a la
salida de un cine para preguntar por ejemplo, sobre sus preferencias políticas)
4. Equivocaciones.
------------------------
Veamos un ejemplo.
Sean los datos de una población hipotética de niños de una escuela primaria a la cual se le quiere tomar datos sobre
su salud y se los seleccionará al azar usando el M. aleatorio sistemático y el M. Estratificado tomando los datos de
un listado de alturas.
O sea que elegimos al azar un número entre 1 y 12 y obtenemos 7; los valores a analizar del listado de N = 1.000
serán: 7, 19, 31, 43, etc.
2. Muestreo estratificado con afijación proporcional. Del listado de los 1.000 niños, se han dividido los mismos en
4 estratos del tamaño que se indican a continuación:
Estrato Ni ni
Totales 1.000 80
Los valores muestrales " proporcionales " lo son respecto del tamaño subpoblacional Ni, es decir, si la subpoblación
es del 10%, la muestra en ese estrato será también del 10%, y así sucesivamente.
3. No lo demostraremos, pero con la misma muestra de n= 80, la eficacia de este muestreo será muy superior a la
del muestreo aleatorio simple.
Del listado de los 1.000 niños, se han dividido a los mismos en 4 estratos del tamaño que se indican a continuación y
da la casualidad (ejemplo hipotético) que en cada estrato todos los niños miden lo mismo.
Estrato Ni ni
Totales 1.000 80
Veamos algo casi increíble: en el muestreo sistemático, tomaremos como corresponde una muestra de 80 niños del
listado de 1.000, pero en el Muestreo Estratificado, por efecto de la estratificación hecha con inteligencia, que
logró una gran homogenización interna y una gran homogenización externa, será suficiente tomar una muestra de
tamaño 1, en cada estrato, o sea que con una muestra total de n= 4, tendremos la misma información que la del
sistemático; ésta es obviamente una exageración, pero nos indica claramente el poder del muestreo estratificado,
cuando él es posible, cosa que no siempre lo es…
1. Tengamos una población de 3.400 comprobantes contables[3], ordenados y numerados en forma secuencial del
0001 al 3.400, perfectamente identificables. Necesitamos tomar una muestra de n=200.
Numero raíz y Razón de Muestreo: se divide el valor de N por el de n, o sea . Luego deberemos tomar
al azar un número entre 1 y 17, por ejemplo de la tabla de números aleatorios, y supongamos que sea el 12, que
denominaremos “número raíz” y k, “razón de muestreo”, que en este caso es 17.
De manera que del Marco de la Muestra de las 3.400 comprobantes, tomaremos la muestra de n = 200 de la manera
siguiente:
3. 29 + 17 = 46º
4. Y así sucesivamente hasta completar las 200, a condición que tengamos el listado completo de N de donde
seleccionar con seguridad los elementos poblacionales.
2. Supongamos una población de 20.000 ítems, de la que decidimos – prescindimos por ahora como elegimos el
tamaño- tomar una muestra de 200 ítems. Dividimos 20.000 por 200 y obtenemos un intervalo de 100 ítems.
2.1. En otras palabras, Ud. va a seleccionar cada 100° ítem. Pero recuerde que Ud. debe tener un comienzo al
azar. Ud. puede partir de las tablas al azar, buscando un número entre 1 y 100, de la tabla de dígitos al azar, y sin
mirarla y con la punta del lápiz marque un lugar en la página.
Supongamos que la punta del lápiz cayó en el número de línea 731, columna 10. Él primer número es el 80.763.
Nosotros estamos interesados en las tres primeras cifras (recuerde que estamos buscando un número entre 1 y 100)
y por lo tanto, 807 está fuera de la serie. Continuamos descendiendo la columna hasta encontrar el 047. Nuestro
primer número será por lo tanto 47. Así, seleccionaremos para nuestra muestra, los ítems 47º, 147º, 247º, 347º, etc.
2.2. Pero supóngase que estemos temerosos de alguna clase de arreglo en la población, y deseamos estar seguros
que no caeremos en una trampa causada por esa parcialidad. En ese caso, podemos hacer dos partidas al azar,
tomando cada 200° ítem después de cada comienzo.
Cuando los ítems a ser seleccionados están en tarjeteros que no pueden ser seleccionados por el empleo de tablas
de números al azar, el procedimiento más simple es usar una regla para medir los intervalos. Imaginemos una
población de cerca de 12.000 tarjetas y un tamaño de muestra de 240 tarjetas. Medimos las tarjetas y
determinamos el número de las mismas por centímetro. Admitamos que entren 150 tarjetas. Divida la población de
12.000 por el tamaño de la muestra de 240 y tendrá un intervalo de 50. Luego seleccionamos un número al azar de
entre 1 y 50 de la tabla de números al asar. Supongamos que ese número sea 30. Partiendo de la tarjeta 30°,
seleccionamos cada 50° tarjetas. Dado que 50 tarjetas miden alrededor de un tercio de centímetro (150 dividido
por 50), seleccionamos cada tarjeta que está a un tercio de centímetro de la primera selección. De paso,
midiendo las tarjetas, asegúrese de que las mismas están uniformemente acomodadas.
3. Deseamos seleccionar una muestra sistemática de 50 cuadras en una comunidad que tiene 500 cuadras en la
ciudad. Determinamos ahora a k: razón de muestreo
Después seleccionamos un número al azar entre 1 y 10, a partir de una tabla de dígitos al azar. Supongamos que ese
número sea 3, entonces la tercera cuadra, será la primera en la muestra, la segunda, será el número 13, la siguiente
el número 23 y así sucesivamente.
Esto asegurará que una muestra sistemática contenga cuadras de todas las partes de la ciudad (ventaja sobre el
muestreo aleatorio).
Ocasionalmente puede ser menos eficiente que el Muestreo Aleatorio Simple, esto es cuando la población se ordena
en cierto orden periódico. Como ejemplo, supongamos que todas las cuadras de la ciudad contienen 8 casas. Un
muestreo sistemático de cada octava casa podría contener solamente casas en las esquinas y éstas pueden tener
características diferentes respecto a las familias de la cuadra.
Se puede emplear fácilmente cuando se dispone de una lista de las unidades de la población, como por ejemplo, una
guía telefónica.
Selecciona una muestra más representativa que el Muestreo Aleatorio Simple, si los elementos cercanos de la
población se asemejan más entre sí, de los que se parecen a los que quedan distantes.
Tiene la desventaja de requerir la numeración u ordenamiento de los elementos de la población, lo cual podría ser
físicamente imposible si la población abarca todo un país o una zona geográfica considerable, es decir, si se trata de
una gran población.
Debido a que el método nos asegura una muestra regularmente espaciada, nos asegura una representación uniforme
de los elementos de la población, y permite una estimación más precisa de la media de la población, que una
tomada por el Muestreo Aleatorio Simple, salvo que las unidades k-ésimas que constituyen la muestra resulten
análogas o estén correlacionadas.
GENERALIDADES
Según lo visto hasta ahora, existen situaciones en las cuales no podemos realizar un estudio poblacional, ya sea
porque la población que desea estudiarse es, o muy grande, o infinita, o resulta difícil acceder a su conocimiento
total por diversos motivos, vinculados al costo o no.
Ello nos imposibilita el conocimiento de los parámetros. Es, entonces, que se recurre a la idea de estimar esos
valores. ¿Y cómo puede estimarse el valor de un parámetro?
Es necesario poseer alguna información sobre la población objetivo, ya que sería imposible intentar alguna
estimación sin información alguna de ella. Esta información está provista por la muestra, en base a la cual se
establecen “Estimadores” o “Estadísticos”, que servirán para proporcionar una idea de los valores posibles de esos
parámetros poblacionales desconocidos, a través de las estimaciones realizadas.
Entonces, diremos que los parámetros se estiman utilizando estadísticos muestrales.
Según hemos analizado, existen distintos tipos de muestreo, pero para aplicar la Teoría Estadística y extender las
conclusiones de la muestra hacia la población, todos ellos deben garantizar que cada elemento de la población
tiene igual probabilidad de ser elegido en la muestra que los demás.
El método para hacer la estimación recibe el nombre de ESTIMADOR, mientras que el resultado real obtenido de la
muestra seleccionada es la ESTIMACIÓN del parámetro.
Un Estimador, es un ESTIMADOR PUNTUAL de una característica de población, si proporciona un solo número como
estimación.
En correspondencia, la estimación se llama ESTIMACIÓN PUNTUAL porque la característica de población está
estimada con un solo número basado en la muestra.
La estimación puntual se contrasta con la ESTIMACIÓN POR INTERVALOS, que veremos más adelante, donde el
parámetro se estima situado entre dos límites para una confianza dada.
Las propiedades que debe poseer un buen estimador puntual se relacionan con la DISTRIBUCIÓN POR MUESTREO del
estimador, ya que como distribución de probabilidades indica qué tan lejos tiende a encontrarse la estimación
proporcionada por el estimador de la característica de la población que debe ser estimada.
Las propiedades de los buenos estimadores son:
1. Insesgabilidad
2. Consistencia
3. Eficiencia
4. Suficiencia
En resumen, son estimadores insesgados para los correspondientes parámetros, cualquiera sea la distribución:
Cualquier estimador puntual, aún cuando tenga todas las propiedades deseadas, tiene la limitación de que no
proporciona información acerca de la precisión de la estimación obtenida, esto es, de la magnitud del error debido
al muestreo.
Cuando analizamos la distribución por muestreo de , por ejemplo, se observó que el promedio basado en una
muestra aleatoria simple, puede tomar muchos valores diferentes, indicados en dicha distribución de . Además,
estos valores posibles de están agrupados en la distribución por muestreo de , alrededor de la verdadera
media de población, , y la mayoría de las caen a la derecha o a la izquierda de la media de población. Por lo
tanto, es bastante seguro que cualquier , es decir, cualquier estimación puntual, generalmente no proporcionará
el valor real de la media poblacional.
¿Qué valor, entonces, tiene la estimación puntual? Realmente tiene poco uso, a menos, que tengamos alguna
indicación sobre la precisión de la estimación, la que puede evaluarse por medio de la estimación de un intervalo,
que toma como punto de partida a la estimación puntual.
En esta sección definiremos el error de estimación y el riesgo de cometer un error superior a un determinado valor,
para luego analizar la relación entre ellos y el tamaño de la muestra.
En general, para el estimador media muestral la teoría estadística establece dos situaciones:
1. Cuando la muestra se selecciona aleatoriamente de una población con distribución normal, la variable
aleatoria media muestral responde a las características de la distribución normal de la población de la que
fue extraída
2. Cuando la muestra se selecciona aleatoriamente de una población sin distribución normal, la distribución de
la variable aleatoria media muestral se aproxima a la distribución normal a medida que el tamaño de la
muestra es aumentado.
Ejemplo
Supongamos una población que se distribuye normal, con media igual a 500 y desviación típica igual a 30. Tomamos
una muestra de 100 unidades y queremos conocer cuál es el riesgo de cometer un error de estimación de ,
superior a 6.
Resolución
Gráficamente:
La probabilidad, (o sea el riesgo) de que al efectuar la estimación puntual se cometa un error, en valor absoluto,
superior a 6, es decir:
(1) El riesgo es una función inversa de z: cuando ésta aumenta, el riesgo disminuye. Cuando z disminuye, el riesgo
aumenta.
(2) Si
Si z depende de los tres elementos mencionados y a su vez z mantiene relación con el riesgo, entonces el riesgo
también depende de esos elementos.
Analizaremos ahora las relaciones, teniendo en cuenta que cuando relacionamos a dos de ellos, el resto permanece
constante, de lo contrario no podríamos asegurar las conclusiones.
a. Riesgo
Partiendo de:
Deducimos que:
b. Error
Despejando de:
De donde deducimos que:
Tamaño de la muestra
Partiendo de:
Y despejando n, obtendremos:
La estimación por intervalos, consiste en obtener un cierto intervalo aleatorio [Li ; Ls], a partir de la estimación
puntual, considerando un cierto error de estimación, y un determinado grado de confianza que contiene al
parámetro que queremos estimar.
EJEMPLO ESPECIAL
Supongamos que obtenemos una estimación por intervalo de la media de la población en la siguiente forma:
seleccionamos una muestra aleatoria simple de la población y calculamos la media muestral . Después,
afirmamos que la media de la población se encuentra entre , siendo el primero, el límite
inferior del intervalo y el segundo, el límite superior del intervalo. ¿Cuáles son las implicancias de esta estimación
por intervalos?
Para responder, debemos referirnos a la distribución por muestreo de , puesto que estamos interesados en su
comportamiento.
Suponiendo que el tamaño de muestra es suficiente grande, la distribución de es aproximadamente normal con
.
Obsérvese que la escala de se encuentra en blanco, pues sólo conocemos a partir de la teoría estadística, que la
E ( )= , pero no conocemos el valor de .
Debajo de la escala se encuentra la escala z, que indica la distancia desde la media, en unidades de desviación
estándar de .
Recordemos que:
~ N (0,1)
Así, +1 en la escala z, significa que este punto se encuentra 1 arriba de la media de la distribución de muestreo
de , que es ; +2 en la escala z, indica que este punto se encuentra arriba de , y así sucesivamente.
Si usamos la estimación por intervalos para estimar , la estimación particular por intervalos obtenida sobre la
base de una muestra aleatoria simple, depende de la localización de en la distribución de todas las posibles.
La gráfica indica cinco posibles posiciones en las cuales obtenida de una muestra particular, podría caer en la
distribución por muestreo de .
Supongamos que el valor de corresponde a la posición 1º . Aquí, la estimación del intervalo estaría
indicada por el segmento centrado en , en la posición 1. Los límites del intervalo se obtienen agregando a la
longitud que representa , obtenida de la escala z y restando de la longitud que representa . Los límites
obtenidos en esta forma corresponden entonces a y , que es el intervalo estimado que queríamos
encontrar.
Nótese que este intervalo cubre la media de la población . Luego, si la media de la muestra cae en la posición 1º,
el intervalo incluirá a , y la aseveración de que se encuentra dentro del intervalo será correcta.
Supongamos que la media de la muestra cae en la posición 2º, luego los límites son construidos alrededor
de localizada en la posición 2. Nuevamente está dentro del intervalo. Lo mismo ocurre para el caso en que
se localiza en la posición 3º y 4º.
Sí. Puesto que los límites se obtienen sumando y restando , el intervalo no incluirá a , siempre que
caiga mas allá de tres desviaciones estándar de la media , es decir, siempre que caiga arriba de +3 o
debajo de -3 en la escala z, situación que ocurre cuando cae en la posición 5º.
Entonces, la declaración, “el valor de la media se encuentra en algún punto entre ”, será correcta si la media de la
muestra cae a una distancia menor que de la media de la población.
La distribución de es aproximadamente normal, así que sabemos que la probabilidad de que caiga a menos de
de la media de la distribución por muestreo de que es igual a , es 0,997.
Así pues, si tomamos un gran número de muestras aleatorias simples, suficientemente grandes, calculamos el
intervalo para cada una y en cada caso declaramos que la media de la población se encuentra dentro del
intervalo, alrededor del 99,7 % de estas aseveraciones serán correctas.
La estimación del intervalo para la media μ puede escribirse más formalmente en la siguiente forma:
Este intervalo recibe el nombre de: intervalo de confianza para la media de la población.
Y la probabilidad de una aseveración correcta, en este caso 0,997, recibe el nombre de "coeficiente de confianza o
nivel de confianza", si se expresara en términos de porcentaje, es decir, 99,7%.
INTERVALO DE CONFIANZA PARA ESTIMAR LA MEDIA. USO DE LA DISTRIBUCIÓN NORMAL Y “t” DE STUDENT.[4]
Seguiremos para determinar la distribución aplicable, la siguiente regla:
desconocida desconocida
“t” de Student -------------------
Es frecuente que para estimar un parámetro se utilice el estimador análogo. Así, para estimar la media poblacional
μ, utilizaremos la media muestral .
Cuando la población es normal , la media muestral , tiene una distribución normal y lo mismo
El estadístico , con distribución conocida, generalmente tabulada, que se utiliza para estimar la media
poblacional es:
Si la varianza poblacional es conocida, la expresión anterior es una Normal (0,1)[6], pero si es desconocida
hay que estimarla con los datos de muestra, mediante:
es el cociente de dos variables aleatorias, y en consecuencia no tiene distribución normal, salvo que n sea grande,
porque entonces adquiere valores próximos a .
~ N pues
~ N (0,1)
, es decir
Gráficamente:
Reemplazando:
Este enunciado de probabilidad declara que si se toman de la población muchas muestras aleatorias de tamaño n, y
para cada una se hace la aseveración:
(1-α)% de estas aseveraciones serán correctas.
Recordemos que:
Luego:
La amplitud del respectivo intervalo aleatorio {L1, Ls} depende del nivel de confianza , de la varianza
poblacional conocida y del tamaño de la muestra. El intervalo tiene siempre la misma amplitud, mientras no se
modifique el nivel de confianza, ni el tamaño de la muestra.
Como síntesis, diremos, que para reducir la amplitud de un intervalo de confianza y en consecuencia, aumentar su
precisión, debemos reducir el error estándar de la media muestral que es . Esto puede lograrse, solamente,
disminuyendo la variabilidad de los datos, ya sea homogeneizando el material ó, si esto no puede llevarse a cabo,
aumentando el tamaño de la muestra.
Gráficamente:
Reemplazamos:
c- Nivel de error: ± = ± = ± 0,65
Interpretación: Por cada 100 intervalos construidos, 95 contendrán al verdadero valor del parámetro, y 5 no lo
contendrán. "Confiamos" (de allí que se hable de intervalo de confianza), en que el intervalo construido, sea uno de
los 95, pero corremos el riesgo de que sea uno de los 5 que no contiene al verdadero valor del parámetro. Es decir,
existe un riesgo del 5%.
En caso de muestreo sin reposición, las desviaciones llevarán el factor de corrección de poblaciones finitas,
planteándose:
~ N pues
~ N (0,1)
y el intervalo:
Medidas de Posición
Media Aritmética
Recorrido
Se expuso cómo podían ser reducidos los datos muestrales o poblacionales a forma compacta, comprensible y
comunicable por la distribución de frecuencias. Esto no es sólo un método para organizar datos, sino también una
medida descriptiva del modelo de distribución de una variable. Realmente, puede ser considerada como un
conjunto de medidas descriptivas, porque cada número que muestra la frecuencia (o densidad) de observaciones de
una clase es una estadística. Pero a menudo se necesitan medidas descriptivas en forma de números que pueden
concentrar mejor la atención en varias propiedades de un conjunto de datos que se investiga.
Si estas medidas de resumen descriptivas se calculan con una muestra de datos se llaman estadísticos",
"estadísticas" ó "estadígrafos". Si estas medidas descriptivas se calculan a partir de toda una población de datos, se
llaman parámetros.
Estadísticas y parámetros son calculados con las mismas ecuaciones, por lo tanto convendremos:
1. Las variables que corresponden a una población se representarán por mayúsculas, tales como X, Y, Z; y las
que corresponden a una muestra por letras minúsculas, tales como x, y, z.
3. Los parámetros se representarán con letras mayúsculas, tales como para la media de población; mientras
que las estadísticas por letras minúsculas, tales como para la media de la muestra.
En Resumen
Variables X, Y, Z x, y, z
Cantidad de Observaciones N n
Media
Como por lo general, trabajaremos con muestras en vez de utilizar poblaciones, la preferencia será por los
estadísticos.
En términos de análisis estadístico y de aplicación, nos interesan cuatro propiedades básicas, que a menudo son
suficientes para caracterizar las distribuciones de frecuencias de datos univariables:
Desarrollaremos seguidamente, cada una de estas medidas, para el caso de trabajar con muestras, recordando que
para la población tendrán el mismo tratamiento, sólo que utilizaremos letras mayúsculas.
Medidas de Posición
Son valores típicos, en el sentido que se emplean para representar a todos los valores individuales de una serie ó de
una variable. No pasan de ser un valor más de la variable, por lo tanto, tendrán las mismas dimensiones que ella.
Deberán tenerse en cuenta los siguientes aspectos:
b. Debe basarse en todas las observaciones, de lo contrario no sería una característica de toda la distribución.
Media Aritmética
Se define y calcula dividiendo la suma de los valores de la variable por el número de observaciones.
La simbolizaremos:
Población
M(X) =
Muestra
M(x) =
Formas de Cálculo:
Ejemplo:
Utilizaremos el mismo ejemplo dado para series simples. Sea n = 10, siendo xi = número de hijos por familia
Interpretación: En promedio hay 1,6 hijos por familia (entre 1 y 2 hijos por familia)
b. Datos Agrupados
b.1.1.
b.1.2.
Ejemplo
yi ni hi yi ni yi hi
0 1 0,10 0x1= 0 0x0,10= 0
1 4 0,40 1x4= 4 1x0,40= 0,40
2 3 0,30 2x3= 6 2x0,30=0,60
3 2 0,20 3x2= 6 3x0,20=0,60
10 1 16 1,60
Utilizando:
b.1.1.
ó bien,
b.1.2.
Los resultados que se obtienen con a) y b) son idénticos, lo cual es lógico ya que en el caso de la tabla de
distribución de frecuencias, lo único que se hace es agrupar aquellos valores que se repiten: (a) series simples, es un
caso particular, donde ni es igual a 1.
b.2. Distribuciones de Frecuencias de Variables Continuas
b.2.1.
b.2.2
Ejemplo
20 1,00 1420 71
Entonces:
años
años
Propiedades de la media aritmética
1. La suma de las desviaciones con respecto a la media aritmética, es igual a 0, cualquiera sea la distribución.
Cuando decimos sumas, es necesario considerar las desviaciones tantas veces como se presenten.
Ejemplo
0 1 -1,60 -1,60
1 4 -0,60 -2,40
2 3 0,40 1,20
3 2 1,40 2,80
10
2. La suma de los cuadrados de las desviaciones es mínima cuando dichas desviaciones son obtenidas con
respecto a la media aritmética.
Ejemplo
Consideraremos a= 1 y = 1,6
0 1 -1,60 2,56 -1 1
1 4 -0,60 1,44 0 0
2 3 0,40 0,48 1 3
3 2 1,40 3,92 2 8
10
3. La media de una población es igual a la media ponderada de las muestras, siendo las ponderaciones los
tamaños de dichas muestras.
Ejemplo
0 1
1 4
2 3
3 2
10
Donde = 1,6 es la media poblacional para n=10, media aritmética ponderada. Supongamos,
además, que tomamos dos muestras de tamaño 4 y 6 respectivamente, siendo sus medias
Entonces:
1,60
M(k) = k
Si yi = k → =k
i=1,2,...,n
Ejemplo
yi = 6,6,6,6,6
6 5 30
30
5. La media aritmética del producto de una constante por una variable es igual al producto de la constante por
la media aritmética de la variable.
M(y k) = k
Ejemplo
Salarios
200 4 800
300 4 1200
400 2 800
10 2800
Calculamos:
400 4 1600
600 4 2400
800 2 1600
10 5600
Y calculamos:
Entonces la media de esta nueva variable es igual a 560, resultado al que arribamos por aplicación de la propiedad:
6. Se puede utilizar para estimar una cantidad total en una población. Por ejemplo, la tarifa media de salario
por hora para una muestra de n=6 secretarias ejecutivas es de $8,00. Si en esta compañía, hay 200
secretarias, el costo total por hora de la mano de obra secretarial se calcula como:
7. Su cálculo se basa en cada observación, por lo tanto la media se ve afectada por cualquier valor o valores
extremos.
Ejemplo
Se observa, que un solo valor extremadamente pequeño da por resultado una gran reducción en . Por supuesto,
ocurriría el caso inverso si el valor extremo fuera mucho mayor que las otras observaciones.
Los parámetros o estadígrafos de posición no son suficientes para caracterizar totalmente una cierta distribución de
frecuencias, ya que los valores incluidos en un grupo de datos en general varían significativamente en magnitud; es
decir, algunos de ellos son pequeños y otros grandes, estableciéndose lo que se llama dispersión o concentración de
los valores. Dos o más conjuntos de datos pueden diferir tanto en tendencia central como en dispersión o pueden
tener las mismas medidas de tendencia central, pero pueden tener grandes diferencias de dispersión.
Ejemplo
A) B) c)
Las figuras A, B y C, si bien son iguales en cuanto a su promedio, los datos en C) están más concentrados alrededor
del promedio que la figura B) y los de ésta más que los de la figura A), o dicho de otro modo, los datos de la figura
A) están más dispersos que los de la figura B) y éstos más que los de la C).
2. Es utilizada como complemento de la medida de posición para caracterizar un conjunto de datos o para
compararlos con respecto a otro conjunto cualquiera. Cuando la dispersión es grande, el promedio tiene muy
poca significación, en cambio si la dispersión es baja, es decir los datos están muy concentrados alrededor el
promedio, éste se vuelve altamente significativo, ya que en este caso la medida de posición corresponde a un
valor muy representativo del conjunto.
También llamado Amplitud o Campo de Variación, es la medida más simple y más bruta de dispersión.
Se define como la diferencia entre el mayor y el menor de los valores observados. Es una medida de dispersión ya
que está basada en las posiciones de ciertos elementos.
Lo simbolizaremos: R
Formas de cálculo:
b. Datos Agrupados
Se ve muy influenciado por valores no usuales de los datos. Si aparece un valor fuera de lo común ya sea muy
grande o muy pequeño, no es posible utilizarlo como medida de dispersión, porque su resultado está
deformado por estos valores fuera de serie.
No es una medida de dispersión de los datos intermedios con relación al valor típico.
A pesar de sus numerosas deficiencias, puede ser usado muy provechosamente como medida de dispersión para
muchos fines:
En situaciones en las que se desea conocer sólo la extensión de la dispersión extrema en condiciones
ordinarias. Si el dato máximo o mínimo no es usual, la amplitud no revela nada acerca de la distribución
ordinaria de los datos.
Ejemplo. Los informes de mercado de acciones se expresan frecuentemente en términos de su amplitud, cotizando
precios altos y bajos de acciones durante un período de tiempo. Cuando no se producen movimientos excepcionales
de los precios de las acciones, la amplitud cotizada puede medir la variación ordinaria. Pero, cuando ocurren
movimientos excepcionales, la amplitud revela los efectos de condiciones trastornadoras temporales en el mercado.
La simbolizaremos:
Población
V(X)=
Muestra
V(x)=
y , en datos agrupados, cualquiera sea la distribución. El que esta media valga 0, se debe a las
compensaciones de las desviaciones positivas con las negativas. Esta compensación, ya fue evitada considerando el
valor absoluto de las desviaciones.
La otra forma de evitar las compensaciones es tomar una potencia par para dichas desviaciones, que al ser la
potencia 2, se transforma en la varianza, haciendo uso de esta manera de la propiedad de los mínimos cuadrados de
la media:
por lo cual, como medidas de las diferencias promedio al cuadrado en torno a la media, la varianza y la desviación
estándar, deben ser menores que cualquier otra medida de diferencias promedio al cuadrado en torno a cualquier
otro indicador de tendencia central. Dado que en el cálculo precedente, se elevó al cuadrado la diferencia,
entonces, ni la varianza, ni la desviación estándar, podrán ser nunca negativas. La única ocasión en que la varianza
y la desviación estándar son iguales a 0, se presenta cuando cada observación es exactamente la misma. Formas de
cálculo:
Datos Agrupados
2. Obtener las desviaciones de cada valor de la variable con respecto a la media aritmética
4. Obtener la suma del cuadrado de las desviaciones (multiplicada por ni para el caso de datos agrupados).
Como puede observarse el cálculo de la varianza a través de esta fórmula definicional es tedioso, además de
insumir tiempo, sobre todo, si trabajamos con una gran cantidad de datos y el cálculo es manual. Para obviar estas
dificultades, puede utilizarse la llamada fórmula de cálculo rápido o método abreviado.
Introduciendo la sumatoria:
Recordamos que la sumatoria de una constante por una variable es la constante por la sumatoria de la variable. Así,
en el segundo término del numerador 2 y son constantes. La media de una muestra, es, para la muestra, una
constante.
Luego:
, reemplazando:
Entonces:
Ejemplo. Sean: n = 10. xi = número de hijos por familia = 2, 1, 3, 1, 2, 1, 3, 0, 2, 1
Obtenemos
Luego reemplazamos:
b. Datos Agrupados
que corresponde a la fórmula, a partir de la cual, y realizando igual procedimiento que para series simples,
arribamos a:
Ejemplo
o bien
Desviación Estándar
También llamada Desviación Típica ó Desviación Cuadrática Media. Se define como el valor positivo de la raíz
cuadrada de la Varianza.
La simbolizaremos:
Esta medida ha sido definida con el fin de hacer comparable su resultado o valor con los valores de la variable,
dado que en el caso de la Varianza, por ser su valor de un orden superior a los valores de la variable, debido a que
es un promedio de cuadrados, no es comparable. A los fines de reducir dicho valor a la misma dimensión que los
valores de la variable, se le extrae la raíz cuadrada y se define la Desviación Estándar. Mide, al igual que la
Varianza, el grado de dispersión de los valores de la variable, con respecto al promedio. Ninguna, Varianza y
Desviación Estándar, tiene una interpretación intuitivamente obvia. Cuando comparamos dos o más conjuntos de
datos cuyas unidades de medición son idénticas, podemos decir que una muestra tiene un menor grado de dispersión
que otra, si la primera tiene una menor Varianza, ó Desviación Estándar. Sin embargo, dudaríamos de hacer una
declaración precisa acerca de un conjunto de datos cuando se da un valor específico de una u otra medida.
Formas de Cálculo:
b. Datos Agrupados
Media
Variable Natural
Variable Desvío
Vamos a definir ahora, a la variable desvío tipificada o estandardizada, que simbolizamos y definimos por:
Nos interesa la posibilidad que existe de llevar todas las distribuciones de distintas variables a una única escala de
valores relativos, que por ser tales pierden ya sus respectivas unidades de medida y pasan a ser valores abstractos,
y como consecuencia, podrán ser analizadas con una única distribución de probabilidad, como modelo teórico
explicativo, que es la conocida Distribución Normal Estandardizada, que veremos más adelante.
Ejemplo:
En ambos casos, el valor desvío estandarizado es igual a 1, por lo tanto, dos observaciones tendrán la misma
probabilidad de presentación dentro de sus distribuciones respectivas.
Al cociente de un valor aislado de la variable menos la media, dividido por la desviación estándar se le llama
Puntaje Típico. Es una desviación relativa, a la que se llama desvío estandarizado.
[3] Listas de cheques numerados, de socios de un club por número de orden, facturas numeradas secuencialmente,
registro de estudiantes, número de artículos que se producen secuencialmente y se les asigna un número
consecutivo, etc.