Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correo: florenciapizzarulli@gmail.com
Programa: Estadística básica para Economía y Administración
Diploma y/o Carrera: Diplomatura en Economía y Administración / Diplomatura en Ciencias Sociales
Curso: Estadística básica para Economía y Administración
Profesora: Florencia Pizzarulli
Carga horaria semanal: 4 horas áulicas y 2 hora extra-áulicas.
Horas de consulta extra-clase: a definir.
Créditos: 10
Núcleo al que pertenece: Núcleo Obligatorio (Diplomatura en Economía y Administración/ Electivo
(Diplomatura en Ciencias Sociales).
Tipo de asignatura: Teórico-práctica
Clase 1. Definiciones y conceptos fundamentales en la Estadística para
economía y administración.
• Etapas de investigación.
• Fuentes y objetivos.
• Universo y muestras.
• Encuestas y censos.
Mes Contenidos
PROBABILIDAD BÁSICA
Segunda parte:
LA DISTRIBUCIÓN NORMAL
DISTRIBUCIONES MUESTRALES
🡪 La estadística es una rama de la matemática que, si bien es utilizada desde la antigüedad, su uso moderno se ubica
alrededor del siglo XVI, XVIII y se lo relaciona con las necesidades de organización y control de poblaciones de los
nacientes Estados.
🡪 Nación en Europa. Conocer la cantidad de habitantes, sus tasas de mortalidad, medir los efectos de epidemias como la
fiebre amarilla, etc. fueron algunos de los usos asociados en ese entonces a la Estadística.
🡪 A partir de allí, se constituye como una disciplina que irá diversificándose en sus usos, campos de aplicaciones, y a
medida que avanza el desarrollo tecnológico, aumentarán también las técnicas y aplicaciones posibles.
¿Para qué se usa la estadística?
Contaduría:
Auditorías en base a subconjuntos
o muestras.
Elementos o unidades de análisis : son las entidades de las que se obtienen los datos. Ej: cada estudiante
Ejemplos de variables son el género al que usted pertenece, su especialidad o campo de estudio, la cantidad de dinero
que tiene en su cartera y el tiempo que le toma alistarse por la mañana para ir a la escuela. El aspecto esencial de la
palabra variable es la idea de que las cosas difieren (…). Se debe distinguir entre una variable, como el género, y su valor
para una observación individual (por ejemplo, “masculino”).
Todas las variables deben tener una definición operacional, es decir, un significado universalmente
aceptado que sea claro para todos aquellos que estén relacionados con el análisis. La falta de definiciones
operacionales genera confusión.
POBLACIÓN
La población consiste en todos los miembros de un grupo acerca de los cuales se desea obtener
una conclusión.
MUESTRA
Una muestra es una parte de la población seleccionada para análisis.
PARÁMETRO
Un parámetro es una medida numérica que describe una característica de la población.
ESTADÍSTICO
Un estadístico es la medida numérica que describe alguna característica de la muestra.
La estadística se divide en dos ramas:
La estadística descriptiva se enfoca en la recolección, resumen y presentación de un conjunto de datos. Se ocupa de
trabajar con conjuntos de datos grandes, que en general no se puede realizar “a simple vista”. Es por esto que esta rama
se encarga de organizar y resumir datos para poder analizarlos, interpretarlos y presentarlos, comunicarlos. Se utiliza
tanto para una población como muestra.
Ejemplo: yo, su profesora de EBpEyA calculó la calificación promedio de ustedes. Como la estadística describe el
desempeño del grupo, pero no hace ninguna generalización acerca de los diferentes grupos, podemos decir que estoy
usando estadística descriptiva. Las gráficas, tablas y diagramas que muestran los datos de manera más clara y elocuente
son ejemplos de estadística descriptiva.
La estadística inferencial utiliza datos de las muestras para obtener conclusiones acerca de cierta población.
Al grupo grande de elementos en un determinado estudio se le llama población y al grupo pequeño muestra. Los
fundamentos de la estadística inferencial se basan en las matemáticas de la teoría de la probabilidad.
Ejemplo: Suponga que ahora decido utilizar el promedio de calificación de un grupo en una unidad para estimar la
calificación promedio del grupo en las diez unidades del curso. El proceso de estimación de tal promedio sería un
problema concerniente a la estadística inferencial. Cualquier conclusión a la que llegue sobre el promedio del grupo en
las diez unidades del curso estará basada en una generalización que va más allá de los datos de la unidad evaluada, y
ésta puede no ser completamente válida, de modo que la profesora debe establecer qué posibilidad
RECOLECCIÓN DE DATOS
Los datos son medidas que se obtienen de los elementos de una muestra, y las muestras se toman de la población, de tal forma que
sean lo más representativas posible. La técnica más común para asegurar una representación adecuada es usar una muestra aleatoria
• Los que proporciona una organización o un individuo. Las organizaciones e individuos que recolectan y publican datos,
generalmente los utilizan como fuente primaria y después permiten a otros usarlos como fuente secundaria
• Un experimento diseñado. Conducir un experimento es otra fuente importante de recolección de datos. Por ejemplo, para probar la
efectividad de un detergente, un experimentador determina qué marcas son más eficientes para dejar limpia la ropa sucia, lavándola
directamente, en lugar de preguntar a los clientes qué marca creen que sea más eficaz
• Una encuesta. Las respuestas posteriormente se editan, codifican y tabulan para su análisis.
• Un estudio observacional. En este estudio, el investigador observa el comportamiento de forma directa, generalmente en su
ambiente natural. Los estudios observacionales tienen muchas formas en los negocios. Un ejemplo de ellos es el grupo focal, una
herramienta de investigación de mercado que se utiliza para provocar respuestas no estructuradas ante preguntas abiertas.
• Cuando el recolector de datos es quien los usa para el análisis, la fuente es primaria.
• Cuando una organización o individuo han compilado los datos que utiliza otra organización o individuo, la
fuente es secundaria.
Tipos datos
Los datos son los valores observados de las variables, y existen dos tipos de variables:
• Las variables categóricas o cualitativas producen respuestas categóricas, tales como sí o no.
• Las variables numéricas o cuantitativas producen respuestas que se expresan con números. La variables
numéricas se separan en dos tipos:
• Las variables discretas producen respuestas numéricas que surgen de un proceso de conteo.
Ej: ¿cuantas materias esta cursando? La respuesta es un número entero. No tiene ambigüedades.
• Las variables continuas producen respuestas numéricas que surgen de un proceso de medición.
Ej: estatura porque la respuesta toma cualquier valor dentro de un valor continuo o intervalo,
dependiendo de la precisión del instrumento que se utilice para medir.
A practicar:
DADOS LOS SIGUIENTES ENUNCIADOS DETERMINAR, DE SER POSIBLE, POBLACIÓN, TAMAÑO DE LA
MUESTRA, UNIDAD DE ANÁLISIS, VARIABLE Y CATEGORÍAS.
A) SUPONGAMOS QUE AL DUEÑO DE UN NEGOCIO LE INTERESA AVERIGUAR SI SUS CLIENTES
CONSIDERAN QUE SON BIEN ATENDIDOS, PARA ESTO, ESTÁ PLANEANDO ENTREVISTAR A 100 DE ELLOS Y
CONSULTARLES SOBRE LA ATENCIÓN RECIBIDA CALIFICÁNDOLA EN MUY BUENA, BUENA, REGULAR O
MALA.
B) DE UNA PRODUCCIÓN DE 1000 TUERCAS SE EXTRAEN 40 Y SE MIDE SU DIÁMETRO.
C) EL JEFE DE PERSONAL DE UNA FÁBRICA REALIZA UNA ACTUALIZACIÓN DE UN REGISTRO DONDE
CONSTA LA ANTIGÜEDAD DE CADA OPERARIO PARA DETERMINAR EL MONTO A PAGAR
CORRESPONDIENTE POR DICHO CONCEPTO.
D) EN UNA EMPRESA SE REGISTRA EL NIVEL DE EDUCACIÓN DE TODOS SUS EMPLEADOS.
E) UN INVESTIGADOR EDUCATIVO QUIERE EVALUAR LA EFECTIVIDAD DE UN MÉTODO PARA ENSEÑAR A
LEER A ESTUDIANTES DE UNA ESCUELA DE SORDOS. PARA ELLO TOMA UN GRUPO DE 30 ALUMNOS
ELEGIDOS AL AZAR. EL APROVECHAMIENTO AL FINAL DE UN PERÍODO DE ENSEÑANZA SE MIDE CON EL
RESULTADO (MALO, REGULAR O BUENO) DEL ESTUDIANTE EN UN EXAMEN DE LECTURA
Respuestas:
Proponer un sistema de categorías e indicar el nivel de medición de las
siguientes variables.
A) UN PROFESOR DE MATEMÁTICA CONTABILIZA LA CANTIDAD DE ALUMNOS QUE APROBARON LA MATERIA POR CURSO, EN
CADA UNO DE LOS 7 CURSOS QUE DICTÓ EN EL ÚLTIMO CUATRIMESTRE. LOS CURSOS POSEEN A LO SUMO 50 ALUMNOS.
B) SE MIDEN LOS CONSUMOS MENSUALES EFECTUADOS CON TARJETA DE CRÉDITO POR 100 PERSONAS.
C) EN UNA ENCUESTA POLÍTICA SE INDAGA A 500 INDIVIDUOS SOBRE EL CANDIDATO AL QUE VOTARÍAN EN LAS PRÓXIMAS
ELECCIONES. ADEMÁS SE REGISTRA EL GÉNERO Y EL NIVEL SOCIOECONÓMICO DE LOS ENCUESTADOS.
D) UNA EMPRESA DECIDE LANZAR AL MERCADO UNA NUEVA GASEOSA DIET, PERO PREVIAMENTE DECIDE DETERMINAR EL
NIVEL DE ACEPTACIÓN DEL NUEVO PRODUCTO. CON TAL FIN, UN GRUPO DE 50 PANELISTAS EFECTÚAN UNA DEGUSTACIÓN
DEL NUEVO PRODUCTO Y LUEGO COMPLETAN LA SIGUIENTE ENCUESTA:
1- OTORGUE UN PUNTAJE DE 0 A 10 AL SABOR DE LA GASEOSA QUE PROBÓ
2- ¿CON QUÉ FRECUENCIA COMPRARÍA LA GASEOSA EN CASO DE QUE SE LANCE AL MERCADO? NO LA COMPRARÍA
UNCA LA COMPRARÍA OCASIONALMENTE LA COMPRARÍA FRECUENTEMENTE
Respuestas:
a) CANTIDAD DE ALUMNOS QUE APROBARON LA MATERIA EN CADA CURSO. CUANTITATIVA DISCRETA.
[ALUMNOS]. INDIVIDUO=CURSO (N=7 CURSOS DE 50 ESTUDIANTES)
B) CONSUMOS MENSUALES DE TARJETA DE CRÉDITO POR PERSONA. CUANTITATIVA CONTINUA. $/PERSONA.
INDIVIDUO=PERSONA MUESTRA. (N=100)
C) 1. CANDIDATO QUE VA A VOTAR. CUALITATIVA NOMINAL. INDIVIDUO=ENCUESTADO. MUESTRA (N=500).
2. GÉNERO. CUALITATIVA NOMINAL. INDIVIDUO=ENCUESTADO. MUESTRA (N=500). 3. NIVEL
SOCIOECONÓMICO. CUALITATIVA ORDINAL. INDIVIDUO=ENCUESTADO. MUESTRA (N=500).
A) 1. NIVEL DE AGRADO CON EL SABOR. CUALITATIVA ORDINAL. INDIVIDUO=PANELISTA. MUESTRA (N=50)
B) . 2. INTENCIÓN DE COMPRA. CUALITATIVA ORDINAL. INDIVIDUO=PANELISTA. MUESTRA (N=50).
ClASE 2
A. Planear la búsqueda y obtención de la información. Es la etapa del diseño de la investigación, en la que se define
cómo se llevará a cabo, a fin de responder a las preguntas planteadas. Aquí se define cuál es la población objetivo,
cuáles serán los métodos de selección de las muestras, cuántos individuos las integrarán, etcétera.
B. Organizar y sistematizar la información para su descripción y análisis. Es la etapa del resumen y exploración de
datos, cuando se confeccionan gráficos, diagramas para presentar la información recolectada, o se diseñan índices
de resumen de los datos.
Frecuencia relativa y de frecuencia porcentual: proporción o porcentaje de elementos en cada clase. La frecuencia
relativa de una clase es igual a la parte o proporción de los elementos que pertenecen a cada clase.
• Número de clases: Las clases se forman especificando los intervalos que se usarán para agrupar los datos. La idea
es tener las clases suficientes para que se muestre la variación en los datos, pero no deben ser demasiadas si
Algunas de ellas contienen sólo unos cuantos datos. Se recomienda emplear entre 5 y 20 clases . Cuando los datos
son pocos, cinco o seis clases bastan para resumirlos.
• Ancho de las clases: Como regla general es recomendable que el ancho sea el mismo para todas las clases. Así, el ancho
y el número de clases no son decisiones independientes. Entre mayor sea el número de clases menor es el ancho de
las clases y viceversa. Para determinar el ancho de clase apropiada se empieza por identificar el mayor y el menor de
los valores de los datos:
Ancho aproximada de clase: Valor mayor en los datos - Valor menor en los datos
Número de clases
• Límites de clase: deben elegirse de manera que cada dato pertenezca a una y sólo una de las clases. El límite de clase
inferior indica el menor valor de los datos a que pertenece esa clase. El límite de clase superior indica el mayor valor de
los datos a que pertenece esa clase.
Una vez determinados números de clases, ancho y límites de las clases la distribución de frecuencia se obtiene
contando el número de datos que corresponden a cada clase
Una tabla de clasificación (o contingencia) cruzada presenta los resultados de dos variables categóricas. Las respuestas
en conjunto se clasifican de tal manera que las categorías de una variable se localizan en las filas, y las categorías de la
otra variable se localizan en las columnas. En resumen, mide las relaciones causales.
Cuenta de Nombre
completo del
usuario Etiquetas de columna
No tengo empleo Por el momento no tengo empleo Trabajo entre 10 y 40 Trabajo hasta Total
remunerado, y no estoy en remunerado, pero estoy en la horas semanales 10 horas genera
la búsqueda. búsqueda. semanales. l
Etiquetas de fila
Femenino 6 9 2 17
Masculino 2 4 2 1 9
Total general 2 10 11 3 26
Diagramas de dispersión y series de tiempo.
Los diagramas de dispersión se suelen utilizar para analizar posibles relaciones entre dos variables numéricas. Coloque una
variable en el eje horizontal X y la otra variable en el eje vertical Y
EJEMPLO
Tabla 2
Habitantes de la Provincia de Buenos Aires de entre 20 y 24 años según
nivel educativo alcanzado
• Tendencia central, es la medida que describe cómo todos los valores de los datos se agrupan
en torno a un valor central.
La mayoría de los conjuntos de datos presentan una tendencia central a agruparse en torno a un valor central.
Cuando “la gente” habla de un “promedio”, o “valor medio”, o del valor “más común o frecuente”, se refiere de manera
informal a la media, la mediana y la moda, tres medidas de tendencia central.
La medida de localización más importante es la media, o valor promedio, de una variable. La media proporciona una
medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota X; si los datos
son datos de una población, la media se denota con la letra griega μ (Mu).
La media se calcula sumando todos los valores del conjunto de datos y dividiendo el resultado por el número de
valores considerados.
Ejemplo: una empresa que utiliza tres niveles de trabajo —no calificado, semi-calificado y calificado— para la producción de
dos de sus productos finales
🡪 La empresa desea saber el promedio del costo de trabajo por hora para cada uno de los productos
Para el producto 1 🡪 el costo total del trabajo por unidad es ($5 x 1) + ($7 x 2) + ($9 x 5) = $64
y como se invierten ocho horas de trabajo, el costo promedio de mano de obra por hora es $64/8 🡪 $8.00.
Para el producto 2, el costo total del trabajo por unidad es ($5 x 4) ($7 x 3) ($9 x 3) $68 🡪 para un costo promedio de mano
de obra por hora de $68/10 🡪 $6.80.
Así, vemos que los promedios ponderados dan el valor correcto para los costos promedio por hora de mano de obra de los
dos productos, ya que consideran las diferentes cantidades de cada nivel de mano de obra que requieren los productos
Mediana
La mediana es el valor que divide en dos partes iguales a un conjunto de datos ya ordenado. La mediana no se ve
afectada por los valores extremos, de manera que puede utilizarse cuando están presentes.
• Regla 1: Si el conjunto de datos es un número impar de valores, la mediana es el valor colocado en medio.
• Regla 2: Si el conjunto de datos da un número par, entonces la mediana es el promedio de los dos valores colocados
en medio.
Mediana = 39.5
Puesto que para esta muestra de 10 elementos el resultado de dividir n + 1 por 2 es (10 + l)/2 = 5.5, debe utilizarse la
regla 2 y promediar los valores clasificados quinto y sexto, 39 y 40.
Por lo tanto, la mediana es 39.5.
Conclusión
Una mediana de 39.5 significa que la mitad de los días, el tiempo necesario para arreglarse
es menor o igual que 39.5 minutos, y la otra mitad de los días es mayor o igual que 39.5
minutos.
Ventajas y desventajas de la mediana
• La más importante, es que los valores extremos no afectan a la mediana de manera tan grave
como a la media.
• Se puede calcular a partir de cualquier tipo de datos, incluso a partir de datos agrupados
• Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cualitativas
como color o nitidez, en lugar de números
• Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que aquellos
que utilizan la media
• También, debido a que la mediana es una posición promedio, debemos ordenar los datos
antes de llevar a cabo cualquier cálculo. Esto implica consumo de tiempo para cualquier
conjunto de datos que contenga un gran número de elementos.
La moda es el valor del conjunto de datos que aparece con mayor frecuencia.
Al igual que en la mediana y a diferencia de la media, los valores extremos no afectan a la moda.
Con frecuencia, en un conjunto de datos no existe moda, o bien, hay varias modas. Hay situaciones en que la
frecuencia mayor se presenta con dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los
datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son
multimodales. En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de
mucha ayuda para describir la localización de los datos.
Por ejemplo, considere los datos de tiempo para arreglarse que se muestran a continuación.
29 31 35 39 39 40 43 44 44 52
Existen dos modas, 39 y 44 minutos, ya que cada uno de estos valores aparece dos veces
Ejemplo de la Pág. 76 (Berenson y Levine):
CÁLCULO DE LA MODA
El gerente de sistemas encargado de la red de una empresa lleva un registro del número de fallas del
servidor que se presentan por día. Calcule la moda de los siguientes datos, que representan el número
de fallas diarias del servidor durante las últimas dos semanas.
1 3 0 3 26 2 7 4 0 2 3 3 6 3
SOLUCIÓN
El arreglo ordenado de estos datos es:
0 0 1 2 2 3 3 3 3 3 4 6 7 26
Como el 3 aparece cinco veces, más que ningún otro valor, la moda es 3. De esta forma, el gerente de sistemas se dará
cuenta de que la situación más común es la presencia de tres fallas del servidor al día.
SOLUCIÓN
El arreglo ordenado para estos datos es:
37.3 39.2 44.2 44.5 53.8 56.6 59.3 62.4 66.5
Estos datos no tienen moda. Ninguno de sus valores aparece con mayor frecuencia; cada uno aparece
sólo una vez. NO SIRVE LA MODA PARA ENCONTRAR VALORES DE TENDENCIA CENTRAL
Ventajas y desventajas de la MODA
• La moda, igual que la mediana, se puede utilizar como una posición central para datos tanto
cualitativos como cuantitativos.
• Los valores extremos no afectan indebidamente a la moda. Aun cuando los valores extremos
sean muy altos o muy bajos, escogemos el valor más frecuente del conjunto de datos como el
valor modal.
• La podemos utilizar aun cuando una o más clases sean de extremo abierto.
• Puede no existir un valor modal debido a que el conjunto de datos no contiene valores que
se presenten más de una vez.
• En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo
número de veces.
• Cuando los conjuntos de datos contienen dos, tres o más modas, es difícil interpretarlos y
compararlos.
Media datos agrupados.
Ejercicio:
Hallar la media de la distribución estadística que viene dada por la siguiente tabla:
Resultados:
Mediana en datos agrupados
Medidas de Posición
Análogamente a la mediana, existen otras medidas de posición que
dividen a la distribución en cierto número de partes iguales.
Las más comunes son los cuartiles que dividen en cuatro partes iguales
de 25% cada una a la distribución, quintiles –dividen en 5 grupos de
20%-, deciles –en 10 partes de 10%- y percentiles –en 100 de 1% cada
una-.
Deciles y percentiles
Por ejemplo, al buscar la categoría del caso que se encuentra en la frecuencia acumulada que incluye el 30%,
estaríamos determinando el Decil 3. Dicho valor delimita el tercer grupo decílico del cuarto. Deja por debajo el 30%
y por encima el 70% mayor.
Para determinar el percentil 73. Deberíamos buscar el valor del caso que se dónde se encuentra incluido el 73% en
la frecuencia acumulada, y si buscamos el Quintil 4 deberíamos buscar el valor del caso donde queda acumulado
el 80% y así análogamente
Cuartiles
Los cuartiles dividen a un conjunto de datos en cuatro partes iguales: el primer cuartil Q1 separa al 25%, que abarca
a los valores más pequeños, del 75% restante, constituido por los que son mayores. El segundo cuartil Q2 es la
mediana: 50.0% de sus valores son menores que la mediana y 50.0% son mayores. El tercer cuartil Q3 separa al
25.0%, que abarca a los valores más grandes, del 75.0% restante constituido por los que son menores. Las
ecuaciones (3.3) y (3.4) definen a los cuartiles primero y tercero.
• Regla 2 Si el resultado es una fracción de mitad (2.5, 4.5, etcétera), entonces el cuartil es igual al promedio de los valores clasificados correspondientes.
Por ejemplo, si el tamaño de la muestra es n = 9, el primer cuartil Q1 es igual al valor clasificado como (9 + l)/4 = 2.5, la mitad entre los valores clasificados
como segundo y tercero.
• Regla 3 Si el resultado no es un número entero ni una fracción de mitad, se redondea al entero más cercano y se selecciona ese valor clasificado. Por
ejemplo, si el tamaño de la muestra es n = 10, el primer cuartil Q1 es igual a (10 + l)/4 = valor clasificado como 2.75. Se redondea el 2.75 a 3 y se utiliza en
valor clasificado como tercero.
Ejemplo de la Pág. 76 (Berenson y Levine): tiempo para arreglarse
Valores ordenados:
29 31 35 39 39 40 43 44 44 52
Clasificación:
1 2 3 4 5 6 7 8 9 10
El primer cuartil es el valor clasificado como (n + l)/4 = (10 + 1)/4 = 2.75. Al emplear la tercera regla de los cuartiles,
redondeamos al tercer valor clasificado.
Para los datos sobre el tiempo necesario para arreglarse, el valor clasificado como tercero es 35
minutos.
Interprete el primer cuartil de 35 como que el 25% de los días el tiempo necesario para arreglarse es
menor o igual a 35 minutos, y que el 75% de los días ese tiempo es mayor o igual a 35 minutos.
El tercer cuartil es el valor clasificado como 3(n + l)/4 = 3(10 + l)/4 = 8.25.
Empleando la tercera regla de los cuartiles, redondeamos al valor clasificado como octavo. El valor
clasificado como octavo en los datos del tiempo necesario para arreglarse es de 44 minutos.
Interprete esto como que el 75% de los días, el tiempo necesario para arreglarse es menor o igual que
44 minutos, y que el 25% de los días ese tiempo es mayor o igual que 44 minutos.
Ejemplo de la Pág. 78 (Berenson y Levine): Rendimientos de los fondos en 2003
Por lo tanto, al utilizar la segunda regla, resulta que Ql es el valor clasificado como 2.5, que está justo a la mitad entre los valores clasificados como
segundo y tercero. Como el valor clasificado como segundo es 39.2 y el tercero es 44.2, el primer cuartil Q1 es el que está justo en medio de 39.2 y 44.2.
Por lo tanto:
SOLUCIÓN
Para determinar el rango de los tiempos necesarios para arreglarse, los datos se ordenan de menor a mayor.
Al emplear la ecuación del rango: 52 − 29 = 23 minutos. Un rango de 23 minutos señala que la mayor diferencia del
tiempo necesario para arreglarse por la mañana entre dos días cualquiera es de 23 minutos.
SOLUCIÓN
Ordenados de menor a mayor, los rendimientos en 2003 de los nueve fondos de inversión
37.3 39.2 44.2 44.5 53.8 56.6 59.3 62.4 66.5
Aunque el rango es una medida simple de la variación total de los datos, no toma en cuenta cómo se distribuyen los datos entre
los valores menor y mayor.
En otras palabras, el rango no indica si los valores están distribuidos de manera uniforme a todo lo largo del conjunto de datos,
agrupados cerca de la parte media, o agrupados cerca de uno o ambos extremos. De esta manera, resulta engañoso utilizar el
rango como medida de la variación cuando al menos uno de los valores es extremo.
Rango intercuartil
La medida que no es afectada por los valores extremos es el rango intercuartil (también llamado dispersión media)
es la diferencia entre el tercer y primer cuartil de un conjunto de datos.
Rango intercuartil = Q3 − Ql
El rango intercuartil mide la dispersión en la mitad (parte central) de los datos, así que no se ve influido por los
valores extremos. En otras palabras, el rango intercuartil es el rango en que se encuentra el 50% central de los datos.
Por lo tanto, el rango intercuartil del tiempo necesario para arreglarse es de 9 minutos. Por lo general,
al intervalo de 35 a 44 se le denomina la mitad media.
Ejemplo de la Pág. 81 (Berenson y Levine): rendimiento de los fondos. Calcule el rango intercuartil
Datos:
39.2 37.3 44.2 44.5 53.8 59.3 66.5 62.4 56.6
SOLUCIÓN
Ql = 41.7 y Q3 = 60.85.
8-9-7-8-9-10-12-11-8-9-7-6-8-9-9
2) La Consultora RH de recursos humanos se halla analizando el número de despidos que efectuó la empresa SAX SRL en los últimos doce meses y
recopiló los siguientes datos
18-15-14-23-20-18-17-18-16-20-18-15
66459768345574988569
9887666753
a) Definir la población y el tamaño de la muestra.
b) Definir la variable en estudio
c) Ordenar los datos mediante una tabla de frecuencias.
d) Elegir la quinta fila de la tabla y analizar el significado de cada una de las frecuencias y
expresarlo en lenguaje coloquial.
Respuestas
1) Me=9 años; Mo=9 años; Media=8.66 años S=1.54 años
a. Identifique la unidad de análisis y las variables mencionadas. Indique también las categorías de
cada una y su nivel de medición.
b. Construya una distribución de frecuencias –absolutas, relativas , porcentaje y porcentaje
acumulado- para las distribuciones dadas.
c. Calcular media, mediana y moda
d. Grafíquelas de la manera que le parezca más adecuada ( vemos en clase)
Dispersión: por qué es importante
Primero, nos proporciona información adicional que nos permite juzgar la confiabilidad de nuestra medida de tendencia
central. Si los datos se encuentran muy dispersos, como los que representa la curva C de la figura 3-9, la posición central es
menos representativa de los datos, como un todo, que cuando éstos se agrupan más cerca alrededor de la media, como en
la curva A de la misma figura.
Segundo, debemos ser capaces de reconocer esa dispersión para poder abordar esos problemas.
Tercero, quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de
valores con respecto del centro de distribución, o esto presenta riesgos inaceptables, necesitamos poder reconocerla y
evitar elegir distribuciones que tengan las dispersiones más grandes.
Dispersión: medidas de desviación promedio
Las descripciones más completas de la dispersión son aquellas que manejan la desviación promedio respecto a
alguna medida de tendencia central. Dos de estas medidas son importantes para nuestro estudio de la estadística: la
varianza y la desviación estándar
La varianza y la desviación estándar son dos medidas de dispersión muy ligadas entre sí, donde ambas requieren de
insumo principal la media.
Estos estadísticos miden la dispersión “promedio” alrededor de la media.
La varianza es importante porque nos indica cosas sobre el conjunto de datos que probablemente no podamos percibir
con el solo hecho de saber la media o promedio, además de que es importante en la estadística porque nos sirve como
base para otros tipos de cálculos estadísticos.
La varianza es una medida de dispersión que nos señala que tan cerca o
que tan lejos estamos de los datos con respecto a la media o promedio.
La desviación estándar se define como la raíz cuadrada positiva de la varianza. La desviación estándar se obtiene de la
varianza como sigue.
SOLUCIÓN
La tabla 3.2 ilustra el cálculo de la varianza y la desviación estándar del rendimiento en 2003 para
los fondos de inversión de alto riesgo para pequeños capitales. Utilice la ecuación (3.9) de la página
82:
La varianza y la desviación estándar son dos medidas de la variación muy utilizadas para tomar en cuenta cómo se distribuyen los datos. Estos
estadísticos miden la dispersión “promedio” alrededor de la media, es decir, qué tanto varían los valores más grandes que están por encima de ella
y cómo se distribuyen los valores menores que están por debajo de ella.
Ejemplo
Los siguientes datos son una muestra de la tasa de producción diaria de botes de fibra de vidrio de un fabricante la
provincia de Bs As:
El gerente de producción de la compañía siente que una desviación estándar de más de tres botes por día indica variaciones
de tasas de producción inaceptables. ¿Deberá preocuparse por las tasas de producción de la planta?
3--62
(X-U) (X-U)^2
17 -3,4 11,56 Varianza 9,8
21 0,6 0,36 Desvío Estandar 3,1
18 -2,4 5,76 Media 20,4
27 6,6 43,56
17 -3,4 11,56
21 0,6 0,36
20 -0,4 0,16
22 1,6 2,56
18 -2,4 5,76
23 2,6 6,76 Varianza Desvío Estandar
Sumatoria 88,4 9,8 3,1
https://www.forbesargentina.com/money/crypto-crash-informe-revela-mas-mitad-inversores-bitcoin-esta-perdiendo-dinero-n25329
https://www.infobae.com/economia/2022/11/14/cripto-crash-la-explosion-de-la-burbuja-de-bitcoin-es-la-quinta-mas-grande-de-la-historia/
https://es.beincrypto.com/indice-volatilidad-bitcoin-btc-registra-minimo-historico/
https://tynmagazine.com/criptoeconomy-es-rentable-invertir-en-bitcoin/
10,000.00
MEDIA $ 53.882,67 Serie Feb-Abr 2021
0.00
VARIANZA $ 57.283.532,22
1 0 0 9 8 8 7 7 6 6 5 4 4 3 3 2 1 1 0
p r-2 p-2 b-2 ul -1 c-1 y-1 ct-1 ar-1 g-1 n-1 n-1 v-1 pr-1 p-1 b-1 ul -1 c-1 y-1 ct-1
A Se Fe J De Ma O M Au Ja Ju No A Se Fe J De Ma O DESVÍO ESTÁNDAR $ 7.568,59
Dispersión relativa: el coeficiente de variación
La desviación estándar no puede ser la única base para la comparación de dos distribuciones. Si tenemos una desviación
estándar de 10 y una media de 5, los valores varían en una cantidad que es el doble de la media. Si, por otro lado, tenemos
una desviación estándar de 10 y una media de 5,000, la variación relativa a la media es insignificante. En consecuencia, no
podemos conocer la dispersión de un conjunto de datos hasta que conocemos su desviación estándar, su media y cómo
se compara la desviación estándar con la media.
Para utilizar esta fórmula en un ejemplo, podemos suponer que cada día el técnico A del laboratorio realiza un promedio
de 40 análisis con una desviación estándar de 5. El técnico B efectúa un promedio de 160 análisis diarios con una
desviación estándar de 15. ¿Cuál de los dos técnicos muestra menos variabilidad?
El gerente de operaciones toma una muestra de 200 paquetes, y encuentra que la media del
peso es 26.0 libras, con una desviación estándar de 3.9 libras, mientras que la media en
volumen es de 8.8 pies cúbicos, con una desviación estándar de 2.2 pies cúbicos.
Turno matutino 23 29 27 22 24 21 25 26 27 24
Turno vespertino 27 34 30 29 28 30 34 35 28 29
B: 7 (Q3)
Medida de posición
C:
Mo: 6
Md:6
Media: 5.78
Si la media de la comisión 1 es: 8.5
Vivimos en un mundo incapaz de predecir el futuro con total certidumbre. Nuestra necesidad de encarar a la
incertidumbre nos lleva a estudiar y utilizar la teoría de la probabilidad
Probabilidad básica
¿Qué probabilidad hay de ¿Qué probabilidad hay de ¿Qué probabilidad hay de ¿Qué probabilidad hay de
que sea un día lluvioso? que hoy gane mi equipo? que sea varón o mujer? que gane la lotería?
La probabilidad se calcula en valores que van de 0 a 1 y la sumatoria de todas las probabilidades debe ser igual a 1 en
resultados experimentales. Por lo tanto, un evento que no tiene oportunidad de ocurrir (por ejemplo, un evento
imposible) tiene una probabilidad de 0. Un evento que ocurrirá con toda seguridad (es decir, un evento seguro) tiene
una probabilidad de 1.
El evento “que llueva mañana”🡪 se entiende que si el pronóstico del tiempo dice “la probabilidad de que llueva es cercana
a cero”, implica que casi no hay posibilidades de que llueva. Sí informan que la probabilidad de que llueva es 0.90, sabe que
es muy posible que llueva. La probabilidad de 0.50 indica que es igual de posible que llueva como que no llueva.
EXPERIMENTOS
❖ Los experimentos aleatorios son aquellos en los que el resultado no se puede predecir con certeza, ya que
depende del azar o de factores aleatorios.
❖ En cambio, los experimentos determinísticos son aquellos en los que el resultado se puede predecir con
certeza, ya que no dependen del azar sino de las condiciones iniciales del experimento.
La principal diferencia entre experimentos aleatorios y determinísticos es que los primeros dependen del azar y
no se pueden predecir con certeza, mientras que los segundos se pueden predecir con certeza en función de las
condiciones iniciales del experimento.
Experimento
El experimento es definido como un proceso que genera resultados definidos. Y en cada una de las
repeticiones del experimento, habrá uno y sólo uno de los posibles resultados experimentales.
ESPACIO MUESTRAL
A un resultado experimental también se le llama punto muestral para identificarlo como un elemento
del espacio muestral.
Experimentos de pasos simples
En el ejemplo de tirar una moneda, la cara de la moneda que caiga hacia arriba —cara o cruz— determina
el resultado experimental o puntos muestrales. Si denota con S el espacio muestral, puede emplear la
notación siguiente para describir el espacio muestral:
S = {Cara, cruz }
En el segundo experimento –tomar una pieza para revisar– puede describir el espacio muestral como
sigue:
S = {Defectuosa, no defectuosa}
Si se emplea H para denotar cara y T para denotar cruz, (H, H) será el resultado experimental en el que se tiene
cara en la primera moneda y cara en la segunda moneda. Si continúa con esta notación, el espacio muestral
(S): S = {(H, H ), (H, T ), (T, H ), (T, T )}
Si se considera el experimento del lanzamiento de dos monedas (n1 = 2) y después lanzar la otra (n2 = 2), siguiendo la
regla de conteo (2)*(2) = 4, entonces hay cuatro resultados distintos.
Ejemplo del mazo de cartas estándar con 26 cartas rojas y 26 cartas negras:
La probabilidad de seleccionar una carta negra es de 26/52 = 0.50, puesto que hay X = 26 cartas negras y T = 52 cartas en total.
Es a priori porque el número de formas en las que un evento puede ocurrir y el número total de resultados posibles se conocen por la composición del
mazo de cartas o de las caras del dado.
Existen tres aproximaciones sujetas a la probabilidad:
A la probabilidad clásica, a menudo, se le conoce como probabilidad a priori, debido a que si empleamos ejemplos
ordenados como monedas no alteradas, dados no cargados y mazos de barajas normales, entonces podemos establecer la
respuesta de antemano (a priori) sin necesidad de lanzar una moneda, un dado o tomar una carta. No tenemos que efectuar
experimentos para poder llegar a conclusiones sobre las monedas, los dados no cargados y las barajas normales. En lugar de
experimentos, podemos basar nuestras conclusiones en un razonamiento lógico antes de realizar el experimento.
2) Probabilidad clásica empírica o método de frecuencia relativa
En el punto de vista de la probabilidad clásica empírica, los resultados se basan en datos observados, no en un
conocimiento previo del proceso.
Ejemplo:
Estudio sobre los tiempos de espera en el departamento de rayos x de un hospital pequeño. Durante 20 días sucesivos
un empleado registra el número de personas que están esperando el servicio a las 9:00 a.m.
Los resultados son los siguientes:
El método subjetivo de asignación de probabilidades a los resultados de un experimento, usa toda la información
disponible, por ejemplo, la propia experiencia o la intuición. Después de considerar dicha información se asigna un
valor de probabilidad que expresa el grado de confianza, siempre en una escala del 0 al 1
Como la probabilidad subjetiva expresa el grado de confianza que tiene un individuo, es personal.
Cuando se usa el método de probabilidad subjetiva, es de esperarse que personas distintas asignen probabilidades
diferentes a los mismos resultados de un experimento.
EJEMPLO 🡪 Tom y Judy Elsbernd hacen una oferta para la compra de una casa. Hay dos resultados posibles:
Incluso en situaciones de negocios en que es posible emplear el método clásico o el de las probabilidades relativas, los
administradores suelen proporcionar estimaciones subjetivas de una probabilidad. En tales casos, la mejor estimación
de una probabilidad suele obtenerse combinando las estimaciones del método clásico o del método de las frecuencias
relativas con las estimaciones subjetivas de una probabilidad.
CÁLCULO DE LA PROBABILIDAD DE QUE EL EQUIPO DE TELEVISIÓN
DE PANTALLA GRANDE QUE SE COMPRE SEA UN HDTV
La tabla 4.2 indica las respuestas del consumidor si el equipo comprado era un HDTV y si también se adquirió
un DVD en los últimos 12 meses.
DADO
¿Cuál es la probabilidad de que salga un número par y un número menor o igual a 3?
Para calcular la probabilidad de adición, sumamos las probabilidades individuales de cada evento
y restamos la probabilidad de la conjunción (en este caso, la probabilidad de que salga cara y sello,
que es cero):
P(cara o sello) = P(cara) + P(sello) - P(cara y sello)
= 1/2 + 1/2 - 0
=1
Supongamos que lanzamos dos dados de seis caras cada uno. ¿Cuál es la probabilidad de que al
menos uno de los dos dados muestre un número par?
Para calcular la probabilidad de adición, debemos sumar las probabilidades de que el primer dado
muestre un número par y el segundo dado no, y viceversa, y luego sumar la probabilidad de que
ambos dados muestran un número par:
P(al menos un número par) = P(primer dado par y segundo dado impar) + P(primer dado impar y
segundo dado par) + P(ambos dados pares):
= (3/6 x 3/6) + (3/6 x 3/6) + (3/6 x 3/6)
= 9/36 + 9/36 + 9/36
= 27/36
= 3/4
= 0.75
Supongamos que tenemos dos equipos de fútbol, A y B, y queremos calcular la probabilidad de que en un partido entre ellos se
produzca un empate o que gane el equipo A.
Para hacerlo, necesitamos conocer las probabilidades de que A gane y de que se produzca un empate. Supongamos que la
probabilidad de que A gane es de 0.4 y la probabilidad de empate es de 0.2.
Para calcular la probabilidad de que A gane o haya empate, simplemente sumamos las probabilidades de que A gane y de que haya
empate:
Por lo tanto, la probabilidad de que A gane o haya empate en el partido es de 0.6 o 60%.
Podemos interpretar este resultado diciendo que en 6 de cada 10 partidos entre A y B, A ganará o habrá empate.
La probabilidad de adición con resta se refiere a calcular la probabilidad de que suceda un evento A o un evento B, pero sin contar las
veces en que ambos eventos ocurren simultáneamente.
Supongamos que queremos calcular la probabilidad de que al lanzar un dado, salga un número par o un número mayor que 4. En este
caso, los eventos A y B son:
Por lo tanto, la probabilidad de que al lanzar un dado, salga un número par o un número mayor que 4 es de 0.67 o 67%.
Probabilidad condicional
La probabilidad condicional es la probabilidad de que ocurra un evento A, dado que ya ha
ocurrido otro evento B. Se representa por P(A|B) y se lee "la probabilidad de A dado B".
Esto significa que para calcular la probabilidad de A dado B, debemos dividir la probabilidad de
que ocurran ambos eventos (A y B) entre la probabilidad de que ocurra el evento B.
Ejemplo
Supongamos que en una empresa hay 100 empleados, 60 de los cuales son hombres y 40 son mujeres. Si sabemos que el 80%
de los hombres y el 70% de las mujeres usan lentes, ¿cuál es la probabilidad de que un empleado al azar use lentes si sabemos
que es mujer?
La probabilidad de que un empleado al azar sea mujer es de 40/100 = 0.4. Por lo tanto:
Entonces, la probabilidad de que un empleado al azar use lentes si sabemos que es mujer es de 0.7 o 70%
Ejercitar:
Supongamos que en una tienda de electrónica, el 30% de las computadoras son Mac y el 70% son PC.
Si el 10% de las computadoras Mac y el 5% de las computadoras PC tienen un problema técnico,
¿Cuál es la probabilidad de que una computadora al azar tenga un problema técnico, sabiendo que es
una PC?
P(problema técnico | PC) = P(problema técnico y PC) / P(PC)
P(problema técnico y PC) es la probabilidad de que una computadora al azar sea PC y tenga un problema técnico, y P(PC) es la
probabilidad de que una computadora al azar sea PC. Sabemos que el 5% de las computadoras PC tienen un problema técnico,
por lo que:
La probabilidad de que una computadora al azar sea PC es de 70/100 = 0.7. Por lo tanto:
Entonces, la probabilidad de que una computadora al azar tenga un problema técnico sabiendo que es una PC es de 0.05 o 5%
Tabla de contingencia
Supongamos que queremos analizar la relación entre el género y la frecuencia de uso de redes sociales en una
población de 100 personas. Podríamos realizar una encuesta y registrar el género de cada persona y la cantidad
de horas que pasan en las redes sociales cada día. Con esta información, podemos armar una tabla de
contingencia estadística como la siguiente:
La probabilidad de que la persona elegida sea hombre es la suma de las probabilidades de que sea hombre en cada categoría de empresa:
Por lo tanto, la probabilidad de que la persona elegida sea hombre es de 0.5 o 50%.
La probabilidad de que la persona elegida prefiera la empresa A es la suma de las probabilidades de que prefiera la empresa A en cada categoría de
género:
En este caso, estamos buscando la probabilidad condicional de que la persona elegida prefiera la
empresa A dado que es mujer:
Por lo tanto, la probabilidad de que la persona elegida sea mujer y prefiera la empresa A es de 0.4 o 40%
Supongamos que se realiza una encuesta a un grupo de 100 personas para conocer su
opinión sobre dos marcas de smartphones, Apple y Samsung. Se les pregunta a las
personas si prefieren Apple o Samsung y si tienen o no un teléfono de la marca que
prefieren. Los resultados se muestran en la siguiente tabla de contingencia:
a) ¿Cuál es la probabilidad de que una persona elegida al azar tenga un teléfono de Apple?
b) Si se sabe que una persona elegida al azar tiene un teléfono de Samsung, ¿cuál es la probabilidad de que prefiera Samsung?
a) ¿Cuál es la probabilidad de que una persona elegida al azar tenga un teléfono de Apple?
P(teléfono Apple) = P(teléfono Apple y prefieren Apple) + P(teléfono Apple y prefieren Samsung)
= 30/100 + 10/100
= 0.4
b) Si se sabe que una persona elegida al azar tiene un teléfono de Samsung, ¿cuál es la probabilidad de que prefiera
Samsung?
P(prefieren Samsung | teléfono Samsung) = P(teléfono Samsung y prefieren Samsung) / P(teléfono Samsung)
= 40/50
= 0.8
A y B independientes: P(B/A)=P(B)
Como la probabilidad de obtener cara y la de obtener cruz son exactamente iguales en cada
lanzamiento, la probabilidad de obtener cara en el segundo lanzamiento es de 0.5. Por tanto,
debemos decir que P(H1 |H2) 0.5.
Ejercicio
Supongamos que queremos analizar la relación entre la situación laboral y la educación en la economía argentina. Para ello, se
realiza una encuesta a 1000 personas y se obtienen los siguientes datos:
De las 600 personas que tienen trabajo, 300 tienen educación universitaria y 300 no tienen educación universitaria.
De las 400 personas que no tienen trabajo, 150 tienen educación universitaria y 250 no tienen educación universitaria.
Esto significa que de todas las personas que tienen educación universitaria, el 67% tienen trabajo.
Esto significa que de todas las personas que tienen educación universitaria, el 33% no tienen trabajo.
Esto significa que de todas las personas que no tienen educación universitaria, el 45% no tienen trabajo.
Practica integradora
1. A partir del siguiente texto responda las siguientes consignas:
“Según un estudio realizado entre 280 turistas que visitaron nuestro país durante el 1er semestre de 2012, 43% de ellos provenían de países de
América Latina, 2% de EEUU y Canadá, de Europa un 23%, de otros países un 5%, mientras que los restantes son de origen argentino. Por otro lado,
se relevó también que 36 se alojaron en hoteles de 1 estrella, 58 de 2 estrellas, 104 de 3 estrellas, 55 en 4 estrellas y 27 en hoteles 5 estrellas”
a. Identifique la unidad de análisis y las variables y sus categorías indicando los niveles de
c. Calcule las medidas de tendencia central apropiadas y realice una lectura interpretándolas.
1) La unidad de análisis es cada turista que visitó Argentina durante el primer semestre de
2012. Las variables son la procedencia del turista y el tipo de alojamiento que eligió. Las
categorías de la variable "procedencia" son América Latina, EE. UU. y Canadá, Europa, otros
países y Argentina. Las categorías de la variable "tipo de alojamiento" son hotel de 1 estrella,
hotel de 2 estrellas, hotel de 3 estrellas, hotel de 4 estrellas y hotel de 5 estrellas. Ambas
variables son nominales. Todas son cualitativas nominales.
2) A continuación, se presentan las medidas de tendencia central de la variable ingreso
mensual de las mujeres de 18-65 años en Argentina, según el grupo de edad al que
pertenecen
a) Analice la información brindada realizando una breve comparación entre los grupos. ¿Cuál tiene
más ingreso? ¿Cuál menos? b) ¿Y cuál de los tres grupos presenta una distribución más homogénea?
¿Por qué? Indique la medida utilizada y justifique su elección Utilice siempre los valores brindados
para apoyar las lectura
Para comparar ambas distribuciones utilizamos el coeficiente de variación.
En una encuesta sobre consumos deportivos un 75% de los encuestados tenía como favorito el
fútbol. Por otro lado, un 40% del total declaró asistir regularmente a ver los eventos (fútbol y otros
deportes).
Un 20% de los encuestados dijo que prefería otros deportes –no fútbol- y los miraba por televisión
–no asistía-. Con estos datos, construya una tabla de contingencia y responda las preguntas
planteando formalmente la probabilidad correspondiente e indicando el tipo de probabilidad a la
que se refiere.
a. ¿Cuál es la probabilidad de encontrar un encuestado que tenga como favorito algún deporte que
no sea fútbol? b. ¿Qué probabilidad hay de que a alguien le guste el fútbol o asista habitualmente a
los eventos? c. ¿Y cuál es la probabilidad de encontrar alguien que prefiere el fútbol por TV? d.
Sabiendo que al encuestado le gustan otros deportes, ¿cuál es la probabilidad que asista? e.
Determine la dependencia o independencia de los eventos.
VARIABLES ALEATORIAS
Una variable aleatoria es una descripción numérica del resultado de un experimento
Las variables numéricas continuas producen resultados a partir de procesos de medición; por ejemplo, su estatura. Las variables
numéricas discretas producen resultados a partir de un proceso de conteo, como el número de revistas a las que se suscribe.
Distribuciones de probabilidad discreta
Como ejemplo de una variable aleatoria discreta y de su distribución de probabilidad, considere las ventas de automóviles en DiCarlo
Motors en Saratoga, Nueva York. Durante los últimos 300 días de operación, los datos de ventas muestran que hubo 54 días en los que no
se vendió ningún automóvil, 117 días en los que se vendió 1 automóvil, 72 días en los que se vendieron 2 automóviles, 42 días en los que se
vendieron 3 automóviles, 12 días en los que se vendieron 4 automóviles y 3 días en los que se vendieron 5 automóviles.
Para denotar la
varianza de una
variable
aleatoria se
usan las
notaciones
Var(x) y σ2.
La desviación estándar, σ, se define como la raíz cuadrada positiva de la varianza. Por tanto, la desviación estándar del
número de automóviles vendidos en un día es
La desviación estándar se mide en las mismas unidades que la variable aleatoria (σ 1.1180 automóviles)
y por tanto suele preferirse para describir la variabilidad de una variable aleatoria
La tabla ofrece la distribución de la cantidad de créditos aprobados por semana en la oficina de una sucursal bancaria local.
La lista de la tabla 5.1 es colectivamente exhaustiva porque se han incluido todos los posibles resultados. Entonces, las
probabilidades deben sumar 1.
2. En cada ensayo hay dos resultados posibles. A uno de estos resultados se le llama éxito y al otro se le llama fracaso.
3. La probabilidad de éxito, que se denota p, no cambia de un ensayo a otro. Por ende, la probabilidad de fracaso, que se
denota 1 p, tampoco cambia de un ensayo a otro.
La variable aleatoria que interesa es x número de caras que aparecen en cinco ensayos. En este caso, x puede tomar los valores 0, 1, 2, 3, 4 o 5.
Ya sabe que usando la ecuación (5.6) es posible determinar el número de resultados experimentales en los que hay x éxitos.
Si va a determinar la probabilidad de x éxitos en n ensayos, es necesario conocer también la probabilidad correspondiente a cada uno de
estos resultados experimentales. Como en un experimento binomial los ensayos son independientes, para hallar la probabilidad de una
determinada sucesión de éxitos y fracasos simplemente se multiplican las probabilidades correspondientes al resultado de cada ensayo.
Esto se cumple en general. En cualquier experimento binomial todas las series de resultados de ensayos en las que hay x éxitos en n
ensayos tienen la misma probabilidad de ocurrencia. A continuación se presenta la probabilidad de cada una de las series de ensayos
en las que hay x éxitos en n ensayos
EJEMPLO 5.2
DETERMINAR P(X = o > 3), DADAS
n = 4 Y p = 0.1 Si la posibilidad de que
un formato de pedido sea marcado es de
0.1, ¿qué probabilidad existe de que
haya tres o más formatos marcados (es
decir, por lo menos tres) en una muestra
de cuatro?
EJEMPLO 5.2 DETERMINAR P(X < 3), DADAS n = 4 Y p = 0.1 Si la posibilidad de que un formato de pedido sea marcado es de
0.1, ¿qué probabilidad existe de que haya tres o más formatos marcados (es decir, por lo menos tres) en una muestra de
cuatro?
El valor esperado de una variable aleatoria discreta se calcula multiplicando cada valor
posible por su probabilidad y sumando los resultados.
Un 22% prefiere operar por Internet y poseen otros productos bancarios (no sólo cuenta sueldo).
Realice una tabla de contingencia y responda las siguientes preguntas indicando tipo de
probabilidad y planteando las operaciones realizadas:
a. ¿Cuál es la probabilidad de encontrar un usuario que tenga cuenta sueldo y que prefiera ir a la
sucursal?
b. ¿Cuál es la probabilidad de encontrar un usuario que prefiera operar por internet?
c. ¿Cuál es la probabilidad de encontrar un usuario que prefiera ir a la sucursal y tenga otros
productos bancarios?
A) ¿Cuál es la probabilidad de encontrar un usuario que tenga cuenta sueldo y que prefiera ir a la
sucursal?
P: 0.15
P: 0.71
P: 0.15
3)
La probabilidad simple de encontrar un usuario que cuente con servicio de banda ancha es de 0.68;
si se eligen al azar 5 usuarios
n = 5 (número de ensayos)
p = 0.68 (probabilidad de éxito en un ensayo)
1 - p = 0.32 (probabilidad de fracaso en un ensayo)
X = 1 (número de éxitos que se buscan)
n = 5 (número de ensayos)
p = 0.68 (probabilidad de éxito en un ensayo)
q = 1 - p = 0.32 (probabilidad de fracaso en un ensayo)
k = 5 (número de éxitos que se buscan)
P(5): 0.14
c. La probabilidad de que ninguno de los 5 usuarios elegidos al azar cuente con servicio de
banda ancha se puede calcular utilizando la distribución binomial, donde:
n = 5 (número de ensayos)
p = 0.68 (probabilidad de éxito en un ensayo)
q = 1 - p = 0.32 (probabilidad de fracaso en un ensayo)
k = 0 (número de éxitos que se buscan)
c)
c. La probabilidad de que ninguno de los 5 usuarios elegidos al azar cuente con servicio de
banda ancha se puede calcular utilizando la distribución binomial, donde:
n = 5 (número de ensayos)
p = 0.68 (probabilidad de éxito en un ensayo)
q = 1 - p = 0.32 (probabilidad de fracaso en un ensayo)
k = 0 (número de éxitos que se buscan)
P(0): 0.0033
Practica parcial
1)
La estadística descriptiva se enfoca en resumir y describir las características de un conjunto
de datos, mediante el uso de medidas estadísticas como la media, la mediana, la moda, la
desviación estándar, entre otras. Estas medidas permiten hacer una descripción detallada de
los datos y su distribución, pero no permiten hacer inferencias más allá de los datos
analizados.
Por otro lado, la estadística inferencial tiene como objetivo hacer inferencias acerca de una
población a partir de una muestra de datos. Se utilizan técnicas para hacer inferencias sobre
la población que permiten hacer generalizaciones más allá de los datos analizados, pero
requieren de ciertas suposiciones y de la aleatoriedad de la muestra para que los resultados
sean válidos.
2)
Distribución del tiempo de espera en ser atendido en el Banco XXX. Clientes Sucursal
Quilmes. Abril 2023 (en minutos)
La unidad de análisis es cada cliente de la sucursal Quilmes del Banco XXX en abril de 2023.
La variable es el tiempo de espera en ser atendido en minutos. Las categorías son los
diferentes valores que puede tomar la variable, que son: 5, 7, 8, 10, 12, 15, 17, 20, 24, 25 y
28.
La variable es de nivel de medición cuantitativa discreta.
Practica parcial
B)
c)
Para encontrar el valor de Q3, se puede utilizar la siguiente fórmula:
Q3 = n/4 * 3
Donde "n" es el tamaño total de la muestra. En este caso, n = 270.
Q3 = 270/4 * 3 = 202.5 o bien la frecuencia acumulada mayor a 75%
Mo 25
Md 20
Media 18,6
4)
Calcule la varianza y el desvió estándar para el tramo 2000-2010. ¿Qué puede decir acerca
de la volatilidad?
3)
MEDIA 115,45
MEDIANA 111
VARIANZA $ 103,67
Desvío Estándar: 10,18
4)
Resuelva el siguiente ejercicio de Probabilidad Básica
En un estudio entre directores de PYMES del AMBA, se indagó sobre la contratación de jóvenes
en el próximo año.
Un 60% de las empresas tienen intención de hacerlo. Un 35% del total de las empresas
consultadas eran medianas. Un 15% de las empresas eran pequeñas y no tomarán nuevos
empleados. Responda las preguntas planteando cada caso e indicando el tipo de
probabilidad a la que se refiere.
1) a. ¿Qué probabilidad hay de encontrar una empresa que sea pequeña o que no tome
jóvenes?
0.4
Para cada una de las siguientes situaciones, indica si sigue una distribución binomial. En caso
afirmativo, identifica en ella los valores de n y p:
a Lanzamos cien veces un dado y nos preguntamos por el número de unos que obtenemos.
N: 100 P: 1/6
b Extraemos una carta de una baraja y vemos si es un as o no. Sin devolverla al mazo,
extraemos otra y también miramos si se trata de un as o no, ... y así sucesivamente hasta diez
veces.
Los ensayos no son independientes entre sí, ya que la extracción de una carta afecta la
probabilidad de éxito o fracaso de los ensayos siguientes.
Se sabe que el 30% de la población de una determinada ciudad ve un concurso que hay en
televisión. Desde el concurso se llama por teléfono a 10 personas de esa ciudad elegidas al
azar. Calcula la probabilidad de que, entre esas 10 personas, estuvieran viendo el programa:
La probabilidad de que al menos una de las 10 personas esté viendo el programa es de 0.971752476.
VARIABLE ALEATORIA
CONTINUA
?
El símbolo anterior se lee “integral definida entre a y b de f de x diferencial x”.
Indica la medida del área comprendida entre la curva f(x) y el eje x y entre las rectas
x=a y x=b
?
?
? Una máquina llenadora de recipientes de jalea empaca 454 gramos de jalea, con una desviación
(o desvío) estándar de 12 gramos. Si los pesos de los recipientes siguen una distribución normal,
calcule:
1. ¿cuál es la probabilidad de que un frasco seleccionado al azar contenga entre 454 y 460 gramos
de jalea?
2. ¿cuál es la probabilidad de que un frasco seleccionado al azar contenga entre 440 y 450 gramos
de jalea?
3. ¿Cuál es la probabilidad de que un frasco contenga más de 470 gramos?
4. ¿entre qué valores estarán los pesos del 90% de los envases llenados por esa máquina?
?
?
Conviene representar gráficamente esta situación. Para calcular la probabilidad pedida, es necesario
hallar el área entre 0 y 0,5, que aparece sombrada en el siguiente gráfico:
Como esta área “comienza” en cero, para encontrar este valor de
probabilidad se busca directamente el valor correspondiente de z en la tabla:
?
Como la tabla que utilizamos ofrece las probabilidades entre 0 y el valor que buscamos, esta
probabilidad se puede expresar como el área entre 0 y 1,17 menos el área entre 0 y 0,33.
Gráficamente sería:
?
?
?
?
?
Ejercicio propuesto 1:
En una fábrica de tornillos, se producen piezas de 5 mm. de diámetro, con una desviación de 0,08
mm. Suponiendo que el diámetro de los tornillos producidos siga una distribución normal, se
pide que calcule:
? Ahora se buscan estos valores en la tabla. Allí sólo hay dos decimales para los valores de z, de modo que
1,875 debe ser redondeado. Y queda:
𝑃(4,85 < 𝑥 < 5,2) = 𝑃(0 < 𝑧 < 1,88) + 𝑃(0 < 𝑧 < 2,5) = 0,46995 + 0,49379 = 0,96374
? La probabilidad de que un tornillo elegido al azar tenga un diámetro entre 4,85 y 5,2 mm es de 0,96374.
El 90% de los tornillos tiene un diámetro superior a ¿cuánto?
En este ejercicio ya se conoce la probabilidad: 0,9. Y lo que hace falta es encontrar el valor
de z para el cual la probabilidad es ésa. Pero antes es necesario interpretar el enunciado.
¿Dónde están el 90% de los tornillos que tienen un diámetro superior?
Se sabe que el 50% de los tornillos tiene el diámetro superior a 5mm (porque la media divide a
toda la distribución en dos partes exactamente iguales). Gráficamente es así:
¿En qué mitad están los tornillos que tienen un diámetro superior a 5 mm? En la que está
pintada o en la que está blanca en el diagrama anterior? Hay que pensar….
? Como se pide el 90%, se busca el 40% restante hacia la izquierda. Lo que pide el problema es
encontrar el valor correspondiente al z que hace que la probabilidad sea 0,4 (es decir 40%).
? Y, como en el diagrama se aprecia que ese valor de z está a la izquierda de la media, será necesario
recordar que, aunque la tabla sólo brinda valores positivos de z, por simetría aquí se considerará
el número negativo.
7%
B)
? Vamos a buscar ambos valores en la tabla y obtenemos:
? Para el primero una probabilidad desde la media hasta un z de 0,73 (equivalente
a $110) de 0,22965 y para el segundo valor, desde la media hasta 1,46 ($290)
0,92785.
? Último paso: En este caso necesitamos realizar una operación entre ambas
probabilidades para obtener la probabilidad buscada, sumando ambas: P (110 <
x < 290) =0.6982. Gráficamente se puede ver más claramente
La probabilidad acumulada es de 0,4664
Último paso: En este caso, para obtener la probabilidad buscada, debemos restar a la mitad desde la
media, 0,50, la probabilidad dada por la tabla que corresponde al área desde la derecha hasta el
$320, por ende, el área por encima de 320 pesos es de 0,03362 o 3,36%. P (x > 320) = 0,03362
El gasto diario promedio por persona de los hogares en alimentos en 2015 fue de $170 con un desvío
estándar de $82. Suponiendo que los gastos se distribuyen normalmente.
Último paso:
Así, obtenemos que el valor que deja por debajo al 5% que menos gasta es de $35,52.
Población Muestra
Una población es el conjunto de todos los Una muestra es un subconjunto de la población.
elementos que interesan en un estudio.
El principal propósito de la inferencia estadística es hacer estimaciones y pruebas de hipótesis acerca de los
parámetros poblacionales usando la información que proporciona una muestra.
Entonces ¿Qué tan buenos puede esperarse que sean los resultados muestrales? Y
por qué decidimos tomar una muestra y no una población?
Una vez seleccionado el marco, se extrae la muestra. Existen dos clases de muestras:
1. Las muestras probabilísticas
2. Las muestras no probabilísticas.
Muestras no probabilísticas
Muestreo de conveniencia, en el que los elementos de la muestra se seleccionan sólo con base en el hecho de que
son fáciles, económicos o convenientes de muestrear
Muestra de juicio, usted recopila las opiniones de expertos en el tema, seleccionados previamente.
Las muestras no probabilísticas tienen ciertas ventajas como conveniencia, rapidez y menor
costo. Sin embargo, su falta de exactitud por el sesgo de la selección y la falta de capacidad de generalización
de los resultados opacan estas ventajas
Muestras probabilísticas
Muestreo aleatorio simple
Muestreo aleatorio simple: todos los elementos dentro del marco tienen las mismas posibilidades de selección que
cualquier otro.
Las muestras se seleccionan con reemplazo o sin reemplazo.
Muestreo con reemplazo implica que, tras seleccionar un elemento, lo devuelve al marco, donde tiene la misma
probabilidad de resultar seleccionado de nuevo.
Muestrear sin reemplazo significa que una vez seleccionado un elemento no se podrá seleccionar
de nuevo
Una tabla de números aleatorios consiste en una serie de dígitos ordenados en una secuencia generada de forma
aleatoria.
SELECCIÓN DE UNA MUESTRA ALEATORIA UTILIZANDO UNA TABLA DE NÚMEROS ALEATORIOS
(Ejemplo pág. 222- Berenson) Una empresa quiere seleccionar una muestra de 32 trabajadores de tiempo completo, a partir de una población compuesta por 800 empleados de
tiempo completo, con el fin de recabar información sobre los gastos referentes al plan de servicios dentales que les brinda. ¿Cómo seleccionaría una muestra aleatoria simple?
En una muestra sistemática, los N elementos del marco se dividen en n grupos de k elementos, donde:
Para extraer una muestra sistemática de n = 40 a partir de la población de N = 800 empleados, divida el marco de 800 en
40 grupos de 20 empleados cada uno. Luego seleccione un número aleatorio de los primeros 20 individuos, e incluya cada
vigésimo individuo tras la primera selección de la muestra. Por ejemplo, si el primer número seleccionado es 008, sus
selecciones subsiguientes son 028, 048, 068, 088, 108, . . . , 768 y 788.
Aunque la muestra aleatoria simple y la muestra sistemática son más sencillas de utilizar, por lo general son menos
eficientes que otros métodos más elaborados de muestreo probabilístico.
Existen mayores posibilidades de que se presenten sesgos en la selección y falta de representatividad de las
características de la población en las muestras sistemáticas que en las muestras aleatorias simples.
Muestra estratificada
En una muestra estratificada, primero subdivida N elementos del marco en subpoblaciones separadas, o estratos. Un
estrato se define mediante algunas características comunes. Seleccione una muestra aleatoria simple dentro de cada
uno de los estratos, y combine los resultados de muestras aleatorias simples distintas.
En una muestra de conglomerados, divida los N elementos del marco en varios conglomerados, de tal manera que cada
uno sea representativo de toda la población.Los conglomerados son designaciones de suceso natural, como países,
distritos electorales, cuadras de una ciudad, hogares o territorios de venta.
Con frecuencia, el muestreo de conglomerados tiene una mejor relación costo-eficacia que el muestreo aleatorio simple,
sobre todo si la población se distribuye en una región geográfica extensa.
Errores de encuesta
• Error de cobertura: El error de cobertura se presenta cuando se excluyen del marco ciertos grupos de elementos, de tal manera
que no tienen posibilidad de resultar seleccionados como parte de la muestra. El error de cobertura provoca un sesgo de selección.
• Error de no respuesta: El error de no respuesta surge a partir de la omisión al recabar datos de todos los elementos de la muestra,
y tiene como resultado un sesgo de no respuesta.
• Error de muestreo: El error de muestreo refleja la heterogeneidad o “diferencia de posibilidad” entre una muestra y otra, con base
en la probabilidad de que determinados individuos o elementos sean seleccionados en muestras particulares.
• Error de medición: Una pregunta debe ser clara y precisa. Además, para evitar las preguntas tendenciosas, es necesario plantearlas
de manera neutral. Existen tres causas de errores de medición: la redacción ambigua de las preguntas, el efecto halo y el error de la
encuesta.
Consideraciones éticas
• El error de cobertura da como resultado un sesgo en la selección, y se convierte en un problema ético si se excluye del marco a
individuos o grupos específicos, en forma deliberada, de manera que los resultados de la encuesta se inclinen hacia una posición más
favorable para el interesado.
• El error de no respuesta puede conducir al sesgo de no respuesta, y se convierte en un problema ético si el interesado diseña
deliberadamente la encuesta de tal manera que se reduzca a la posibilidad de que la respondan grupos o individuos específicos.
• El error de muestreo se convierte en un problema ético si al mostrar los resultados se omite deliberadamente hacer referencia
al tamaño de la muestra y al margen de error, de manera que el interesado promueva un punto de vista que, de otra forma, no sería
verdaderamente significativo.
• El error de medición elige preguntas tendenciosas que dirigen las respuestas en una dirección específica; cuando el entrevistador,
mediante ademanes y tonos, provoca deliberadamente un efecto halo o, de cualquier otra forma, dirige las respuestas en una
dirección específica; cuando el encuestado, desdeñando el proceso de encuestas, proporciona información falsa de manera
intencional.
DISTRIBUCIÓN MUESTRAL DE LA
MEDIA
Población Muestra
¿El principal problema al realizar una inferencia estadística radica en
obtener conclusiones sobre la población, no sobre la muestra?
Propiedad 1: X=μ el promedio de todos los promedios de muestras es igual al promedio de la población
Propiedad 2: la varianza de los promedios de muestras es igual a la varianza poblacional dividida por la cantidad de
elementos de las muestras.
1 aa 26 26 26
2 ab 26 27 26,5
3 ac 26 33 29,5
Población 11
12
ca
cb
33 27 30
33 33 33
13 c 33 29 31
Población edad Muestra 14 cd 33 30 31,5
15 ce 29 26 27,5
a 26
16 da 29 27 28
b 27 17 db 29 33 31
c 33 El promedio de todos los promedios de 18 dc 29 29 29
d 29
todas las muestras de dos personas de 19 dd 29 30 29,5
Propiedad 1: X=μ el promedio de todos los promedios de muestras es igual al promedio de la población
Propiedad 2: la varianza de los promedios de muestras es igual a la varianza poblacional dividida por la cantidad de
elementos de las muestras.
La media muestral es imparcial porque la media de todas las medias muestrales posibles, de una muestra dada con
tamaño “n”, es igual a la media poblacional “μ”.
Total de la población
1 aa 26 26 26
2 ab 26 27 26,5
3 ac 26 33 29,5
Población 11
12
ca
cb
33 27 30
33 33 33
13 c 33 29 31
Población edad Muestra 14 cd 33 30 31,5
15 ce 29 26 27,5
a 26
16 da 29 27 28
b 27 17 db 29 33 31
c 33 El promedio de todos los promedios de 18 dc 29 29 29
d 29
todas las muestras de dos personas de 19 dd 29 30 29,5
La media muestral es imparcial porque la media de todas las medias muestrales posibles, de una muestra dada con
tamaño “n”, es igual a la media poblacional “μ”.
Total de la población
1 aa 26 26 26
2 ab 26 27 26,5
3 ac 26 33 29,5
Población 11
12
ca
cb
33 27 30
33 33 33
13 c 33 29 31
Población edad Muestra 14 cd 33 30 31,5
15 ce 29 26 27,5
a 26
16 da 29 27 28
b 27 17 db 29 33 31
c 33 El promedio de todos los promedios de 18 dc 29 29 29
d 29
todas las muestras de dos personas de 19 dd 29 30 29,5
Es decir, si nos tocara la muestra “AC” nos haría creer que el promedio es de 2,5 y estaríamos
equivocados, pero si nos toca la “CE” daríamos un resultado correcto.
Teorema del límite central
“El teorema del límite central dispone que cuando el tamaño de la muestra (es
decir, el número de valores en cada muestra) es lo bastante grande, la
distribución muestral de la media tiene una distribución aproximadamente normal.
Esto es válido sin importar la forma de la distribución de los valores individuales
en la población.
La máquina llenadora de recipientes de jalea empaca 454 gramos de jalea, con una desviación
estándar de 12 gramos. Ya se calculó la probabilidad de que un frasco seleccionado al azar contenga
entre 440 y 450 gramos de jalea.
Como la muestra es de más de 30 casos, sin importar la distribución de la variable “peso de los
frascos”, los promedios de muestra seguirán una distribución aproximadamente normal.
P -8,16<z<-2,33=
P 2,33<z<8,16
P 2,33<z<8,16=
P(0<z<8,16) - P(0<z<2,33)
Llegado este punto, se consulta la tabla para buscar los valores de las probabilidades
correspondientes.
Es de notar que no figura el valor 8,16. Se debe a que la probabilidad de que z tome valores
entre 0 y 4 es muy cercana a 0,5.
Como se trata de una función simétrica esta probabilidad será igual a la del diagrama siguiente:
En símbolos, se escribe:
¿cuánto?
Se sabe que el 50% de las medias muestrales tiene el diámetro superior a 5mm
(porque la media divide a toda la distribución en dos partes exactamente iguales).
Gráficamente es así:
Una empresa de mensajería que opera en la ciudad tarda una media de 35
minutos en llevar un paquete, con una desviación típica de 8 minutos.
Supongamos que durante el día de hoy han repartido 200 paquetes(muestra)
Por lo que respecta a la segunda pregunta, de entrada debemos pasar las horas a
minutos, ya que ésta es la unidad con la que nos viene dada la variable.
Observar que 115 horas por 60 minutos nos dan 6.900 minutos. Se nos pide que
calculemos la probabilidad siguiente:
Como sabemos que la media se distribuye aproximadamente como una normal de
media 35 y desviación típica 0,566 , esta probabilidad se puede aproximar por la
probabilidad de una distribución normal estándar Z:
El departamento de marketing de una empresa de teléfonos celulares conoce que
los montos de las facturas mensuales de sus clientes no corporativos siguen una
distribución normal con media de $80 y desviación estándar de $12. Para planificar
mejor sus estrategias comerciales para los próximos meses desean conocer:
2) Desarrolle al menos 2 errores encuéstales tradicionales. Una vez definidos estos dos amplíe sobre las consideraciones
éticas que conllevan dichos errores.
a) La distribución normal es un caso particular de distribución de variable discreta, que sirve para aproximar muchos
fenómenos y que tiene como característica que el área bajo toda la curva es igual a 1 (porque corresponde a la probabilidad
de “suceso seguro”).
b) La curva normal es perfectamente simétrica alrededor del desvío.
c) Si el tamaño de la muestra es grande puede realizarse la estimación a partir del puntaje z, sin importar la forma de la
distribución de la variable en la población de origen..
D) El promedio de todos los promedios de todas las muestras de n personas de una población es igual al promedio de la
población.
Muestras probabilísticas
Muestreo aleatorio simple
Muestreo aleatorio simple: todos los elementos dentro del marco tienen las mismas posibilidades de selección que
cualquier otro.
Las muestras se seleccionan con reemplazo o sin reemplazo.
Muestreo con reemplazo implica que, tras seleccionar un elemento, lo devuelve al marco, donde tiene la misma
probabilidad de resultar seleccionado de nuevo.
Muestrear sin reemplazo significa que una vez seleccionado un elemento no se podrá seleccionar
de nuevo
Una tabla de números aleatorios consiste en una serie de dígitos ordenados en una secuencia generada de forma
aleatoria.
SELECCIÓN DE UNA MUESTRA ALEATORIA UTILIZANDO UNA TABLA DE NÚMEROS ALEATORIOS
(Ejemplo pág. 222- Berenson) Una empresa quiere seleccionar una muestra de 32 trabajadores de tiempo completo, a partir de una población compuesta por 800 empleados de
tiempo completo, con el fin de recabar información sobre los gastos referentes al plan de servicios dentales que les brinda. ¿Cómo seleccionaría una muestra aleatoria simple?
En una muestra sistemática, los N elementos del marco se dividen en n grupos de k elementos, donde:
Para extraer una muestra sistemática de n = 40 a partir de la población de N = 800 empleados, divida el marco de 800 en
40 grupos de 20 empleados cada uno. Luego seleccione un número aleatorio de los primeros 20 individuos, e incluya cada
vigésimo individuo tras la primera selección de la muestra. Por ejemplo, si el primer número seleccionado es 008, sus
selecciones subsiguientes son 028, 048, 068, 088, 108, . . . , 768 y 788.
Aunque la muestra aleatoria simple y la muestra sistemática son más sencillas de utilizar, por lo general son menos
eficientes que otros métodos más elaborados de muestreo probabilístico.
Existen mayores posibilidades de que se presenten sesgos en la selección y falta de representatividad de las
características de la población en las muestras sistemáticas que en las muestras aleatorias simples.
Muestra estratificada
En una muestra estratificada, primero subdivida N elementos del marco en subpoblaciones separadas, o estratos. Un
estrato se define mediante algunas características comunes. Seleccione una muestra aleatoria simple dentro de cada
uno de los estratos, y combine los resultados de muestras aleatorias simples distintas.
En una muestra de conglomerados, divida los N elementos del marco en varios conglomerados, de tal manera que cada
uno sea representativo de toda la población.Los conglomerados son designaciones de suceso natural, como países,
distritos electorales, cuadras de una ciudad, hogares o territorios de venta.
Con frecuencia, el muestreo de conglomerados tiene una mejor relación costo-eficacia que el muestreo aleatorio simple,
sobre todo si la población se distribuye en una región geográfica extensa.
Errores de encuesta
• Error de cobertura: El error de cobertura se presenta cuando se excluyen del marco ciertos grupos de elementos, de tal manera
que no tienen posibilidad de resultar seleccionados como parte de la muestra. El error de cobertura provoca un sesgo de selección.
• Error de no respuesta: El error de no respuesta surge a partir de la omisión al recabar datos de todos los elementos de la muestra,
y tiene como resultado un sesgo de no respuesta.
• Error de muestreo: El error de muestreo refleja la heterogeneidad o “diferencia de posibilidad” entre una muestra y otra, con base
en la probabilidad de que determinados individuos o elementos sean seleccionados en muestras particulares.
• Error de medición: Una pregunta debe ser clara y precisa. Además, para evitar las preguntas tendenciosas, es necesario plantearlas
de manera neutral. Existen tres causas de errores de medición: la redacción ambigua de las preguntas, el efecto halo y el error de la
encuesta.
Consideraciones éticas
• El error de cobertura da como resultado un sesgo en la selección, y se convierte en un problema ético si se excluye del marco a
individuos o grupos específicos, en forma deliberada, de manera que los resultados de la encuesta se inclinen hacia una posición más
favorable para el interesado.
• El error de no respuesta puede conducir al sesgo de no respuesta, y se convierte en un problema ético si el interesado diseña
deliberadamente la encuesta de tal manera que se reduzca a la posibilidad de que la respondan grupos o individuos específicos.
• El error de muestreo se convierte en un problema ético si al mostrar los resultados se omite deliberadamente hacer referencia
al tamaño de la muestra y al margen de error, de manera que el interesado promueva un punto de vista que, de otra forma, no sería
verdaderamente significativo.
• El error de medición elige preguntas tendenciosas que dirigen las respuestas en una dirección específica; cuando el entrevistador,
mediante ademanes y tonos, provoca deliberadamente un efecto halo o, de cualquier otra forma, dirige las respuestas en una
dirección específica; cuando el encuestado, desdeñando el proceso de encuestas, proporciona información falsa de manera
intencional.
4) En una encuesta se estimó el promedio de ingresos en $1700 con una dispersión de $50.
Admitiendo una distribución normal para la variable ingreso.