Está en la página 1de 320

 

Programa: Estadística básica para Economía y Administración


 
Diploma y/o Carrera: Diplomatura en Economía y Administración / Diplomatura en Ciencias Sociales
Curso: Estadística básica para Economía y Administración
Profesora: Florencia Pizzarulli
Carga horaria semanal: 4 horas áulicas y 2 hora extra-áulicas.
Horas de consulta extra-clase: a definir.
Créditos: 10
Núcleo al que pertenece: Núcleo Obligatorio (Diplomatura en Economía y Administración/ Electivo
(Diplomatura en Ciencias Sociales).
Tipo de asignatura: Teórico-práctica
Contacto docente:

Prof. Mg. Florencia Pizzarulli

Correo: florenciapizzarulli@gmail.com
 
Programa: Estadística básica para Economía y Administración
 
Diploma y/o Carrera: Diplomatura en Economía y Administración / Diplomatura en Ciencias Sociales
Curso: Estadística básica para Economía y Administración
Profesora: Florencia Pizzarulli
Carga horaria semanal: 4 horas áulicas y 2 hora extra-áulicas.
Horas de consulta extra-clase: a definir.
Créditos: 10
Núcleo al que pertenece: Núcleo Obligatorio (Diplomatura en Economía y Administración/ Electivo
(Diplomatura en Ciencias Sociales).
Tipo de asignatura: Teórico-práctica
Clase 1. Definiciones y conceptos fundamentales en la Estadística para
economía y administración.

• Presentación del curso.

• Presentaciones personales. Programa. Cronograma de clases. Presentación de los materiales de


lectura obligatorios. Método de evaluación. Método de cursada.

• Conceptos básicos de Estadística.

• Etapas de investigación.

• Fuentes y objetivos.

• Elementos, variables y observaciones.

• Universo y muestras.

• Encuestas y censos.
Mes  Contenidos 

Semana 13-03  Presentación del curso. Definiciones de estadística. Datos

Semana 20-03 Medidas de tendencia central 

Semana 27-03 Medidas de dispersión aplicadas a problemas de la Economía y Administración.

Semana 03-04  Teoría de las probabilidades. Probabilidad Básica 

Semana 01-05    Feriado- lunes

Semana 08-05  Repaso primer parcial- Actividades integradoras

                    Lunes 15-05 Primer parcial

Distribución de probabilidad- Variable aleatoria discreta- Valor esperado y


                      Semana- 22-05 Distribución binomial

Semana 29-05 Distribución normal- Variable aleatoria continua

Semana 12-06 Introducción a la inferencia estadística- Distribución normal con muestras

Semana 19-06 Intervalos de confianza- Repaso

Lunes 26-06  Segundo parcial

Jueves 29-06 Recuperatorios

Lunes 03-07  Integrador  


Estructura del curso
Primera parte:

INTRODUCCIÓN. DATOS. TABLAS Y GRÁFICAS

MEDIDAS DE TENDENCIA CENTRAL NUMÉRICAS DESCRIPTIVAS

PROBABILIDAD BÁSICA

ALGUNAS IMPORTANTES DISTRIBUCIONES DE PROBABILIDAD DISCRETA

Segunda parte:

LA DISTRIBUCIÓN NORMAL

DISTRIBUCIONES MUESTRALES

ESTIMACIÓN DE INTERVALOS DE CONFIANZA

FUNDAMENTOS DE LA PRUEBA DE HIPÓTESIS: PRUEBAS DE UNA MUESTRA


¿Qué es la estadística?
(…) la estadística se define como el arte y la ciencia de reunir datos, analizarlos, presentarlos e interpretarlos. Especialmente en los
negocios y en la economía, la información obtenida al reunir datos, analizarlos, presentarlos e interpretarlos proporciona a directivos,
administradores y personas que deben tomar decisiones una mejor comprensión del negocio o entorno económico, permitiéndoles así
tomar mejores decisiones con base en mejor información” Anderson, D. J. Sweeney y Williams T. A. (2003)
“La estadística es la rama de las matemáticas que examina las formas de procesar y analizar datos. La estadística ofrece los
procedimientos para recolectar y transformar los datos de manera que sean útiles a quienes toman decisiones en los negocios (…)”
Levine.D.M., Krehbiel, T. y Berenson, M. (2006)

🡪 La estadística es una rama de la matemática que, si bien es utilizada desde la  antigüedad, su uso moderno se ubica
alrededor del siglo XVI, XVIII y se lo relaciona  con las necesidades de organización y control de poblaciones de los
nacientes Estados.

🡪 Nación en Europa. Conocer la cantidad de habitantes, sus tasas de mortalidad, medir  los efectos de epidemias como la
fiebre amarilla, etc. fueron algunos de los usos  asociados en ese entonces a la Estadística.

🡪 A partir de allí, se constituye como una disciplina que irá diversificándose en sus usos,  campos de aplicaciones, y a
medida que avanza el desarrollo tecnológico,  aumentarán también las técnicas y aplicaciones posibles. 
¿Para qué se usa la estadística?
Contaduría:
Auditorías en base a subconjuntos
o muestras.

Marketing: gran cantidad de datos


usados Finanzas:
para la orientación comercial. Ej: Google, información estadística como
Maps, Clicks guía para sus
recomendaciones de inversión.

Producción: datos para control de


calidad o
para programación de stocks. Economía: información estadística para política pública.
Estimaciones de pobreza, desempleo, distribución del
ingreso, inflación, etc.
Definiciones básicas
Datos:
(…) Datos son hechos/informaciones y cifras que se recogen, analizan y resumen para su presentación e
interpretación. A todos los datos reunidos para un determinado estudio se les llama conjunto de datos para el estudio

Elementos o unidades de análisis : son las entidades de las que se obtienen los datos. Ej: cada estudiante

Variable: son las características de los objetos o de los individuos.

Ejemplos de variables son el género al que usted pertenece, su especialidad o campo de estudio, la cantidad de dinero
que tiene en su cartera y el tiempo que le toma alistarse por la mañana para ir a la escuela. El aspecto esencial de la
palabra variable es la idea de que las cosas difieren (…). Se debe distinguir entre una variable, como el género, y su valor
para una observación individual (por ejemplo, “masculino”).

Todas las variables deben tener una definición operacional, es decir, un significado universalmente
aceptado que sea claro para todos aquellos que estén relacionados con el análisis. La falta de definiciones
operacionales genera confusión.

Los valores encontrados para cada variable en cada uno de los


elementos constituyen los datos
Definiciones básicas

POBLACIÓN
La población consiste en todos los miembros de un grupo acerca de los cuales se desea obtener
una conclusión.

MUESTRA
Una muestra es una parte de la población seleccionada para análisis.

PARÁMETRO
Un parámetro es una medida numérica que describe una característica de la población.

ESTADÍSTICO
Un estadístico es la medida numérica que describe alguna característica de la muestra.
La estadística se divide en dos ramas:
La estadística descriptiva se enfoca en la recolección, resumen y presentación de un conjunto de datos. Se ocupa de
trabajar con conjuntos de datos grandes, que en general no se puede realizar “a simple vista”. Es por esto que esta rama
se encarga de organizar y resumir datos para poder analizarlos, interpretarlos y presentarlos, comunicarlos. Se utiliza
tanto para una población como muestra.

Ejemplo: yo, su profesora de EBpEyA calculó la calificación promedio de ustedes. Como la estadística describe el
desempeño del grupo, pero no hace ninguna generalización acerca de los diferentes grupos, podemos decir que estoy
usando estadística descriptiva. Las gráficas, tablas y diagramas que muestran los datos de manera más clara y elocuente
son ejemplos de estadística descriptiva.

La estadística inferencial utiliza datos de las muestras para obtener conclusiones acerca de cierta población.
Al grupo grande de elementos en un determinado estudio se le llama población y al grupo pequeño muestra. Los
fundamentos de la estadística inferencial se basan en las matemáticas de la teoría de la probabilidad.

Ejemplo: Suponga que ahora decido utilizar el promedio de calificación de un grupo en una unidad para estimar la
calificación promedio del grupo en las diez unidades del curso. El proceso de estimación de tal promedio sería un
problema concerniente a la estadística inferencial. Cualquier conclusión a la que llegue sobre el promedio del grupo en
las diez unidades del curso estará basada en una generalización que va más allá de los datos de la unidad evaluada, y
ésta puede no ser completamente válida, de modo que la profesora debe establecer qué posibilidad
RECOLECCIÓN DE DATOS

Los datos son medidas que se obtienen de los elementos de una muestra, y las muestras se toman de la población, de tal forma que
sean lo más representativas posible. La técnica más común para asegurar una representación adecuada es usar una muestra aleatoria

Fuentes de datos: Existen cuatro importantes fuentes de datos:

• Los que proporciona una organización o un individuo. Las organizaciones e individuos que recolectan y publican datos,
generalmente los utilizan como fuente primaria y después permiten a otros usarlos como fuente secundaria

• Un experimento diseñado. Conducir un experimento es otra fuente importante de recolección de datos. Por ejemplo, para probar la
efectividad de un detergente, un experimentador determina qué marcas son más eficientes para dejar limpia la ropa sucia, lavándola
directamente, en lugar de preguntar a los clientes qué marca creen que sea más eficaz

• Una encuesta. Las respuestas posteriormente se editan, codifican y tabulan para su análisis.

• Un estudio observacional. En este estudio, el investigador observa el comportamiento de forma directa, generalmente en su
ambiente natural. Los estudios observacionales tienen muchas formas en los negocios. Un ejemplo de ellos es el grupo focal, una
herramienta de investigación de mercado que se utiliza para provocar respuestas no estructuradas ante preguntas abiertas.

Las fuentes de datos se clasifican en fuentes primarias y fuentes secundarias.

• Cuando el recolector de datos es quien los usa para el análisis, la fuente es primaria.
• Cuando una organización o individuo han compilado los datos que utiliza otra organización o individuo, la
fuente es secundaria.
Tipos datos
Los datos son los valores observados de las variables, y existen dos tipos de variables:
• Las variables categóricas o cualitativas producen respuestas categóricas, tales como sí o no.

• Las variables numéricas o cuantitativas producen respuestas que se expresan con números. La variables
numéricas se separan en dos tipos:
• Las variables discretas producen respuestas numéricas que surgen de un proceso de conteo.
Ej: ¿cuantas materias esta cursando? La respuesta es un número entero. No tiene ambigüedades.

• Las variables continuas producen respuestas numéricas que surgen de un proceso de medición.
Ej: estatura porque la respuesta toma cualquier valor dentro de un valor continuo o intervalo,
dependiendo de la precisión del instrumento que se utilice para medir.
A practicar:
DADOS LOS SIGUIENTES ENUNCIADOS DETERMINAR, DE SER POSIBLE, POBLACIÓN, TAMAÑO DE LA
MUESTRA, UNIDAD DE ANÁLISIS, VARIABLE Y CATEGORÍAS.
A) SUPONGAMOS QUE AL DUEÑO DE UN NEGOCIO LE INTERESA AVERIGUAR SI SUS CLIENTES
CONSIDERAN QUE SON BIEN ATENDIDOS, PARA ESTO, ESTÁ PLANEANDO ENTREVISTAR A 100 DE ELLOS Y
CONSULTARLES SOBRE LA ATENCIÓN RECIBIDA CALIFICÁNDOLA EN MUY BUENA, BUENA, REGULAR O
MALA.
B) DE UNA PRODUCCIÓN DE 1000 TUERCAS SE EXTRAEN 40 Y SE MIDE SU DIÁMETRO.
C) EL JEFE DE PERSONAL DE UNA FÁBRICA REALIZA UNA ACTUALIZACIÓN DE UN REGISTRO DONDE
CONSTA LA ANTIGÜEDAD DE CADA OPERARIO PARA DETERMINAR EL MONTO A PAGAR
CORRESPONDIENTE POR DICHO CONCEPTO.
D) EN UNA EMPRESA SE REGISTRA EL NIVEL DE EDUCACIÓN DE TODOS SUS EMPLEADOS.
E) UN INVESTIGADOR EDUCATIVO QUIERE EVALUAR LA EFECTIVIDAD DE UN MÉTODO PARA ENSEÑAR A
LEER A ESTUDIANTES DE UNA ESCUELA DE SORDOS. PARA ELLO TOMA UN GRUPO DE 30 ALUMNOS
ELEGIDOS AL AZAR. EL APROVECHAMIENTO AL FINAL DE UN PERÍODO DE ENSEÑANZA SE MIDE CON EL
RESULTADO (MALO, REGULAR O BUENO) DEL ESTUDIANTE EN UN EXAMEN DE LECTURA
Respuestas:
Proponer un sistema de categorías e indicar el nivel de medición de las
siguientes variables.

A) NÚMEROS DE ARTÍCULOS DEFECTUOSOS.


B) VIDA ÚTIL DE UNA LÁMPARA.
C) CANTIDAD DE DINERO QUE SE GASTÓ EN IMPUESTO DE UN DETERMINADO MES.
D) TIPO DE TRANSPORTE UTILIZADO POR UNA FAMILIA EN UNA SEMANA.
E) TIEMPO DE ESPERA EN LA COLA DE UN BANCO.
F) NÚMERO DE CALCULADORAS QUE VENDIÓ UN NEGOCIO EN UNA SEMANA.
G) POSICIÓN JERÁRQUICA EN UNA EMPRESA.
Ejercicios:
PARA LAS SIGUIENTES SITUACIONES IDENTIFIQUE LA O LAS VARIABLES ESTUDIADAS, INDICANDO TIPO DE VARIABLE,VALORES
POSIBLES , UNIDADES, INDIVIDUO, SI SE TRATA DE UNA MUESTRA O DE LA POBLACIÓN Y EL TAMAÑO.

A) UN PROFESOR DE MATEMÁTICA CONTABILIZA LA CANTIDAD DE ALUMNOS QUE APROBARON LA MATERIA POR CURSO, EN
CADA UNO DE LOS 7 CURSOS QUE DICTÓ EN EL ÚLTIMO CUATRIMESTRE. LOS CURSOS POSEEN A LO SUMO 50 ALUMNOS.

B) SE MIDEN LOS CONSUMOS MENSUALES EFECTUADOS CON TARJETA DE CRÉDITO POR 100 PERSONAS.

C) EN UNA ENCUESTA POLÍTICA SE INDAGA A 500 INDIVIDUOS SOBRE EL CANDIDATO AL QUE VOTARÍAN EN LAS PRÓXIMAS
ELECCIONES. ADEMÁS SE REGISTRA EL GÉNERO Y EL NIVEL SOCIOECONÓMICO DE LOS ENCUESTADOS.
D) UNA EMPRESA DECIDE LANZAR AL MERCADO UNA NUEVA GASEOSA DIET, PERO PREVIAMENTE DECIDE DETERMINAR EL
NIVEL DE ACEPTACIÓN DEL NUEVO PRODUCTO. CON TAL FIN, UN GRUPO DE 50 PANELISTAS EFECTÚAN UNA DEGUSTACIÓN
DEL NUEVO PRODUCTO Y LUEGO COMPLETAN LA SIGUIENTE ENCUESTA:
1- OTORGUE UN PUNTAJE DE 0 A 10 AL SABOR DE LA GASEOSA QUE PROBÓ
2- ¿CON QUÉ FRECUENCIA COMPRARÍA LA GASEOSA EN CASO DE QUE SE LANCE AL MERCADO? NO LA COMPRARÍA
UNCA LA COMPRARÍA OCASIONALMENTE LA COMPRARÍA FRECUENTEMENTE
Respuestas:
a) CANTIDAD DE ALUMNOS QUE APROBARON LA MATERIA EN CADA CURSO. CUANTITATIVA DISCRETA.
[ALUMNOS]. INDIVIDUO=CURSO (N=7 CURSOS DE 50 ESTUDIANTES)
B) CONSUMOS MENSUALES DE TARJETA DE CRÉDITO POR PERSONA. CUANTITATIVA CONTINUA. $/PERSONA.
INDIVIDUO=PERSONA MUESTRA. (N=100)
C) 1. CANDIDATO QUE VA A VOTAR. CUALITATIVA NOMINAL. INDIVIDUO=ENCUESTADO. MUESTRA (N=500).
2. GÉNERO. CUALITATIVA NOMINAL. INDIVIDUO=ENCUESTADO. MUESTRA (N=500). 3. NIVEL
SOCIOECONÓMICO. CUALITATIVA ORDINAL. INDIVIDUO=ENCUESTADO. MUESTRA (N=500).
A) 1. NIVEL DE AGRADO CON EL SABOR. CUALITATIVA ORDINAL. INDIVIDUO=PANELISTA. MUESTRA (N=50)
B) . 2. INTENCIÓN DE COMPRA. CUALITATIVA ORDINAL. INDIVIDUO=PANELISTA. MUESTRA (N=50).
ClASE 2

Etapas en el análisis estadístico


El objetivo del análisis estadístico es:

A. Planear la búsqueda y obtención de la información. Es la etapa del diseño de la investigación, en la que se define
cómo se llevará a cabo, a fin de responder a las preguntas planteadas. Aquí se define cuál es la población objetivo,
cuáles serán los métodos de selección de las muestras, cuántos individuos las integrarán, etcétera.

B. Organizar y sistematizar la información para su descripción y análisis. Es la etapa del resumen y exploración de
datos, cuando se confeccionan gráficos, diagramas para presentar la información recolectada, o se diseñan índices
de resumen de los datos.

C. A partir de la información organizada, efectuar predicciones a través de la estimación y contrastación de hipótesis.


Es la etapa de la inferencia. El uso de métodos estadísticos permite cuantificar la posibilidad de cometer errores en
las estimaciones y predicciones.
Frecuencias
FRECUENCIAS ABSOLUTAS: ES LA CANTIDAD DE CASOS U OBSERVACIONES QUE
ENCONTRAMOS EN CADA CATEGORÍA DE UNA VARIABLE.

FRECUENCIAS RELATIVA O PORCENTUAL: ES LA PROPORCIÓN DE CASOS DE CADA


CATEGORÍA SOBRE EL TOTAL DE CASOS RELEVADOS.

FRECUENCIAS ACUMULADAS: ESTÁ COMPUESTA POR EL NÚMERO O PORCENTAJE DE CASOS


DE LAS CATEGORÍAS MÁS TODAS LAS QUE QUEDAN POR DEBAJO DE ELLA. ESTO TIENE
SENTIDO CUANDO TRABAJAMOS CON VARIABLES DE MEDICIÓN ORDINAL O NUMÉRICA.
Tablas y Gráficos para datos cualitativos (categóricos)

Distribución de frecuencia: Una distribución de frecuencia es un resumen


tabular de datos que muestra el número (frecuencia) de elementos en cada una Género FA
de las diferentes clases.
Masculino 9
Para elaborar una distribución de frecuencia con datos se debe contar el número Femenino 13
de veces que aparece cada género en la tabla de datos. Es un resumen, y aporta No Binario 4
más claridad a ver el listado completo.

Frecuencia relativa y de frecuencia porcentual: proporción o porcentaje de elementos en cada clase. La frecuencia
relativa de una clase es igual a la parte o proporción de los elementos que pertenecen a cada clase.

Frecuencia relativa de una clase—> Frecuencia de la clase ( fa de femenino por ej)


n ( total de casos)
Gráficas de barra: una gráfica de barras es una gráfica para Gráfica de pastel: Para elaborar una gráfica de pastel primero se
representar los datos cualitativos de una distribución de dibuja un círculo que representa todos los datos. Después se usa
frecuencia, de frecuencia relativa o de frecuencia porcentual la frecuencia relativa para subdividir el círculo en sectores, o
partes, que corresponden a la frecuencia relativa de cada clase.
Distribución frecuencia (Género alumnos/as)
Chart Title
14
12 No
10 Bina- Mas- Masculino
8 rio; culino
6 Femenino
Se- ; Se-
Fe-
4 ries1; No Binario
2 meninries1;
0 o; 4;
Se- 9;
15% 35%
ries1;
Masculino Femenino No Binario
13;
50%
Tablas y Gráficos para datos cuantitativos (numéricos)
Distribución de frecuencia: misma que para datos cualitativos. Los tres pasos necesarios para definir las clases de una
distribución de frecuencia con datos cuantitativos son:

• Número de clases: Las clases se forman especificando los intervalos que se usarán para agrupar los datos. La idea
es tener las clases suficientes para que se muestre la variación en los datos, pero no deben ser demasiadas si
Algunas de ellas contienen sólo unos cuantos datos. Se recomienda emplear entre 5 y 20 clases . Cuando los datos
son pocos, cinco o seis clases bastan para resumirlos.

• Ancho de las clases: Como regla general es recomendable que el ancho sea el mismo para todas las clases. Así, el ancho
y el número de clases no son decisiones independientes. Entre mayor sea el número de clases menor es el ancho de
las clases y viceversa. Para determinar el ancho de clase apropiada se empieza por identificar el mayor y el menor de
los valores de los datos:
Ancho aproximada de clase: Valor mayor en los datos - Valor menor en los datos
Número de clases
• Límites de clase: deben elegirse de manera que cada dato pertenezca a una y sólo una de las clases. El límite de clase
inferior indica el menor valor de los datos a que pertenece esa clase. El límite de clase superior indica el mayor valor de
los datos a que pertenece esa clase.
Una vez determinados números de clases, ancho y límites de las clases la distribución de frecuencia se obtiene
contando el número de datos que corresponden a cada clase

Distribuciones de frecuencia relativa y de frecuencia porcentual


Las distribuciones de frecuencia relativa y de frecuencia porcentual para datos cuantitativos se definen de la misma
forma que para datos cualitativos. Primero debe recordar que la frecuencia relativa es el cociente, respecto al total de
observaciones, de las observaciones que pertenecen a una clase. Si el número de observaciones es n, la frecuencia
porcentual de una clase es la frecuencia relativa multiplicada por 100.

Frecuencia relativa de la clase: Frecuencia de la clas


n
Tablas y gráficos con datos bivariados de clasificación cruzada (tablas dinámicas)
Tanto en cuestiones económicas o de la administración, es común analizar la relación entre dos o más variables
categóricas, o bien numéricas.

Una tabla de clasificación (o contingencia) cruzada presenta los resultados de dos variables categóricas. Las respuestas
en conjunto se clasifican de tal manera que las categorías de una variable se localizan en las filas, y las categorías de la
otra variable se localizan en las columnas. En resumen, mide las relaciones causales.

Cuenta de Nombre
completo del
usuario Etiquetas de columna
No tengo empleo Por el momento no tengo empleo Trabajo entre 10 y 40 Trabajo hasta Total
remunerado, y no estoy en remunerado, pero estoy en la horas semanales 10 horas genera
la búsqueda. búsqueda. semanales. l
Etiquetas de fila
Femenino 6 9 2 17
Masculino 2 4 2 1 9
Total general 2 10 11 3 26

 
Diagramas de dispersión y series de tiempo.
Los diagramas de dispersión se suelen utilizar para analizar posibles relaciones entre dos variables numéricas. Coloque una
variable en el eje horizontal X y la otra variable en el eje vertical Y

EJEMPLO

Hemos dividido al gráfico en cuatro cuadrantes: el noreste


representa a aquellos países con elevadas capacidades
tecnológicas y un CCTX elevado (“innovadores industriales”); el
sudeste a aquellos países con elevadas capacidades tecnológicas
pero un CCTX bajo (“innovadores primarizados”); el noroeste a
aquellos países con un CCTX alto, pero bajas capacidades
tecnológicas (“ensambladores”) y, por último, el sudoeste a
aquellos países que tienen capacidades tecnológicas y un CCTX
bajos (“no innovadores primarizados”). Además, la zona media
del gráfico abarca a países heterogéneos en sus CCTX pero con
CT intermedias, lo cual configura un quinto tipo ideal: el de los
“intermedios”.
EJEMPLOS
Repaso actividades clase virtual
Calcule las frecuencias relativas y porcentuales del nivel educativo alcanzado
por las personas que en 2010 habitaban en la provincia de Buenos Aires, de
entre 20 y 24 años. (Datos de la tabla 2)

Tabla 2
Habitantes de la Provincia de Buenos Aires de entre 20 y 24 años según
nivel educativo alcanzado

Nivel Educativo Alcanzado Cantidad de personas de entre 20 y 24 años


Inicial (jardín, preescolar) 338
Primario 189644
EGB 91369
Secundario 377147
Polimodal 263040
Superior no universitario 111086
Universitario 230316
Post universitario 1202
Educación especial 9778
Fuente: Censo de Población Hogares y Vivienda 2010
Respuesta:
Personas entre 20-24 años de la Provincia de Buenos Aires
Frecuencia
Varón Mujer Totales Frecuencia relativa
  porcentual

Inicial (jardín, preescolar) 170 168 338 0,00027 0,027

Primario 110782 78862 189644 0,14887 14,887


EGB 52876 38493 91369 0,07172 7,172

Secundario 196615 180532 377147 0,29605 29,605

Polimodal 134641 128399 263040 0,20648 20,648


Superior no universitario 37966 73120 111086 0,08720 8,720

Universitario 100365 129951 230316 0,18079 18,079


Post universitario 400 802 1202 0,00094 0,094
Educación especial 5670 4108 9778 0,00768 0,768

Total 639485 634435 1273920 1,00000 100,000


2)
Medidas numéricas descriptivas
Medidas de localización o tendencia central.

• Tendencia central, es la medida que describe cómo todos los valores de los datos se agrupan
en torno a un valor central.

• Variación, es la cantidad de disgregación o dispersión de los valores con respecto a un valor


central.

La mayoría de los conjuntos de datos presentan una tendencia central a agruparse en torno a un valor central.

Cuando “la gente” habla de un “promedio”, o “valor medio”, o del valor “más común o frecuente”, se refiere de manera
informal a la media, la mediana y la moda, tres medidas de tendencia central.

Es posible caracterizar cualquier conjunto de datos numéricos por la medición de su


tendencia central, variación y forma
Medidas de tendencia central. Primera medida de tendencia central
Media aritmética o promedio

La medida de localización más importante es la media, o valor promedio, de una variable. La media proporciona una
medida de localización central de los datos. Si los datos son datos de una muestra, la media se denota X; si los datos
son datos de una población, la media se denota con la letra griega μ (Mu).

La media sirve como “punto de equilibrio” del conjunto de datos.

La media se calcula sumando todos los valores del conjunto de datos y dividiendo el resultado por el número de
valores considerados.

**La letra griega es el símbolo de sumatoria (suma)


Problemas
Como todos los valores desempeñan un papel semejante, una media se verá muy afectada por cualquier valor que difiera
mucho de los demás en el conjunto de datos. Cuando tenga tales valores extremos, debe evitar el uso de la media. La
media sugiere cuál es un valor “típico” o central del conjunto de datos.
Ejemplo
Suponga que define en minutos (redondeando al minuto más cercano) el tiempo que le lleva arreglarse, desde que
se levanta hasta que sale de casa. A lo largo de 10 días hábiles consecutivos, usted recaba los tiempos que se
muestran a continuación:

Y si cambiamos el valor del 4to


día de 52 a 102 minutos?

Un valor extremo elevó la media en más del


10%, de 39.6 a 44.6 minutos. En contraste con
A pesar de que ni un solo día de la muestra tuvo en realidad la media original, que estaba “en medio”,
el valor de 39.6 minutos, asignar 40 minutos a su arreglo mayor que cinco de los tiempos (y menor que
personal sería un buen criterio. los otros cinco), la nueva media es mayor que 9
de los 10 tiempos de arreglo. El valor extremo
provocó que la media sea una mala medida de
tendencia central.
Una segunda medida de tendencia central: la media ponderada
La media ponderada nos permite calcular un promedio que toma en cuenta la importancia de cada valor con respecto al
total.

Ejemplo: una empresa que utiliza tres niveles de trabajo —no calificado, semi-calificado y calificado— para la producción de
dos de sus productos finales

🡪 La empresa desea saber el promedio del costo de trabajo por hora para cada uno de los productos

Un simple promedio aritmético de los salarios pagados sería:


Para que nuestros cálculos sean correctos, las respuestas deben tomar en cuenta que se utilizan diferentes niveles de
mano de obra. Podemos determinar los promedios correctos de la siguiente manera.

Para el producto 1 🡪 el costo total del trabajo por unidad es ($5 x 1) + ($7 x 2) + ($9 x 5) = $64

y como se invierten ocho horas de trabajo, el costo promedio de mano de obra por hora es $64/8 🡪 $8.00.

Para el producto 2, el costo total del trabajo por unidad es ($5 x 4) ($7 x 3) ($9 x 3) $68 🡪 para un costo promedio de mano
de obra por hora de $68/10 🡪 $6.80.

Así, vemos que los promedios ponderados dan el valor correcto para los costos promedio por hora de mano de obra de los
dos productos, ya que consideran las diferentes cantidades de cada nivel de mano de obra que requieren los productos
Mediana

La mediana es el valor que divide en dos partes iguales a un conjunto de datos ya ordenado. La mediana no se ve
afectada por los valores extremos, de manera que puede utilizarse cuando están presentes.

La mediana es el valor medio de un conjunto de datos ordenado de menor a mayor.

**Para calcular la mediana del conjunto de datos, primero ordene


los valores de menor a mayor

Dos reglas para calcular la mediana:

• Regla 1: Si el conjunto de datos es un número impar de valores, la mediana es el valor colocado en medio.

• Regla 2: Si el conjunto de datos da un número par, entonces la mediana es el promedio de los dos valores colocados
en medio.
Mediana = 39.5

Puesto que para esta muestra de 10 elementos el resultado de dividir n + 1 por 2 es (10 + l)/2 = 5.5, debe utilizarse la
regla 2 y promediar los valores clasificados quinto y sexto, 39 y 40.
Por lo tanto, la mediana es 39.5.

Conclusión

Una mediana de 39.5 significa que la mitad de los días, el tiempo necesario para arreglarse
es menor o igual que 39.5 minutos, y la otra mitad de los días es mayor o igual que 39.5
minutos.
Ventajas y desventajas de la mediana

• La más importante, es que los valores extremos no afectan a la mediana de manera tan grave
como a la media.

• La mediana es fácil de entender.

• Se puede calcular a partir de cualquier tipo de datos, incluso a partir de datos agrupados

• Podemos encontrar la mediana incluso cuando nuestros datos son descripciones cualitativas
como color o nitidez, en lugar de números

• Ciertos procedimientos estadísticos que utilizan la mediana son más complejos que aquellos
que utilizan la media

• También, debido a que la mediana es una posición promedio, debemos ordenar los datos
antes de llevar a cabo cualquier cálculo. Esto implica consumo de tiempo para cualquier
conjunto de datos que contenga un gran número de elementos.

• Si deseamos utilizar un estadístico de la muestra para estimar un parámetro de la población,


la media es más fácil de usar que la mediana
Una medida final de tendencia central: la Moda

La moda es el valor del conjunto de datos que aparece con mayor frecuencia.

Al igual que en la mediana y a diferencia de la media, los valores extremos no afectan a la moda.

Con frecuencia, en un conjunto de datos no existe moda, o bien, hay varias modas. Hay situaciones en que la
frecuencia mayor se presenta con dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los
datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son
multimodales. En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de
mucha ayuda para describir la localización de los datos.

Por ejemplo, considere los datos de tiempo para arreglarse que se muestran a continuación.

29 31 35 39 39 40 43 44 44 52

Existen dos modas, 39 y 44 minutos, ya que cada uno de estos valores aparece dos veces
Ejemplo de la Pág. 76 (Berenson y Levine):

CÁLCULO DE LA MODA
El gerente de sistemas encargado de la red de una empresa lleva un registro del número de fallas del
servidor que se presentan por día. Calcule la moda de los siguientes datos, que representan el número
de fallas diarias del servidor durante las últimas dos semanas.

1 3 0 3 26 2 7 4 0 2 3 3 6 3

SOLUCIÓN
El arreglo ordenado de estos datos es:
0 0 1 2 2 3 3 3 3 3 4 6 7 26

Como el 3 aparece cinco veces, más que ningún otro valor, la moda es 3. De esta forma, el gerente de sistemas se dará
cuenta de que la situación más común es la presencia de tres fallas del servidor al día.

Para este conjunto de datos, la mediana también es igual


Y la a 3, mientras que la media es de 4.5. El valor extremo de
mediana? Y la media? 26 es atípico. Con estos datos, la mediana y la moda
miden la tendencia central mejor que la media.
Ejemplo de la Pág. 77 (Berenson y Levine):

DATOS SIN MODA


Calcule la moda del rendimiento medio en 2003 de los fondos de inversión de alto riesgo para pequeños
capitales.

37.3// 39.2// 44.2// 44.5// 53.8// 56.6// 59.3// 62.4// 66.5

SOLUCIÓN
El arreglo ordenado para estos datos es:
37.3 39.2 44.2 44.5 53.8 56.6 59.3 62.4 66.5

Estos datos no tienen moda. Ninguno de sus valores aparece con mayor frecuencia; cada uno aparece
sólo una vez. NO SIRVE LA MODA PARA ENCONTRAR VALORES DE TENDENCIA CENTRAL
Ventajas y desventajas de la MODA
• La moda, igual que la mediana, se puede utilizar como una posición central para datos tanto
cualitativos como cuantitativos.

• Los valores extremos no afectan indebidamente a la moda. Aun cuando los valores extremos
sean muy altos o muy bajos, escogemos el valor más frecuente del conjunto de datos como el
valor modal.

• La podemos utilizar aun cuando una o más clases sean de extremo abierto.

• Puede no existir un valor modal debido a que el conjunto de datos no contiene valores que
se presenten más de una vez.

• En otras ocasiones, cada valor es la moda, pues cada uno de ellos se presenta el mismo
número de veces.

• Cuando los conjuntos de datos contienen dos, tres o más modas, es difícil interpretarlos y
compararlos.
Media datos agrupados.
Ejercicio:
Hallar la media de la distribución estadística que viene dada por la siguiente tabla:
Resultados:
Mediana en datos agrupados
Medidas de Posición
Análogamente a la mediana, existen otras medidas de posición que
dividen a la distribución en cierto número de partes iguales.

Las más comunes son los cuartiles que dividen en cuatro partes iguales
de 25% cada una a la distribución, quintiles –dividen en 5 grupos de
20%-, deciles –en 10 partes de 10%- y percentiles –en 100 de 1% cada
una-.
Deciles y percentiles

Por ejemplo, al buscar la categoría del caso que se encuentra en la frecuencia acumulada que incluye el 30%,
estaríamos determinando el Decil 3. Dicho valor delimita el tercer grupo decílico del cuarto. Deja por debajo el 30%
y por encima el 70% mayor.

Para determinar el percentil 73. Deberíamos buscar el valor del caso que se dónde se encuentra incluido el 73% en
la frecuencia acumulada, y si buscamos el Quintil 4 deberíamos buscar el valor del caso donde queda acumulado
el 80% y así análogamente
Cuartiles

Los cuartiles dividen a un conjunto de datos en cuatro partes iguales: el primer cuartil Q1 separa al 25%, que abarca
a los valores más pequeños, del 75% restante, constituido por los que son mayores. El segundo cuartil Q2 es la
mediana: 50.0% de sus valores son menores que la mediana y 50.0% son mayores. El tercer cuartil Q3 separa al
25.0%, que abarca a los valores más grandes, del 75.0% restante constituido por los que son menores. Las
ecuaciones (3.3) y (3.4) definen a los cuartiles primero y tercero.

Q1= n + 1 valor clasificado Q3= 3(n + 1) valor clasificado


4 4
El 25.0% de los valores son menores que el primer cuartil El 75.0% de los valores son menores que el tercer cuartil Q3,
Q1, y el 75.0% son mayores que el primer cuartil Q1 y el 25.0% son mayores que el tercer cuartil Q3

Para calcular los cuartiles, se utilizan las siguientes reglas:


• Regla 1 Si el resultado es un número entero, entonces el cuartil es igual al valor clasificado. Por ejemplo, si el tamaño de la muestra es n = 7, el primer
cuartil Q1 es igual a (7 + l)/4 = segundo valor clasificado.

• Regla 2 Si el resultado es una fracción de mitad (2.5, 4.5, etcétera), entonces el cuartil es igual al promedio de los valores clasificados correspondientes.
Por ejemplo, si el tamaño de la muestra es n = 9, el primer cuartil Q1 es igual al valor clasificado como (9 + l)/4 = 2.5, la mitad entre los valores clasificados
como segundo y tercero.

• Regla 3 Si el resultado no es un número entero ni una fracción de mitad, se redondea al entero más cercano y se selecciona ese valor clasificado. Por
ejemplo, si el tamaño de la muestra es n = 10, el primer cuartil Q1 es igual a (10 + l)/4 = valor clasificado como 2.75. Se redondea el 2.75 a 3 y se utiliza en
valor clasificado como tercero.
Ejemplo de la Pág. 76 (Berenson y Levine): tiempo para arreglarse

Valores ordenados:
29 31 35 39 39 40 43 44 44 52
Clasificación:
1 2 3 4 5 6 7 8 9 10

El primer cuartil es el valor clasificado como (n + l)/4 = (10 + 1)/4 = 2.75. Al emplear la tercera regla de los cuartiles,
redondeamos al tercer valor clasificado.

Para los datos sobre el tiempo necesario para arreglarse, el valor clasificado como tercero es 35
minutos.
Interprete el primer cuartil de 35 como que el 25% de los días el tiempo necesario para arreglarse es
menor o igual a 35 minutos, y que el 75% de los días ese tiempo es mayor o igual a 35 minutos.

El tercer cuartil es el valor clasificado como 3(n + l)/4 = 3(10 + l)/4 = 8.25.
Empleando la tercera regla de los cuartiles, redondeamos al valor clasificado como octavo. El valor
clasificado como octavo en los datos del tiempo necesario para arreglarse es de 44 minutos.
Interprete esto como que el 75% de los días, el tiempo necesario para arreglarse es menor o igual que
44 minutos, y que el 25% de los días ese tiempo es mayor o igual que 44 minutos.
Ejemplo de la Pág. 78 (Berenson y Levine): Rendimientos de los fondos en 2003

Valores en miles de millones de pesos:


37.3 //44.2 //53.8 //56.6 //62.4 //66.5 //39.2 //59.3// 44.5
Calcule el primer cuartil (Q1) y el tercer cuartil (Q3)
Valor clasificado:
37.3 39.2 44.2 44.5 53.8 56.6 59.3 62.4 66.5
Clasificación:
123456789

Por lo tanto, al utilizar la segunda regla, resulta que Ql es el valor clasificado como 2.5, que está justo a la mitad entre los valores clasificados como
segundo y tercero. Como el valor clasificado como segundo es 39.2 y el tercero es 44.2, el primer cuartil Q1 es el que está justo en medio de 39.2 y 44.2.
Por lo tanto:

Así, al utilizar la segunda regla, Q3 es el


Un primer cuartil de 41.7 señala que el 25% de los
valor clasificado entre los valores séptimo
rendimientos obtenidos durante 2003 fueron
y octavo. Como el valor clasificado como
menores o iguales que 41.7, mientras que el 75% de
séptimo es 59.3 y el octavo es 62.4, el
Para encontrar el tercer cuartil Q3: ellos fueron mayores o iguales que 41.7.
tercer cuartil Q3 es el que está justo en
medio de 59.3 y 62.4. De esta forma,
El tercer cuartil de 60.85 indica que el 75% de los
rendimientos obtenidos por los fondos fueron
menores o iguales que 60.85 y que el 25% fueron
mayores o iguales que 60.85.
Rango
El rango es la medida numérica descriptiva más sencilla de la variación en un conjunto de datos.
RANGO
El rango es igual al valor mayor - el valor menor.

Rango = Xmayor − Xmenor

Ejemplo de la Pág. 80 (Berenson y Levine): tiempo para arreglarse


Muestra
29 43 35 39 40 44 52 31 44 39

SOLUCIÓN
Para determinar el rango de los tiempos necesarios para arreglarse, los datos se ordenan de menor a mayor.

Al emplear la ecuación del rango: 52 − 29 = 23 minutos. Un rango de 23 minutos señala que la mayor diferencia del
tiempo necesario para arreglarse por la mañana entre dos días cualquiera es de 23 minutos.

El rango se basa sólo en dos observaciones


Que pasa con los valores extremos? y, por tanto, los valores extremos tienen una
gran influencia sobre él.
Ejemplo de la Pág. 81 (Berenson y Levine): rendimiento de los fondos. Calcule el rango de rendimientos
44.5 //37.3// 66.5// 39.2// 53.8// 56.6// 59.3// 62.4 //44.2//

SOLUCIÓN
Ordenados de menor a mayor, los rendimientos en 2003 de los nueve fondos de inversión
37.3 39.2 44.2 44.5 53.8 56.6 59.3 62.4 66.5

Por lo tanto, al utilizar la ecuación de rango = 66.5 − 37.3 = 29.2.

La mayor diferencia entre dos rendimientos de los fondos de inversión es de 29.2.

Aunque el rango es una medida simple de la variación total de los datos, no toma en cuenta cómo se distribuyen los datos entre
los valores menor y mayor.

En otras palabras, el rango no indica si los valores están distribuidos de manera uniforme a todo lo largo del conjunto de datos,
agrupados cerca de la parte media, o agrupados cerca de uno o ambos extremos. De esta manera, resulta engañoso utilizar el
rango como medida de la variación cuando al menos uno de los valores es extremo.
Rango intercuartil
La medida que no es afectada por los valores extremos es el rango intercuartil (también llamado dispersión media)
es la diferencia entre el tercer y primer cuartil de un conjunto de datos.
Rango intercuartil = Q3 − Ql
El rango intercuartil mide la dispersión en la mitad (parte central) de los datos, así que no se ve influido por los
valores extremos. En otras palabras, el rango intercuartil es el rango en que se encuentra el 50% central de los datos.

Ejemplo de la Pág. 80 (Berenson y Levine): tiempo para arreglarse


Datos 35 31 44 39 40 29 43 44 52 39
SOLUCIÓN
Ql = 35 y Q3 = 44. Rango intercuartil = 44 − 35 = 9 minutos

Por lo tanto, el rango intercuartil del tiempo necesario para arreglarse es de 9 minutos. Por lo general,
al intervalo de 35 a 44 se le denomina la mitad media.
Ejemplo de la Pág. 81 (Berenson y Levine): rendimiento de los fondos. Calcule el rango intercuartil

Datos:
39.2 37.3 44.2 44.5 53.8 59.3 66.5 62.4 56.6
SOLUCIÓN

Ql = 41.7 y Q3 = 60.85.

Rango intercuartil = 60.85 − 41.7 = 19.15

Así, el rango intercuartil de los rendimientos en 2003 es de 19.15.


Ejemplos y usos más comunes
Para datos agrupados:

Aclaración: si es tercer cuartil va: 3. N/4


Deciles
Percentiles
Ejercicio
Solución
Resultados:
Deciles
PERCENTIL
Ejercicios Guia
1) Se ha relevado la edad de un grupo de 15 lectores de una revista infantil.

8-9-7-8-9-10-12-11-8-9-7-6-8-9-9

Calcular la media, mediana, moda

2) La Consultora RH de recursos humanos se halla analizando el número de despidos que efectuó la empresa SAX SRL en los últimos doce meses y
recopiló los siguientes datos

18-15-14-23-20-18-17-18-16-20-18-15

a) Calcular el promedio de despidos, la moda y la mediana.


3) En 30 comercios del mismo ramo, se averiguó el total de unidades vendidas del producto P
durante la última semana, obteniéndo las siguientes cantidades:

66459768345574988569
9887666753
a) Definir la población y el tamaño de la muestra.
b) Definir la variable en estudio
c) Ordenar los datos mediante una tabla de frecuencias.
d) Elegir la quinta fila de la tabla y analizar el significado de cada una de las frecuencias y
expresarlo en lenguaje coloquial.
Respuestas
1) Me=9 años; Mo=9 años; Media=8.66 años S=1.54 años

2) Me = 18 despidos; media =17.67 despidos;

3) Respuestas: a) Todos los comercios; n = 30 b) Total de unidades vendidas. Variable cuantitativa,


discreta
Las notas obtenidas por una comisión de 35 alumnos fueron las siguientes:

8 alumnos obtuvieron un 6; 3 se sacaron un 5; otros 3 un 8; 16 se sacaron 7; 1 obtuvo un 9; 3 se sacaron


4 y uno se sacó un 2. También se releva que las notas corresponden 14 de ellas a matemática, 11 a
historia; y 10 a literatura.

a. Identifique la unidad de análisis y las variables mencionadas. Indique también las categorías de
cada una y su nivel de medición.
b. Construya una distribución de frecuencias –absolutas, relativas , porcentaje y porcentaje
acumulado- para las distribuciones dadas.
c. Calcular media, mediana y moda
d. Grafíquelas de la manera que le parezca más adecuada ( vemos en clase)
Dispersión: por qué es importante

La media de las tres curvas es la misma, pero la curva A tiene


menor separación (o variabilidad) que la curva B, y ésta tiene
menor variabilidad que la C.
Si medimos sólo la media de estas tres distribuciones,
estaremos pasando por alto una diferencia importante que
existe entre las tres curvas.

¿Por qué es tan importante entender y medir la dispersión de la distribución?

Primero, nos proporciona información adicional que nos permite juzgar la confiabilidad de nuestra medida de tendencia
central. Si los datos se encuentran muy dispersos, como los que representa la curva C de la figura 3-9, la posición central es
menos representativa de los datos, como un todo, que cuando éstos se agrupan más cerca alrededor de la media, como en
la curva A de la misma figura.

Segundo, debemos ser capaces de reconocer esa dispersión para poder abordar esos problemas.

Tercero, quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia dispersión de
valores con respecto del centro de distribución, o esto presenta riesgos inaceptables, necesitamos poder reconocerla y
evitar elegir distribuciones que tengan las dispersiones más grandes.
Dispersión: medidas de desviación promedio

Las descripciones más completas de la dispersión son aquellas que manejan la desviación promedio respecto a
alguna medida de tendencia central. Dos de estas medidas son importantes para nuestro estudio de la estadística: la
varianza y la desviación estándar

La varianza y la desviación estándar son dos medidas de dispersión muy ligadas entre sí, donde ambas requieren de
insumo principal la media.
Estos estadísticos miden la dispersión “promedio” alrededor de la media.

Para calcular la varianza de una población, la suma de los


cuadrados de las distancias entre la media y cada
elemento de la población se divide entre el número total
de observaciones en población. Al elevar al cuadrado
cada distancia, logramos que todos los números sean
positivos y, al mismo tiempo, asignamos más peso a las
desviaciones más grandes (desviación es la distancia entre
la media y un valor).
Varianza

La varianza es importante porque nos indica cosas sobre el conjunto de datos que probablemente no podamos percibir
con el solo hecho de saber la media o promedio, además de que es importante en la estadística porque nos sirve como
base para otros tipos de cálculos estadísticos.

La varianza es una medida de dispersión que nos señala que tan cerca o
que tan lejos estamos de los datos con respecto a la media o promedio.

Es una medida de dispersión ampliamente


 Cuanto mayor sea la varianza, mayor es la
utilizada en los sectores de la economía y las
dispersión de los datos y eso nos pudiera dar indicios
finanzas, interpretándose como el riesgo de
del comportamiento de los datos hacia el contraste
que el rendimiento de algún procedimiento en
de una hipótesis o posible hipótesis de una
concreto sea distinto del rendimiento esperado
investigación
de dicho procedimiento.
Para calcular a mano la varianza S2. Ejemplo de la Pág. 80 (Berenson y Levine): tiempo para arreglarse

Paso 1: Calcule la diferencia entre cada uno de los valores y la media.

Paso 2: Eleve al cuadrado cada una de esas diferencias.


Paso 5: Extraiga la raíz cuadrada de la
Paso 3: Sume las diferencias elevadas al cuadrado. varianza de la muestra, para obtener la
desviación estándar de la muestra.
Paso 4: Divida el total entre n – 1, para obtener la varianza de la
muestra.

La tabla 3.1 muestra los cuatro primeros pasos para calcular la


varianza de los datos referentes al tiempo necesario para
arreglarse, con una media (X! ) = 39.6.
En la segunda columna se muestra el paso 1.
En la tercera columna se muestra el paso 2.
En la parte inferior se muestra la suma de la diferencias elevadas al
cuadrado (paso 3).
Luego, este total se divide entre 10 – 1 = 9, para calcular la varianza
(paso 4).
Desviación estándar
Para la varianza, sin embargo, las unidades son el cuadrado de las unidades de los datos. Estas unidades no son
intuitivamente claras o fáciles de interpretar. Por esto debemos hacer un cambio significativo en la varianza para calcular
una medida útil de la desviación que no nos dé problemas con las unidades de medida y, en consecuencia, sea menos
confusa. Esta medida se conoce como la desviación estándar y es la raíz cuadrada de la varianza, donde tomamos la raíz
cuadrada tanto del valor como de las unidades en que se miden. La desviación estándar, entonces, queda en las mismas
unidades que los datos originales.

La desviación estándar de la población, , es simplemente la raíz


cuadrada de la varianza de la población. Como la varianza es
el promedio de los cuadrados de las distancias de las
observaciones a la media, la desviación estándar es la raíz
cuadrada del promedio de los cuadrados de las distancias
entre las observaciones y la media. Mientras que la varianza se
expresa con el cuadrado de las unidades utilizadas para medir
los datos, la desviación estándar está en las mismas unidades
que las que se usaron para medir los datos. La fórmula para la
desviación estándar es:
Desviación estándar

La desviación estándar se define como la raíz cuadrada positiva de la varianza. La desviación estándar se obtiene de la
varianza como sigue.

Esto indica que los tiempos necesarios para


arreglarse en esta muestra se agrupan
dentro de los 6.77 minutos que circundan a
la media de 39.6 minutos.
Es decir, se agrupan entre
X! − 1S = 32.83 y X! + 1S = 46.37).

De hecho, 7 de los 10 quedan dentro de este


intervalo.
Ejemplo de la Pág. 84 (Berenson y Levine): rendimiento de los fondos. Calcule la varianza y el desvió estándar.

SOLUCIÓN
La tabla 3.2 ilustra el cálculo de la varianza y la desviación estándar del rendimiento en 2003 para
los fondos de inversión de alto riesgo para pequeños capitales. Utilice la ecuación (3.9) de la página
82:

La desviación estándar de 10.55 indica


que los rendimientos en 2003 de los
fondos de inversión de alto riesgo para
pequeños capitales se agrupan dentro de
los 10.55 que rodean a la media de 51.53
(es decir, se agrupan entre − 1S = 40.98 y
+ 1S = 62.08). De hecho, el 55.6% (5 de 9)
de los rendimientos en 2003 quedan
dentro de este intervalo.

La varianza y la desviación estándar son dos medidas de la variación muy utilizadas para tomar en cuenta cómo se distribuyen los datos. Estos
estadísticos miden la dispersión “promedio” alrededor de la media, es decir, qué tanto varían los valores más grandes que están por encima de ella
y cómo se distribuyen los valores menores que están por debajo de ella.
Ejemplo
Los siguientes datos son una muestra de la tasa de producción diaria de botes de fibra de vidrio de un fabricante la
provincia de Bs As:

El gerente de producción de la compañía siente que una desviación estándar de más de tres botes por día indica variaciones
de tasas de producción inaceptables. ¿Deberá preocuparse por las tasas de producción de la planta?

3--62
(X-U) (X-U)^2
17 -3,4 11,56 Varianza 9,8
21 0,6 0,36 Desvío Estandar 3,1
18 -2,4 5,76 Media 20,4
27 6,6 43,56
17 -3,4 11,56
21 0,6 0,36
20 -0,4 0,16
22 1,6 2,56
18 -2,4 5,76
23 2,6 6,76 Varianza Desvío Estandar
Sumatoria 88,4 9,8 3,1

La desviación estándar de 3.1 botes representa un nivel inaceptable de variabilidad.


Criptomonedas: varianza y desvió estándar.
NOTAS + AUDIO

https://www.forbesargentina.com/money/crypto-crash-informe-revela-mas-mitad-inversores-bitcoin-esta-perdiendo-dinero-n25329

https://www.infobae.com/economia/2022/11/14/cripto-crash-la-explosion-de-la-burbuja-de-bitcoin-es-la-quinta-mas-grande-de-la-historia/

https://es.beincrypto.com/indice-volatilidad-bitcoin-btc-registra-minimo-historico/

https://tynmagazine.com/criptoeconomy-es-rentable-invertir-en-bitcoin/

AUDIO:Entrevista Maria O´Donel a Ignacio Carballo. Cripto-crash


Criptomonedas: varianza y desvió estándar.

70,000.00 Evolución 2010-2023 MEDIA $ 8.854,97 Serie completa


60,000.00
VARIANZA $ 209.090.258,70
50,000.00
DESVÍO ESTÁNDAR $ 14.459,95
40,000.00
30,000.00
20,000.00
MEDIA $ 20.413,87 desde 2018 a 2023 (últimos 5)
10,000.00
0.00 VARIANZA $ 277.973.317,00
2 3 2 2 2 2 21 2 1 20 2 0 19 1 9 18 1 8 1 7 1 7 1 6 1 6 15 1 5 1 4 1 4 13 1 3 12 1 2 11 1 1 10 DESVÍO ESTÁNDAR $ 16.672,53
e b - u g- e b - u g - e b - u g - e b - u g - e b - u g - e b - u g- e b - u g- e b - u g - e b - u g- e b - u g - e b - u g - e b - u g - e b - u g -
F A F A F A F A F A F A F A F A F A F A F A F A F A

MEDIA $ 36.301,13 Serie 2021-2023

Evolución 2010-2021 (abril) VARIANZA $ 196.094.933,34

70,000.00 DESVÍO ESTÁNDAR $ 14.003,39


60,000.00

50,000.00 MEDIA $ 27.130,61 Serie 2021-2023


40,000.00
VARIANZA $ 101.648.427,64
30,000.00
DESVÍO ESTÁNDAR $ 10.082,08
20,000.00

10,000.00
MEDIA $ 53.882,67 Serie Feb-Abr 2021
0.00
VARIANZA $ 57.283.532,22
1 0 0 9 8 8 7 7 6 6 5 4 4 3 3 2 1 1 0
p r-2 p-2 b-2 ul -1 c-1 y-1 ct-1 ar-1 g-1 n-1 n-1 v-1 pr-1 p-1 b-1 ul -1 c-1 y-1 ct-1
A Se Fe J De Ma O M Au Ja Ju No A Se Fe J De Ma O DESVÍO ESTÁNDAR $ 7.568,59
Dispersión relativa: el coeficiente de variación

La desviación estándar no puede ser la única base para la comparación de dos distribuciones. Si tenemos una desviación
estándar de 10 y una media de 5, los valores varían en una cantidad que es el doble de la media. Si, por otro lado, tenemos
una desviación estándar de 10 y una media de 5,000, la variación relativa a la media es insignificante. En consecuencia, no
podemos conocer la dispersión de un conjunto de datos hasta que conocemos su desviación estándar, su media y cómo
se compara la desviación estándar con la media.

El coeficiente de variación es una de


estas medidas relativas de dispersión.
Relaciona la desviación estándar y la
media, expresando la desviación
estándar como porcentaje de la media.
La unidad de medida, entonces, es
“porcentaje”, en lugar de las unidades
de los datos originales. Para una
población, la fórmula para el coeficiente
de variación es:
Dispersión relativa: el coeficiente de variación

Para utilizar esta fórmula en un ejemplo, podemos suponer que cada día el técnico A del laboratorio realiza un promedio
de 40 análisis con una desviación estándar de 5. El técnico B efectúa un promedio de 160 análisis diarios con una
desviación estándar de 15. ¿Cuál de los dos técnicos muestra menos variabilidad?

A primera vista, parece que el técnico B tiene una variación en


su producción tres veces mayor que el técnico A. Pero B realiza
sus análisis con una rapidez cuatro veces mayor que A.
Tomando en cuenta toda esta información, podemos calcular el
coeficiente de variación para ambos técnicos:

Así, tenemos que el técnico B, quien tiene una variación


absoluta mayor que la del técnico A (12,5), tiene una
variación relativa (9,4) menor que la de A, debido a que la
media de producción de B es mucho mayor que la de A
Otro ejemplo:

El gerente de operaciones de un servicio de entrega de paquetería está pensando si es


conveniente adquirir una nueva flota de camiones. Al guardar los paquetes en los camiones
para su entrega, se deben tomar en cuenta dos características principales: el peso (en libras)
y el volumen (en pies cúbicos) de cada artículo.

El gerente de operaciones toma una muestra de 200 paquetes, y encuentra que la media del
peso es 26.0 libras, con una desviación estándar de 3.9 libras, mientras que la media en
volumen es de 8.8 pies cúbicos, con una desviación estándar de 2.2 pies cúbicos.

¿Cómo puede el gerente de operaciones comparar la variación de peso y volumen?


La edad de los estudiantes regulares que acuden a un curso en los turnos matutino y
vespertino del nivel licenciatura de la Universidad Central se describe en las siguientes
dos muestras:

Turno matutino 23 29 27 22 24 21 25 26 27 24
Turno vespertino 27 34 30 29 28 30 34 35 28 29

Si la homogeneidad de la clase es un factor positivo en el aprendizaje, utilice una medida


de variabilidad relativa para sugerir en cuál de los dos grupos será más fácil enseñar.
Programa Matutino Vespertino

CV Matutino 10.02% CV Vespertino 9.46%


No existe mucha diferencia entre los dos grupos.
A: u.a:
Cada uno de los estudiantes de la comisión 2 de estadística de la UNQ en el 1er cuatrimestre de
2020

B: 7 (Q3)
Medida de posición

C:
Mo: 6

Md:6

Media: 5.78
Si la media de la comisión 1 es: 8.5

Calcular la variabilidad de cada comisión. ¿ Cuál es más


heterogénea?
Ejercicio
a) Calcule todas las medidas estudiadas para la variable “edad” y para la variable “estatura” de la Tabla 1
Edad Estatura
18 1,47
18 1,5 Mediana 20 1,63
19 1,55 Promedio 21,2632 1,63
19 1,58
Cuartil 1 19 1,6
19 1,6
20 1,6 Cuartil 3 22 1,67
20 1,61 Rango 11 0,29
20 1,61 Rango intercuartílico 3 0,07
20 1,62
Varianza 8,8713 0,0058
20 1,63
21 1,63 Desviación estándar 2,9785 0,0763
21 1,64 Coeficiente de variación 0,1401 0,0468
21 1,65
21 1,67
22 1,67
24 1,69
25 1,74
27 1,75
29 1,76
Historia y relevancia de la teoría de la probabilidad
La probabilidad constituye parte importante de nuestra vida cotidiana. En la toma de decisiones personales y
administrativas, nos enfrentamos a la incertidumbre y utilizamos la teoría de la probabilidad.

Cuando jugamos a los dados


Cuando escuchamos el pronóstico
de tiempo
Cuando hacemos planes financieros y
Cuando apostamos a un equipo de Fútbol evaluamos las posibilidades de que las ventas
alcancen o excedan un cierto nivel

Cuando estudiamos para un examen, ¿cuál es la


posibilidad de que el profesor nos pregunte algo sobre
la historia de la teoría de la probabilidad?

Vivimos en un mundo incapaz de predecir el futuro con total certidumbre. Nuestra necesidad de encarar a la
incertidumbre nos lleva a estudiar y utilizar la teoría de la probabilidad
Probabilidad básica

¿Qué entendemos por probabilidad?

La probabilidad es una medida numérica de la posibilidad


Una probabilidad es un valor numérico de que ocurra un evento. Por tanto, las probabilidades son
que representa la oportunidad o una medida del grado de incertidumbre asociado con cada
posibilidad de que un evento uno de los eventos previamente enunciados. Si cuenta con
en particular ocurra. las probabilidades, tiene la capacidad de determinar
la posibilidad de ocurrencia que tiene cada evento.

¿Qué probabilidad hay de ¿Qué probabilidad hay de ¿Qué probabilidad hay de ¿Qué probabilidad hay de
que sea un día lluvioso? que hoy gane mi equipo? que sea varón o mujer? que gane la lotería?

La probabilidad se calcula en valores que van de 0 a 1 y la sumatoria de todas las probabilidades debe ser igual a 1 en
resultados experimentales. Por lo tanto, un evento que no tiene oportunidad de ocurrir (por ejemplo, un evento
imposible) tiene una probabilidad de 0. Un evento que ocurrirá con toda seguridad (es decir, un evento seguro) tiene
una probabilidad de 1.

El evento “que llueva mañana”🡪 se entiende que si el pronóstico del tiempo dice “la probabilidad de que llueva es cercana
a cero”, implica que casi no hay posibilidades de que llueva. Sí informan que la probabilidad de que llueva es 0.90, sabe que
es muy posible que llueva. La probabilidad de 0.50 indica que es igual de posible que llueva como que no llueva.
EXPERIMENTOS

❖ Los experimentos aleatorios son aquellos en los que el resultado no se puede predecir con certeza, ya que
depende del azar o de factores aleatorios.

❖ En cambio, los experimentos determinísticos son aquellos en los que el resultado se puede predecir con
certeza, ya que no dependen del azar sino de las condiciones iniciales del experimento.

La principal diferencia entre experimentos aleatorios y determinísticos es que los primeros dependen del azar y
no se pueden predecir con certeza, mientras que los segundos se pueden predecir con certeza en función de las
condiciones iniciales del experimento.
Experimento

El experimento es definido como un proceso que genera resultados definidos. Y en cada una de las
repeticiones del experimento, habrá uno y sólo uno de los posibles resultados experimentales.

Al especificar todos los resultados


experimentales posibles, está
definiendo el espacio muestral
de un experimento.

ESPACIO MUESTRAL

El espacio muestral de un experimento es el conjunto de todos los resultados posibles.

A un resultado experimental también se le llama punto muestral para identificarlo como un elemento
del espacio muestral.
Experimentos de pasos simples

En el ejemplo de tirar una moneda, la cara de la moneda que caiga hacia arriba —cara o cruz— determina
el resultado experimental o puntos muestrales. Si denota con S el espacio muestral, puede emplear la
notación siguiente para describir el espacio muestral:
S = {Cara, cruz }

En el segundo experimento –tomar una pieza para revisar– puede describir el espacio muestral como
sigue:
S = {Defectuosa, no defectuosa}

¿Y el cuarto experimento? ¿El del


dado?
Los resultados experimentales, definidos por el número de puntos del dado en la cara que cae hacia arriba, son los seis
puntos del espacio muestral de este experimento –> S = {1, 2, 3, 4, 5, 6}
Experimentos de pasos múltiples

Un experimento que consiste en lanzar dos monedas. ¿Cuántos resultados posibles


tenemos?
El experimento de lanzar dos monedas es un experimento de dos pasos: el paso 1 es lanzar la primera moneda
y el paso 2 es lanzar la segunda moneda.

Si se emplea H para denotar cara y T para denotar cruz, (H, H) será el resultado experimental en el que se tiene
cara en la primera moneda y cara en la segunda moneda. Si continúa con esta notación, el espacio muestral
(S): S = {(H, H ), (H, T ), (T, H ), (T, T )}

Si se considera el experimento del lanzamiento de dos monedas (n1 = 2) y después lanzar la otra (n2 = 2), siguiendo la
regla de conteo (2)*(2) = 4, entonces hay cuatro resultados distintos.

¿Y seis monedas? (2)(2)(2)(2)(2)(2) = 64.


Ejemplo Kentucky Power & Light (KP&L). Pág 145 Anderson et al
El proyecto fue dividido en dos etapas: etapa 1 (diseño) y etapa 2 (construcción). A los administrativos no les es posible pronosticar el
tiempo exacto requerido en cada una de las etapas del proyecto. En un análisis de proyectos de construcción similares encuentran que la
posible duración de la etapa de diseño es de 2, 3, o 4 meses y que la duración de la construcción es de 6, 7 u 8 meses. Además, debido a
la necesidad urgente de más energía eléctrica, los administrativos han establecido como meta 10 meses para la terminación de todo el
proyecto.

Los resultados nos dicen que la duración del proyecto es


de 8 a 12 meses, y 6 de los 9 resultados experimentales
tienen la duración deseada de 10 meses o menos.

Aún cuando identificar los resultados experimentales ayuda,


es necesario considerar cómo asignar los valores de
probabilidad a los resultados experimentales antes de evaluar
la probabilidad de que el proyecto dure los 10 meses
deseados.
Existen tres aproximaciones sujetas a la probabilidad:
1) Probabilidad clásica o a priori:
En una probabilidad clásica a priori, la probabilidad de éxito se basa en el conocimiento previo del proceso implicado.

Se debe resaltar el hecho de que, con el fin de que


esta ecuación sea válida, cada uno de los
resultados posibles debe ser igualmente posible.

Ejemplo del mazo de cartas estándar con 26 cartas rojas y 26 cartas negras:

La probabilidad de seleccionar una carta negra es de 26/52 = 0.50, puesto que hay X = 26 cartas negras y T = 52 cartas en total.

Un dado estándar tiene seis caras. Cada cara contiene


uno, dos, tres, cuatro, cinco o seis puntos. Si usted tira el
dado, ¿cuál es la probabilidad de que caiga la SOLUCIÓN Cada cara tiene la misma posibilidad de
cara de cinco puntos? ocurrir. Como hay seis caras, la probabilidad
de obtener la cara con cinco puntos es de 1/6

Es a priori porque el número de formas en las que un evento puede ocurrir y el número total de resultados posibles se conocen por la composición del
mazo de cartas o de las caras del dado.
Existen tres aproximaciones sujetas a la probabilidad:

A la probabilidad clásica, a menudo, se le conoce como probabilidad a priori, debido a que si empleamos ejemplos
ordenados como monedas no alteradas, dados no cargados y mazos de barajas normales, entonces podemos establecer la
respuesta de antemano (a priori) sin necesidad de lanzar una moneda, un dado o tomar una carta. No tenemos que efectuar
experimentos para poder llegar a conclusiones sobre las monedas, los dados no cargados y las barajas normales. En lugar de
experimentos, podemos basar nuestras conclusiones en un razonamiento lógico antes de realizar el experimento.
2) Probabilidad clásica empírica o método de frecuencia relativa

En el punto de vista de la probabilidad clásica empírica, los resultados se basan en datos observados, no en un
conocimiento previo del proceso.

Ejemplo:
Estudio sobre los tiempos de espera en el departamento de rayos x de un hospital pequeño. Durante 20 días sucesivos
un empleado registra el número de personas que están esperando el servicio a las 9:00 a.m.
Los resultados son los siguientes:

En estos datos aparece que 2 de los 20 días, había cero pacientes


esperando el servicio, 5 días había un paciente, etc.

Con el método de la frecuencia relativa, la probabilidad que se le


asignará al resultado experimental cero pacientes esperan el
servicio, será 2/20 0.10; al resultado experimental un paciente
espera el servicio, 5/20 0.25; 6/20 0.30 a dos pacientes esperan
el servicio; 4/20 0.20 a tres pacientes esperan el servicio y 3/20
0.15 a cuatro pacientes esperan el servicio.
3) Probabilidad subjetiva o método subjetivo

El método subjetivo de asignación de probabilidades a los resultados de un experimento, usa toda la información
disponible, por ejemplo, la propia experiencia o la intuición. Después de considerar dicha información se asigna un
valor de probabilidad que expresa el grado de confianza, siempre en una escala del 0 al 1

Como la probabilidad subjetiva expresa el grado de confianza que tiene un individuo, es personal.

Cuando se usa el método de probabilidad subjetiva, es de esperarse que personas distintas asignen probabilidades
diferentes a los mismos resultados de un experimento.

EJEMPLO 🡪 Tom y Judy Elsbernd hacen una oferta para la compra de una casa. Hay dos resultados posibles:

E1 su oferta será aceptada


E2 su oferta no será aceptada
Judy cree que la probabilidad de que su oferta sea aceptada es 0.8; por tanto, Judy establece que P(E1) 0.8 y P(E2) 0.2; Tom, por su parte, cree que la
probabilidad de que su oferta sea aceptada es 0.6; por tanto, Tom establecerá P(E1) 0.6 y P(E2) 0.4.

Incluso en situaciones de negocios en que es posible emplear el método clásico o el de las probabilidades relativas, los
administradores suelen proporcionar estimaciones subjetivas de una probabilidad. En tales casos, la mejor estimación
de una probabilidad suele obtenerse combinando las estimaciones del método clásico o del método de las frecuencias
relativas con las estimaciones subjetivas de una probabilidad.
CÁLCULO DE LA PROBABILIDAD DE QUE EL EQUIPO DE TELEVISIÓN
DE PANTALLA GRANDE QUE SE COMPRE SEA UN HDTV

En la encuesta de seguimiento del escenario de “Uso de la estadística”, se hicieron preguntas adicionales


a 300 de los hogares en los que realmente se compró el equipo de televisión de pantalla grande.

La tabla 4.2 indica las respuestas del consumidor si el equipo comprado era un HDTV y si también se adquirió
un DVD en los últimos 12 meses.

Encuentre la probabilidad de que si en el hogar seleccionado al azar adquirieron un equipo de


televisión de pantalla grande, el equipo comprado sea un HDTV.
DETERMINAR LA PROBABILIDAD CONJUNTA DE COMPRAR UN TELEVISOR DE
PANTALLA GRANDE Y DE COMPRAR UN HDTV Y UN DVD
En la tabla 4.2 de la página 126, los compradores aparecen en una clasificación cruzada como HDTV
o no HDTV y si en esos hogares se adquirió o no un equipo reproductor de DVD. Encuentre la probabilidad
de que en los hogares seleccionados al azar, los compradores de un televisor de pantalla adquirieron
un equipo HDTV y un DVD.
Reglas de probabilidad
Conjunción
La probabilidad de la conjunción de dos eventos es la probabilidad de que ambos eventos
ocurran al mismo tiempo. Se representa por P(A y B).

DADO
¿Cuál es la probabilidad de que salga un número par y un número menor o igual a 3?

Para calcular la probabilidad de la conjunción, multiplicamos las probabilidades individuales de


cada evento
P(número par y número menor o igual a 3) = P(número par) x P(número menor o igual a 3)
= 3/6 x 3/6
= 9/36
= 1/4
= 0.25
Supongamos que el 70% de los estudiantes aprueban un examen de matemáticas y el 60% de los
estudiantes aprueban un examen de física. Si un estudiante es elegido al azar, ¿cuál es la
probabilidad de que apruebe ambos exámenes?

Para calcular la probabilidad de la conjunción, multiplicamos las probabilidades individuales de


cada evento:

P(aprueba matemáticas y física) = P(aprueba matemáticas) x P(aprueba física)


= 0.7 x 0.6
= 0.42
Adición:
La probabilidad de adición se utiliza para calcular la probabilidad de que ocurra al menos uno de
dos eventos. Se representa por P(A o B).

Lanzamiento de una moneda:


Supongamos que lanzamos una moneda justa. ¿Cuál es la probabilidad de que salga cara o sello?

Para calcular la probabilidad de adición, sumamos las probabilidades individuales de cada evento
y restamos la probabilidad de la conjunción (en este caso, la probabilidad de que salga cara y sello,
que es cero):
P(cara o sello) = P(cara) + P(sello) - P(cara y sello)
= 1/2 + 1/2 - 0
=1

Supongamos que lanzamos dos dados de seis caras cada uno. ¿Cuál es la probabilidad de que al
menos uno de los dos dados muestre un número par?

Para calcular la probabilidad de adición, debemos sumar las probabilidades de que el primer dado
muestre un número par y el segundo dado no, y viceversa, y luego sumar la probabilidad de que
ambos dados muestran un número par:

P(al menos un número par) = P(primer dado par y segundo dado impar) + P(primer dado impar y
segundo dado par) + P(ambos dados pares):
= (3/6 x 3/6) + (3/6 x 3/6) + (3/6 x 3/6)
= 9/36 + 9/36 + 9/36
= 27/36
= 3/4
= 0.75
Supongamos que tenemos dos equipos de fútbol, A y B, y queremos calcular la probabilidad de que en un partido entre ellos se
produzca un empate o que gane el equipo A.

Para hacerlo, necesitamos conocer las probabilidades de que A gane y de que se produzca un empate. Supongamos que la
probabilidad de que A gane es de 0.4 y la probabilidad de empate es de 0.2.

Para calcular la probabilidad de que A gane o haya empate, simplemente sumamos las probabilidades de que A gane y de que haya
empate:

P(A gana o hay empate) = P(A gana) + P(empate)


= 0.4 + 0.2
= 0.6

Por lo tanto, la probabilidad de que A gane o haya empate en el partido es de 0.6 o 60%.

Podemos interpretar este resultado diciendo que en 6 de cada 10 partidos entre A y B, A ganará o habrá empate.
La probabilidad de adición con resta se refiere a calcular la probabilidad de que suceda un evento A o un evento B, pero sin contar las
veces en que ambos eventos ocurren simultáneamente.

Supongamos que queremos calcular la probabilidad de que al lanzar un dado, salga un número par o un número mayor que 4. En este
caso, los eventos A y B son:

A: sacar un número par (2, 4 o 6)


B: sacar un número mayor que 4 (5 o 6)
Para calcular la probabilidad de que suceda A o B, pero sin contar las veces en que ambos eventos ocurren al mismo tiempo, debemos
restar la probabilidad de que ambos eventos ocurran simultáneamente, es decir, la probabilidad de que salga un 6:

P(A o B) = P(A) + P(B) - P(A y B)


= 3/6 + 2/6 - 1/6
= 4/6
= 0.67

Por lo tanto, la probabilidad de que al lanzar un dado, salga un número par o un número mayor que 4 es de 0.67 o 67%.
Probabilidad condicional
La probabilidad condicional es la probabilidad de que ocurra un evento A, dado que ya ha
ocurrido otro evento B. Se representa por P(A|B) y se lee "la probabilidad de A dado B".

La fórmula para calcular la probabilidad condicional es:

P(A|B) = P(A y B) / P(B)

Esto significa que para calcular la probabilidad de A dado B, debemos dividir la probabilidad de
que ocurran ambos eventos (A y B) entre la probabilidad de que ocurra el evento B.
Ejemplo
Supongamos que en una empresa hay 100 empleados, 60 de los cuales son hombres y 40 son mujeres. Si sabemos que el 80%
de los hombres y el 70% de las mujeres usan lentes, ¿cuál es la probabilidad de que un empleado al azar use lentes si sabemos
que es mujer?

P(lentes | mujer) = P(lentes y mujer) / P(mujer)

P(lentes y mujer) = 0.7 x 40 = 0.28

La probabilidad de que un empleado al azar sea mujer es de 40/100 = 0.4. Por lo tanto:

P(lentes | mujer) = 0.28 / 0.4 = 0.7

Entonces, la probabilidad de que un empleado al azar use lentes si sabemos que es mujer es de 0.7 o 70%
Ejercitar:
Supongamos que en una tienda de electrónica, el 30% de las computadoras son Mac y el 70% son PC.
Si el 10% de las computadoras Mac y el 5% de las computadoras PC tienen un problema técnico,

¿Cuál es la probabilidad de que una computadora al azar tenga un problema técnico, sabiendo que es
una PC?
P(problema técnico | PC) = P(problema técnico y PC) / P(PC)

P(problema técnico y PC) es la probabilidad de que una computadora al azar sea PC y tenga un problema técnico, y P(PC) es la
probabilidad de que una computadora al azar sea PC. Sabemos que el 5% de las computadoras PC tienen un problema técnico,
por lo que:

P(problema técnico y PC) = 0.05 x 70/100 = 0.035

La probabilidad de que una computadora al azar sea PC es de 70/100 = 0.7. Por lo tanto:

P(problema técnico | PC) = 0.035 / 0.7 = 0.05

Entonces, la probabilidad de que una computadora al azar tenga un problema técnico sabiendo que es una PC es de 0.05 o 5%
Tabla de contingencia
Supongamos que queremos analizar la relación entre el género y la frecuencia de uso de redes sociales en una
población de 100 personas. Podríamos realizar una encuesta y registrar el género de cada persona y la cantidad
de horas que pasan en las redes sociales cada día. Con esta información, podemos armar una tabla de
contingencia estadística como la siguiente:

a) ¿Cuál es la probabilidad de que sea hombre?


b) ¿Cuál es la probabilidad de que la persona elegida prefiera la empresa A?
c) c) Si se sabe que la persona elegida es mujer, ¿cuál es la probabilidad de que prefiera la empresa A?
a) ¿Cuál es la probabilidad de que sea hombre?

La probabilidad de que la persona elegida sea hombre es la suma de las probabilidades de que sea hombre en cada categoría de empresa:

P(hombre) = P(hombre y empresa A) + P(hombre y empresa B)


= 180/500 + 70/500
= 0.5

Por lo tanto, la probabilidad de que la persona elegida sea hombre es de 0.5 o 50%.

b) ¿Cuál es la probabilidad de que la persona elegida prefiera la empresa A?

La probabilidad de que la persona elegida prefiera la empresa A es la suma de las probabilidades de que prefiera la empresa A en cada categoría de
género:

P(empresa A) = P(hombre y empresa A) + P(mujer y empresa A) + P(otros y empresa A)


= 180/500 + 100/500 + 20/500
= 0.4
Si se sabe que la persona elegida es mujer, ¿cuál es la probabilidad de que prefiera la empresa A?

En este caso, estamos buscando la probabilidad condicional de que la persona elegida prefiera la
empresa A dado que es mujer:

P(empresa A | mujer) = P(mujer y empresa A) / P(mujer)


= 100/250
= 0.4

Por lo tanto, la probabilidad de que la persona elegida sea mujer y prefiera la empresa A es de 0.4 o 40%
Supongamos que se realiza una encuesta a un grupo de 100 personas para conocer su
opinión sobre dos marcas de smartphones, Apple y Samsung. Se les pregunta a las
personas si prefieren Apple o Samsung y si tienen o no un teléfono de la marca que
prefieren. Los resultados se muestran en la siguiente tabla de contingencia:

a) ¿Cuál es la probabilidad de que una persona elegida al azar tenga un teléfono de Apple?

b) Si se sabe que una persona elegida al azar tiene un teléfono de Samsung, ¿cuál es la probabilidad de que prefiera Samsung?
a) ¿Cuál es la probabilidad de que una persona elegida al azar tenga un teléfono de Apple?

P(teléfono Apple) = P(teléfono Apple y prefieren Apple) + P(teléfono Apple y prefieren Samsung)
= 30/100 + 10/100
= 0.4

b) Si se sabe que una persona elegida al azar tiene un teléfono de Samsung, ¿cuál es la probabilidad de que prefiera
Samsung?

P(prefieren Samsung | teléfono Samsung) = P(teléfono Samsung y prefieren Samsung) / P(teléfono Samsung)
= 40/50
= 0.8
A y B independientes: P(B/A)=P(B)

Si A y B son eventos independientes, entonces la ocurrencia de A no tiene ningún efecto sobre la


probabilidad de que ocurra B. En otras palabras, P(B/A) es igual a P(B), ya que la probabilidad de
B no está condicionada por la ocurrencia o no-ocurrencia de A.
Ejemplo:
¿Cuál es la probabilidad de que en el segundo lanzamiento de una moneda se obtenga cara, dado
que el resultado del primero fue cara?

Como la probabilidad de obtener cara y la de obtener cruz son exactamente iguales en cada
lanzamiento, la probabilidad de obtener cara en el segundo lanzamiento es de 0.5. Por tanto,
debemos decir que P(H1 |H2) 0.5.
Ejercicio
Supongamos que queremos analizar la relación entre la situación laboral y la educación en la economía argentina. Para ello, se
realiza una encuesta a 1000 personas y se obtienen los siguientes datos:
De las 600 personas que tienen trabajo, 300 tienen educación universitaria y 300 no tienen educación universitaria.
De las 400 personas que no tienen trabajo, 150 tienen educación universitaria y 250 no tienen educación universitaria.

Realizar una tabla de contingencia y responder:

1) Probabilidad de tener trabajo y tener educación universitaria


2) Probabilidad de tener trabajo dado que se tiene educación universitaria:
3) Probabilidad de tener trabajo dado que no se tiene educación universitaria:
4) Probabilidad de no tener trabajo y tener educación universitaria:
5) Probabilidad de no tener trabajo dado que se tiene educación universitaria:
6) Probabilidad de no tener trabajo dado que no se tiene educación universitaria:
1) Probabilidad de tener trabajo y tener educación universitaria:
P(trabajo y educación universitaria) = 300/1000 = 0.3 o 30%.

2) Probabilidad de tener trabajo dado que se tiene educación universitaria:


P(trabajo | educación universitaria) = P(trabajo y educación universitaria) / P(educación universitaria) =
300/450 = 0.67 o 67%.

Esto significa que de todas las personas que tienen educación universitaria, el 67% tienen trabajo.

3) Probabilidad de tener trabajo dado que no se tiene educación universitaria:


P(trabajo | sin educación universitaria) = P(trabajo y sin educación universitaria) / P(sin educación
universitaria) = 300/550 = 0.55 o 55%.
4) Probabilidad de no tener trabajo y tener educación universitaria:
P(sin trabajo y educación universitaria) = 150/1000 = 0.15 o 15%.

5) Probabilidad de no tener trabajo dado que se tiene educación universitaria:


P(sin trabajo | educación universitaria) = P(sin trabajo y educación universitaria) / P(educación universitaria) =
150/450 = 0.33 o 33%.

Esto significa que de todas las personas que tienen educación universitaria, el 33% no tienen trabajo.

6) Probabilidad de no tener trabajo dado que no se tiene educación universitaria:


P(sin trabajo | sin educación universitaria) = P(sin trabajo y sin educación universitaria) / P(sin educación
universitaria) = 250/550 = 0.45 o 45%.

Esto significa que de todas las personas que no tienen educación universitaria, el 45% no tienen trabajo.
Practica integradora
1. A partir del siguiente texto responda las siguientes consignas:

“Según un estudio realizado entre 280 turistas que visitaron nuestro país durante el 1er semestre de 2012, 43% de ellos provenían de países de
América Latina, 2% de EEUU y Canadá, de Europa un 23%, de otros países un 5%, mientras que los restantes son de origen argentino. Por otro lado,
se relevó también que 36 se alojaron en hoteles de 1 estrella, 58 de 2 estrellas, 104 de 3 estrellas, 55 en 4 estrellas y 27 en hoteles 5 estrellas”

a. Identifique la unidad de análisis y las variables y sus categorías indicando los niveles de

medición de cada una de ellas

b. Construya las tablas de frecuencias correspondientes a cada variable incluyendo frecuencias

absolutas, relativas y acumuladas, cuando corresponda.

c. Calcule las medidas de tendencia central apropiadas y realice una lectura interpretándolas.
1) La unidad de análisis es cada turista que visitó Argentina durante el primer semestre de
2012. Las variables son la procedencia del turista y el tipo de alojamiento que eligió. Las
categorías de la variable "procedencia" son América Latina, EE. UU. y Canadá, Europa, otros
países y Argentina. Las categorías de la variable "tipo de alojamiento" son hotel de 1 estrella,
hotel de 2 estrellas, hotel de 3 estrellas, hotel de 4 estrellas y hotel de 5 estrellas. Ambas
variables son nominales. Todas son cualitativas nominales.
2) A continuación, se presentan las medidas de tendencia central de la variable ingreso
mensual de las mujeres de 18-65 años en Argentina, según el grupo de edad al que
pertenecen
a) Analice la información brindada realizando una breve comparación entre los grupos. ¿Cuál tiene
más ingreso? ¿Cuál menos? b) ¿Y cuál de los tres grupos presenta una distribución más homogénea?
¿Por qué? Indique la medida utilizada y justifique su elección Utilice siempre los valores brindados
para apoyar las lectura
Para comparar ambas distribuciones utilizamos el coeficiente de variación.

Grupo de mujeres de 18-29 años: CV = (1500 / 25000) x 100% = 6%


Grupo de mujeres de 30-45 años: CV = (1800 / 37500) x 100% = 4.8%
Grupo de mujeres de 46-60 años: CV = (2100 / 42700) x 100% = 4.9%
Se puede observar que el CV es más bajo para el grupo de mujeres de 30-45 años, lo que indica
que su distribución es más homogénea en relación con su media que las otras dos distribuciones.
Sin embargo, los tres grupos tienen coeficientes de variación relativamente bajos, lo que indica
que sus ingresos están relativamente cerca de sus medias, y que en general, la dispersión de los
ingresos es relativamente baja en la población de mujeres de 18 a 65 años en Argentina.
V o F:
1.Las frecuencias acumuladas deben calcularse para variables de todos los niveles de medición.
2. Las frecuencias absolutas sólo deben incluirse para variables cuantitativas discretas.
3. Las medidas de posición (mediana, cuartiles, quintiles, etc.) requieren para su cálculo que la variable sea
por lo menos de nivel de medición ordinal.
4. La media no es sensible a valores extremos.
5. La mediana indica el valor de la variable que concentra la mayor cantidad de casos.
6. Las medidas de tendencia central que se pueden calcular para las variables cuantitativas son sólo moda y
mediana.
7. Al comparar dos distribuciones, un desvío estándar mayor, indica siempre una mayor heterogeneidad de
los valores con respecto a su media.
8. El coeficiente de variación se utiliza para poder comprar variabilidad en distribuciones con medias
distintas.
Verdadero: Las frecuencias acumuladas se pueden calcular para cualquier variable, independientemente de su
nivel de medición.
Falso: Las frecuencias absolutas se pueden calcular tanto para variables cuantitativas como para variables
cualitativas.
Verdadero: Las medidas de posición requieren que los datos tengan un orden o jerarquía. Para su cálculo se deben
ordenar los datos de menor a mayor o viceversa y luego identificar el valor que se encuentra en la posición
deseada. Por lo tanto, las variables nominales no pueden tener medidas de posición ya que no tienen un orden
inherente.
Falso: La media puede ser muy sensible a valores extremos, ya que estos pueden alterar significativamente su valor.
Falso: La mediana indica el valor que separa la muestra en dos partes iguales, por lo que no necesariamente
representa el valor que concentra la mayor cantidad de casos.
Falso: Además de moda y mediana, también se puede calcular la media y otros tipos de medidas de tendencia
central para variables cuantitativas.
Falso: El desvío estándar indica la dispersión de los valores con respecto a la media, pero no necesariamente indica
una mayor heterogeneidad. Además, su comparación sólo es posible entre distribuciones con medias similares.
Verdadero: El coeficiente de variación es una medida adimensional que permite comparar la variabilidad de dos
distribuciones con medias distintas.
Realice el siguiente ejercicio de cálculo de probabilidades.

En una encuesta sobre consumos deportivos un 75% de los encuestados tenía como favorito el
fútbol. Por otro lado, un 40% del total declaró asistir regularmente a ver los eventos (fútbol y otros
deportes).
Un 20% de los encuestados dijo que prefería otros deportes –no fútbol- y los miraba por televisión
–no asistía-. Con estos datos, construya una tabla de contingencia y responda las preguntas
planteando formalmente la probabilidad correspondiente e indicando el tipo de probabilidad a la
que se refiere.

a. ¿Cuál es la probabilidad de encontrar un encuestado que tenga como favorito algún deporte que
no sea fútbol? b. ¿Qué probabilidad hay de que a alguien le guste el fútbol o asista habitualmente a
los eventos? c. ¿Y cuál es la probabilidad de encontrar alguien que prefiere el fútbol por TV? d.
Sabiendo que al encuestado le gustan otros deportes, ¿cuál es la probabilidad que asista? e.
Determine la dependencia o independencia de los eventos.
VARIABLES ALEATORIAS
Una variable aleatoria es una descripción numérica del resultado de un experimento

Variables aleatorias discretas

Una variable aleatoria que asuma ya sea un


número finito de valores o una sucesión infinita
de valores tales como 0, 1, 2, . . ., se le llama
variable aleatoria discreta.

Variables aleatorias continuas

A una variable que puede tomar cualquier valor


numérico dentro de un intervalo o colección de
intervalos se le llama variable aleatoria continua.

Las variables numéricas continuas producen resultados a partir de procesos de medición; por ejemplo, su estatura. Las variables
numéricas discretas producen resultados a partir de un proceso de conteo, como el número de revistas a las que se suscribe.
Distribuciones de probabilidad discreta

La distribución de probabilidad de una variable aleatoria describe 🡪 cómo se distribuyen las


probabilidades entre los valores de la variable aleatoria. En el caso de una variable aleatoria discreta x,
la distribución de probabilidad está definida por una función de probabilidad, denotada f(x).

Como ejemplo de una variable aleatoria discreta y de su distribución de probabilidad, considere las ventas de automóviles en DiCarlo
Motors en Saratoga, Nueva York. Durante los últimos 300 días de operación, los datos de ventas muestran que hubo 54 días en los que no
se vendió ningún automóvil, 117 días en los que se vendió 1 automóvil, 72 días en los que se vendieron 2 automóviles, 42 días en los que se
vendieron 3 automóviles, 12 días en los que se vendieron 4 automóviles y 3 días en los que se vendieron 5 automóviles.

X= al número de automóviles vendidos en un día. x es una variable aleatoria discreta que


puede tomar los valores 0, 1, 2, 3, 4 o 5.

f (0)= a la probabilidad de vender cero autos,. f(1) la


la probabilidad de vender 1 auto por día y así….

¿Cómo se calculan las distribuciones


de probabilidad de esta consigna?
Las distribuciones de probabilidad también se representan gráficamente

Valor esperado y varianzas en variables discretas


El valor esperado, o media, de una variable aleatoria es una medida de la localización central
de la variable aleatoria

La ecuación indica que para calcular el valor esperado de


una variable aleatoria discreta se multiplica cada valor de la
variable aleatoria por su probabilidad correspondiente f(x)
y después se suman estos productos.
La suma de las entradas en la columna xf(x)
indica que el valor esperado es 1.50 automóviles
por día. Por tanto, aunque se sabe que en un día
las ventas pueden ser de 0, 1, 2, 3, 4 o 5
automóviles, DiCarlo prevé que a la larga se
venderán 1.50 automóviles por día.

Si en un mes hay 30 días de operación, el valor


esperado, 1.50, se emplea para pronosticar que las
ventas promedio mensuales serán de 30*(1.5) 45
automóviles.
Varianza
Aunque el valor esperado proporciona el valor medio de una variable aleatoria, también suele ser necesaria una medida de
la variabilidad o dispersión. Se usa la varianza para resumir la variabilidad en los valores de la variable aleatoria.
Paso 1 Paso 2 Paso 3 Paso completo

Para denotar la
varianza de una
variable
aleatoria se
usan las
notaciones
Var(x) y σ2.

La desviación estándar, σ, se define como la raíz cuadrada positiva de la varianza. Por tanto, la desviación estándar del
número de automóviles vendidos en un día es

La desviación estándar se mide en las mismas unidades que la variable aleatoria (σ 1.1180 automóviles)
y por tanto suele preferirse para describir la variabilidad de una variable aleatoria
La tabla ofrece la distribución de la cantidad de créditos aprobados por semana en la oficina de una sucursal bancaria local.
La lista de la tabla 5.1 es colectivamente exhaustiva porque se han incluido todos los posibles resultados. Entonces, las
probabilidades deben sumar 1.

Obtener el Valor Esperado y la varianza/Desvio:


La cifra de 2.8 obtenida para el valor esperado del número de hipotecas aprobadas no es “significativa
literalmente”, porque el número real de hipotecas aprobadas durante una semana determinada debe ser un
valor entero. El valor esperado representa la media de hipotecas aprobadas por semana
Distribución de probabilidad binomial
La distribución binomial se utiliza cuando la variable aleatoria discreta de interés es el número de éxitos en una muestra compuesta
por n observaciones.

PROPIEDADES DE UN EXPERIMENTO BINOMIAL

1. El experimento consiste en una serie de n ensayos idénticos.

2. En cada ensayo hay dos resultados posibles. A uno de estos resultados se le llama éxito y al otro se le llama fracaso.

3. La probabilidad de éxito, que se denota p, no cambia de un ensayo a otro. Por ende, la probabilidad de fracaso, que se
denota 1 p, tampoco cambia de un ensayo a otro.

4. Los ensayos son independientes.

Ejemplo Pág 201 Anderson


Considere el experimento que consiste en lanzar una moneda cinco veces y observar si la cara de la moneda que cae hacia arriba es
cara o cruz. Suponga que se desea contar el número de caras que aparecen en los cinco lanzamientos.
1. El experimento consiste en cinco ensayos idénticos; cada ensayo consiste en
¿Presenta este experimento las propiedades lanzar una moneda.
de un experimento binomial? ¿Cuál es la 2. En cada ensayo hay dos resultados posibles: cara o cruz. Se puede considerar
variable aleatoria que interesa? cara como éxito y cruz como fracaso.
3. La probabilidad de éxito y la probabilidad de fracaso son iguales en todos los
ensayos, siendo p 0.5 y 1 p 0.5.
4. Los ensayos o lanzamientos son independientes porque al resultado de un
ensayo no afecta a lo que pase en los otros ensayos o lanzamientos.

La variable aleatoria que interesa es x número de caras que aparecen en cinco ensayos. En este caso, x puede tomar los valores 0, 1, 2, 3, 4 o 5.

El problema de la tienda de ropa Martin Clothing Store


Considere las decisiones de compra de los próximos tres clientes que
lleguen a la tienda de ropa Martin Clothing Store. De acuerdo con la 1. Es posible describir el experimento como una serie de tres
experiencia, el gerente de la tienda estima que la probabilidad de que un ensayos idénticos, un ensayo por cada uno de los tres clientes que
cliente realice una compra es 0.30. ¿Cuál es la probabilidad de que llegan a la tienda.
dos de los próximos tres clientes realicen una compra? Un 2. Cada ensayo tiene dos posibles resultados: el cliente hace una
diagrama de árbol (figura 5.3), permite advertir que el experimento de compra (éxito) o el cliente no hace ninguna compra (fracaso).
observar a los tres clientes para ver si cada uno de ellos decide realizar
una compra tiene ocho posibles resultados. Entonces, si S denota éxito
3. La probabilidad de que el cliente haga una compra (0.30) o de
(una compra) y F fracaso (ninguna compra), lo que interesa son los que no haga una compra (0.70) se supone que es la misma para
resultados experimentales en los que haya dos éxitos (decisiones de todos los clientes.
compra) en los tres ensayos.
4. La decisión de comprar de cada cliente es independiente de la
¿Presenta este experimento las propiedades decisión de comprar de los otros clientes.
de un experimento binomial?
La ecuación (5.6) sirve para determinar el número de resultados
experimentales en los que hay dos compras definidos como
éxito; el número de maneras en que son posibles x = 2 éxitos en
n = 3 ensayos. De acuerdo con la ecuación:

Ya sabe que usando la ecuación (5.6) es posible determinar el número de resultados experimentales en los que hay x éxitos.
Si va a determinar la probabilidad de x éxitos en n ensayos, es necesario conocer también la probabilidad correspondiente a cada uno de
estos resultados experimentales. Como en un experimento binomial los ensayos son independientes, para hallar la probabilidad de una
determinada sucesión de éxitos y fracasos simplemente se multiplican las probabilidades correspondientes al resultado de cada ensayo.

Puesto que la probabilidad de compra en cualquier ensayo es 0.30, la


probabilidad de que haya una compra en los dos primeros ensayos y
que no haya compra en el tercer ensayo es

Esto se cumple en general. En cualquier experimento binomial todas las series de resultados de ensayos en las que hay x éxitos en n
ensayos tienen la misma probabilidad de ocurrencia. A continuación se presenta la probabilidad de cada una de las series de ensayos
en las que hay x éxitos en n ensayos

En el caso de la tienda de ropa Martin


Clothing Store, esta fórmula indica que la
probabilidad de cualquier resultado
experimental con dos éxitos es p2(1 - p)(3 - 2)
p2(1 - p)1 (0.30)2(0.701)
0.063
En el ejemplo de la tienda de ropa Martin Clothing Store se calculará ahora la probabilidad de que ningún
cliente realice una compra, de que exactamente un cliente realice una compra, de que exactamente dos clientes
realicen una compra y de que los tres clientes realicen una compra.

Si considera variaciones del experimento de la tienda de ropa, por ejemplo,


que lleguen a la tienda 10 clientes en lugar de tres clientes, también se
emplea la función de probabilidad binomial dada por la ecuación (5.8).
Suponga que tiene un experimento binomial con n 10, x 4 y p 0.30. La
probabilidad de que cuatro de los 10 clientes que entran en la tienda de ropa
realicen una compra es🡪
Como la ecuación (5.6) da el número de resultados de un experimento binomial en el que hay x éxitos, y la ecuación (5.7) da
la probabilidad de cada serie en la que hay x éxitos, combinando las ecuaciones (5.6) y (5.7) se obtiene la función de
probabilidad binomial siguiente.
EJEMPLO 5.1
Si la posibilidad de que un formato de pedido sea marcado es de 0.1, ¿qué probabilidad existe de que haya tres formatos marcados en una
muestra de cuatro?
DETERMINAR P(X = 3), DADAS n = 4 Y p = 0.1

EJEMPLO 5.2
DETERMINAR P(X = o > 3), DADAS
n = 4 Y p = 0.1 Si la posibilidad de que
un formato de pedido sea marcado es de
0.1, ¿qué probabilidad existe de que
haya tres o más formatos marcados (es
decir, por lo menos tres) en una muestra
de cuatro?
EJEMPLO 5.2 DETERMINAR P(X < 3), DADAS n = 4 Y p = 0.1 Si la posibilidad de que un formato de pedido sea marcado es de
0.1, ¿qué probabilidad existe de que haya tres o más formatos marcados (es decir, por lo menos tres) en una muestra de
cuatro?
El valor esperado de una variable aleatoria discreta se calcula multiplicando cada valor
posible por su probabilidad y sumando los resultados.

En este caso, la variable aleatoria es el número de viajes que el importador debe


realizar en un mes, y los valores posibles son 0, 1, 2, 3 y 4, con sus correspondientes
probabilidades.
Entonces, el valor esperado E(X) se calcula como:

E(X) = 0 + 0,1 + 1,2 + 0,6 + 0,24


E(X) = 2.14
Por lo tanto, se espera que el importador realice en promedio 2.14 viajes en un mes.
En un estudio sobre Infraestructura realizado por la UNQ sobre el uso de servicios financieros en el
Conurbano sur del AMBA, se obtuvo como dato que, para realizar sus operaciones, un 29% de los
usuarios prefieren ir a la sucursal en lugar de operar por Internet (home banking). Un 63% del total
tienen sólo cuenta sueldo.

Un 22% prefiere operar por Internet y poseen otros productos bancarios (no sólo cuenta sueldo).
Realice una tabla de contingencia y responda las siguientes preguntas indicando tipo de
probabilidad y planteando las operaciones realizadas:

a. ¿Cuál es la probabilidad de encontrar un usuario que tenga cuenta sueldo y que prefiera ir a la
sucursal?
b. ¿Cuál es la probabilidad de encontrar un usuario que prefiera operar por internet?
c. ¿Cuál es la probabilidad de encontrar un usuario que prefiera ir a la sucursal y tenga otros
productos bancarios?
A) ¿Cuál es la probabilidad de encontrar un usuario que tenga cuenta sueldo y que prefiera ir a la
sucursal?

P: 0.15

B) ¿Cuál es la probabilidad de encontrar un usuario que prefiera operar por internet?

P: 0.71

C) ¿Cuál es la probabilidad de encontrar un usuario que prefiera ir a la sucursal y tenga otros


productos bancarios?

P: 0.15
3)
La probabilidad simple de encontrar un usuario que cuente con servicio de banda ancha es de 0.68;
si se eligen al azar 5 usuarios

a. ¿Cuál es la probabilidad que 1 cuente con servicio de banda ancha?


b. ¿Cuál es la probabilidad de que todos cuenten con banda ancha?
c. ¿Cuál es la probabilidad de que ninguno cuente con banda ancha?
a. La probabilidad de que exactamente 1 de los 5 usuarios elegidos al azar cuente con servicio de
banda ancha se puede calcular utilizando la distribución binomial, donde:

n = 5 (número de ensayos)
p = 0.68 (probabilidad de éxito en un ensayo)
1 - p = 0.32 (probabilidad de fracaso en un ensayo)
X = 1 (número de éxitos que se buscan)

Aplicando formula: P(1): 0.035


b. La probabilidad de que los 5 usuarios elegidos al azar cuenten todos con servicio de banda
ancha se puede calcular también utilizando la distribución binomial, donde:

n = 5 (número de ensayos)
p = 0.68 (probabilidad de éxito en un ensayo)
q = 1 - p = 0.32 (probabilidad de fracaso en un ensayo)
k = 5 (número de éxitos que se buscan)

P(5): 0.14
c. La probabilidad de que ninguno de los 5 usuarios elegidos al azar cuente con servicio de
banda ancha se puede calcular utilizando la distribución binomial, donde:
n = 5 (número de ensayos)
p = 0.68 (probabilidad de éxito en un ensayo)
q = 1 - p = 0.32 (probabilidad de fracaso en un ensayo)
k = 0 (número de éxitos que se buscan)
c)
c. La probabilidad de que ninguno de los 5 usuarios elegidos al azar cuente con servicio de
banda ancha se puede calcular utilizando la distribución binomial, donde:
n = 5 (número de ensayos)
p = 0.68 (probabilidad de éxito en un ensayo)
q = 1 - p = 0.32 (probabilidad de fracaso en un ensayo)
k = 0 (número de éxitos que se buscan)

P(0): 0.0033
Practica parcial
1)
La estadística descriptiva se enfoca en resumir y describir las características de un conjunto
de datos, mediante el uso de medidas estadísticas como la media, la mediana, la moda, la
desviación estándar, entre otras. Estas medidas permiten hacer una descripción detallada de
los datos y su distribución, pero no permiten hacer inferencias más allá de los datos
analizados.
Por otro lado, la estadística inferencial tiene como objetivo hacer inferencias acerca de una
población a partir de una muestra de datos. Se utilizan técnicas para hacer inferencias sobre
la población que permiten hacer generalizaciones más allá de los datos analizados, pero
requieren de ciertas suposiciones y de la aleatoriedad de la muestra para que los resultados
sean válidos.
2)
Distribución del tiempo de espera en ser atendido en el Banco XXX. Clientes Sucursal
Quilmes. Abril 2023 (en minutos)

a. Identifique la unidad de análisis, la variable y categorías y nivel de medición.


b. Obtenga la tabla de frecuencia relativa y acumulada en porcentaje.
c. ¿Por encima de qué valor se encuentra el cuarto de los clientes que más tiempo esperó?
Identifique la medida utilizada y a qué grupo de medidas pertenece
d. Obtenga las medidas de tendencia central. Realice una interpretación propia.
A)

La unidad de análisis es cada cliente de la sucursal Quilmes del Banco XXX en abril de 2023.
La variable es el tiempo de espera en ser atendido en minutos. Las categorías son los
diferentes valores que puede tomar la variable, que son: 5, 7, 8, 10, 12, 15, 17, 20, 24, 25 y
28.
La variable es de nivel de medición cuantitativa discreta.
Practica parcial
B)
 
c)
Para encontrar el valor de Q3, se puede utilizar la siguiente fórmula:
Q3 = n/4 * 3
Donde "n" es el tamaño total de la muestra. En este caso, n = 270.
Q3 = 270/4 * 3 = 202.5 o bien la frecuencia acumulada mayor a 75%

Respuesta: más de 25 minutos.


d)

Mo 25
Md 20
Media 18,6
4)
Calcule la varianza y el desvió estándar para el tramo 2000-2010. ¿Qué puede decir acerca
de la volatilidad?
3)
MEDIA 115,45
MEDIANA 111
VARIANZA $ 103,67
Desvío Estándar: 10,18
4)
Resuelva el siguiente ejercicio de Probabilidad Básica

En un estudio entre directores de PYMES del AMBA, se indagó sobre la contratación de jóvenes
en el próximo año.
Un 60% de las empresas tienen intención de hacerlo. Un 35% del total de las empresas
consultadas eran medianas. Un 15% de las empresas eran pequeñas y no tomarán nuevos
empleados. Responda las preguntas planteando cada caso e indicando el tipo de
probabilidad a la que se refiere.
1) a. ¿Qué probabilidad hay de encontrar una empresa que sea pequeña o que no tome
jóvenes?

Probabilidad Emp pequeña + Probabilidad que no tome jobenes - ( Probabilidad empresa


pequeña y que no tome jovenes)=

0.4 + 0.4 - 015

b. ¿Y cuál es la probabilidad de encontrar alguna empresa pequeña que tome jóvenes? c.


¿Cuál es la probabilidad de que alguna empresa sea pequeña?
b. ¿Y cuál es la probabilidad de encontrar alguna empresa pequeña que tome jóvenes?
0.25

c. ¿Cuál es la probabilidad de que alguna empresa sea pequeña?

0.4
Para cada una de las siguientes situaciones, indica si sigue una distribución binomial. En caso
afirmativo, identifica en ella los valores de n y p:

a Lanzamos cien veces un dado y nos preguntamos por el número de unos que obtenemos.

N: 100 P: 1/6

b Extraemos una carta de una baraja y vemos si es un as o no. Sin devolverla al mazo,
extraemos otra y también miramos si se trata de un as o no, ... y así sucesivamente hasta diez
veces.

Los ensayos no son independientes entre sí, ya que la extracción de una carta afecta la
probabilidad de éxito o fracaso de los ensayos siguientes.
Se sabe que el 30% de la población de una determinada ciudad ve un concurso que hay en
televisión. Desde el concurso se llama por teléfono a 10 personas de esa ciudad elegidas al
azar. Calcula la probabilidad de que, entre esas 10 personas, estuvieran viendo el programa:

a) Más de 8. b) Alguna de las 10.


A) Más de 8
P(X > 8) = P(X = 9) + P(X = 10) =

P(X = 9) : (10 - 9) * 0.30^9 * 0.70^1 = 0.000137781


P(X = 10) = (10 choose 10) * 0.30^10 * 0.70^0 = 0.000000028

P(X > 8) = 0.000137781 + 0.000000028 = 0.000137809


La probabilidad de que más de 8 personas estén viendo el programa es de 0.000137809.
b) La probabilidad de que al menos una de las 10 personas esté viendo el programa es igual a la probabilidad de que ninguna de las 10
personas esté viendo el programa, y luego se resta de 1:

P(alguna de las 10) = 1 - P(ninguna de las 10)

P(ninguna de las 10) = 0.70^10 = 0.028247524


P(alguna de las 10) = 1 - 0.028247524 = 0.971752476

La probabilidad de que al menos una de las 10 personas esté viendo el programa es de 0.971752476.
VARIABLE ALEATORIA
CONTINUA
?  
El símbolo anterior se lee “integral definida entre a y b de f de x diferencial x”.

Indica la medida del área comprendida entre la curva f(x) y el eje x y entre las rectas

x=a y x=b

 
?  
 
?  
? Una máquina llenadora de recipientes de jalea empaca 454 gramos de jalea, con una desviación
(o desvío) estándar de 12 gramos. Si los pesos de los recipientes siguen una distribución normal,
calcule:

1. ¿cuál es la probabilidad de que un frasco seleccionado al azar contenga entre 454 y 460 gramos
de jalea?
2. ¿cuál es la probabilidad de que un frasco seleccionado al azar contenga entre 440 y 450 gramos
de jalea?
3. ¿Cuál es la probabilidad de que un frasco contenga más de 470 gramos?
4. ¿entre qué valores estarán los pesos del 90% de los envases llenados por esa máquina?
?  
?  
Conviene representar gráficamente esta situación. Para calcular la probabilidad pedida, es necesario
hallar el área entre 0 y 0,5, que aparece sombrada en el siguiente gráfico:
Como esta área “comienza” en cero, para encontrar este valor de
probabilidad se busca directamente el valor correspondiente de z en la tabla:
?  
Como la tabla que utilizamos ofrece las probabilidades entre 0 y el valor que buscamos, esta
probabilidad se puede expresar como el área entre 0 y 1,17 menos el área entre 0 y 0,33.
Gráficamente sería:
?  
?  
 

 
?  
?  
?  
Ejercicio propuesto 1:

En una fábrica de tornillos, se producen piezas de 5 mm. de diámetro, con una desviación de 0,08
mm. Suponiendo que el diámetro de los tornillos producidos siga una distribución normal, se
pide que calcule:

? a) ¿qué porcentaje de los tornillos tienen un diámetro inferior a 4,8 mm?


? b) ¿cuál es la probabilidad de que un tornillo elegido al azar tenga un diámetro entre 4,85 y
5,2 mm?
? c) El 90% de los tornillos tiene un diámetro superior a ¿cuánto?
Aquí, la variable es continua y el problema ya dice que se distribuye normalmente, con 𝜇 = 5 𝑚𝑚 y 𝜎 = 0,08 𝑚𝑚
 
En este caso, la probabilidad buscada es para 𝑥 < 4,8𝑚𝑚. La situación gráfica es la siguiente:
Aquí, la variable es continua y el problema ya dice que se distribuye normalmente, con 𝜇 = 5 𝑚𝑚 y 𝜎 = 0,08 𝑚𝑚
 
En este caso, la probabilidad buscada es para 𝑥 < 4,8𝑚𝑚. La situación gráfica es la siguiente:
?  
En símbolos, se escribe:
𝑃(𝑧 < −2,5) = 𝑃(𝑧 > 2,5) (𝑝𝑜𝑟 𝑠𝑖𝑚𝑒𝑡𝑟í𝑎)

Ahora, para calcularla, es necesario tener en cuenta la propiedad 4 de la página 3 de


la Clase 5: la probabilidad de que la variable se encuentre entre la media y +∞ es 0,5.
Entonces, la probabilidad del diagrama anterior se puede calcular así:
? Esto se puede calcular desdoblando de la siguiente manera:
 
𝑃(−1,875 < 𝑧 < 2,5) = 𝑃(−1,875 < 𝑧 < 0) + 𝑃(0 < 𝑧 < 2,5)
 
? Por simetría, el primer término se puede calcular (del mismo modo que en la parte a de este ejercicio)
como la probabilidad de que z se encuentre entre 0 y 1,875:
 
𝑃(4,85 < 𝑥 < 5,2) = 𝑃(0 < 𝑧 < 1,875) + 𝑃(0 < 𝑧 < 2,5)

 
? Ahora se buscan estos valores en la tabla. Allí sólo hay dos decimales para los valores de z, de modo que
1,875 debe ser redondeado. Y queda:

𝑃(4,85 < 𝑥 < 5,2) = 𝑃(0 < 𝑧 < 1,88) + 𝑃(0 < 𝑧 < 2,5) = 0,46995 + 0,49379 = 0,96374 

? La probabilidad de que un tornillo elegido al azar tenga un diámetro entre 4,85 y 5,2 mm es de 0,96374.
El 90% de los tornillos tiene un diámetro superior a ¿cuánto?

 
En este ejercicio ya se conoce la probabilidad: 0,9. Y lo que hace falta es encontrar el valor
de z para el cual la probabilidad es ésa. Pero antes es necesario interpretar el enunciado.
¿Dónde están el 90% de los tornillos que tienen un diámetro superior?

Se sabe que el 50% de los tornillos tiene el diámetro superior a 5mm (porque la media divide a
toda la distribución en dos partes exactamente iguales). Gráficamente es así:
¿En qué mitad están los tornillos que tienen un diámetro superior a 5 mm? En la que está
pintada o en la que está blanca en el diagrama anterior? Hay que pensar….

¿Ya pensó usted?


 
Bueno. En esa parte, hay 50% de los tornillos. Y se piden el 90%. ¿Dónde estará el restante
40% que hace falta?
? En el diagrama anterior se indicó con una línea llena roja la posición de la media de esta
distribución: 5 mm.
? A su derecha se encuentra el 50% de los tornillos con diámetro superior a esa medida.

? Como se pide el 90%, se busca el 40% restante hacia la izquierda. Lo que pide el problema es
encontrar el valor correspondiente al z que hace que la probabilidad sea 0,4 (es decir 40%).

? Y, como en el diagrama se aprecia que ese valor de z está a la izquierda de la media, será necesario
recordar que, aunque la tabla sólo brinda valores positivos de z, por simetría aquí se considerará
el número negativo.

? En el cuerpo de la tabla se busca la probabilidad 0,4:


?  
Ejercicios
1) El gasto diario promedio por persona de los hogares en alimentos en 2015 fue de $170 con
un desvío estándar de $82. Suponiendo que los gastos se distribuyen normalmente.

a)¿Qué porcentaje de estos gastos son inferiores a $53?


b) ¿Qué porcentaje de estos gastos están entre $110 y $290?
c) ¿Qué porcentaje de estos gastos son superiores a $320?
2)
P (x < 53) = 0,50 – 0,4236 = 0.0764

7%
B)
? Vamos a buscar ambos valores en la tabla y obtenemos:
? Para el primero una probabilidad desde la media hasta un z de 0,73 (equivalente
a $110) de 0,22965 y para el segundo valor, desde la media hasta 1,46 ($290)
0,92785.

? Último paso: En este caso necesitamos realizar una operación entre ambas
probabilidades para obtener la probabilidad buscada, sumando ambas: P (110 <
x < 290) =0.6982. Gráficamente se puede ver más claramente
La probabilidad acumulada es de 0,4664

Último paso: En este caso, para obtener la probabilidad buscada, debemos restar a la mitad desde la
media, 0,50, la probabilidad dada por la tabla que corresponde al área desde la derecha hasta el
$320, por ende, el área por encima de 320 pesos es de 0,03362 o 3,36%. P (x > 320) = 0,03362
El gasto diario promedio por persona de los hogares en alimentos en 2015 fue de $170 con un desvío
estándar de $82. Suponiendo que los gastos se distribuyen normalmente.

a) ¿Por encima de qué valor se encuentra el 15% de nuestra distribución?


b) ¿Qué valor deja por debajo al 5% que menos gasta?
c) ¿Entre qué valores se encuentra el 80% central de la distribución?
? A)
Primer paso: p → z
Entonces aquí, al encontrarnos a la izquierda de la media, sólo restaremos (el signo que acompaña
a z es negativo).

Último paso:

Así, obtenemos que el valor que deja por debajo al 5% que menos gasta es de $35,52.

P (x < 35,52) = 0,05


Unidad 4: Introducción a la inferencia estadística
La estadística inferencial es el proceso de uso de los resultados derivados de las muestras para obtener conclusiones acerca de
las características de una población.
La estadística inferencial nos permite estimar características desconocidas como la media de la población o la proporción de la
población.

Población Muestra
Una población es el conjunto de todos los Una muestra es un subconjunto de la población.
elementos que interesan en un estudio.

A las características numéricas de una población, como la


media y la desviación estándar, se les llama parámetros.

El principal propósito de la inferencia estadística es hacer estimaciones y pruebas de hipótesis acerca de los
parámetros poblacionales usando la información que proporciona una muestra.

Los resultados muestrales proporcionan SOLO una estimación


de los valores de las características de la población
Ejemplo fabricante de neumáticos ¿es esperable que la media muestral sea exactamente
igual al millaje medio de todos los neumáticos de la población?

NO, y la razón es que la muestra sólo contiene una parte de la


población

Entonces ¿Qué tan buenos puede esperarse que sean los resultados muestrales? Y
por qué decidimos tomar una muestra y no una población?

Las tres razones principales para extraer una muestra son:

Una muestra requiere que se le dedique menos tiempo que un censo.

Es menos costoso administrar una muestra que un censo.

Una muestra es menos molesta y más práctica de administrar que un censo.


El proceso de muestreo comienza por la definición del marco.
El marco es una lista de los elementos que constituyen la población. Los marcos son fuentes de datos, como listas,
directorios o mapas de la población. Las muestras se extraen de esos marcos.
NOTA: Si los marcos excluyen algunos grupos de la población, los resultados serán inexactos o sesgados.

Una vez seleccionado el marco, se extrae la muestra. Existen dos clases de muestras:
1. Las muestras probabilísticas
2. Las muestras no probabilísticas.

Muestras no probabilísticas
Muestreo de conveniencia, en el que los elementos de la muestra se seleccionan sólo con base en el hecho de que
son fáciles, económicos o convenientes de muestrear
Muestra de juicio, usted recopila las opiniones de expertos en el tema, seleccionados previamente.

Las muestras no probabilísticas tienen ciertas ventajas como conveniencia, rapidez y menor
costo. Sin embargo, su falta de exactitud por el sesgo de la selección y la falta de capacidad de generalización
de los resultados opacan estas ventajas
Muestras probabilísticas
Muestreo aleatorio simple
Muestreo aleatorio simple: todos los elementos dentro del marco tienen las mismas posibilidades de selección que
cualquier otro.
Las muestras se seleccionan con reemplazo o sin reemplazo.

Muestreo con reemplazo implica que, tras seleccionar un elemento, lo devuelve al marco, donde tiene la misma
probabilidad de resultar seleccionado de nuevo.

Muestrear sin reemplazo significa que una vez seleccionado un elemento no se podrá seleccionar
de nuevo

Tabla de números aleatorios

Una tabla de números aleatorios consiste en una serie de dígitos ordenados en una secuencia generada de forma
aleatoria.
SELECCIÓN DE UNA MUESTRA ALEATORIA UTILIZANDO UNA TABLA DE NÚMEROS ALEATORIOS
(Ejemplo pág. 222- Berenson) Una empresa quiere seleccionar una muestra de 32 trabajadores de tiempo completo, a partir de una población compuesta por 800 empleados de
tiempo completo, con el fin de recabar información sobre los gastos referentes al plan de servicios dentales que les brinda. ¿Cómo seleccionaría una muestra aleatoria simple?

N = 800 un número de tres dígitos

Usted asigna el código 001 al trabajador de tiempo completo


que encabeza la lista poblacional, 002 al siguiente empleado

Elige un punto de partida arbitrario en la tabla


de números aleatorios.

fila 06 y la columna 05 de la tabla 7.3


Ejemplo (pág 259 Anderson) Al director de personal de Electronics Associates, Inc. (EAI), se le ha encargado la tarea de elaborar un
perfil de los 2500 administradores de la empresa. Se calcula la media poblacional y la desviación estándar poblacional de los salarios
anuales: Media poblacional: μ = $51 800 y Desviación estándar poblacional: σ = $4000

¿cómo puede obtener el director


de personal de la empresa,
estimaciones de los parámetros
poblacionales usando una
muestra de los administradores,
en lugar de usar a los 2500
administradores usar 10?

Para seleccionar una muestra


aleatoria simple de la población
finita de administradores de EAI,
primero se le asigna a cada
administrador un número. Por
ejemplo, se les asignan los
números del 1 al 2500 en el orden
en que aparecen sus nombres en
el archivo de personal de EAI. A
continuación se consulta la tabla
de dígitos aleatorios que se
muestran en la tabla 7.1
Muestra sistemática

En una muestra sistemática, los N elementos del marco se dividen en n grupos de k elementos, donde:

Ejemplo pág 222- (Berenson)

Para extraer una muestra sistemática de n = 40 a partir de la población de N = 800 empleados, divida el marco de 800 en
40 grupos de 20 empleados cada uno. Luego seleccione un número aleatorio de los primeros 20 individuos, e incluya cada
vigésimo individuo tras la primera selección de la muestra. Por ejemplo, si el primer número seleccionado es 008, sus
selecciones subsiguientes son 028, 048, 068, 088, 108, . . . , 768 y 788.

Aunque la muestra aleatoria simple y la muestra sistemática son más sencillas de utilizar, por lo general son menos
eficientes que otros métodos más elaborados de muestreo probabilístico.

Existen mayores posibilidades de que se presenten sesgos en la selección y falta de representatividad de las
características de la población en las muestras sistemáticas que en las muestras aleatorias simples.
Muestra estratificada
En una muestra estratificada, primero subdivida N elementos del marco en subpoblaciones separadas, o estratos. Un
estrato se define mediante algunas características comunes. Seleccione una muestra aleatoria simple dentro de cada
uno de los estratos, y combine los resultados de muestras aleatorias simples distintas.

Ejemplo pág 222- (Berenson)


Muestra de conglomerados

En una muestra de conglomerados, divida los N elementos del marco en varios conglomerados, de tal manera que cada
uno sea representativo de toda la población.Los conglomerados son designaciones de suceso natural, como países,
distritos electorales, cuadras de una ciudad, hogares o territorios de venta.

Con frecuencia, el muestreo de conglomerados tiene una mejor relación costo-eficacia que el muestreo aleatorio simple,
sobre todo si la población se distribuye en una región geográfica extensa.
Errores de encuesta
• Error de cobertura: El error de cobertura se presenta cuando se excluyen del marco ciertos grupos de elementos, de tal manera
que no tienen posibilidad de resultar seleccionados como parte de la muestra. El error de cobertura provoca un sesgo de selección.
• Error de no respuesta: El error de no respuesta surge a partir de la omisión al recabar datos de todos los elementos de la muestra,
y tiene como resultado un sesgo de no respuesta.
• Error de muestreo: El error de muestreo refleja la heterogeneidad o “diferencia de posibilidad” entre una muestra y otra, con base
en la probabilidad de que determinados individuos o elementos sean seleccionados en muestras particulares.
• Error de medición: Una pregunta debe ser clara y precisa. Además, para evitar las preguntas tendenciosas, es necesario plantearlas
de manera neutral. Existen tres causas de errores de medición: la redacción ambigua de las preguntas, el efecto halo y el error de la
encuesta.

Consideraciones éticas
• El error de cobertura da como resultado un sesgo en la selección, y se convierte en un problema ético si se excluye del marco a
individuos o grupos específicos, en forma deliberada, de manera que los resultados de la encuesta se inclinen hacia una posición más
favorable para el interesado.
• El error de no respuesta puede conducir al sesgo de no respuesta, y se convierte en un problema ético si el interesado diseña
deliberadamente la encuesta de tal manera que se reduzca a la posibilidad de que la respondan grupos o individuos específicos.
• El error de muestreo se convierte en un problema ético si al mostrar los resultados se omite deliberadamente hacer referencia
al tamaño de la muestra y al margen de error, de manera que el interesado promueva un punto de vista que, de otra forma, no sería
verdaderamente significativo.
• El error de medición elige preguntas tendenciosas que dirigen las respuestas en una dirección específica; cuando el entrevistador,
mediante ademanes y tonos, provoca deliberadamente un efecto halo o, de cualquier otra forma, dirige las respuestas en una
dirección específica; cuando el encuestado, desdeñando el proceso de encuestas, proporciona información falsa de manera
intencional.
DISTRIBUCIÓN MUESTRAL DE LA
MEDIA
Población Muestra
¿El principal problema al realizar una inferencia estadística radica en
obtener conclusiones sobre la población, no sobre la muestra?

¿Qué significa que una muestra sea representativa o


probabilística?
No todos/as los/as estudiantes de la UNQ tendrán la misma
probabilidad de ser seleccionados/as para la encuesta ya que
Si hacemos una encuesta en este curso, ¿es quienes no estén cursando en este grupo, tienen probabilidad
representativa para generalizar en UNQ? igual a cero de ser elegidos/as y quienes sí formen parte de este
grupo tienen probabilidad igual a 1 (es seguro que los/as
encuestaron).

Cuando el/la investigador/a recién plantea un problema, y carece


¿Se pueden hacer muestras no de datos previos que le permitan hacer hipótesis, se pueden
probabilísticas? realizar encuestas casuales (no probabilísticas) para lograr una
primera aproximación al tema de estudio. Pero es importante
saber que los resultados así obtenidos sólo sirven como una
primera referencia y, de ninguna manera pueden generalizarse.
DISTRIBUCIÓN MUESTRAL DE LA
MEDIA

Propiedad 1: X=μ el promedio de todos los promedios de muestras es igual al promedio de la población

Propiedad 2:   la varianza de los promedios de muestras es igual a la varianza poblacional dividida por la cantidad de
elementos de las muestras.

DISTRIBUCIÓN MUESTRAL DISTRIBUCIÓN MUESTRAL DE LA MEDIA

La distribución muestral de la media es la


La distribución muestral es la distribución
distribución de todas las medias posibles que
de los resultados que se presentan si en realidad se
surgen si en realidad se seleccionaran todas las
seleccionaron todas las muestras posibles.
muestras posibles de cierto tamaño
Total de la población

¿Qué ocurre si a partir de esta población usted


selecciona muestras compuestas por dos asistentes
administrativos con reemplazo?
Aunque no sepa qué tan cercana está la media
muestral de cualquier muestra seleccionada a la
media poblacional, al menos estará seguro de que la
media de todas las medias muestrales posibles que
se pueden seleccionar es igual a la media
poblacional.
Promedio de
Muestra Integrantes Datos
Estadísticos muestrales la muestra

1 aa 26 26 26

2 ab 26 27 26,5

3 ac 26 33 29,5

¿Qué relación existe entre el promedio de variables en 4 ad


26 29 27,5
26 30 28
toda la población y el promedio de las muestras? 5 ae
27 26 26,5
6 ba
27 27 27
7 bb
27 33 30
8 bc
27 29 28
9 bd
27 30 28,5
10 be
33 26 29,5

Población 11
12
ca
cb
33 27 30
33 33 33
13 c 33 29 31
Población edad Muestra 14 cd 33 30 31,5
15 ce 29 26 27,5
a 26
16 da 29 27 28
b 27 17 db 29 33 31
c 33 El promedio de todos los promedios de 18 dc 29 29 29

d 29
todas las muestras de dos personas de 19 dd 29 30 29,5

esta población es igual al promedio de la 20 de 30 26 28


e 30
población. 21 ea 30 27 28,5
Promedio de la 22 eb 30 33 31,5
población 29 30 29 29,5
23 ec
Varianza de la 24 ed
población
Y la varianza de los promedios de todas 30 30 30
6 25 ee
las muestras de dos personas de esta Promedio de todos los promedios
Promedio de todos los promedios de
población es igual a la varianza de la todas las muestras de todas las muestras
29
población dividido dos. Varianza de los promedios de todas Varianza de los promedios de
las muestras todas las muestras 3
DISTRIBUCIÓN MUESTRAL DE LA
MEDIA
Población Muestra
¿El principal problema al realizar una inferencia estadística radica en
obtener conclusiones sobre la población, no sobre la muestra?

¿Qué significa que una muestra sea representativa o


probabilística?
No todos/as los/as estudiantes de la UNQ tendrán la misma
probabilidad de ser seleccionados/as para la encuesta ya que
Si hacemos una encuesta en este curso, ¿es quienes no estén cursando en este grupo, tienen probabilidad
representativa para generalizar en UNQ? igual a cero de ser elegidos/as y quienes sí formen parte de este
grupo tienen probabilidad igual a 1 (es seguro que los/as
encuestaron).

Cuando el/la investigador/a recién plantea un problema, y carece


¿Se pueden hacer muestras no de datos previos que le permitan hacer hipótesis, se pueden
probabilísticas? realizar encuestas casuales (no probabilísticas) para lograr una
primera aproximación al tema de estudio. Pero es importante
saber que los resultados así obtenidos sólo sirven como una
primera referencia y, de ninguna manera pueden generalizarse.
DISTRIBUCIÓN MUESTRAL DE LA
MEDIA

Propiedad 1: X=μ el promedio de todos los promedios de muestras es igual al promedio de la población

Propiedad 2:   la varianza de los promedios de muestras es igual a la varianza poblacional dividida por la cantidad de
elementos de las muestras.

DISTRIBUCIÓN MUESTRAL DISTRIBUCIÓN MUESTRAL DE LA MEDIA

La distribución muestral de la media es la


La distribución muestral es la distribución
distribución de todas las medias posibles que
de los resultados que se presentan si en realidad se
surgen si en realidad se seleccionaran todas las
seleccionaron todas las muestras posibles.
muestras posibles de cierto tamaño
Propiedad de imparcialidad de la media muestral

La media muestral es imparcial porque la media de todas las medias muestrales posibles, de una muestra dada con
tamaño “n”, es igual a la media poblacional “μ”.

Total de la población

¿Qué ocurre si a partir de esta población usted


selecciona muestras compuestas por dos asistentes
administrativos con reemplazo?
Puesto que la media de las 16 medias muestrales es
igual a la media poblacional, la media muestral es un
estimador imparcial de la media poblacional.

Por lo tanto, aunque no sepa qué tan cercana está la


media muestral de cualquier muestra seleccionada a
la media poblacional, al menos estará seguro de que
la media de todas las medias muestrales posibles que
se pueden seleccionar es igual a la media
poblacional.
Promedio de
Muestra Integrantes Datos
Estadísticos muestrales la muestra

1 aa 26 26 26

2 ab 26 27 26,5

3 ac 26 33 29,5

¿Qué relación existe entre el promedio de variables en 4 ad


26 29 27,5
26 30 28
toda la población y el promedio de las muestras? 5 ae
27 26 26,5
6 ba
27 27 27
7 bb
27 33 30
8 bc
27 29 28
9 bd
27 30 28,5
10 be
33 26 29,5

Población 11
12
ca
cb
33 27 30
33 33 33
13 c 33 29 31
Población edad Muestra 14 cd 33 30 31,5
15 ce 29 26 27,5
a 26
16 da 29 27 28
b 27 17 db 29 33 31
c 33 El promedio de todos los promedios de 18 dc 29 29 29

d 29
todas las muestras de dos personas de 19 dd 29 30 29,5

esta población es igual al promedio de la 20 de 30 26 28


e 30
población. 21 ea 30 27 28,5
Promedio de la 22 eb 30 33 31,5
población 29 30 29 29,5
23 ec
Varianza de la 24 ed
población
Y la varianza de los promedios de todas 30 30 30
6 25 ee
las muestras de dos personas de esta Promedio de todos los promedios
Promedio de todos los promedios de
población es igual a la varianza de la todas las muestras de todas las muestras
29
población dividido dos. Varianza de los promedios de todas Varianza de los promedios de
las muestras todas las muestras 3
Propiedad de imparcialidad de la media muestral

La media muestral es imparcial porque la media de todas las medias muestrales posibles, de una muestra dada con
tamaño “n”, es igual a la media poblacional “μ”.

Total de la población

¿Qué ocurre si a partir de esta población usted


selecciona muestras compuestas por dos asistentes
administrativos con reemplazo?
Puesto que la media de las 16 medias muestrales es
igual a la media poblacional, la media muestral es un
estimador imparcial de la media poblacional.

Por lo tanto, aunque no sepa qué tan cercana está la


media muestral de cualquier muestra seleccionada a
la media poblacional, al menos estará seguro de que
la media de todas las medias muestrales posibles que
se pueden seleccionar es igual a la media
poblacional.
Promedio de
Muestra Integrantes Datos
Estadísticos muestrales la muestra

1 aa 26 26 26

2 ab 26 27 26,5

3 ac 26 33 29,5

¿Qué relación existe entre el promedio de variables en 4 ad


26 29 27,5
26 30 28
toda la población y el promedio de las muestras? 5 ae
27 26 26,5
6 ba
27 27 27
7 bb
27 33 30
8 bc
27 29 28
9 bd
27 30 28,5
10 be
33 26 29,5

Población 11
12
ca
cb
33 27 30
33 33 33
13 c 33 29 31
Población edad Muestra 14 cd 33 30 31,5
15 ce 29 26 27,5
a 26
16 da 29 27 28
b 27 17 db 29 33 31
c 33 El promedio de todos los promedios de 18 dc 29 29 29

d 29
todas las muestras de dos personas de 19 dd 29 30 29,5

esta población es igual al promedio de la 20 de 30 26 28


e 30
población. 21 ea 30 27 28,5
Promedio de la 22 eb 30 33 31,5
población 29 30 29 29,5
23 ec
Varianza de la 24 ed
población
Y la varianza de los promedios de todas 30 30 30
6 25 ee
las muestras de dos personas de esta Promedio de todos los promedios
Promedio de todos los promedios de
población es igual a la varianza de la todas las muestras de todas las muestras
29
población dividido dos. Varianza de los promedios de todas Varianza de los promedios de
las muestras todas las muestras 3
A medida que aumenta la cantidad de elementos de la muestra, el promedio de
medias muestrales estará distribuido cada vez más normalmente.

Cuando se consideran muestras de 30 o más elementos, la distribución


muestral de las medias de muestra es aproximadamente normal.

Esto es válido sin importar la forma de la distribución de la variable en la


población.
Podemos ver que solo 5 de las muestras coinciden exactamente con el valor poblacional, pero
que el resto comienza a alejarse.

Es decir, si nos tocara la muestra “AC” nos haría creer que el promedio es de 2,5 y estaríamos
equivocados, pero si nos toca la “CE” daríamos un resultado correcto.
Teorema del límite central

“El teorema del límite central dispone que cuando el tamaño de la muestra (es
decir, el número de valores en cada muestra) es lo bastante grande, la
distribución muestral de la media tiene una distribución aproximadamente normal.
Esto es válido sin importar la forma de la distribución de los valores individuales
en la población.

¿Qué tamaño de la muestra es lo bastante grande? (…) los especialistas en


estadística han encontrado que cuando el tamaño de la muestra es de por lo
menos 30, la distribución muestral de la media es aproximadamente normal. No
obstante, si la distribución poblacional tiene una forma aproximada de campana,
se aplica el teorema del límite central incluso con tamaños de la muestra
menores.”
Ejemplo:

La máquina llenadora de recipientes de jalea empaca 454 gramos de jalea, con una desviación
estándar de 12 gramos. Ya se calculó la probabilidad de que un frasco seleccionado al azar contenga
entre 440 y 450 gramos de jalea.

Pero, ¿cuál es la probabilidad de que, al seleccionar una muestra de 49 frascos, el promedio


del contenido de ellos se encuentre entre 440 y 450 gramos de jalea?

Como la muestra es de más de 30 casos, sin importar la distribución de la variable “peso de los
frascos”, los promedios de muestra seguirán una distribución aproximadamente normal.

Los parámetros de esta distribución de muestreo son:


Por simetría, esto es igual a:

P -8,16<z<-2,33=
P 2,33<z<8,16

Que se calcula por resta:

P 2,33<z<8,16=
P(0<z<8,16) - P(0<z<2,33)
Llegado este punto, se consulta la tabla para buscar los valores de las probabilidades
correspondientes.

Es de notar que no figura el valor 8,16. Se debe a que la probabilidad de que z tome valores
entre 0 y 4 es muy cercana a 0,5.

Por lo tanto, teniendo esto último en cuenta, la probabilidad buscada es:

P440≤X≤450 = 0,5-0,49010= 0,0099


La probabilidad de que un único frasco contenga entre 440 y 450 gramos de jalea es de
0,2497. Pero cuando se hace el promedio del contenido de 49 frascos, la posibilidad de
que dicho promedio se encuentre entre 440 y 450 gramos es muy baja: 0,00990.

Expresado en porcentajes sería que aproximadamente el 25% de los frascos contiene


entre 440 y 450 gramos de jalea. Pero menos del 1% de muestras de 49 frascos
tendrán en promedio esos valores.
Retomando el ejercicio propuesto de la fábrica de tornillos, que tienen en promedio 5
mm. de diámetro, con una desviación de 0,08 mm. Suponiendo que se seleccionen al
azar muestras de 36 tornillos, se pide que calcule:

a) ¿Qué porcentaje de las muestras de tornillos tienen un diámetro inferior a 4,95


mm?
b) ¿Cuál es la probabilidad de que una muestra tenga un diámetro promedio entre
4,85 y 5,2 mm?
c) El 90% de las muestras de 36 tornillos tienen un diámetro promedio superior a
¿cuánto?
Pero en la tabla no hay números negativos. Por eso, es necesario aplicar las propiedades de la función
normal.

Como se trata de una función simétrica esta probabilidad será igual a la del diagrama siguiente:
En símbolos, se escribe:

𝑃(𝑧 < −3,85) = 𝑃(𝑧 > 3,85) (𝑝𝑜𝑟 𝑠𝑖𝑚𝑒𝑡𝑟í𝑎)

Ahora, para calcularla, es necesario tener en cuenta la propiedad de que la probabilidad de


que la variable se encuentre entre la media y +∞ es 0,5. Entonces, la probabilidad del
diagrama anterior se puede calcular así:
b) diámetro promedio entre 4,85 y 5,2 mm gráficamente es:
c) El 90% de las muestras de 36 tornillos tienen un diámetro promedio superior a

¿cuánto?

En este ejercicio ya se conoce la probabilidad: 0,9. Y lo que hace falta es encontrar el


valor de z para el cual la probabilidad es ésa. Pero antes es necesario interpretar el
enunciado.

¿Dónde están el 90% de las muestras de 36 tornillos que tienen un diámetro


superior?

Se sabe que el 50% de las medias muestrales tiene el diámetro superior a 5mm
(porque la media divide a toda la distribución en dos partes exactamente iguales).
Gráficamente es así:
Una empresa de mensajería que opera en la ciudad tarda una media de 35
minutos en llevar un paquete, con una desviación típica de 8 minutos.
Supongamos que durante el día de hoy han repartido 200 paquetes(muestra)

a) ¿Cuál es la probabilidad de que los tiempos de entrega de hoy están entre 30


y 35 minutos?.

b) ¿Cuál es la probabilidad de que, en total, para los doscientos paquetes hayan


estado más de 115 horas?.
Por el teorema del límite central sabemos que la media muestral se
comporta como una normal de esperanza 35 y desviación típica:
Donde Z es una normal (0,1). Es decir, tenemos una probabilidad aproximada del
0,4616 de que la media del tiempo de entrega de hoy haya estado entre 30 y 35
minutos.

Por lo que respecta a la segunda pregunta, de entrada debemos pasar las horas a
minutos, ya que ésta es la unidad con la que nos viene dada la variable.

Observar que 115 horas por 60 minutos nos dan 6.900 minutos. Se nos pide que
calculemos la probabilidad siguiente:
Como sabemos que la media se distribuye aproximadamente como una normal de
media 35 y desviación típica 0,566 , esta probabilidad se puede aproximar por la
probabilidad de una distribución normal estándar Z:
El departamento de marketing de una empresa de teléfonos celulares conoce que
los montos de las facturas mensuales de sus clientes no corporativos siguen una
distribución normal con media de $80 y desviación estándar de $12. Para planificar
mejor sus estrategias comerciales para los próximos meses desean conocer:

Si se realiza una campaña de telemarketing llamando a 100


clientes de manera aleatoria, ¿Cuál es la probabilidad de que, en
promedio, esos clientes tengan un consumo entre $80 y $93?
µ = 80 (media poblacional)
• σ=12 (desviación estándar poblacional)
• n =100
• P(80 ≤ x ≤ 93) = ?
P (0≤ z ≤10,83) ≅ 0.5 ( valor alto en la tabla)

Respuesta: La probabilidad de que, en promedio, esos clientes tengan un consumo entre


$80 y $93 es de 0.5
El sueldo de los trabajadores de una multinacional sigue una distribución normal de media 2500 € y
desviación típica 600 €.

¿Cuál es la probabilidad de que la media de la muestra sea menor que 2350 €?


Se supone que la distribución de la temperatura del cuerpo humano en la población tiene de media 37 ºC
y de desviación típica 0,85 ºC.
Se elige una muestra de 105 personas y se pide :
a) Calcular la probabilidad de que la temperatura media sea menor de 36,9 ºC.
b) Calcular la probabilidad de que la temperatura media esté comprendida entre 36,5 ºC y 37,5 ºC.
Se sabe que las puntuaciones de un test siguen una ley normal de media 36 y desviación típica 4,8.
a) Si se toma una muestra aleatoria de 16 individuos, ¿cuál es la probabilidad de que la media de
esta muestra sea superior a 35 puntos?
b) ¿Qué porcentaje de muestras de tamaño 25 tiene una media muestral comprendida entre 34 y
36?
Modelo del segundo parcial
1) Mencione brevemente los dos tipos de formas de hacer una muestra. Una vez clasificadas argumente sobre las ventajas
y desventajas de al menos 1 clases de muestras de cada una de las formas anteriormente identificadas.

2) Desarrolle al menos 2 errores encuéstales tradicionales. Una vez definidos estos dos amplíe sobre las consideraciones
éticas que conllevan dichos errores.

3) Indique V o F y justifique su respuesta

a) La distribución normal es un caso particular de distribución de variable discreta, que sirve para aproximar muchos
fenómenos y que tiene como característica que el área bajo toda la curva es igual a 1 (porque corresponde a la probabilidad
de “suceso seguro”). 
b) La curva normal es perfectamente simétrica alrededor del desvío. 
c) Si el tamaño de la muestra es grande puede realizarse la estimación a partir del puntaje z, sin importar la forma de la
distribución de la variable en la población de origen..
D) El promedio de todos los promedios de todas las muestras de n personas de una población es igual al promedio de la
población.
Muestras probabilísticas
Muestreo aleatorio simple
Muestreo aleatorio simple: todos los elementos dentro del marco tienen las mismas posibilidades de selección que
cualquier otro.
Las muestras se seleccionan con reemplazo o sin reemplazo.

Muestreo con reemplazo implica que, tras seleccionar un elemento, lo devuelve al marco, donde tiene la misma
probabilidad de resultar seleccionado de nuevo.

Muestrear sin reemplazo significa que una vez seleccionado un elemento no se podrá seleccionar
de nuevo

Tabla de números aleatorios

Una tabla de números aleatorios consiste en una serie de dígitos ordenados en una secuencia generada de forma
aleatoria.
SELECCIÓN DE UNA MUESTRA ALEATORIA UTILIZANDO UNA TABLA DE NÚMEROS ALEATORIOS
(Ejemplo pág. 222- Berenson) Una empresa quiere seleccionar una muestra de 32 trabajadores de tiempo completo, a partir de una población compuesta por 800 empleados de
tiempo completo, con el fin de recabar información sobre los gastos referentes al plan de servicios dentales que les brinda. ¿Cómo seleccionaría una muestra aleatoria simple?

N = 800 un número de tres dígitos

Usted asigna el código 001 al trabajador de tiempo completo


que encabeza la lista poblacional, 002 al siguiente empleado

Elige un punto de partida arbitrario en la tabla


de números aleatorios.

fila 06 y la columna 05 de la tabla 7.3


Muestra sistemática

En una muestra sistemática, los N elementos del marco se dividen en n grupos de k elementos, donde:

Ejemplo pág 222- (Berenson)

Para extraer una muestra sistemática de n = 40 a partir de la población de N = 800 empleados, divida el marco de 800 en
40 grupos de 20 empleados cada uno. Luego seleccione un número aleatorio de los primeros 20 individuos, e incluya cada
vigésimo individuo tras la primera selección de la muestra. Por ejemplo, si el primer número seleccionado es 008, sus
selecciones subsiguientes son 028, 048, 068, 088, 108, . . . , 768 y 788.

Aunque la muestra aleatoria simple y la muestra sistemática son más sencillas de utilizar, por lo general son menos
eficientes que otros métodos más elaborados de muestreo probabilístico.

Existen mayores posibilidades de que se presenten sesgos en la selección y falta de representatividad de las
características de la población en las muestras sistemáticas que en las muestras aleatorias simples.
Muestra estratificada
En una muestra estratificada, primero subdivida N elementos del marco en subpoblaciones separadas, o estratos. Un
estrato se define mediante algunas características comunes. Seleccione una muestra aleatoria simple dentro de cada
uno de los estratos, y combine los resultados de muestras aleatorias simples distintas.

Ejemplo pág 222- (Berenson)


Muestra de conglomerados

En una muestra de conglomerados, divida los N elementos del marco en varios conglomerados, de tal manera que cada
uno sea representativo de toda la población.Los conglomerados son designaciones de suceso natural, como países,
distritos electorales, cuadras de una ciudad, hogares o territorios de venta.

Con frecuencia, el muestreo de conglomerados tiene una mejor relación costo-eficacia que el muestreo aleatorio simple,
sobre todo si la población se distribuye en una región geográfica extensa.
Errores de encuesta
• Error de cobertura: El error de cobertura se presenta cuando se excluyen del marco ciertos grupos de elementos, de tal manera
que no tienen posibilidad de resultar seleccionados como parte de la muestra. El error de cobertura provoca un sesgo de selección.
• Error de no respuesta: El error de no respuesta surge a partir de la omisión al recabar datos de todos los elementos de la muestra,
y tiene como resultado un sesgo de no respuesta.
• Error de muestreo: El error de muestreo refleja la heterogeneidad o “diferencia de posibilidad” entre una muestra y otra, con base
en la probabilidad de que determinados individuos o elementos sean seleccionados en muestras particulares.
• Error de medición: Una pregunta debe ser clara y precisa. Además, para evitar las preguntas tendenciosas, es necesario plantearlas
de manera neutral. Existen tres causas de errores de medición: la redacción ambigua de las preguntas, el efecto halo y el error de la
encuesta.

Consideraciones éticas
• El error de cobertura da como resultado un sesgo en la selección, y se convierte en un problema ético si se excluye del marco a
individuos o grupos específicos, en forma deliberada, de manera que los resultados de la encuesta se inclinen hacia una posición más
favorable para el interesado.
• El error de no respuesta puede conducir al sesgo de no respuesta, y se convierte en un problema ético si el interesado diseña
deliberadamente la encuesta de tal manera que se reduzca a la posibilidad de que la respondan grupos o individuos específicos.
• El error de muestreo se convierte en un problema ético si al mostrar los resultados se omite deliberadamente hacer referencia
al tamaño de la muestra y al margen de error, de manera que el interesado promueva un punto de vista que, de otra forma, no sería
verdaderamente significativo.
• El error de medición elige preguntas tendenciosas que dirigen las respuestas en una dirección específica; cuando el entrevistador,
mediante ademanes y tonos, provoca deliberadamente un efecto halo o, de cualquier otra forma, dirige las respuestas en una
dirección específica; cuando el encuestado, desdeñando el proceso de encuestas, proporciona información falsa de manera
intencional.
4) En una encuesta se estimó el promedio de ingresos en $1700 con una dispersión de $50.
Admitiendo una distribución normal para la variable ingreso.

a.  Determinar el porcentaje de personas con un ingreso superior a $1800


b.  ¿Entre qué valores de ingreso se encuentra el 80% central de la población?
c.   Determinar el porcentaje de personas con un ingreso entre $1575 y $1675
d.   ¿A partir de qué valor de ingreso se encuentra el 5% inferior de la población?
5) Según el INDEC, el ingreso promedio de los hogares correspondiente
al 4to trimestre de 2021 para la población del AMBA, fue de $69.330 y la
dispersión es de $17.320.
a. ¿Cuál es la probabilidad de encontrar un hogar en la población con un
ingreso por hogar de más de $85.500?
b. Si se decide tomar una muestra de 400 casos, ¿cuál es la probabilidad
de encontrar alguna muestra con un promedio superior a $85.500?
4)
A) z: 2 > 1800 2,28%
B) Z: (-1.28 +1.28) : 1636 / 1764
C) z ( -2.5 y 0.5) : 0.4938- 0.1915) : 0,30853754
D) z -1,65 : 1617,5

También podría gustarte