Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema I
Tema I
ACTIVIDADES DE APRENDIZAJE
Objetivo:
Indicaciones:
Ilustración 1:Volumen de acciones de Frito- Lay en las principales categorías de mecato en los supermercados de los
estados unidos Gráfico tomado de [ CITATION Lin151 \l 9226 ]
Tipos de estadística
Por lo general, el estudio de la estadística se divide en dos categorías: la estadística descriptiva y la estadística
inferencial.
Estadística descriptiva
Es la ciencia que “recoge, organiza, presenta, analiza… datos”. Esta parte de la estadística
recibe el nombre de estadística descriptiva
Por ejemplo, el gobierno de Estados Unidos informa que, en 1960, la población de este país
fue de 179 323 000 personas; en 1970, de 203 302 000; en 1980, de 226 542 000; en 1990,
de 248 709 000 y en 2000, de 265 000 000. Esta información representa una estadística
descriptiva. Se trata de estadística descriptiva si calcula el crecimiento porcentual de una
década a otra. Sin embargo, no sería de naturaleza descriptiva si utilizara estos datos para
calcular la población de Estados Unidos en el año 2020 o el crecimiento porcentual de 2010 a
2020. ¿Por qué? Dichas estadísticas no se están utilizando para hacer un resumen de
poblaciones del pasado, sino para calcular poblaciones en el futuro. Los siguientes son
ejemplos de estadística descriptiva.
Una persona promedio gastó 103.00 dólares en mercancía alusiva a San Valentín el 14 de
febrero de 2010. Esto representa un aumento de 0.50 dólares con respecto a 2009. Como en
años anteriores, los hombres gastaron el doble que las mujeres en esa fecha. El hombre
promedio gastó 135.35 dólares para impresionar a sus seres queridos, mientras que las
mujeres sólo gastaron 72.28. Las mascotas también sienten amor: una persona promedio
gastó 3.27 dólares en su amigo peludo, en comparación con los 2.17 del año anterior. Una
masa de datos desorganizados —como el censo de población, los salarios semanales de
miles de programadores de computadoras y las respuestas de 2 000 votantes registrados para
elegir presidente de Estados Unidos— resulta de poca utilidad. No obstante, las técnicas de la
estadística descriptiva permiten organizar esta clase de datos y darles significado.
Estadística inferencial
Cuando los datos son de naturaleza cualitativa, importa la cantidad o proporción que caen
dentro de cada categoría. Por ejemplo, ¿qué porcentaje de la población tiene ojos azules?
¿Cuántos católicos o cuántos protestantes hay en Estados Unidos? ¿Qué porcentaje del total
de automóviles vendidos el mes pasado eran camionetas? Los datos cualitativos se resumen
en tablas o gráficas de barras
Tipos de
Variables
Cualitativas Cuantitativas
Marca de un
Estado Civil Sexo Discreta Contínua
objeto
Observe que en una casa hay 3 o 4 camas, pero no 3.56. Por consiguiente, existe un vacío
entre los valores posibles. Las variables discretas son el resultado de una relación numérica.
Las observaciones de una variable continua toman cualquier valor dentro de un intervalo
específico. Ejemplos de variables continuas son la presión del aire en una llanta y el peso de
en cargamento de tomates. Otros ejemplos son la cantidad de cereal con pasas que contiene
una caja y la duración de los vuelos. El promedio al graduarse constituye una variable
continua. Podría expresar el promedio de determinado estudiante como 3.2576952. Se
acostumbra redondear a 1 decimales (3.3). Por lo general las variables continuas son el
resultado de mediciones.
Al grupo de técnicas que se utilizan para describir un conjunto de datos se les denominó
estadística descriptiva. En otras palabras, la estadística descriptiva se encarga de organizar
datos con el fin de mostrar la distribución general de éstos y el lugar en donde tienden a
concentrarse, además de señalar valores de datos poco usuales o extremos. El primer
procedimiento que se emplea para organizar y resumir un conjunto de datos es una tabla de
frecuencias.
TABLA DE FRECUENCIAS Agrupación de datos cualitativos en clases mutuamente excluyentes que muestra el
número de observaciones en cada clase.
Es posible convertir las frecuencias de clase en frecuencias relativas de clase para mostrar la
fracción del número total de observaciones en cada una de ellas. Así, una frecuencia relativa
capta la relación entre la totalidad de elementos de una clase y el número total de
observaciones.
Para transformar un cúmulo de datos en bruto en algo con significado, organizamos los datos
cuantitativos en una distribución de frecuencias y después representamos los resultados en
una gráfica de barras. De manera similar organizamos los datos cuantitativos en una
distribución de frecuencias y los presentamos gráficamente en un histograma. Aprendimos
otras técnicas para graficar, como las gráficas de pastel para representar datos cualitativos, y
polígonos de frecuencias para representar datos cuantitativos.
Si sólo toma en cuenta las medidas de ubicación de un conjunto de datos o si compara varios
conjuntos de datos utilizando valores centrales, llegará a una conclusión incorrecta.
En principio se explican las medidas de ubicación. No existe una única medida de dispersión;
de hecho, existen varias. Consideraremos cinco: la media aritmética, la media ponderada, la
mediana, la moda y la media geométrica. La media aritmética es la medida de ubicación que
más se utiliza y que se publica con mayor frecuencia, por lo cual se le considerará como
parámetro para una población y como estadístico para las muestras.
Media
x 1+ x 2 +…+ x n
x́=
n
n
∑ xi
x́= i=1
n
2, 5, 6, 2, 4, 4, 6, 5, 7, 8, 2, 8, 5, 9, 8
Método 1: Si los datos son pocos podemos sumarlos y dividir entre el total:
Método 2: Tabulamos los datos e incluimos una columna donde multiplicamos xi * ni:
xi ni xi * ni
2 3 6
4 2 8
5 3 15
6 2 12
7 1 7
8 3 24
9 1 9
Total 15 81
o
Calculamos ahora la media:
La fórmula se indica:
Significado de la media: La media es un parámetro que indica el valor central sobre el cual
se distribuyen los valores del carácter estudiado.
En el caso de datos agrupados utilizaremos las marcas de clase para el cálculo de la media.
Moda
En el ejemplo de las notas de Matemáticas observamos tres valores con frecuencia 3 son las
notas 2, 5 y 8. En este caso las tres son la moda.
Mediana
{
,Con enimpar
2
x́= x n + x n En elejemplo de las notas de Matemáticas debemos ordenar los datos
+1
2 2
, con n par
2
para saber cuál es el central:
2, 2, 2, 4, 4, 5, 5, 5, 6, 6, 7, 8, 8, 8, 9
La mediana es 5.
Si tabulamos los datos y calculamos la frecuencia acumulada, la mediana es el primer dato que
supera el 50%:
2 3 20% 20%
4 2 13,33% 33,33%
5 3 20% 53,33%
6 2 13,33% 66,66%
7 1 6,67% 73,33%
8 3 20% 93,33%
9 1 6,67% 100%
15
La mediana es 5, Me = 5.
Ejemplo 1: En un grupo musical hay dos componentes de 17 años, tres de 18 años y dos de
19 años. ¿Cuál será la edad media y la edad mediana de este grupo musical?
Media:
Me = 18 años
Ejemplo 2: Si uno de los componentes de 19 años se da de baja y entra uno de 40 años,
¿cuál será ahora la edad media y la edad mediana?
Media:
Me = 18 años
Observa: Al cambiar un solo dato por un valor más extremo la media se ve muy afectada
mientras que la mediana permanece invariable.
Percentiles y Cuantiles
No solo es posible dividir la muestra en dos partes como lo hace la mediana, cuando se divide
un conjunto de datos ordenados en cuatro partes iguales, los puntos de división se conocen
como cuartiles. El cuartil 1 es el valor para el cual el 25% de los datos son menores que él y
el 75% restante es mayor que él, es cuartil se denota como q 1, el segundo cuartil denominado
q 2, tiene aproximadamente la mitad (50%) de las observaciones por debajo de él, este cuartil
es exactamente igual a la mediana. El tercer cuartil denominado q 3, tiene aproximadamente e
75% de los datos por debajo de él.
Claramente estas divisiones no son las únicas que pueden calcularse, por ejemplo, cuando un
conjunto ordenado de datos se divide en 100 partes, los puntos de división reciben el nombre
de percentiles. En términos generales, el 100 k −ésimo dato proveniente de una muestra
ordenada, puede denominarse cuantil y se define de la siguiente manera:
Definición: el 100 k −ésimo cuantil c k es un valor tal, que al menos el 100 k % de las
observaciones están en el valor o por debajo de él, y al menos el 100 ( 1−k ) % están en el
valor o por encima de él.
Una medida de ubicación, como la media o la mediana, sólo describe el centro de los datos.
Desde este punto de vista resulta valiosa, pero no dice nada sobre la dispersión de los datos.
Por ejemplo, si la guía de turismo ecológico dice que el río que se encuentra a pocos pasos
tiene en promedio 3 pies de profundidad, ¿querría usted cruzarlo a pie sin más información?
Quizá no. Usted desearía saber algo sobre la variación de la profundidad. ¿Mide 3.25 pies la
máxima profundidad y 2.75 pies la mínima? En dicho caso, usted estaría de acuerdo en
cruzar. ¿Qué hay si usted se enteró de que la profundidad del río variaba de 0? 50 a 5.5 pies?
Su decisión probablemente sería no cruzar. Antes de tomar una decisión, usted desea
información tanto de la profundidad típica como de la dispersión de la profundidad del río.
Una medida de dispersión pequeña indica que los datos se acumulan con proximidad
alrededor de la media aritmética. Por consiguiente, la media se considera representativa de
los datos. Por el contrario, una medida grande de dispersión indica que la media no es
confiable (vea la gráfica 3-5). Los 100 empleados de Hammond Iron Works, Inc., una
compañía que fabrica acero, se organizan en un histograma basado en el número de años
que los empleados han laborado en la compañía. La media es de 4.9 años, pero la dispersión
de los datos es de 6 meses a 16.8 años. La media de 4.9 años no es muy representativa de
todos los empleados.
Una segunda razón para estudiar la dispersión en un conjunto de datos consiste en comparar
la propagación en dos o más distribuciones. Por ejemplo, suponga que el nuevo monitor de
computadora Vision Quest LCD se arma en Baton Rouge y también en Tucson. La producción
media aritmética por hora, tanto en la planta de Baton Rouge como en la de Tucson, es de 50.
Sobre la base de las dos medias, podría concluir que las distribuciones de las producciones
por hora son idénticas. Sin embargo, los registros de producción de 9 horas en las dos plantas
revelan que esta conclusión no es correcta La producción de Baton Rouge varía de 48 a 52
montajes por hora. La producción en la planta de Tucson es más errática, ya que varía de 40
a 60 la hora. Por lo tanto, la producción por hora en Baton Rouge se acumula cerca de la
media de 50; la producción por hora de Tucson es más dispersa.
La variabilidad especifica cuan alejados están los puntos entre sí y particularmente de la
media, mientras las medidas de tendencia central son una cuantificación de la centralidad de
la distribución d ellos datos, las medidas de variabilidad cuantifican amplitud o dispersión.
Las medidas mas comunes de variabilidad son el Rango, La varianza, la Desviación estándar
y el Rango Intercuartílico, pero hay otras como la asimetría y la curtosis.
El rango:
Se define como la diferencia entre los puntajes mas alto y mas bajo en la distribución.
Rango=Máximo−Mínimo
La facilidad para ser medido nos da una indicación de lo limitado de la información que brinda,
puesto que este solo mide la dispersión de los puntajes extremos, pero no tiene en cuenta el
comportamiento de los demás datos.
La varianza y la desviación estándar muestral
∑ ( xi −x́)2
s2= i=1
n−1
La desviación estándar muestral, s, es la raíz cuadrada positiva de la varianza
Las unidades de medición de la varianza muestral son iguales al cuadrado de las unidades
con que se mide la variable aleatoria. De tal forma que si x se mide en ft , entonces la
varianza se mide en ft 2, por esta razón, la varianza no tiene interpretación directa asociada a
los datos, mientras que la desviación estándar muestral mide la distancia cuadrática promedio
que hay de cada dato a la media muestral.
Rango Intercuartílico
RIQ=q3−q1
Nótese que el 50% de todos los datos de la muestra ordenada caben en medio de los dos
cuartiles que construyen el RIQ, con frecuencia, esta medida es similar a la desviación
estándar.
Coeficiente de Variación
Con frecuencia, es deseable expresar la variación como una fracción de la media. Para hacer
esto se usa una medida adimensional de variación relativa, denominada coeficiente de
variación muestral.
s
cv =
x́
El coeficiente de variación es útil cuando se compara la variabilidad de dos o mas conjuntos
de datos que difieren considerablemente en la magnitud de las observaciones. Por ejemplo,
energía eléctrica consumida en el sector industrial comparada con la energía eléctrica del
sector residencial.
Tema 5: Ejercicios
54 48 58 50 25 47 75 46 60 70 67 68 39 35 56 66 33 62 65 67
10. El director de relaciones humanas de Ford inició un estudio de las horas de trabajo
extra en el Departamento de Inspección. Una muestra de 15 trabajadores reveló que
éstos laboraron la siguiente cantidad de horas extras el mes pasado.
13 13 12 15 7 15 5 12 6 7 12 10 9 13 12
11. AAA Heating and Air Conditioning concluyó 30 trabajos el mes pasado con un ingreso
medio de $5 430 por trabajo. El presidente desea conocer el ingreso total del mes.
Con base en la información limitada que se proporciona, ¿puede calcular el ingreso
total? ¿A cuánto asciende?
12. Una gran compañía farmacéutica contrata graduados de administración de empresas
para vender sus productos. La compañía se expande con rapidez y dedica un día a
capacitar a los nuevos vendedores. El objetivo que la compañía fija a cada nuevo
vendedor es de $10 000 mensuales, cifra que refleja las ventas promedio actuales por
mes de la empresa. Después de revisar las retenciones de impuestos de los nuevos
empleados, la compañía encuentra que sólo 1 de cada 10 permanece más de tres
meses en la empresa. Comente la utilización de las ventas promedio actuales
mensuales como objetivo de ventas para los nuevos empleados. ¿Por qué abandonan
los empleados la compañía?
13. ¿Qué informaría usted como valor modal de un conjunto de observaciones si hubiera
un total de:
a. 10 observaciones y no hubiera dos valores iguales;
b. 6 observaciones, todas iguales;
c. 6 observaciones con valores de 1, 2, 3, 4 y 4?
14. Hubo cinco representantes de servicio al cliente que trabajaron en Electronic Super
Store durante la pasada venta de fin de semana. Las cantidades de HDTV que
vendieron estos representantes son: 5, 8, 4, 10 y 3.
15. El Departamento de Estadística de la Western State University ofrece ocho secciones
de estadística básica. En seguida aparecen los números de estudiantes matriculados
en estas secciones: 34, 46, 52, 29, 41, 38, 36 y 28.
16. Dave’s Automatic Door instala puertas automáticas para cocheras. La siguiente lista
indica el número de minutos que se requieren para instalar una muestra de 10 puertas
automáticas: 28, 32, 24, 46, 44, 40, 54, 38, 32 y 42.
17. Una muestra de ocho compañías de la industria aeronáutica participó en una encuesta
sobre la recuperación de la inversión que tuvieron el año pasado. Los resultados (en
porcentaje) son los siguientes: 10.6, 12.6, 14.8, 18.2, 12.0, 14.8, 12.2 y 15.6.
18. Diez adultos jóvenes que viven en California, elegidos al azar, calificaron el sabor de
una nueva pizza de sushi con atún, arroz y kelp en una escala de 1 a 50, en la que el 1
indica que no les gusta el sabor y 50 que sí les gusta. Las calificaciones fueron las
siguientes: 34 39 40 46 33 31 34 14 15 45. En un estudio paralelo, 10 adultos jóvenes
de Iowa, elegidos al azar, calificaron el sabor de la misma pizza. Las calificaciones
fueron las siguientes: 28 25 35 16 25 29 24 26 17 20. Como investigador de mercado,
compare los mercados potenciales para la pizza de sushi.