Está en la página 1de 8

U1 Estadística. Introducción.

Hace más de 100 años, H. G. Wells, historiador y autor inglés señaló: “algún día el conocimiento estadístico será tan
necesario para un buen y eficiente ciudadano, como lo es saber leer”. Actualmente diría: “el conocimiento estadístico
es necesario no solo para ser un buen y eficiente ciudadano, sino también para una toma de decisiones efectiva en
varias áreas de los negocios”.

Al fallecido W. Edwards Deming, importante estadístico y experto en control de Calidad, le gustaba contar la historia
de un niño de 11 años de edad que diseñó un diagrama de control de calidad para monitorear las llegadas a tiempo
de su autobús escolar; Deming comentó: “este niño tuvo un buen comienzo en la vida”. Por esta razón, decía que la
educación estadística debía comenzar antes de la enseñanza media superior.

Casi todos los días utilizamos conceptos estadísticos; por ejemplo, al bañarse, al hacer las compras del súper,
etcétera. Las empresas enfrentan problemas similares: una compañía de cereal debe verificar que el contenido
cumpla las especificaciones indicadas en el paquete. A nivel nacional, un candidato a la presidencia quiere saber el
porcentaje de pobladores del estado de Hidalgo que lo apoyará, etcétera.

La estadística se refiere a información numérica; algunos ejemplos son:


 Salario inicial promedio de los egresados de la UAEH,
 Número de autos Ford vendidos el mes pasado en la agencia,
 Porcentaje de estudiantes que terminarán la licenciatura,
 Número de muertes por alcoholismo durante el último semestre,
 Variación en la Bolsa de Valores, etcétera.

En estos ejemplos, una “estadística” es un número o porcentaje. Otros ejemplos son:


 El automóvil típico de Estados Unidos recorre 11099 millas por año; el autobús típico viaja 9353 millas por
año y el camión típico, 13942 millas por año.
 El INEGI calcula que la población en la República Mexicana a mediados del 2025 será de 128,491,093
personas
 El tiempo de espera promedio para recibir asistencia técnica es de 17 minutos.

Estos son ejemplos de “estadísticas”, es decir, una colección de información numérica.

Estadística. Es la ciencia que se ocupa de recolectar, organizar, presentar, analizar e interpretar datos para ayudar
a una toma de decisiones más efectiva.

Existen por lo menos tres razones para estudiar estadística:


 Los datos se encuentran en todos lados,
 Las técnicas estadísticas se utilizan para la toma de muchas decisiones que afectan nuestra vida,
 Sin importar el trabajo futuro, tendrán que tomar decisiones que involucren datos.

Además, en el área de Administración, interesan cosas como los sueldos, las condiciones actuales de economía, la
predicción de tendencias económicas futuras, etcétera.
En la Ingeniería interesa el número de minas explotadas, la cantidad de artículos con “cero defectos”, la cantidad de
mineral obtenido en una excavación, etcétera.

Generalmente, la estadística se divide en dos categorías:


1. Estadística descriptiva. Conjunto de métodos para organizar, resumir y presentar los datos de manera
informativa.

Por ejemplo, en Estados Unidos se reporta una población de:


 1970: 180 323 000 personas,
 1980: 204 302 000 personas,
 1990: 227 542 000 personas,
 2000: 249 709 000 personas,
 2010: 266 000 000 personas.

2. Estadística Inferencial. También se conoce como Inferencia Estadística y Estadística Inductiva. Conjunto
de métodos utilizados para saber algo acerca de una población, basándose en una muestra.
La Investigación de Operaciones y los métodos y técnicas de la inferencia estadística también pueden ser utilizados
en una rama de esta disciplina, llamada Teoría de Decisiones.

El conocimiento de ésta es de gran utilidad, puesto que sirve para tomar decisiones en condiciones de incertidumbre.

Población. Conjunto de todos los posibles individuos, objetos o medidas de interés. Generalmente se toma una
muestra de una población para inferir algo acerca de la misma.

Muestra. Una porción, o parte, de la población de interés.

Auto–examen 1. La compañía Market Facts con base en Chicago pidió a una muestra de 1960 consumidores que
probaran un platillo de pescado congelado producido por la empresa Morton Foods, y denominado “Fish Delight”.
De los 1960 consumidores consultados, 1176 dijeron que comprarían el platillo si se pusiera a la venta.
a) ¿Qué informaría Market Facts a Morton Foods respecto a la aceptación de “Fish Delight”?
b) ¿Se trata de un ejemplo de estadística Descriptiva o Inferencial? Justifique su respuesta.

Tipos de variables. Existen dos tipos básicos de datos: los obtenidos a partir de una población cualitativa y los
resultantes de una población cuantitativa.

Variable cualitativa
Tipos de variables Variable discreta
Variable cuantitativa
Variable continua

Variable cualitativa. Es no numérica; por ejemplo, religión, tipo de automóvil, color de ojos, etcétera. Y generalmente
interesa saber qué proporción entra en cada categoría.

Variable cuantitativa. Se puede expresar numéricamente; por ejemplo, el saldo en una cuenta de cheques, edad
de los alumnos de una escuela superior, número de hijos en una familia, etcétera.

Variables discretas. Pueden asumir ciertos valores; se pueden contar. Por ejemplo, la cantidad de autos que pasan
en la caseta México–Pachuca, en una hora; número de oficinas en una institución pública.

Variables continuas. Pueden tomar cualquier valor dentro de un intervalo determinado. Algunos ejemplos son: la
cantidad de cereal en una caja, la cantidad de números entre el 1 y el 2.

Niveles de medición. Los datos pueden clasificarse de acuerdo con los niveles de medición, los cuales son cuatro.

Nivel nominal
Niveles de Nivel ordinal
Medición Nivel de intervalo
Nivel de razón

Nivel nominal. Las observaciones solamente se pueden clasificar o contar; no existe algún orden específico entre
las clases.

Compañía Número de llamadas Porcentaje


Telmex 108 115 800 75
AT&T 28 816 050 20
Nextel 7 130 620 5
Total 144 062 470 100
Tabla 1. Uso de telefonía de L. D. según el proveedor del servicio

La forma en que se presentan las compañías puede ser diferente. Las categorías son mutuamente excluyentes y
exhaustivas.

 Mutuamente excluyente. Propiedad de un conjunto de categorías, implica que una persona, objeto o
medición se ha de incluir en sólo una categoría.
 Exhaustivo. Propiedad de un conjunto de categorías que implica que cada individuo, objeto o medición
debe aparecer en sólo una categoría.

Nivel ordinal. Esta escala supone que cada categoría tiene mayor jerarquía que la siguiente. Dichas categorías se
clasifican por intervalos, o se ordenan de acuerdo con las características particulares que poseen.

Calificación Frecuencia
Excelente 6
Bueno 18
Regular 14
Malo 9
Muy malo 3
Tabla 2. Calificación de un profesor de licenciatura

Nivel de intervalo. Posee las características de jerarquía del nivel de medición ordinal, pero además tiene la
característica de que la distancia entre los valores es constante. Algunos de los pocos ejemplos son la temperatura
y la talla de zapatos.

Nivel de razón. Es el nivel de medición “más alto”. Tiene las características del nivel de intervalo, pero además el
punto 0 (cero) sí tiene significado (representa la ausencia de la característica), y la razón (cociente) entre dos
números también es significativa. Algunos ejemplos son peso, dinero.

Familia Ingreso del padre Ingreso del hijo


Jiménez 80 000 40 000
Blanco 90 000 30 000
Ruiz 60 000 120 000
Sánchez 75 000 150 000
Tabla 3. Combinación de ingresos de padres e hijos (miles de pesos anuales)

Auto–examen 2. ¿Cuál es el nivel de medición que reflejan los siguientes datos?


a) Las edades de los adultos que escuchan las estaciones de radio con canciones “de antaño” en México
son:

35 29 41 34 44 46 42 42 37 47

30 36 41 39 44 39 43 43 44 40

47 37 41 27 33 33 39 38 43 22

44 39 35 35 41 42 37 42 38 43

b) En una encuesta a 100 propietarios de automóviles de lujo, 50 eran de “Valle de San Javier”, 25 eran de
“Real de minas”, 15 de “Doctores” y 10 de “Centro”.

Ejercicios.
1. ¿Cuál es el nivel de medición para cada una de las siguientes variables?
a) Promedio de calificación de los estudiantes.
b) La distancia recorrida por los alumnos para llegar a clases.
c) Clasificación de alumnos según el lugar de nacimiento.
d) Clasificación de alumnos según el semestre escolar cursado.

2. Para cada uno de los siguientes puntos, determine si se trata de una muestra o población.
a) Participantes en el estudio de un nuevo medicamento para la diabetes.
b) Todos los conductores que se hicieron acreedores a una multa por exceso de velocidad, en CDMX, el mes
pasado.
c) Todas las personas que reciben ayuda del gobierno mediante el programa “Oportunidades”, en Pachuca.
d) Las 30 acciones reportadas como parte del Promedio Industrial Dow Jones.
La palabra Estadística tiene varias acepciones. En la actualidad, la Estadística y el análisis estadístico están
presentes en casi todas las profesiones; en especial, para los gerentes, es una herramienta de suma utilidad.
Estadística proviene del italiano statista. La palabra la acuñó Gottfried Achenwall y Gottingen.
El Dr. Zimmerman introdujo el término en Inglaterra y su uso lo divulgó Sir Jhon Sinclair, en 1771. Aunque ya mucho
antes se acostumbraba a registrar datos.

El primer método utilizado para describir un conjunto de datos es la distribución de frecuencias.


Distribución de Frecuencias. Agrupamiento de datos en categorías mutuamente excluyentes, que indican el
número de observaciones en cada categoría.
Obviamente, lo primero es considerar los datos recopilados.

Toma de datos. Es la obtención de una colección de los mismos, que no han sido ordenados numéricamente.

Ordenación. Colocación de los datos en orden creciente o decreciente de magnitud.

Intervalo de clase. Un símbolo tal como “40–45” es un intervalo de clase.

Límites de clase. Son los números extremos de los intervalos de clase; el izquierdo es el límite inferior y el derecho
es el superior. Al sumar el límite superior de un intervalo con el límite inferior del intervalo de clase contiguo, y se
divide por dos, se obtienen los límites reales de clase.

Tamaño de clase. Es la diferencia entre límites reales de clase. También se llama amplitud.

Marca de clase. Es el punto medio del intervalo. Se obtiene sumando los límites inferior y superior de cada clase y
dividiendo por dos.

Histograma. Representación gráfica de la distribución de frecuencias. Es una serie de rectángulos que tienen sus
bases en el eje horizontal y el centro en las marcas de clase, así como superficies proporcionales a las frecuencias.
Se observa en la figura 1.

Polígono de frecuencias. Gráfico de línea trazado sobre las marcas de clase (figura 1).

Ojiva mayor que. Gráfico que muestra frecuencias acumuladas mayores que cualquier límite real superior.

Ojiva menor que. Gráfico que muestra frecuencias acumuladas menores que cualquier límite real superior.
La configuración de las ojivas se observa en la figura 2.

Figura 1 Histograma y Polígono de frecuencias Figura 2 Configuración de Ojivas

MEDIDAS DE POSICIÓN Y DISPERSIÓN ABSOLUTA.

Medidas de Tendencia Central.


Un promedio es un valor representativo de un conjunto de datos. Se conocen también como medidas de
centralización porque tienden a situarse en el centro del conjunto de datos ordenados según su magnitud.

Las medidas más comunes son la media aritmética, media geométrica, media aritmética ponderada, mediana y
moda.

La fórmula para obtener la media poblacional de datos no agrupados es:

La fórmula para la media muestral es:

La fórmula para calcular la media en datos agrupados en una distribución de frecuencias es:

La mediana de datos agrupados se obtiene con la fórmula:

Donde L = límite real inferior de la clase que contiene a la mediana


n = total de datos
FA = Frecuencia acumulada antes de la clase que contiene a la mediana
f = frecuencia de la mediana
i = tamaño de intervalo

La moda es el valor que se presenta con mayor frecuencia. No se requiere de fórmula para su cálculo.

Medidas de dispersión absoluta.

La dispersión es la variación en un conjunto de datos.

La amplitud de variación (rango) es la diferencia entre el valor más grande y el más pequeño de un conjunto de
datos.

La fórmula para evaluar tal intervalo es: Rango = (valor mayor – valor menor)

La varianza es el valor medio de las observaciones con respecto a la media aritmética.

La desviación estándar es la raíz cuadrada de la varianza.

La fórmula para calcularla es:

Auto–examen 2. Los tiempos de uso de una muestra de brocas de ¼“ para alquiler, disponibles en The Home Depot,
se organizaron en la siguiente distribución de frecuencias. Calcule:
a) La amplitud de variación, e) Coeficiente de asimetría
b) Evalúe la desviación estándar muestral, f) Histograma y Polígono de frecuencias
c) Determine la varianza de la muestra. g) Ojivas mayor y menor que
d) Media, mediana, moda
Tiempo (meses) Frecuencia

2–3 2

4–5 5

6–7 10

8–9 4

10 – 11 2
Las medidas de posición también describen la dispersión en un conjunto de datos.

Un cuartil divide un conjunto de datos en 4 partes iguales.

 Se tiene que 25% de las observaciones son menores que el primer cuartil, 50% son menores que el segundo
cuartil (la mediana), y 75% son menores que el tercer cuartil.
 La amplitud intercuartílica es la diferencia entre el tercer y primer cuartil.

Los deciles dividen un conjunto de datos en 10 partes iguales.

Los centiles dividen un conjunto de datos en 100 partes iguales.

Un diagrama de caja es una representación gráfica rectangular de un conjunto de datos. La caja es un rectángulo
que se obtiene con la unión del primer y tercer cuartil.

 Una línea transversal en la caja indica la mediana.


 Las salientes o segmentos punteados paralelos a la base que van, uno del tercer cuartil al valor más grande,
y del primer cuartil al valor más pequeño, indican el intervalo entre el 25% más grande de las observaciones,
y el 25% más pequeño.
Un diagrama de caja se basa en 5 valores estadísticos: la observación más grande y la más pequeña, el primero y
el tercer cuartil, y la mediana.

Ejemplo. El restaurante Alexander’s Pizza ofrece el servicio de entrega a domicilio sin cargo extra en un radio de 25
kilómetros. Alex, el propietario, desea obtener información acerca del tiempo de entrega. ¿Cuánto tiempo toma una
entrega típica? ¿Dentro de qué intervalos de tiempo se efectúa la mayor parte de las entregas? Para una muestra
de 20 de ellas se determinó la siguiente información:

Valor mínimo = 13 minutos Q1 = 15 minutos Mediana = 18 minutos

Q3 = 22 minutos Valor máximo = 30 minutos

Desarrolle un diagrama de caja para los tiempos de entrega. ¿A qué conclusiones se puede llegar acerca de los
tiempos en cuestión?

Sol.

Paso 1. Establecer una escala adecuada en el eje horizontal.

Paso 2. Se dibuja el rectángulo que parte de Q 1 (15 min.) y termina en Q3 (22 min.).

Paso 3. Dentro de la caja se dibuja la vertical que representa la mediana (18 min.).

Paso 4. Se trazan dos líneas horizontales, una desde la caja hasta el valor mínimo (13 min.) y otra hasta el valor
máximo (30 min.). Estas líneas se llaman salientes de la caja.

El diagrama muestra que el 50% central de las entregas toma entre 15 y 22 minutos. La distancia entre los extremos
de la caja (7 minutos) se denomina amplitud cuartílica (intercuartílica). Dicho intervalo es la distancia entre el primer
y tercer cuartil.
Auto–examen 3. Se presenta el siguiente diagrama de caja. ¿Cuáles son la mediana, los valores más grande y más
pequeño, y el primer y tercer cuartil? ¿La distribución es simétrica?

Ejercicio.

Del siguiente diagrama de caja:

a) Determine la mediana.
b) Obtenga primer y tercer cuartil.
c) Determine amplitud intercuartílica.
d) ¿Después de qué punto se considera un valor extremo?
e) Identifique los datos extremos y calcule su valor.

MEDIDAS EN FORMA.

Otra característica de un conjunto de datos es su forma. Son cuatro las formas más comunes: simétrica,
positivamente asimétrica, negativamente asimétrica y bimodal.

En un conjunto simétrico de observaciones, la media y mediana son iguales y los datos se encuentran distribuidos
uniformemente alrededor de estos valores. Los valores menores que la media y la mediana son una imagen en el
espejo de los que son mayores.

Un conjunto de valores es sesgado (asimétrico) hacia la derecha, o positivamente asimétrico si hay un solo pico
y los valores se encuentran extendidos más hacia la derecha del pico que hacia la izquierda. En este caso la media
es mayor que la mediana.

En una distribución sesgada hacia la izquierda o negativamente asimétrica hay un solo pico, pero las
observaciones están más extendidas a la izquierda, en la dirección negativa, que hacia la derecha. La media es
menor que la mediana.

Las distribuciones positivamente asimétricas son más comunes; un ejemplo son los salarios: los ejecutivos tienen
sueldos más altos que el resto de la compañía.

Una distribución bimodal puede tener dos picos. En este caso, los valores provienen de dos o más poblaciones.

La fórmula más simple para calcular la asimetría se llama Coeficiente de Pearson:

El coeficiente puede variar de –3 a 3. Un valor cercano a –3 (–2. 57) indica una considerable asimetría negativa. Un
valor como 1.63 indica una asimetría moderada. El valor cero que se presenta cuando la media y mediana son
iguales, señala que la distribución es simétrica.

Ejemplo. En la tabla se muestra la ganancia por acción, en el año 2017, de una muestra de 15 empresas productoras
de software. Las ganancias se ordenaron de menor a mayor y se dan en dólares. Calcule la media y la desviación
estándar. Encuentre el coeficiente de asimetría y diga ¿qué se concluye respecto a la forma de la distribución?

0.09 0.13 0.41 0.51 1.12 1.20 1.49 3.18 3.50 6.36 7.83 8.92

10.13 12.99 16.40


Sol.

Media: Mediana: 3.18

Desviación estándar:

Coeficiente de asimetría:

Esto indica que en las ganancias por acción hay una moderada asimetría positiva.

Ejemplo. A continuación se indican las comisiones, en miles de dólares, obtenidas el año pasado por los
representantes de ventas de una empresa mueblera. Determine el coeficiente de asimetría.

3.9 5.7 7.3 10.6 13.0 13.6 15.1 15.8 17.1 17.4 17.6

22.3 38.6 43.2 87.7

También podría gustarte