Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTADÍSTICA
PARA LA TOMA DE DECISIONES
©
© FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Índice
•• Introducción
©
4.3.1.1. Comparación entre la media y la mediana ............................... 51
4.3.2. Los cuantiles y los extremos ................................................................. 52
•• Bibliografía ©
IN T RO D U CC I ÓN
La calidad en los productos y servicios emplea la estadística para mejorar y optimizar los
procesos de producción y, de esta manera, ahorrar tiempo y dinero.
A continuación se detallan los objetivos y el contenido de cada uno de los capítulos que
componen este manual:
RESUMEN
CAPÍTULO OBJETIVO PARTICULAR APORTACIÓN Y RESULTADO CONSEGUIDO
DEL CAPÍTULO
Conocimiento de la estadística como una
Introducción a la toma de
herramienta diferenciadora para aproximarse a la
decisiones.
solución de las necesidades de empresa.
Proporcionar al gerente una
serie de criterios Etapas en la toma de Establecimiento de las etapas a seguir para la toma
Capítulo 1 decisiones. de decisión ante un determinado problema.
estadísticos para la toma de
decisiones en la empresa. Población y muestra. Distinción entre población y muestra aleatoria.
Conocimiento de los tipos de variables existentes y
Datos y variables.
los datos y categorías a que dan lugar.
©
Capítulo 5
posterior utilización en Conocimiento de la función de probabilidad
situaciones de Distribuciones de variable
binomial en las decisiones bajo incertidumbre que
incertidumbre. discreta (binomial).
implican únicamente dos resultados posibles.
Capítulo 1
CRITERIO ESTADÍSTICO
P A RA L A T O M A
DE DECISIONES
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
1.1. INTRODUCCIÓN
responder a nuestras indagaciones. Para que los resultados sean fiables, tanto la
recogida de datos como su análisis deben ser realizados con criterio y de forma
objetiva.
©
La Estadística para la toma de decisiones puede dividirse en:
1. Esta condición es fundamental para asegurarse que una muestra es representativa con respecto a la población.
Debido a la práctica imposibilidad de estudiar todos los individuos que componen una
población por su coste en tiempo y dinero, en la práctica, se recurre a utilizar una
muestra aleatoria, que no es más que un subconjunto de la población, y que nos servirá
para hacer inferencias sobre la misma.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
donde:
n= tamaño de la muestra.
La elección del tamaño de la muestra es un paso muy importante que se verá con
Un problema típico que se plantea a la hora de tomar decisiones sucede cuando se debe
hacer inferencias sobre una población determinada y se encuentra que el coste en
tiempo y dinero supera todas las previsiones.
©
Tal y como se ha mencionado con anterioridad, el procedimiento consisitiría en escoger
una muestra y adoptar una solución de compromiso, puesto que los resultados
obtenidos serían únicamente una estimación del valor real que deseamos encontrar. Eso
sí, nos habríamos ahorrado gran cantidad de recursos.
Esta etapa debe responder a preguntas clave tales como: ¿cuál es el objetivo del estudio
o de las preguntas a responder? ¿A qué población va dirigida el proceso de toma de
decisiones?
La elaboración de los objetivos específicos debe realizarse de tal manera que indiquen
- tiempo de servicio;
- grado de instrucción;
©
1.3.2. PLANIFICACIÓN DE LA INVESTIGACIÓN
Los datos deben ser recogidos según un plan que garantice que la información es válida.
El plan debe identificar las variables importantes relacionadas con el problema, y
especificar cómo éstas van a ser medidas (modelo estadístico).
1.3.5. RESULTADOS
Los resultados se deben representar de una forma clara y objetiva, sin caer en
©
1.3.6. CONCLUSIONES
Sin embargo, estas preguntas no están identificando de forma correcta las variables que
nos interesan, pues los funcionarios podrían interpretarlas de diferentes maneras; por
ejemplo, para la primera pregunta pueden surgir respuestas tales como: hace poco más
de 12 años, hace mucho tiempo, entre otras. Es decir, las variables no están siendo
observadas de una forma homogénea.
©
En consecuencia, para que las observaciones sobre el tiempo de servicio se realicen de
una manera homogénea, es preciso establecer una unidad de medida, por ejemplo, años
completos de trabajo en una empresa:
______años completos.
En referencia a la variable “estado civil”, las posibles respuestas son atributos. Con el
fin de evitar alguna respuesta anómala, se pueden establecer previamente las posibles
alternativas de respuesta. De esta manera, la pregunta se reescribiría:
Las variables cualitativas reflejan una cualidad del individuo, mientras que las
cuantitativas corresponden a características que reflejan cantidades.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Las variables cualitativas también pueden utilizar números, aunque no por ello tienen
que reflejar cantidades. Por ejemplo, el número de teléfono, el número de la calle donde
se vive o el DNI, son variables cualitativas que, por comodidad, emplean números en
vez de nombres para definir los diferentes valores.
Siempre que una variable pueda ser medida correctamente de forma cuantitativa, se
debe usar este tipo de medida, porque las cuantitativas son, en general, más
informativas que las cualitativas. Por ejemplo, decir que un funcionario hace 30 años
que trabaja en la empresa proporciona mucha más información que decir que hace
mucho tiempo que trabaja en la empresa.
Resumen
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Capítulo 2
VAR I A B L E S C U A L I T A T I VA S
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
2.1. INTRODUCCIÓN
1 = ninguno.
2 = nivel básico.
3 = nivel medio.
DATOS
Con el fin de construir una distribución de frecuencias con datos relativos a una variable
cualitativa, basta con contar la cantidad de resultados observados en cada categoría
(tabla 2.1).
©
NIVEL DE FRECUENCIA
PORCENTAJE
ESTUDIOS ABSOLUTA
Ninguno 6 15
Total 40 100
Tabla 2.1. Distribución de frecuencias del nivel de estudios de los patriarcas de una muestra de 40
familias del conjunto residencial Monte Verde, Florianópolis - SC, 1988.
LOCALIDAD
NIVEL DE ESTUDIOS ENCOSTO DO
MONTE VERDE PQ. DA FIGUEIRA
MORRO
a. Los números entre paréntesis corresponden a los porcentajes en relación al total de familias observadas en cada
localidad.
Tabla 2.2. Distribución de frecuencias referida al nivel de estudios de los patriarcas de una muestra de
120 familias de tres localidades diferentes del barrio de Saco Grande II, Florianópolis - SC,
Brasil, 1988.
©
En la tabla 2.2 se puede observar que los patriarcas de las familias investigadas en el
Conjunto Residencial Monte Verde presentan los mejores resultados; por otro lado, en
Encosta do Morro se dan los peores resultados con casi un 50% de patriarcas con
ningún nivel de estudios.
El lector debe observar que al organizar y resumir los datos de una distribución de
frecuencias, normalmente no se proporciona la información de cuántos elementos
pertenecen a cada categoría, ya que para entender el comportamiento general de una
variable esa información no suele ser relevante.
Las representaciones gráficas ofrecen, en general, una mejor visualización de las pautas
de comportamiento de los datos que las tablas: por ello, constituyen una forma
alternativa de presentación de las distribuciones de frecuencias.
A continuación se presentarán los gráficos de barra y de sectores, que son los más
importantes a la hora de representar las distribuciones de frecuencias de los datos
categorizados.
Figura 2.1: Distribución de frecuencias del nivel de estudios de los padres de familia de una muestra de 40
familias del conjunto residencial Monte Verde, Florianópolis - SC, 1988.
Con el fin de calcular el ángulo que abarca cada sector, basta con plantear una regla de
tres entre el ángulo (en grados) desconocido, la frecuencia total y la frecuencia
observada para cada categoría, barriendo un ángulo de 360º, según:
α1 6
=
360 ° 40
donde:
6
α1 = (360 ) = 54 °
40
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Figura 2.2: Distribución de frecuencias del nivel de estudios de los padres de familia de una muestra de 40
familias del conjunto residencial Monte Verde, Florianópolis - SC, 1988.
1. Ninguno
2. Nivel Básico
3. Nivel medio
0. Sí
1. No
©
SÍ 31 22 25 78
NO 7 16 19 42
Total 38 38 44 120
Tabla 2.3. Distribución conjunta de frecuencias de nivel de estudios del patriarca y uso de programas de
alimentación popular.
En la tabla 2.3 se puede observar que los totales por columnas proporcionan la
distribución de frecuencias de la variable nivel de estudios del patriarca, mientras que el
el total por filas constituye la distribución de frecuencias de la variable programas de
alimentación popular.
Para facilitar el análisis de una tabla de contingencia, se pueden incluir las frecuencias
En la tabla 2.4 se incluyen los porcentajes en relación con los totales de las columnas.
Esta tabla evidencia los perfiles de uso de los programas de alimentación popular,
considerando las familias separadas por nivel de estudios del patriarca (perfiles por
columnas).
©
USO DE NIVEL DE ESTUDIOS DEL PATRIARCA
TOTAL
PROGRAMAS NINGUNO BÁSICO MEDIO
a. Los números entre paréntesis son los porcentajes en relación con los totales de las columnas.
Tabla 2.4. Distribución del uso de programas de alimentación popular, según el nivel de estudios del
patriarca.
Se puede observar que a un nivel de estudios más bajo, la gran mayoría de las familias
investigadas usan los programas (81,6%), mientras que a un nivel de instrucción más
alto, poco más de la mitad emplean dichos programas (56,8%).
La tabla 2.5 muestra los porcentajes en relación con los totales de las filas. Esta tabla
evidencia los perfiles del nivel de estudio del patriarca (perfiles por fila), considerando la
muestra dividida en familias que usan y familias que no usan los programas. Se deja la
interpretación de la tabla para el lector.
a. Los números entre paréntesis son los porcentajes en relación con los totales de las columnas.
Tabla 2.5. Distribución del nivel de estudios del patriarca, según el uso de programas de alimentación
popular.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Resumen
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Capítulo 3
VAR I AB L E S
C U A N T I T A T I VA S
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
3.1. INTRODUCCIÓN
Cuando se estudia una variable que es posible medir de forma numérica, se tiene mucho
ganado en referencia a las técnicas de análisis exploratorio de datos. Este capítulo trata
de la construcción de distribuciones de frecuencia de variables cuantitativas y sus
©
interpretaciones.
Una variable cuantitativa se denomina discreta cuando sus posibles valores pueden ser
listados. Por ejemplo, el número de hijos de una pareja o el número de habitaciones de
una casa, son ejemplos de variables discretas porque pueden asumir valores {0,1,2,...}
en referencia al primer caso o {1,2,3,...} por lo que respecta al segundo caso. Las
variables discretas generalmente resultan de un conteo.
Una variable cuantitativa se denomina continua cuando puede tomar cualquier valor en
un intervalo. Por ejemplo, el peso de un individuo es una variable continua, pues puede
asumir cualquier valor en un intervalo, digamos, de 0 a 300 kg. La variables continuas
acostumbran a ser generadas por un instrumento de medida.
DATOS
4 4 4 5 4 1 2 3 6 4 6 4 4 6 3 5 3 4 4 4
5 5 5 4 8 4 5 3 4 5 5 2 5 2 6 8 3 5 5 3
1 1 2,5
2 3 7,5
3 6 15,0
4 13 32,5
©
5 11 27,5
6 4 10,0
7 0 0,0
8 2 5,0
Tabla 3.1. Distribución de frecuencias del número de personas residentes para una muestra de 40
residencias del Conjunto Residencial Monte Verde, Florianópolis - SC, 1988.
1. Cuando una variable discreta presenta un gran número de diferentes valores observados, se pueden emplear artificios
propios para variables continuas, tal y como se verá más adelante.
El eje vertical (frecuencias) siempre debe partir de cero, mientras que el horizontal
(valores de la variable) puede iniciarse con el valor mínimo que ésta pueda tomar.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
En este caso carece de sentido contar las veces que se repite cada valor, ya que
considerando que difícilmente los valores se repiten, no se llegaría a unas conclusiones
apropiadas.
Es posible colocar dos o más distribuciones en un mismo gráfico, basta con identificar
los puntos con símbolos diferentes y ubicarlos a otro nivel, tal y como se indica en la
figura 3.3.
Los municipios de la muestra de la región del sur presentan, en general, unos valores de ©
IDH mayores que los municipios de la muestra de la región del norte. También se
observa que ambas muestras de municipios se diferencian en cuanto a la dispersión de
los datos. En este sentido, en la región del sur los municipios presentan valores de IDH
relativamente próximos (mayor homogeneidad), mientras que en la muestra de la región
del norte, los valores varían bastante de municipio a municipio (mayor heterogeneidad).
2. Datos extraídos del Atlas do Desenvolvimiento Humano (http://www.pnud.org.br/atlas). El IDH, calculado para cada
municipio, fue construido en base al censo demográfico de 2000. Observe que en este ejemplo los elementos de las
muestras son municipios.
Sin embargo, lo más usual es que trabajemos con un conjunto de un centenar o millares
de datos observados, haciendo impracticable la utilización del diagrama de puntos. En
este caso, podremos construir distribuciones de frecuencias, agrupando los resultados
en clases preestablecidas.
Las clases son pequeños intervalos mutuamente exclusivos que, agrupados todos
juntos, abarcan todo el conjunto de datos. En otras palabras, las clases deben ser
construidas de tal manera que todo valor observado pertenezca a una y solamente una
clase. Por simplicidad, y para facilitar la interpretación, se considerarán todas las clases
con una misma amplitud.
DATOS
57,25 76,85 92,90 89,07 75,49 84,33 65,28 94,59 71,20 82,30
72,81 66,01 90,52 87,94 58,88 86,34 45,37 81,15 94,83 81,42
54,70 67,95 69,91 95,03 77,62 57,14 91,22 64,65 85,70 81,34
59,07 68,04 73,22 95,34 88,40 83,52 64,19 64,17 95,34 84,66
Se puede observar que todos los valores se encuentran en un intervalo de 40 a 100 (el
menor valor es de 45,37 y el mayor es de 95,34). Se tienen que definir un conjunto de
clases mutuamente exclusivas, tales que, todas agrupadas, contengan todos los
©
valores. Una posible opción sería construir 6 (seis) clases con una amplitud aproximada
de 10, tal y como se muestra a continuación:
donde el símbolo “|⎯” representa el intervalo entre dos variables, incluyendo el valor del
lado izquierdo y excluyendo el valor del lado derecho.
40 |⎯ 50 | 1
50 |⎯ 60 ||||| 5
60 |⎯ 70 ||||| ||| 8
70 |⎯ 80 ||||| | 6
80 |⎯ 90 ||||| ||||| || 12
40 |⎯ 50 45 1 2,5
50 |⎯ 60 55 5 12,5
60 |⎯ 70 65 8 20,0
©
70 |⎯ 80 75 6 15,0
80 |⎯ 90 85 12 30,0
90 |⎯ 100 95 8 20,0
TOTAL - 40 100,0
Tabla 3.2. Distribución de frecuencias de las tasas de alfabetización de una muestra aleatoria de 40
municipios brasileños.
Siguiendo con nuestro ejemplo, n=40, resultando así un valor de 6,32. Esto sugiere
emplear seis o siete clases. Nos quedamos con seis clases. Dado que los datos
extremos son 45,37 (menor) y 95,34 (mayor), se tiene una amplitud total de 95,34-
45 ,37 ≈ 50 . Asimismo, si las clases se inician por el valor menor, cada clase debe tener
una amplitud de: 50/6=8,33. Para facilitar la lectura de la tabla de frecuencias, se
optará por iniciar en 40 y usar intervalos de clase iguales a 10.
Figura 3.4: Intervalo donde se encuentran las tasas de alfabetización de la muestra de 40 municipios
©
brasileños.
3.3.3. HISTOGRAMA
4. Cuando se tienen valores discrepantes dentro de un conjunto de datos, se recomienda que el número de clases sea
mayor.
Figura 3.5: Distribución de frecuencia de las tasas de alfabetización de una muestra de municipios
brasileños, año 2000.
©
análisis estadístico significativo.
5. Cuando las clases no tienen la misma amplitud, resulta necesario realizar algunos ajustes. Véase, por ejemplo, Bussab
e Morettin (2002, p.27). El histograma también podría ser realizado en base a porcentajes en el eje vertical, aunque
su forma no cambiaría.
Figura 3.6: Distribución de frecuencia de las tasas de alfabetización de una muestra de municipios
brasileños, año 2000.
Figura 3.7: Distribución de frecuencias de las rentas familiares de Monte Verde (muestra de 40 familias) y
Encosta do Morro (muestra de 37 familias), Barrio Saco Grande II, Florianópolis -SC, 1988.
El lector debe observar que un gráfico como el de la figura 3.7 permite explorar posibles
relaciones entre una variable cuantitativa (renta) y una variable cualitativa (localidad). Al
comparar histogramas o polígonos de frecuencias, se debe observar su posición
respecto el eje horizontal, su dispersión y su asimetría.
El gráfico de la figura 3.9 ilustra la variación media del caudal de un río a lo largo diez
años consecutivos.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Figura 3.9: Variación media del caudal de un río a lo largo del tiempo.
Resumen
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Capítulo 4
ESTADÍSTICA
D E S C R I P T I VA
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
4.1. INTRODUCCIÓN
En este capítulo se empleará otra estrategia que puede ser usada de forma alternativa
para complementar, describir y explorar datos cuantitativos.
De esta manera, se tienen las medidas de posición, que son parámetros que indican
dónde se sitúa o posiciona una serie, hacia dónde tiende y alrededor de qué valor se
sitúan los datos observados; y las medidas de dispersión, que indican cómo se sitúan
los valores, es decir, si se agrupan alrededor de las medidas centrales o, por el
contrario, se encuentran dispersos, alejados de su centro.
Entre las medidas de posición, las más importantes son las de tendencia central, y entre
éstas, la media, la mediana y la moda. Entre las medidas de dispersión se encuentra la
varianza y la desviación tipo.
Por ejemplo, para conocer el peso de los recién nacidos de una comunidad, se puede
calcular la media o mediana de los pesos de dichas criaturas al nacer y, para tener una
idea de la magnitud de variación del peso de los neonatos, podemos calcular la
desviación tipo.
Por ejemplo, dada la nota final de ocho alumnos (4,5,5,6,6,7,7 y 8), se puede calcular
la media por:
4 +5+5+6+6+7 +7 +8
=6
8
©
puede definir la media por:
Σx
X =
n
donde:
En la tabla 4.1 se muestran las notas finales de los alumnos pertenecientes a tres aulas
dentro del mismo curso escolar.
MEDIA POR
AULA NOTAS DE LOS ALUMNOS
AULA
A 4 5 5 6 6 7 7 8 6,00
B 1 2 4 6 6 9 10 10 6,00
C 0 6 7 7 7 7,5 7,5 6,00
Figura 4.1: Representación de la distribución de las notas en las tres aulas y señalización de las medias
respectivas.
En la figura 4.1 se ilustra que en cada uno de los diagramas de puntos, la media
aritmética se presenta, de alguna forma, en la posición central de los valores
observados. Más propiamente, se puede decir que la media señala el centro de un
conjunto de valores. Haciendo una similitud con el concepto físico de punto de
equilibrio, la media sería la posición que equilibraría los pesos repartidos sobre una
tabla.
En esta figura también se observa que los tres conjuntos de valores, a pesar de estar
distribuidos de diferentes maneras, tienen la misma media aritmética. Este hecho indica
que este estadístico resume un conjunto de datos alrededor de una posición central,
pero no aporta ninguna otra información sobre otros aspectos de la distribución.
Si comparamos las notas del aula A con la notas del aula B, se verifica que en esta
última existe una mayor dispersión de los datos, lo que indica que el aula B es más
heterogénea en cuanto a las notas obtenidas. Por otro lado, en el conjunto de notas del
aula C se observa una nota extremadamente baja, un punto discrepante o anomalía, que
acarrea que la media de este grupo baje sensiblemente1.
Con el fin de explicar mejor el conjunto de datos, aparte de la media aritmética, se debe
acompañar una medida de la dispersión de los datos, y que se conoce como varianza, o
bien, desviación tipo.
Tanto la varianza como la desviación tipo son medidas que proporcionan información
complementaria a la aportada por la media aritmética. En concreto, explican la
dispersión de los datos, es decir, cuánto se dispersa un conjunto de valores con
respecto a la media μ. Estamos midiendo variabilidad.
©
En el siguiente cuadro se describen las etapas a seguir para el cálculo de la varianza.
Media X 6
Desvíos cuadráticos (X − X ) 2 4 1 1 0 0 1 1 4
1. En este caso, la media no es una estimación fiable del conjunto de datos. En un próximo apartado se verá el
tratamiento más adecuado para variables que contengan anomalías o valores discrepantes.
Σ(X - X)2
S2 =
n −1
donde:
4 +1+1+ 0 + 0 +1+1+ 4
S2 = = 1,71
8 −1
Σ (X - X )2
S=
n −1
Siguiendo con el ejemplo, la desviación tipo del conjunto de notas del aula A sería:
S= 1,71 = 1,31
2. Las desviaciones se elevan al cuadrado porque, de lo contrario, siempre se obtendría un valor nulo a resultas de la
suma.
3. Muchos autores acostumbran a diferenciar en la fórmula de la varianza cuando los datos se refieren a una población
o a una muestra. Desde este enfoque, cuando los datos representan una población de N elementos, el denominador
es N. Si los datos se refieren a una muestra de n elementos, se recomienda usar como denominador n-1. Nosotros
utilizaremos por simplicidad este segundo caso.
La tabla 4.2 muestra la desviación tipo de las notas de cada una de las tres aulas.
NÚMERO DE DESVIACIÓN
AULA MEDIA
ALUMNOS TIPO
A 8 6,00 1,31
B 8 6,00 3,51
C 7 6,00 2,69
Tabla 4.2. Media y desviación tipo respectiva de las notas finales de los alumnos por aulas.
donde:
Ilustraremos el empleo de esta nueva fórmula con el ejemplo de las notas obtenidas por
los alumnos del aula A:.
donde:
Tal y como era de esperar, se llega al mismo resultado obtenido con anterioridad.
∑(X) = 4 + 5 + 5 + 6 + 6+ 7 + 7 + 8,
que es equivalente a
4(1) + 5(2) + 6(2) + 7(2) + 8(1) = ∑(Xƒ)
X=
∑Xƒ e S=
∑(X ƒ) − nX
2
n n −1
NOTA FRECUENCIA
X·f X2·f
(X) (f)
4 1 4 16
5 2 10 50
6 2 12 72
7 2 14 98
8 1 8 64
Total 8 48 300
donde:
48 300 - 8(6)2
X= =6 e S= = 1,31
8 7
4.2.4. MODA
La moda (Mo) es el valor que ocurre con mayor frecuencia dentro de un sistema de
observaciones. Es una medida de tendencia central adecuada a escalas nominales,
aunque también se calcula para escalas numéricas.
©
Una distribución puede tener más de una moda, en ese caso se dice que los datos son
bimodales, trimodales, etc.
Una población homogénea es una población estadística que tiene una única moda. Con
el fin de determinar si una población dada es o no homogénea, debe construirse el
histograma de una muestra escogida al azar de la población. En el caso de que haya
más de una moda, se tiene una mezcla de diferentes poblaciones.
La media y la desviación tipo son los estadísticos más empleados para evaluar la
posición central y la dispersión de un conjunto de valores. No obstante, estas medidas
están fuertemente influenciadas por las anomalías. Por ejemplo, en las notas del aula C
el valor discrepante 0 (cero) “tira” de la media hacia abajo, tal y como se ilustra en la
figura 4.2.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
DETECCIÓN DE ANOMALÍAS
4. Volver al paso 1.
5. En la mayor parte de los casos, se necesitará iterar con este mismo
algoritmo hasta que todas las anomalías queden eliminadas.
4.3.1. LA MEDIANA
Al igual que la media, la mediana es una medida de tendencia central que se caracteriza
por dividir la distribución por la mitad, dejando el 50% de los valores menores a un lado
y el 50% de los valores mayores al otro lado. Por ejemplo, el conjunto de valores
{2,3,4,5,8} tiene como mediana el valor de 4 (cuatro), pues la cantidad de valores cuya
Sin embargo, no todos los conjuntos de datos tienen un valor central tan nítido como el
expuesto en el ejemplo4. En este sentido, se precisa una definición más detallada de la
mediana.
Se define la mediana de un conjunto de valores como aquel valor que ocupa la posición
n +1
2
, considerando los datos ordenados en orden decreciente. Si el valor n +1 es
2
©
fraccionario, se toma como mediana la media de los dos valores cuya posición sea más
próxima a n 2+1 . La mediana se representa por Md.
4. En el conjunto de datos {3,5,6,7,10,11}, cualquier valor entre 6 y 7 podría ser usado como mediana.
5. Se debe aclarar que para variables que supuestamente tengan distribuciones razonablemente simétricas, la media y
la mediana pueden no ser iguales ya que, en general, estamos considerando solamente algunos valores (muestras)
de estas variables. Para variables con distribuciones razonablemente simétricas, la media es la medida de posición
central más adecuada, por usar el máximo de información contenida en los datos. La media se calcula usando
propiamente la magnitud de los valores, mientras que la mediana utiliza solamente la ordenación de los valores.
©
pueden obtener algunas informaciones relevantes a través de un conjunto de medidas
denominados cuantiles: mediana, cuartiles, deciles, centiles o percentiles.
Los cuantiles nos indican los valores de las variables que ocupan determinados lugares
en el conjunto ordenado.
distribución en cien partes iguales. Los centiles son cuantiles de orden 100.
Existen 99 centiles: C1, C2,..., C99.
Se denomina extremo inferior, E1, al menor valor del conjunto de valores. El extremo
superior, ES, estaría constituido por el mayor valor. Por ejemplo, dado el conjunto de
valores {5,3,6,11,7}, tenemos E1=3 y ES=11.
a) Datos: 2, 0, 5, 7, 9, 1, 3, 4, 6, 8. Ordenando:
6. Dado un conjunto de valores, no siempre se consigue dividirlos exactamente en cuatro partes iguales. El
procedimiento expuesto ofrece una solución aproximada, muy satisfactoria cuando las cantidades de valores son
grandes y con pocas repeticiones.
b) Datos:
En el ejemplo (b), donde la mediana coincide con un valor del conjunto de datos, por
convención se toma este valor, tanto para la obtención de QI como para la de QS.
Resumen
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Capítulo 5
MODELAMIENTO
ESTADÍSTICO
D E L A S VAR I A B L E S
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
5.1. INTRODUCCIÓN
Al analizar los datos medidos por una variable cuantitativa continua, veremos que
©
Las pruebas paramétricas exigen una serie de condiciones a los datos a los que se
aplican:
©
CUANTITATIVAS
Tratamientos
Análisis de la varianza (ANOVA).
estadísticos
Correlación/Regresión.
Características Los datos que toman son el número de individuos que presentan
VARIABLES dicha cualidad (frecuencia de aparición) y, por tanto, números
CUALITATIVAS enteros.
Tabla 5.1. Principales técnicas empleadas en la estadística de negocios para realizar inferencias sobre la
población a partir de una muestra.
factores.
En este sentido, el Teorema Central del Límite dice que si tenemos un grupo numeroso
de variables independientes (>30) y todas ellas siguen el mismo modelo de distribución
(cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal1.
Este teorema se aplica tanto a suma de variables discretas como de variables continuas.
Resulta difícil explicar por qué se produce este fenómeno, pero lo cierto es que la curva
de Distribución Normal (denominada también Gaussiana) juega un papel fundamental en
1. Por ejemplo, si lanzamos una moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre
sí), se distribuye según una distribución normal.
(x- μ )2
1 −
f(x)= ⋅e 2 ⋅ σ2
σ . 2π
donde:
μ= media poblacional.
La función normal queda definida por dos parámetros, su media y su desviación tipo. Se
representa mediante la notación N (μ, σ), donde para cada valor de μ y σ se tendrá una
función de densidad distinta, y en consecuencia, una familia de distribuciones normales.
z
x (x- μ )2
1 −
F(x)= ⋅e 2⋅σ 2
dx
σ ⋅ 2π
-∞ < x < ∞
F(x) = P (X ≤ x)
©
Otra característica importante de la ley normal unitaria o tipificada es que toda el área
comprendida entre ella y el eje horizontal es igual a la unidad.
Xi − μ
Zi =
σ
donde:
Esto será muy útil a la hora de hacer comparaciones. En este caso, la función de
densidad unitaria quedaría:
Z 2i
1 −
f(z ) = ⋅e 2
2p
F (z) = P (Z ≤ z)
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
z z2
z
1 −
F(z) = ⋅e 2
dz
0 2π
Por este motivo, aún a costa de cometer un cierto error, se suelen utilizar tablas que
proporcionan directamente estos valores.
α/2= 0,5 - (valor del área comprendida entre z=0 y zi). Este valor también
recibe el nombre de p-valor.
VEAMOS UN EJEMPLO
©
El peso de unas piezas de plomo para automoción se distribuye normalmente.
Si sabemos que el peso medio es de 3,25 kg y la desviación típica es de 0,82
kg, ¿cuál es la probabilidad de que el peso de las piezas sea superior a 4 kg?
xi − μ 4 − 3,25
Zi = = = 0,9146
σ 0,82
α/2=p(X>4)=p(z>0,9146)=0,5-0,3186=0,18 (p-valor)
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Una vez calculada, se escoge la diferencia mayor y se compara con la que proporciona
la tabla 5.2.
TAMAÑO DE LA TAMAÑO DE LA
MUESTRA VALOR MUESTRA VALOR
N N
1 0,975 14 0,349
2 0,842 13 0,361
3 0,708 14 0,349
4 0,624 15 0,338
5 0,565 16 0,328
6 0,521 17 0,318
8 0,457 19 0,301
9 0,432 20 0,294
10 0,410 25 0,27
11 0,391 30 0,24
Es importante mencionar que, a resultas de esta prueba, nunca se puede afirmar que ©
una distribución sea normal , sino que la diferencia encontrada no ha sido lo
suficientemente grande para decir que no es normal.
PRUEBA DE KOLGOMOROV
posibles:
TAMAÑO DE
POBLACIÓN s CONOCIDA s DESCONOCIDA
MUESTRA
X − μ0
t=
X − μ0 SX
Grande (n ≥ 30) z=
σX o
Con distribución X − μ 0∗∗
normal z=
SX
Tabla 5.3. Tabla resumen de aplicación del valor z y de t en función del tamaño de muestra y del
conocimiento de la varianza poblacional4.
Imaginemos que se toman todas las muestras posibles de tamaño n inferior a 30 de una
determinada población distribuida según una normal. Con los valores calculados de la
media X y la desviación tipo s, el esquema de la prueba consiste en calcular un
estadístico:
X−μ
t=
S$ X
4. Fuente: http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm
donde:
S
S$X =
n −1
X − μ
t = ⋅ n −1
S
Tal y como se ilustra en la figura, existen diferentes distribuciones t, cada una de ellas
asociada a lo que se ha dado en llamar grados de libertad (ν), que se definen como el
número de observaciones menos uno, es decir, ν= n-1.
5. Fuente: http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistInferencial.htm
En referencia al valor crítico de t con ν=3 grados de libertad, se tiene por las tablas6
(t 0,005 ) que es igual a 5,84 en el lado derecho y -5,84 en el lado izquierdo. En
consecuencia, existe una probabilidad de 0,99 de que la variable t se encuentre en el
intervalo [-5,84, 5,84].
Si escogemos el valor crítico de t con ν=29 grados de libertad, se tiene que un 0,5%
del área bajo la curva está a la derecha de 2,76 o a la izquierda de -2,76. Es decir,
existe una probabilidad de 0,99 de que la variable t se encuentre en el intervalo [-2,76,
2,76].
©
la varianza de una muestra con la varianza hipotética de una población gracias a la
distribución chi-cuadrado (χ2).
La distribución chi-cuadrado tiene una forma que depende del número de grados de
libertad como ocurre en el caso de la t-student. En la figura 5.8 se ilustran varias de
estas curvas.
Con el fin de obtener un valor crítico a partir de una tabla7 de χa2 se deberá seleccionar
un nivel de significación y determinar los grados de libertad para el problema bajo
análisis.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Tal y como se verá en los ejemplos, la fórmula general para determinar los grados de
libertad8 en una tabla de contingencia9 es:
ν = (r −1)⋅ (c −1)
donde:
ν= grados de libertad.
©
- Prueba de homogeneidad.
- Prueba de la independencia.
donde:
O= frecuencia observada.
E= frecuencia esperada.
©
Para una variable, los grados de libertad son el resultado de restar el número de
categorías menos uno.
En este contraste se suele rechazar la hipótesis nula (los valores observados son
coherentes con los esperados) cuando el estadístico es mayor que un determinado valor
crítico.
Es importante recalcar que el estadístico de prueba χ2 se podrá aproximar por una chi-
cuadrado cuando el tamaño muestral n sea grande (n>30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones, se deberán agrupar varias
categorías con el fin de cumplir dicho requisito).
EJEMPLO
A: 104/4= 26
B: 104/2= 52
C: 104/4= 26
FRECUENCIA FRECUENCIA
CATEGORÍA (O-e)2/e
ESPERADA (E) OBSERVADA (O)
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
A 26 28 0,1538
B 52 49 0,1731
C 26 27 0,0385
En consecuencia:
Dado que 0,365 < 5,991 se acepta la hipótesis planteada y se concluye que
los datos corresponden a una proporción de 1:2:1.
Se empleará el estadístico:
k 2
χ =Σ
2 (Oi − Ei )
con (r - 1) ⋅ (c - 1) g.l.
i=1 Ei
donde:
O= frecuencia observada.
Es importante recalcar que el estadístico de prueba χ2 se podrá aproximar por una chi-
cuadrado cuando el tamaño muestral n sea grande (n>30), y todas las frecuencias
esperadas sean iguales o mayores a 5 (en ocasiones, se deberán agrupar varias
categorías con el fin de cumplir dicho requisito).
©
EJEMPLO
VÁLVULAS VÁLVULAS
TOTAL
DEFECTUOSAS CORRECTAS
Distribuidor 1 16 94 100
Distribuidor 2 24 76 100
Distribuidor 3 9 81 100
será:
(49/300)*(100/300)= 0,0544
0,054·300= 16,33
VÁLVULAS VÁLVULAS
TOTAL
DEFECTUOSAS CORRECTAS
(16 − 16,33)2 (24 − 16,33)2 (9 − 16,33)2 (94 − 83,66)2 (76 − 83,66)2 (81− 83,66)2
χ2 = + + + + + = 8,96
16,33 16,33 16,33 83,66 83,66 83,66
Siendo el valor del estadístico por tablas: χ2 0,05 (2)= 5,99 ν = (3-1)·(2-1)=2
g.l.
Dado que 8,96 > 5,99 se concluye que no existe homogeneidad y, por tanto,
existen diferencias entre los tres distribuidores.
En este caso se trata de probar si dos variables tienen algún grado de relación o son
completamente independientes. Es decir, estamos interesados en ver la relación
existente entre dos variables de una misma población.
EJEMPLO
©
Tratado 88 12 100
ν = (2-1)·(2-1)=1 g.
A partir de una población, podemos extraer diferentes muestras de tamaño n con sus
respectivas medias. Si cada una de estas medias se considera como una variable
aleatoria, se puede estudiar su distribución a la que se denominará distribución muestral
de medias.
F σ I
N μ,GH n
JK
- Si la población no sigue una distribución normal, pero n>30, se aplica el
denominado Teorema central del límite, por el cual se asume que en estas
condiciones la distribución muestral de medias se aproxima igualmente a una
normal.
EJEMPLO
Las notas de cierto examen se distribuyen según una normal de media 5,8 y
desviación tipo 2,4. Hallar la probabilidad de que la media de una muestra
tomada al azar de 16 estudiantes se encuentre comprendida entre 5 y 7.
x1 − μ 5 − 5,8
z1 = = = − 1,33
σ 0,6
x2 − μ 7 − 5,8
z2 = = =2
σ 0,6
Lo más habitual es que se plantee estimar una proporción o porcentaje. En este caso, la ©
variable aleatoria toma únicamente dos valores diferentes (éxito o fracaso), es decir,
sigue una distribución binomial B (n,p), la cual se aproxima a la normal N(np,(npq)0,5)
cuando la extensión de la población es grande.
F pq I
GH
N p,
n JK
donde:
q=1-p.
EJEMPLO
Al ser n> 30, la distribución muestral sigue una ley normal N(0,03; 0,01).
p ′− μ 0,025 − 0,03
z1 = = = − 0,5
σ 0,01
Una de las situaciones más importantes para el profesional es cuando la decisión bajo
incertidumbre implica solamente dos resultados aleatorios posibles. En efecto,
supongamos que un experimento aleatorio tiene las siguientes características:
- En cada prueba del experimento sólo son posibles dos resultados mutuamente
excluyentes: el suceso A (éxito) y su contrario⎯A (fracaso).
Todo experimento que tenga estas características diremos que sigue el modelo de la
Distribución Binomial. A la variable X que expresa el número de éxitos obtenidos en
cada prueba del experimento, la llamaremos variable aleatoria binomial.
La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1,
2, 3, 4,..., n suponiendo que se han realizado n pruebas10. Como hay que considerar
todas las maneras posibles de obtener k-éxitos y (n-k) fracasos, debemos calcular éstas
por combinaciones (número combinatorio n sobre k).
p(X = k) =
FG nIJ ⋅ p k
⋅ qn-k =
n!
⋅ p k ⋅ qn-k
HkK k!(n - k)!
donde:
©
k= nº de éxitos 0 ≤ k ≤ n
n= nº de pruebas.
p= probabilidad de éxito 0 ≤ p ≤ 1
Existen tablas que proporcionan el cálculo de las probabilidades para algunos valores de
n y p.
10. Si n=1 la función de probabilidad de la distribución binomial se denomina función de distribución de Bernouilli.
EJEMPLO
Una empresa recibe un envío grande de piezas de las cuales se revisan 10 para
saber su calidad. El fabricante establece que un máximo del 5% de las piezas
podrán salir defectuosas. ¿Cuál es la probabilidad de que la muestra incluya
una pieza defectuosa?
Se tiene:
p(X =k)=
FG10IJ ⋅ 0,05 ⋅ 0,95
1 9
= 0,32
H 1K
Es decir, la probabilidad de que la muestra incluya una pieza defectuosa es del
32%.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Dado que las tablas binomiales son limitadas, puede ocurrir que “n” esté más allá de los
valores proporcionados por aquéllas. En esta situación, es necesario utilizar la
distribución normal estándar para el cálculo de las probabilidades binomiales.
μ= n·p
σ2= n·p·q
σ= (n.p.q)0.5
p(X = k) =
FG 20IJ ⋅ 0,40 5
⋅ 0,615 = 0,075
H 5K
Es decir, la probabilidad de obtener exactamente 5 artículos defectuosos es del 7,5%.
μ= n·p= 20·0,4=8
Tipificando:
xi + 0,5) − μ 5,5 − 8
z2 = = = −1,14
©
σ 2,19
Resumen
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Capítulo 6
ESTADÍSTICA
INFERENCIAL
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
6.1. INTRODUCCIÓN
Las pruebas de significancia estadística nos permitirán conocer, por ejemplo, si las
diferencias encontradas entre dos muestras son reales, es decir, están también
presentes en la población o bien podrían ser el resultado de un error de la muestra
aleatoria. Naturalmente, todo ello bajo una cierta incertidumbre probabilística.
6.2.1. DEFINICIÓN
Se define como estimador una estadística de muestra utilizada para obtener información
sobre un parámetro de la población. Por ejemplo, la media muestral X es un estimador
de la media poblacional μ.
Las cualidades que debe reunir un buen estimador son las siguientes:
©
estimado.
- Eficiencia. La estimación más eficiente es aquella que tiene el error o desviación
estándar más pequeño de entre todos los estimadores imparciales. Por ejemplo,
supongamos que ante una muestra tenemos que decidir si utilizamos o no la
media de la muestra para estimar la media de la población. Si calculamos el
error estándar de la media observamos que es igual a 1,05; si calculamos el
error estándar de la mediana, vemos que es igual a 1,6. En este caso, diríamos
que la media de la muestra es un estimador más eficiente de la media de la
población que la mediana, ya que su error estándar es menor (con menos
variación).
- Coherencia. Un estimador es coherente si al aumentar el tamaño de la muestra,
se produce una estimación con un error estándar más pequeño. Un estimador
coherente se vuelve más confiable si se tiene tamaños de muestra más
grandes.
- Suficiencia. Un estimador suficiente “extrae” una cantidad de información de la
muestra que no la aporta cualquier otro estadístico sobre el parámetro de la
población que se está estimando.
Por ejemplo, imaginemos una cadena de producción de fichas blancas (B) y verdes (V).
Se considera la siguiente secuencia de producción: BBBVVBVBVBBB. El número de
corridas será R=7, n1= 8 (nº de fichas blancas) y n2= 4 (nº de fichas verdes).
El procedimiento es el siguiente:
2 ⋅ n1 ⋅ n2
μR = +1
n1 + n2
2 ⋅ n1 ⋅ n2 ⋅ (2 ⋅ n1 ⋅ n2 − n1 − n2)
σR =
(n1 + n2)2 ⋅ (n1 + n2 −1)
©
5. Calcular:
R − μR
z =
σR
6. Conclusiones.
Cuanto mayor sea la muestra, más alta será la confianza asociada. No obstante,
muestras más grandes también requieren un mayor esfuerzo en tiempo y recursos.
Así pues, el tamaño de la muestra depende del nivel de confianza que se desee para los
resultados y de la amplitud del intervalo de confianza, es decir, del error máximo que se
esté dispuesto a admitir, tal y como se verá a continuación.
FG
n = zα /2 ⋅
σIJ 2
H EK
Si se estiman proporciones:
©
E = zα / 2 ⋅
p⋅q z
⇒ n = α /2
FG IJ 2
⋅p ⋅q
n E H K
EJEMPLO
F
n = Gz
σ I F
2
8I
⋅ J = G1,645 ⋅ J
2
= 173
H α /2
EK H 1K
definitiva, una estimación puntual es mucho más útil si va acompañada por una
estimación del error implicado.
En la estimación por intervalo se calculan dos valores entre los que se encontrará el
parámetro, con un nivel de confianza fijado de antemano. De esta manera, se obtiene
un intervalo de confianza.
Por ejemplo, imaginemos que desconocemos la media poblacional de una cierta variable
que se desea estudiar. Se trata de sacar una muestra y obtener un intervalo (L1, L2) de
tal manera que se tenga una probabilidad (1-α)% de que la media poblacional esté en
ese intervalo.
El nivel de confianza del intervalo se fija de antemano. Se suele trabajar con 95%, 90%
©
LM x − z ⋅ s
,x + z ⋅
s OP
N n n Q
donde:
s= desviación típica.
n= tamaño de la muestra.
Supongamos ahora el caso que queramos encontrar un intervalo (L1,L2), de forma que
tengamos una probabilidad alta (1-α)% de que una proporción de elementos p
desconocida en la población y pertenecientes a una categoría C se encuentren en dicho
intervalo.
^
n⋅p > 5
FG IJ ^
H K
n ⋅ 1− p > 5
30<n ≤ 100
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
LM p −
^
z
1 ^
,p+ z
1 OP
N 4n 4n Q
n>100
LM
^
^
p(1 − p) ^
^ ^
p(1 − p)
^ OP
MMp − z n
, p+ z
n PP
N Q
donde:
©
EJEMPLO
Dado que las tablas con las que estamos trabajando nos proporcionan el valor
del área entre el 0 y zi, hacemos:
0,5-0,025=0,475
Este es el valor del área comprendida entre el 0 y zi. Para hallar zi buscamos en
las tablas dicho valor, y encontramos una zi= 1,96.
LM0,40 − 1,96 0,4 ⋅ 0,6; 0,4 + 1,96 0,4 ⋅ 0,6 OP = 0,36; 0,46
N 200 200 Q
En consecuencia, con una confianza del 95%, se puede decir que la proporción
de todas las mujeres de la comunidad que usan el perfume de Colonias S.A es
de un 36% a un 46%.
6.3.1. INTRODUCCIÓN
Por ejemplo, tal y como se ha mencionado con anterioridad, una media muestral diferirá
en valor de la media poblacional. Si el valor observado del estadístico se acerca al valor
del parámetro poblacional y solamente difiere en una cantidad que cabría esperar del
muestreo aleatorio, el valor hipotético no se rechaza. Si por el contrario, la estadística
muestral difiere en un monto que no es posible atribuir al azar, la hipótesis se rechaza
por no verosímil.
La hipótesis emitida se designa por Ho y se denomina Hipótesis nula, ya que parte del
supuesto que las diferencias entre el valor verdadero del parámetro y el estimado son
debidas al azar, por tanto, no existe diferencia. Este sería el caso, por ejemplo, de
decidir si un procedimiento es mejor que otro. En esta situación, se formularía la
hipótesis nula de que no hay diferencia entre ellos (es decir, cualquier diferencia
observada se debería simplemente a fluctuaciones en el muestreo de la misma
población).
• Si la hipótesis alternativa está en la forma “no igual a”, entonces existen dos
valores de z, uno positivo y otro negativo. El z positivo es el valor que deja un p-
valor de α/2 a la derecha de la distribución, mientras que el z negativo deja un p-
valor de α/2 a la izquierda de la distribución.
©
6.3.3. ERRORES EN EL CONTRASTE DE HIPÓTESIS
De aquí que si rechazamos una hipótesis cuando debiera ser aceptada, se está
cometiendo un error de tipo I, mientras que si se acepta cuando en realidad debería ser
rechazada, se está cometiendo un error de tipo II (tabla 6.1).
H0 VERDADERA H0 FALSA
Decisión incorrecta
Mantener H0 Decisión correcta
Error de tipo II
Decisión incorrecta
Rechazar H0 Decisión correcta
Error de tipo I
H 0: μ = μ 0
H1: μ ≠ μ 0
x − μ0
Z=
σ
n
Acudiendo a las tablas, se observa que los valores críticos que dividen las regiones de
rechazo y no rechazo son +1,96 y -1,96.
©
EJEMPLO
H 0: μ = 6
H1: μ ≠ 6
Sustituyendo, se tiene:
X − μ0
Z= = ±1
σ
n
Dado que:
LMμ − Zα /2 ⋅
σ
, μ 0 + Zα /2 ⋅
σOP
N 0
n nQ
Dado que 5,6 se encuentra dentro del intervalo, se puede aceptar igualmente la
hipótesis nula de que el diámetro de las roscas sea 6 con una probabilidad de
error del 5%.
X − μ0
Vexp =
s
n
Y el valor teórico (Vα ó z), que es el valor que en la distribución N(0,1) deja a su derecha
un área α/2 para un nivel de significación α.
H0: μ ≤ μ 0
©
H1: μ > μ 0
X ∈LM−∞, μ + zα ⋅
σOP
N 0
nQ
Y se rechazaría cuando:
X ∉ LM −∞ , μ + zα ⋅
σOP
N 0
nQ
EJEMPLO
Una empresa fabrica perfiles de aluminio de 170 cm como máximo, con una
desviación tipo de 8 cm. En una muestra de 100 perfiles se observa una
longitud de 172 cm. Se puede aceptar la hipótesis con un nivel de significación
©
del 5%?
H0: μ ≤ 170
H1: μ > 170
LM−∞, μ + zα ⋅
σOP = −∞; 170+1,645 ⋅ 0,8 = −∞; 171,32
N 0
nQ
Se rechaza la hipótesis nula de que los perfiles de aluminio midan como mucho
170 cm.
X − μ0
t=
SX
donde:
s
SX =
©
n
EJEMPLO
Una empresa productora de lámparas quiere demostrar que la vida útil de los
focos de la marca que fabrica es de 4200 horas, frente a la alternativa que
plantea la competencia de que su duración es menor. Para ello, se sacó una
muestra aleatoria de 10 lámparas cuyo ciclo medio de vida útil era de 4000
horas con una desviación estándar de s= 200 horas. Se supone que, en
general, el ciclo de vida útil de los focos sigue una distribución normal. El nivel
de significancia es del 5%.
H 0 : μ = 4200
H1: μ < 4200
Consultando las tablas para la t-student, se tiene que para α=0,05 y n-1
grados de libertad, un valor de t crítico de -1,833.
s 200
SX = = = 63,3h
n 10
X − μ0 4000 − 4200
t= = = −3,16
SX 63,3
H 0: p = p 0
H1 : p ≠ p 0
b
P -zα/2 ≤ z ≤ zα/2 = 1− α g
La zona de aceptación se ilustra en la figura 6.4 y será el intervalo:
LM p - Z ⋅
p ⋅q
, p + Z α /2 ⋅
p ⋅q OP
N α /2
n n Q
LM
p ′ ∉ p - Z α /2 ⋅
p ⋅q
, p + Z α /2 ⋅
p ⋅q OP
N n n Q
Y se rechazará cuando:
EJEMPLO
©
publicidad. Se tiene una muestra aleatoria de 100 individuos, de los cuales, 88
obtuvieron alivio al tomar el medicamento. Sería aconsejable en este caso
tomar niveles de significancia bajos, por ejemplo del 5%.
H 0 : p = 0 ,9
H 1 : p ≠ 0 ,9
Sustituyendo:
LMp - Z ⋅
p ⋅q
, p + Z α /2 ⋅
p ⋅q OP = 0 , 84 ; 0,95
N α /2
n n Q
b
P z ≤ zα = 1 − α g
La zona de aceptación se ilustra en la figura 6.5 y será el intervalo:
LMp - Z p⋅q
, +∞
OP
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
⋅
N α
n Q
©
LM
p ′ ∈ p - Zα ⋅
p⋅q
, +∞
OP
N n Q
Y se rechazará cuando:
LM
p ′ ∉ p - Zα ⋅
p⋅q
, +∞
OP
MN n PQ
EJEMPLO
H 0 : p ≥ 0,97
H 1 : p < 0,97
Sustituyendo:
LMp - Z ⋅
p⋅q OP
, + ∞ = 0,95; + ∞
N α
n Q
0,96 ∈ 0,95; + ∞
Se acepta la hipótesis nula y, en consecuencia, el lote.
Resumen
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Capítulo 7
IG U A L D A D E S T A D Í S T I C A
E N T RE D O S O M Á S
POBLACIONES
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
7.1. INTRODUCCIÓN
Es sabido que dos variables aleatorias X e Y son equivalentes si y sólo si se cumple que
©
Fx ( z ) = Fy (z )
En función de los usos, existen diferentes pruebas a realizar para probar la igualdad
estadística de poblaciones. Las principales y que trataremos aquí son:
Las pruebas referentes a la diferencia entre medias pueden ser bilaterales o unilaterales.
©
Z=
Sx1 −x2
No obstante, si queremos probar la hipótesis nula, lo más usual es suponer que las dos
muestras se han obtenido de poblaciones con igual media, por lo que se tiene:
(μ1 − μ2 )0 = 0
Simplificando:
(X1 − X2 )
Z=
Ox1 − x2
(X1 − X2 )
Z =
Sx1 − x2
donde:
2 2
2 2 S1 S
S x1 − S x2 = S x1 + S x2 = + 2
n1 n2
Supongamos ahora que no sólo se supone que las medias muestrales se obtuvieron de
poblaciones con medias iguales, sino que, en realidad, también se obtuvieron de la
misma población, entonces σ1= σ2= σ.
2 2
(n1 − 1 ) ⋅ S 1 + (n 2 − 1 ) ⋅ S 2
s$2 =
n1 + n 2 − 2
σ$2 σ$2
s$x1 − x2 = +
n1 n2
EJEMPLO
empleados dio como resultado un salario medio de 270 euros con una
desviación estándar de 10 euros. No se supone que las desviaciones estándar
de las dos poblaciones de montos sean iguales.
H 0 :(μ 1 − μ 2 ) = 0
H 1: ( μ 1 − μ 2 ) ≠ 0
Aplicando la fórmula:
2 2
2 2 S1 S 142 102
Sx1 − Sx2 = Sx1 + Sx2 = + 2 = + = 3,0
n1 n2 30 40
X1 − X2 280 − 270
Z= = = 3,33
Sx1 − Sx2 3
/ Zα =0,05 / = 1,96
Las hipótesis que deben satisfacerse para poder aplicar la t-student con el fin de
comparar las medias de dos grupos son:
No es obligatorio que los tamaños de los grupos sean iguales, ni tampoco resulta
necesario conocer la dispersión de los dos grupos.
EJEMPLO
también se presume que sigue una distribución normal, una muestra aleatoria
de 8 focos tiene una duración media de 4300 horas y una desviación estándar
de 250. Se prueba la hipótesis de que no existe ninguna diferencia entre el
ciclo medio de vida útil de las dos marcas de focos con un nivel de significancia
del 1%. Se supone que se cumple la hipótesis de homocedasticidad.
H 0 :(μ 1 − μ 2 ) = 0
©
H1:(μ 1 − μ 2 ) ≠ 0
2 2
(n1 − 1) ⋅ S1 + (n2 − 1) ⋅ S2 (9) ⋅ 2002 + (7) ⋅ 2502
s$2 = = = 49843,75
n1 + n2 − 2 10 + 8 − 2
) )
s2 s2 4 9 8 4 3 ,7 5 4 9 8 4 3 ,7 5
s$x1 − x2 = + = + = 1 0 5 ,9
n1 n2 10 8
X − X2 4000 − 4300
t = )1 = = −2,833
σ x1 − x2 105,9
Dado que en las tablas se tiene que la t crítica con ν= n1+n2-2= 16 g.l y
α=0.01 es de 2,921 en valor absoluto, y que el valor -2,833, por tanto, se
©
H o : σ 21 = σ 2 2
m áx{S 21;S 2 2 }
F =
obs
m in{S 21;S 2 2 }
donde:
Fobs= F de Snedecor.
donde:
- grados de libertad del numerador, m: tamaño muestral del grupo con mayor
varianza muestral menos uno.
Existen infinidad de variables F, todas ellas positivas e identificadas por dos parámetros
m y n denominados grados de libertad. Estos parámetros son siempre enteros positivos.
EJEMPLO
Con aditivo
39 36 35 37 40 39 40 38 35 39
(kg)
Sin aditivo
43 45 42 35 37 38 33 38 41 43
(kg)
X1 = 37,8 X2 = 39,5
S 21 = 3,36 S 22 = 13,65
Dado que Fobs= 4,06 > F9; 9; 0,05= 3,178 se rechazaría la hipótesis nula de
que las varianzas poblacionales son significativamente iguales.
©
varianzas. Por ese motivo, se recomienda que si los datos primarios no cumplen
ninguno de los dos supuestos, se utilice la transformación y se trate de
asegurar, en primer lugar, la homocedasticidad. De hecho, la principal razón
para transformar los datos es para mejorar la homogeneidad de las varianzas y
no para resolver el problema de normalidad, ya que este último es un problema
menor en ANOVA.
Aquí se recuerda que en casi todas las pruebas estadísticas para la toma de decisiones,
deben tenerse en cuenta las siguientes premisas:
4. Además de ser homogénea, cada población debe distribuirse según una normal.
5. Homogeneidad de las varianzas (Homocedasticidad).
Veremos a continuación que estas premisas incluyen los supuestos que deberán cumplir
las poblaciones para realizar e interpretar un análisis de la varianza ANOVA.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
Aunque el análisis de la varianza (ANOVA) también se puede emplear para analizar las
diferencias entre las medias de dos poblaciones, es un método más general que permite
©
El análisis de la varianza o ANOVA nos permitirá probar la diferencia entre dos o más
medias 1 , examinando el cociente de la variabilidad entre dos condiciones y de la
variabilidad dentro de cada condición.
H0: μ1 = μ 2 = μ 3 = L = μ k
H1: al menos dos difieren
donde:
©
contrastar dicha hipótesis empleando esa distribución.
Si en base a este contraste se rechaza la hipótesis de que MSE y MSA estimen la misma
varianza, se puede rechazar la hipótesis de que las k medias provengan de una misma
población.
SUMA DE MEDIA
FUENTES DE
g.l CUADRADOS CUADRÁTICA F
VARIACIÓN
SS MS
Entre grupos
k-1 SSA SSA/(k-1) MSA/MSE
Tratamiento
Dentro de grupos
k·(n-1) SSE SSE/k(n-1)
Error
EJEMPLO
la siguiente tabla:
Población 1 2 3 1 3 1 10 2
Población 2 3 4 3 5 0 15 3
Población 3 5 5 5 3 2 20 4
Media principal 3
H0 : μ1 = μ 2 = μ 3
H1: al menos dos de las medidas difieren
Para rellenar la tabla ANOVA hemos de calcular la suma de los cuadrados entre
grupos SSA y dentro de los grupos SSE.
Calculo de SSA
Se calcula procurando que todos los valores adquieran el valor que tendrían si a
sus respectivas medias les restasen (en valor absoluto) la magnitud de la media
principal.
MUESTRA SUMA
Población 1 1 1 1 1 1 5
Población 2 0 0 0 0 0 0
Población 3 1 1 1 1 1 5
Total SSA 10
Cálculo de SSE
MUESTRA SUMA
Población 1 0 1 1 1 1 4
Población 2 0 1 0 4 9 14
Población 3 1 1 1 1 4 8
Total SSE 26
©
Tabla ANOVA
SUMA DE MEDIA
FUENTES DE
g.l CUADRADOS CUADRÁTICA F
VARIACIÓN
SS MS
Entre grupos
2 10 5 2,30
Tratamiento
Dentro de grupos
12 26 2,17
Error
Total 14 36
Como quiera que 2,30 < 3,89, no existen evidencias suficientes para rechazar
la hipótesis nula, aceptando que no hay diferencias entre las medias de las
poblaciones.
Esta prueba estadística, que no tiene nada que ver con la F de Snedecor, se emplea
para someter a prueba la hipótesis:
H0:σ 21 = σ 22 = σ 23
El procedimiento es el siguiente:
©
EJEMPLO
Los valores obtenidos en el lago del posible vertido parecen ser más altos que
en los obtenidos en los otros tres. ¿Se considera esta diferencia lo
suficientemente importante como para concluir que el nivel de nitratos del lago
1 es diferente al de los demás y que, por tanto, está contaminado?
Este sería un problema de ANOVA, sin embargo, aquí lo que nos interesa es
comprobar la homogeneidad de varianzas por la prueba de la Fmax.
S2 mayor 0,6
F máx = = = 3,047
2
S menor 0,1969
Dado que para 3 grados de libertad a un α=0,05, la Fmax. crítica = 6,6 > 3,047
se aceptaría la hipótesis nula de homogeneidad de varianzas.
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Resumen
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Capítulo 8
CORRELACIÓN
Y RE G RE S I Ó N
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
elementos grandes de Y.
Tabla 8.1. Algunos datos basados en el Censo Demográfico de 2000, de una muestra aleatoria de
1. Se está utilizando una muestra bastante pequeña para ilustrar las técnicas. Se podría hacer un estudio más detallado
tomando toda la población de todos y cada uno de los municipios, ya que estos datos están disponibles en el Censo
Demográfico de 2000 incluido en el Atlas de Desarrollo Humano (http://www.pnud.org.br/atlas).
2. Fuente: Atlas de Desarrollo Humano (http://www.pnud.org.br/atlas).
Figura 8.1: Construcción de un diagrama de dispersión. Representación de las tres primeras observaciones
de X (distancia a la capital) y de Y (esperanza de vida al nacer) referente a los datos de la
tabla 8.1.
Figura 8.2: Algunos diagramas de dispersión construidos a partir de los datos de la tabla 8.1.
El diagrama (b) de la figura 8.2 muestra una situación de correlación positiva, ya que los
puntos están en torno a una línea imaginaria ascendente. En general, valores pequeños
de una variable también lo son en la otra, y lo mismo acontece para grandes valores.
Los diagramas (a) y (c) muestran correlaciones negativas porque, en ambos casos, los
puntos están entorno a una línea imaginaria descendente. En general, valores pequeños
de una variable se corresponden con grandes en la otra. En (c) los puntos se presentan
más próximos a una línea descendente que en (a), lo que caracteriza una correlación
más fuerte.
La figura 8.3 muestra un conjunto de puntos que se aproxima más a una parábola que a
una recta, ilustrando un caso de correlación no lineal. La interpretación de las
correlaciones no lineales es más difícil y no será objeto de este documento.
Con el fin de evitar la influencia de las unidades de medida, debe procederse a realizar
un cambio de variable (tipificar) tal que:
x− X y−Y
x′ = y′ =
Sx Sy
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
donde:
∑ (x ′ ⋅ y ′)
r =
n − 1
donde:
x y x’ y’ x’y’
∑(x′ ⋅ y ′) 6,87
r= = = 0,981
n −1 7
x y x’ y’ x’y’
©
n −1 7
8.3.1. CÁLCULO DE R
n . ∑ ( X . Y ) − ( ∑ X ). ( ∑ Y )
r =
n. ∑ X 2 − ( ∑ X ) 2 . n. ∑ Y 2 − ( ∑ y ) 2
Para ilustrar esta expresión, vamos a rehacer el ejemplo de correlación lineal positiva
visto con anterioridad:
8(447) − (40).(80)
r= =
8(228) − (40)2. 8(882) − (80)2
376 376
= = = 0,981
224. 656 383,33
Como era de esperar, el valor es el mismo, ya que las fórmulas son matemáticamente
equivalentes.
El término regresión surge a finales del siglo XIX de los trabajos de Galton. Dichos
trabajos procuraban explicar ciertas características de un individuo a partir de las
características de sus familiares. Por ejemplo, Galton afirmaba que los hijos de padres
que tenían alguna característica determinada, también poseían esta característica,
aunque con menor intensidad que éstos últimos en promedio.
X Y X Y X Y X Y
Tabla 8.4. Relación de alturas de diversos individuos (Y) y alturas medias de sus padres (X), medidas en
centímetros.
Fuente: Stigler (1986, p. 286)3.
Si trazamos una recta ascendente por la nube de puntos, se observa una tendencia a
que los hijos de padres altos tengan alturas inferiores a la media de sus padres, mientras
que los hijos de padres bajos tienen alturas superiores a la media de sus padres.
Este ejemplo se distingue de los anteriores por suponer una relación de causalidad entre
X e Y, descrita en términos de una relación matemática. Es esta la diferencia básica
entre un estudio de correlación y un análisis de regresión. La aplicación de un análisis de
regresión se realiza sobre un referencial teórico que justifique una relación matemática
de causalidad.
3. Stigler, S. M. The history of statistics: the mensurement of uncertainty before 1900. USA, Harward, 1986.
Memoria RAM del computador (gb) → Tiempo de respuesta del sistema (segundos)
Simplificaremos esta dependencia por una relación lineal entre X e Y tal que:
y = α + β. x
©
Si fijamos valores para a y b, la ecuación y=a+bx es la ecuación de una recta. Por
ejemplo, si a=1 y b=2, la ecuación y= 1+2x representa una recta en unos ejes
cartesianos (figura 8.9).
y = α + βx + ε
donde:
y$ = a + bx
n. ∑ ( X . Y ) − ( ∑ X ) . ( ∑ Y ) ∑ Y − b. ∑ X
b = a =
n. ∑ X 2 − ( ∑ X )2 n
donde:
©
169 171 28.561 28.899
169 166 28.561 28.054
171 171 29.241 29.241
173 171 29.929 29.583
173 178 29.929 30.794
176 173 30.976 30.448
178 178 31.684 31.684
∑X = 1.539 ∑Y = 1.540 ∑X2 = 263.333 ∑ (X.Y) = 263.483
Tabla 8.6. Parte de las observaciones de la tabla 8.4 y cálculos intermedios para la obtención de la recta
de regresión.
4. La obtención de la ecuación de regresión por el método de los mínimos cuadrados consiste en hacer que la suma
cuadrática de los efectos aleatorios, ∑E2, sea lo menor posible. La solución de este problema matemático genera las
expresiones de a y b citadas.
y$ = 22 + 0,872 ⋅ x
Con el fin de trazar la recta de regresión en el plano formado por los ejes X e Y, basta
con dar un par de valores que cumplan (figura 8.11).
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Resumen
FUNDACIÓN UNIVERSITARIA IBEROAMERICANA
©
Janeiro, Brasil.
[6] Selltiz, Wrightsman, Cook. (1987). Métodos de investigación en las
relaciones sociales. 4 ed. EPU. São Paulo, Brasil.
[7] Stevenson, W. J. (1981). Estadística aplicada a la administración. Harbra.
São Paulo, Brasil.
[8] Stigler, S. M. (1986). The history of statistics: the measurement of
uncertainty before 1900. Harvard University Press. Cambridge, MA.
[9] Triola, M. F. (1999). Introducción a la estadística. LTC. Rio de Janeiro,
©
Brasil.