Está en la página 1de 77

Estadística Aplicada

Unidad 3
ESTADÍSTICA APLICADA – UNIDAD 3

Introducción
En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el
punto de incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican
técnicas estadísticas para esclarecer la paternidad de un escrito o los caracteres más
relevantes de un idioma.
La estadística es una ciencia auxiliar para todas las ramas del saber; su utilidad se
entiende mejor si se tienen en cuenta que los quehaceres y decisiones diarias embargan
cierto grado, trabaja con ella y orienta para tomar las decisiones con un determinado
grado de confianza.
La asignatura pretende formar a los alumnos en la aplicación de técnicas estadísticas
en el entorno industrial y productivo, que les ayuden en la toma de decisiones y en el
control de los procesos de los trabajos de las ingenierías.

Objetivo
General
● Conocer cómo tomar decisiones basadas en la aceptación o el rechazo de
ciertas relaciones que se toman como hipótesis.

Específicos
● Comprender las diferentes herramientas estadísticas que permiten el
análisis de datos.
● Utilizar los test de hipótesis para tomar decisiones de los resultados
obtenidos.
● Lograr hacer predecible un proceso en el tiempo a través del uso de las
gráficas de control.

1
ESTADÍSTICA APLICADA – UNIDAD 3

Desarrollo
UNIDAD III ESTADÍSTICA INDUCTIVA
La Estadística descriptiva y la teoría de la Probabilidad van a ser los pilares de un nuevo
procedimiento (Estadística Inferencial) con los que se va a estudiar el comportamiento
global de un fenómeno. La probabilidad y los modelos de distribución junto con las
técnicas descriptivas, constituyen la base de una nueva forma de interpretar la
información suministrada por una parcela de la realidad que interesa investigar.
En el siguiente esquema representa el tema a tratar y que será desarrollado a
continuación.
Ilustración 1

Fuente: Montero, M.A. (s.f.). Inferencia, estimación y contraste de hipótesis.


https://www.ugr.es/~eues/webgrupo/Docencia/MonteroAlonso/estadisticaII/tema4.pdf [imagen]

Los métodos básicos de la estadística inferencial son la estimación y el contraste de


hipótesis, que juegan un papel fundamental en la investigación.
Conceptos básicos
POBLACIÓN: Conjunto de elementos sobre los que se observa un carácter común. Se
representa con la letra N.
MUESTRA: Conjunto de unidades de una población. Cuanto más significativa sea, mejor
será la muestra. Se representa con la letra n.
UNIDAD DE MUESTREO: Está formada por uno o más elementos de la población. El
total de unidades de muestreo constituyen la población. Estas unidades están
dispuestas entre sí y cada elemento de la población pertenece a una unidad de
muestreo.
PARÁMETRO: Es un resumen numérico de alguna variable observada de la población.
Los parámetros normales que se estudian son:
- La media poblacional: 𝑋
- Total poblacional: X
- Proporción: P
ESTIMADOR: Un estimador θ* de un parámetro θ, es un estadístico que se emplea para
conocer el parámetro θ desconocido.

2
ESTADÍSTICA APLICADA – UNIDAD 3

ESTADÍSTICO: Es una función de los valores de la muestra. Es una variable aleatoria,


cuyos valores dependen de la muestra seleccionada. Su distribución de probabilidad,
se conoce como “Distribución muestral del estadístico”.
ESTIMACIÓN: Este término indica que a partir de lo observado en una muestra (un
resumen estadístico con las medidas que conocemos de Descriptiva) se extrapola o
generaliza dicho resultado muestral a la población total, de modo que lo estimado es el
valor generalizado a la población. Consiste en la búsqueda del valor de los parámetros
poblacionales objeto de estudio. (Montero, s.f.).

Diferenciación de los símbolos de la muestra, población y distribución muestral:

3.1 Distribución de muestras


En cada una de las distintas muestras que pueden ser extraídas de una población se
pueden calcular estadísticos como la media aritmética o la proporción de elementos que
presentan cierta característica; por ejemplo, la media de estaturas o la proporción de
licenciados universitarios. Cuando los elementos son escogidos de manera aleatoria,
los estadísticos pueden tomar distintos valores en cada una de las muestras, cada uno
de ellos con distinta probabilidad.
La probabilidad de cada uno de los posibles valores que puede tomar un estadístico en
muestras extraídas al azar viene dada por una función matemática denominada
distribución muestral, que depende del estadístico en cuestión. Se habla así, por
ejemplo, de la distribución muestral de la media aritmética o de la distribución muestral
de la proporción.
La gráfica muestra la curva de una función de densidad de probabilidad para una
variable x, y en ella se señala la probabilidad de que esa variable se encuentre entre los
valores 1 y 2, que corresponde al área bajo la curva marcada en azul:
Ilustración 2

3
ESTADÍSTICA APLICADA – UNIDAD 3

Fuente: Moreno, O. (s.f.). Distribución muestral de estadísticas. Ministerio de Educación y Formación


Profesional - INTEF. Licencia Creative Com-mons Reconocimiento Compartirigual 4.0.
https://formacion.intef.es/pluginfile.php/246706/mod_resource/content/1/distribucin_muestral_de_estadstic
os.html [imagen]

La función de densidad de probabilidad más importante en estadística se


llama distribución normal o distribución gaussiana, o también campana de Gauss.
La curva alcanza un máximo cuando la variable toma el valor de la media, y es simétrica
respecto a ese valor, aproximándose a cero indefinidamente conforme la variable se
aleja de la media por ambos lados. La desviación típica, que es la raíz cuadrada de la
varianza, está relacionada con la anchura de la campana: a mitad de altura del máximo,
la anchura de la campana es aproximadamente 2,36 σ. Una distribución normal de
media μ y varianza σ2 se puede simbolizar como N(μ,σ2), y así lo usaremos aquí.
EJEMPLO
Se tiene una variable aleatoria x con distribución normal de media 2 y varianza 9, N(2,9).
Se quiere calcular la probabilidad de que la variable tome valores entre 1 y 2.
La probabilidad pedida corresponde al área bajo la curva normal especificada y limitada
por los valores dados de la variable. Para poder consultar una tabla de áreas bajo la
curva normal estándar, se tipifican los valores límite de la variable:
zA = (xA−μ)/σ = (1−2)/√9 = -0,333
zB = (xB−μ)/σ = (2−2)/√9 = 0
El área bajo la curva normal N(2,9) delimitada por los valores de la variable 1 y 2 es la
misma que el área bajo la curva normal N(0,1) delimitada por los valores de la variable
−0,333 y 0. Si se busca en una tabla de áreas bajo la curva normal (como se describe
en los ejemplos posteriores), se obtiene 0,13. Así, la probabilidad de que una variable
aleatoria distribuida según N(2,9) tome valores entre 1 y 2 es de 0,13, es decir, un 13%.
(Moreno, s.f.).

3.2 Estimación
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de
los individuos de la población ya sea por el coste que supondría, o por la imposibilidad
de acceder a ello. Mediante la técnica inferencial obtendremos conclusiones para una
población no observada en su totalidad, a partir de estimaciones o resúmenes
numéricos efectuados sobre la base informativa extraída de una muestra de dicha
población. Por tanto, el esquema que se sigue es:

4
ESTADÍSTICA APLICADA – UNIDAD 3

Ilustración 3

Fuente: Montero, M.A. (s.f.). Inferencia, estimación y contraste de hipótesis.


https://www.ugr.es/~eues/webgrupo/Docencia/MonteroAlonso/estadisticaII/tema4.pdf

A partir de una población se extrae una muestra por algunos de los métodos existentes,
con la que se generan datos numéricos que se van a utilizar para generar estadística
con los que realizar estimaciones o contrastes poblacionales.
Existen dos formas de estimar parámetros:
- la estimación puntual y
- la estimación por intervalo de confianza.
En la primera se busca, con base en los datos muestrales, un único valor estimado para
el parámetro. Para la segunda, se determina un intervalo dentro del cual se encuentra
el valor del parámetro, con una probabilidad determinada.
ESTIMACIÓN PUNTUAL
Un estimador de un parámetro poblacional es una función de los datos muestrales. En
pocas palabras, es una fórmula que depende de los valores obtenidos de una muestra,
para realizar estimaciones. Lo que se pretende obtener es el valor exacto de un
parámetro. Por ejemplo, si se pretende estimar la talla media de un determinado grupo
de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla
media de los individuos de la muestra.
La media de la muestra puede ser un estimador de la media de la población, la
cuasivarianza muestral es un buen estimador de la varianza poblacional y el total
muestral es un buen estimador del total poblacional.
Una definición más matemática de un estimador y las propiedades que debe de cumplir
un estimador para ser bueno.
Sea X1......Xn, una m.a.s. de tamaño n, decimos que es un estimador θ* de un parámetro
θ si el estadístico que se emplea para conocer dicho parámetro desconocido es este.

5
ESTADÍSTICA APLICADA – UNIDAD 3

Las propiedades o criterios para seleccionar un buen estimador son los


siguientes:
A) Insesgadez: Diremos que un estimador θ* de un parámetro θ es insesgado si su
esperanza coincide con el verdadero valor del parámetro. E[θ* ] = θ.
En el caso de que no coincidan, diremos que el estimador es sesgado.
B) Eficiencia: Dados dos estimadores θ1 * y θ2 * para un mismo parámetro θ, se dice
que θ1 * es más eficiente que θ2 * si: V[θ1 * ] < V[θ2 * ].
C) Suficiencia: Se dice que un estimador de un parámetro es suficiente cuando para su
cálculo utiliza toda la información de la muestra.
D) Consistencia: Decimos que un estimador θ* de un parámetro θ es consistente si la
distribución del estimador tiende a concentrarse en un cierto punto cuando el tamaño de
la muestra tiende a infinito.

Métodos para obtener estimadores


El demostrar que un cierto estimador cumple estas propiedades puede ser complicado
en determinadas ocasiones. Existen varios métodos que nos van a permitir obtener los
estimadores puntuales. Los más importantes son:
- MÉTODO DE LOS MOMENTOS: se basa en que los momentos poblacionales y
se estiman mediante los momentos muestrales. Suelen dar estimadores
consistentes.
- MÉTODO DE MÍNIMOS CUADRADOS: consiste en obtener un estimador que
hace mínima una determinada función.
- MÉTODO DE MÁXIMA VEROSIMILITUD: consiste en tomar como parámetro
poblacional el valor de la muestra que sea más probable, es decir, que tenga
mayor probabilidad. Se suelen obtener estimadores consistentes y eficientes. Es
el más utilizado (Montero, s.f.).

ESTIMACIÓN POR INTERVALOS DE CONFIANZA


El intervalo de confianza está determinado por dos valores dentro de los cuales
afirmamos que está el verdadero parámetro con cierta probabilidad. Son unos límites o
margen de variabilidad que damos al valor estimado, para poder afirmar, bajo un criterio
de probabilidad, que el verdadero valor no los rebasará. Es una expresión del tipo [θ1,
θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro
estimado con una determinada certeza o nivel de confianza.
En la estimación por intervalos se usan los siguientes conceptos:
- Variabilidad del parámetro: Si no se conoce, puede obtenerse una aproximación en
los datos o en un estudio piloto. También hay métodos para calcular el tamaño de la
muestra que prescinden de este aspecto. Habitualmente se usa como medida de
esta variabilidad la desviación típica poblacional y se denota σ.
- Error de la estimación: Es una medida de su precisión que se corresponde con la
amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación
de un parámetro, más estrecho deberá ser el intervalo de confianza y, por tanto,

6
ESTADÍSTICA APLICADA – UNIDAD 3

menor el error, y más sujetos deberán incluirse en la muestra estudiada. Llamaremos


a esta precisión E, según la fórmula E = θ2 - θ1.
- Nivel de confianza: Es la probabilidad de que el verdadero valor del parámetro
estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de
confianza se denota por (1-α), aunque habitualmente suele expresarse con un
porcentaje ((1-α)·100%). Es habitual tomar como nivel de confianza un 95% o un
99%, que se corresponden con valores α de 0,05 y 0,01, respectivamente.
- Valor α: También llamado nivel de significación. Es la probabilidad (en tanto por uno)
de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel
de confianza (1-α). Por ejemplo, en una estimación con un nivel de confianza del
95%, el valor α es (100-95)/100 = 0,05.
- Valor crítico: Se representa por Zα/2. Es el valor de la abscisa en una determinada
distribución que deja a su derecha un área igual a α/2, siendo 1-α el nivel de
confianza. Normalmente los valores críticos están tabulados o pueden calcularse en
función de la distribución de la población. Por ejemplo, para una distribución normal,
de media 0 y desviación típica 1, el valor crítico para α = 0,05 se calcularía del
siguiente modo: se busca en la tabla de la distribución ese valor (o el más
aproximado), bajo la columna "Área"; se observa que se corresponde con -0,64.
Entonces Zα/2 = 0,64. Si la media o desviación típica de la distribución normal no
coinciden con las de la tabla, se puede realizar el cambio de variable t=(X-μ)/σ para
su cálculo.
Con estas definiciones, si tras la extracción de una muestra se dice que "3 es una
estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%",
podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3,
con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando,
respectivamente, la mitad del error, para obtener el intervalo de confianza según las
definiciones dadas (Montero, s.f.).

3.3 Test de hipótesis y significado


Una prueba de hipótesis consiste en recopilar datos de una muestra y evaluarlos. Luego,
el estadístico decide si existen o no pruebas suficientes basándose en el análisis de los
datos para rechazar la hipótesis nula.
La prueba real comienza considerando dos hipótesis. Se denominan hipótesis
nula e hipótesis alternativa. Estas hipótesis contienen puntos de vista opuestos.
H0: La hipótesis nula: Es una afirmación de que no hay diferencia entre las variables:
no están relacionadas. A menudo, esto puede considerarse el statu quo y, como
resultado, si no se puede aceptar lo nulo, se requiere alguna acción.
Ha: La hipótesis alternativa: Es una afirmación sobre la población que es contradictoria
con H0 y lo que concluimos cuando no podemos aceptar H0. Esto es normalmente lo que
el investigador está tratando de probar. La hipótesis alternativa es la contendiente y
debe ganar con pruebas significativas para derrocar el statu quo. Este concepto se
conoce a veces como la tiranía del statu quo porque, como veremos más adelante, para
derribar la hipótesis nula se necesita normalmente un 90 % o más de confianza en que
esta es la decisión correcta.

7
ESTADÍSTICA APLICADA – UNIDAD 3

Dado que las hipótesis nula y alternativa son contradictorias, debe examinar las pruebas
para decidir si tiene suficiente evidencia para rechazar la hipótesis nula o no. Las
pruebas se presentan en forma de datos de muestra.
Una vez que haya determinado qué hipótesis apoya la muestra, tome una decisión. Hay
dos opciones para tomar una decisión. Son “no puede aceptar H0” si la información de
la muestra favorece la hipótesis alternativa o “no se rechaza H0” o “se declina rechazar
H0” si la información de la muestra es insuficiente para rechazar la hipótesis nula. Todas
estas conclusiones se basan en un nivel de probabilidad, un nivel de significación, que
establece el analista.
Cuando se realiza una prueba de hipótesis hay cuatro resultados posibles en según la
verdad (o falsedad) de la hipótesis nula H0 y de la decisión de rechazarla o no. Los
resultados se resumen en el siguiente cuadro:
Cuadro 1 resultados posibles de prueba de hipótesis

Decisión estadística H0 es en realidad...


Verdadero Falso
No se puede rechazar H0 Resultado correcto Error tipo II
No se puede aceptar H0 Error de tipo I Resultado correcto
Fuente: Holmes, A. Illowsky,, B. y Dean, S. (2022). Introducción a la estadística empresarial. Editorial/sitio
web: OpenStax. https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-
empresarial/pages/9-1-hipotesis-nula-y-alternativa [imagen]

Los cuatro resultados posibles en la tabla son:


1. La decisión es que no rechaza H0 cuando H0 es verdadera (decisión
correcta).
2. La decisión es no aceptar H0 cuando H0 es verdadera (decisión incorrecta,
conocida como error de tipo I). Este caso se describe como “rechazar un buen
nulo”. Como veremos más adelante, es este tipo de error el que evitaremos al
fijar la probabilidad de cometerlo. El objetivo es NO realizar ninguna acción que
sea un error.
3. La decisión es no rechazar H0 cuando, de hecho, H0 es falsa (decisión
incorrecta, conocida como error de tipo II). Esto se llama “aceptar un falso nulo”.
En esta situación ha permitido que el statu quo siga en vigor cuando debió
anularse. Como veremos, la hipótesis nula tiene ventaja en la competencia con
la alternativa.
4. La decisión es no aceptar H0 cuando H0 es falsa (decisión correcta).
Cada uno de los errores se produce con una probabilidad determinada. Las letras
griegas α y β representan las probabilidades.

α = probabilidad de un error de tipo I = P (error de tipo I) = probabilidad de rechazar la


hipótesis nula cuando la hipótesis nula es verdadera: rechazar un buen nulo.

8
ESTADÍSTICA APLICADA – UNIDAD 3

β = probabilidad de un error tipo II = P(error tipo II) = probabilidad de no rechazar la


hipótesis nula cuando la hipótesis nula es falsa. (1 - β) se denomina la potencia de la
prueba.

α y β deben ser lo más pequeños posible porque son probabilidades de error.


La estadística nos permite establecer la probabilidad de que cometamos un error de tipo
I. La probabilidad de cometer un error de tipo I es α. Recordemos que los intervalos de
confianza se establecían al elegir un valor llamado Zα (o tα) y el valor alfa determina el
nivel de confianza de la estimación porque era la probabilidad de que el intervalo no
captara la verdadera media (o parámetro de proporción p). Esta y aquella alfa son
iguales. (Holmes, et al. 2022).

3.4 Análisis de varianza


La varianza es una medida de dispersión que representa la variabilidad de una serie de
datos respecto a su media. Formalmente se calcula como la suma de los residuos al
cuadrado divididos entre el total de observaciones.
También se puede calcular como la desviación típica al cuadrado. Entendemos como
residuo a la diferencia entre el valor de una variable en un momento y el valor medio de
toda la variable.
La varianza en estadística es muy importante, ya que aunque se trata de una medida
sencilla, puede aportar mucha información sobre una variable en concreto.
La unidad de medida de la varianza será siempre la unidad de medida correspondiente
a los datos pero elevada al cuadrado. La varianza siempre es mayor o igual que cero.
Al elevarse los residuos al cuadrado es matemáticamente imposible que la varianza
salga negativa. Y de esa forma no puede ser menor que cero.

Dónde:
● X: variable sobre la que se pretenden calcular la varianza
● xi: observación número i de la variable X. i puede tomará valores entre 1 y n.
● n: número de observaciones.
● x̄: Es la media de la variable X.

9
ESTADÍSTICA APLICADA – UNIDAD 3

La varianza es una medida de dispersión. Eso significa que pretende capturar en qué
medida los datos están en torno a la media. Si tenemos datos muy por encima y muy
por debajo de la media, esta será menos representativa y lo veremos reflejado en una
elevada varianza.
Ejemplo
Queremos calcular el salario medio de dos empresas de solo dos trabajadores. En la
empresa A, los salarios son de 24.500 y 23.500 euros. En la B, son de 16.000 y 32.000
euros. Vemos que, en ambos casos, la media es la misma: 24.000 euros. Sin embargo,
esa media es más representativa en la empresa A, ya que los 2 valores se encuentran
mucho más próximos a la media que en la empresa B.

Ejemplo
Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas, cada uno
con un salario diferente:
Juan: 1.500 euros
Pepe: 1.200 euros
José: 1.700 euros
Miguel: 1.300 euros
Mateo: 1.800 euros
La media del salario, la cual necesitamos para nuestro cálculo, es de ((1.500 + 1.200 +
1.700 + 1.300 + 1.800) /5) 1.500 euros.
Obtendremos que se debe calcular tal que:

El resultado es de 52.000 euros al cuadrado. Es importante recordar que siempre que


calculamos la varianza tenemos las unidades de medida al cuadrado. Para pasarlo a
euros, en este caso tendríamos que realizar la desviación típica. El resultado
aproximado sería de 228 euros. Esto quiere decir que, en media, la diferencia entre los
salarios de las distintas personas será de 228 euros. (López, 2017).

10
ESTADÍSTICA APLICADA – UNIDAD 3

3.5 Regresión
El análisis de regresión es una técnica estadística que permite comprobar la hipótesis
de que una variable depende de otra u otras variables. Además, el análisis de regresión
brinda una estimación de la magnitud del impacto de un cambio en una variable sobre
otra. Por supuesto, esta última característica es de vital importancia para predecir los
valores futuros.
El análisis de regresión se basa en una relación funcional entre variables y supone,
además, que la relación es lineal. Esta suposición de linealidad es necesaria porque, en
su mayor parte, las propiedades estadísticas teóricas de la estimación no lineal no están
aún bien elaboradas por los matemáticos y econometristas.
El modelo de regresión lineal general se puede enunciar mediante la ecuación:

yi=β0+β1X1i+β2X2i+⋯+βkXki+εiyi=β0+β1X1i+β2X2i+⋯+βkXki+εi

Dónde:
β0 es la intersección,
βi's es la pendiente entre Y y el Xi apropiado, y
ε, es el término de error que captura los errores en la medición de Y y el efecto sobre Y
de cualquier variable que falte en la ecuación y que contribuiría a explicar las variaciones
en Y.
Esta ecuación es la ecuación teórica de la población y, por lo tanto, utiliza letras griegas.
La ecuación que estimaremos tendrá los símbolos romanos equivalentes. Esto es
paralelo a la forma en que antes hemos mantenido el seguimiento de los parámetros de
la población y los parámetros de la muestra. El símbolo de la media poblacional era µ y
el de la media muestral 𝑋, para la desviación típica de la población fue σ y para la
desviación típica de la muestra fue s. Luego, la ecuación que se estimará con una
muestra de datos para dos variables independientes será:

yi=b0+b1x1i+b2x2i+eiyi=b0+b1x1i+b2x2i+ei

Este modelo solo funciona si se cumplen ciertos supuestos. Estos son: qué Y se
distribuya normalmente, que los errores también se distribuyan normalmente con una
media de cero y una desviación típica constante, y que los términos de error sean
independientes del tamaño de X e independientes entre sí. (Holmes, et al. 2022).

11
ESTADÍSTICA APLICADA – UNIDAD 3

3.6 Control estadístico de procesos.


Concepto y objetivo.
El “Control Estadístico de Procesos” nació a finales de los años 20 en los Bell
Laboratories. Su creador fue W. A. Shewhart, quien en su libro “Economic Control of
Quality of Manufactured Products” (1931) marcó la pauta que seguirían otros discípulos
distinguidos (Joseph Juran, W.E. Deming, etc.).
Un proceso industrial está sometido a una serie de factores de carácter aleatorio que
hacen imposible fabricar dos productos exactamente iguales.
Dicho de otra manera, las características del producto fabricado no son uniformes y
presentan una variabilidad. Esta variabilidad es claramente indeseable y el objetivo ha
de ser reducirla lo más posible o al menos mantenerla dentro de unos límites.
El Control Estadístico de Procesos es una herramienta útil para alcanzar este segundo
objetivo. Dado que su aplicación es en el momento de la fabricación, puede decirse que
esta herramienta contribuye a la mejora de la calidad de la fabricación. Permite también
aumentar el conocimiento del proceso (puesto que se le está tomando “el pulso” de
manera habitual) lo cual en algunos casos puede dar lugar a la mejora del mismo.
El proceso está afectado por un gran número de factores sometidos a una variabilidad
(por ejemplo oscilaciones de las características del material utilizado, variaciones de
temperatura y humedad ambiental, variabilidad introducida por el operario, repetibilidad
propia de la maquinaria utilizada, etc.), que inciden en él y que inducen una variabilidad
de las características del producto fabricado.
Si el proceso está operando de manera que existen pequeñas oscilaciones de todos
estos factores, pero de modo que ninguno de ellos tienen un efecto preponderante frente
a los demás, entonces en virtud del TLC es esperable que la característica de calidad
del producto fabricado se distribuya de acuerdo con una ley normal. Al conjunto de esta
multitud de factores se denominan causas comunes.
Por el contrario, si circunstancialmente incide un factor con un efecto preponderante,
entonces la distribución de la característica de calidad no tiene por qué seguir una ley
normal y se dice que está presente una causa especial o asignable.
Por ejemplo, si en un proceso industrial se está utilizando materias primas procedentes
de un lote homogéneo y se continúa la fabricación con materias primas procedentes de
otro lote, cuyas características son muy diferentes de las anteriores, es muy posible que
las características de los productos fabricados sean significativamente distintas a partir
de la utilización del nuevo lote.
Por definición, se dice que un proceso está bajo control estadístico cuando no hay
causas asignables presentes. El Control Estadístico de Procesos se basa en analizar
la información aportada por el proceso para detectar la presencia de causas asignables
y habitualmente se realiza mediante una construcción gráfica denominada Gráfico de
Control.

12
ESTADÍSTICA APLICADA – UNIDAD 3

Ilustración 4 Control del proceso

Fuente: Carro, R. y González, D. Control Estadístico de Procesos. (s.f.).


http://nulan.mdp.edu.ar/1617/1/12_control_estadistico.pdf [imagen]

Si el proceso se encuentra bajo control estadístico es posible realizar una predicción del
intervalo en el que se encontrarán las características de la pieza fabricada. (Ruiz-Falcó,
2006).
Para que tenga sentido la aplicación de los gráficos de control, el proceso ha de tener
una estabilidad suficiente que, aun siendo aleatorio, permite un cierto grado de
predicción. En general, un proceso caótico no es previsible y no puede ser controlado.
A estos procesos no se les puede aplicar el gráfico de control ni tiene sentido hablar de
capacidad. Un proceso de este tipo debe ser estudiado mediante herramientas
estadísticas avanzadas hasta que el grado de conocimiento empírico obtenido sobre el
mismo permita conocer las causas de la estabilidad y se eliminen.
En lo sucesivo, se supondrá que los procesos tienen un cierto grado de estabilidad.
Podemos distinguir dos casos:
∙ El proceso está regido por una función de probabilidad cuyos parámetros permanecen
constantes a lo largo del tiempo. Este sería el caso de un proceso normal de media
constante y desviación típica constante. Este es el caso ideal y al que se pueden aplicar
los gráficos de control para detectar la presencia de causas asignables.
∙ El proceso está regido por una función de probabilidad, alguno de cuyos parámetros
varía ligeramente a lo largo del tiempo. Este sería el caso de un proceso normal cuya
media varía a lo largo del tiempo (por ejemplo, una herramienta de corte que va
desgastando la cuchilla de corte). Estrictamente hablando, este desgaste de la
herramienta sería una causa especial; sin embargo sí puede conocerse la velocidad de
desgaste, podría compensarse resultando un proceso análogo al caso anterior. (Ruiz,
2006).

13
ESTADÍSTICA APLICADA – UNIDAD 3

CONCEPTO DE CAPACIDAD DE PROCESO


Como consecuencia de todo lo anterior, si un proceso normal está en control estadístico,
la característica de calidad del 99,73% de los elementos fabricados estará comprendida
entre µ - 3σ y µ + 3σ. El parámetro m depende del punto en el que centremos el proceso.
Sin embargo, depende del número y variabilidad de las causas comunes del proceso y
por lo tanto es intrínseca a él.
Por lo tanto 6σ es la Variabilidad Natural del Proceso o Capacidad del Proceso. Por
definición:
CAPACIDAD DEL PROCESO = 6σ
Es esencial resaltar que la variabilidad natural del proceso, 6σ, es intrínseca a él e
independiente de las tolerancias que se asignen. Por lo tanto si 6σ es menor que el
intervalo de las tolerancias a cumplir, necesariamente algunos productos fabricados
estarán fuera de tolerancia y serán no conformes. Si no se tiene en cuenta este hecho
y se pretende corregir a base de reajustar el proceso, es decir modificar el centrado, lo
único que se consigue es aumentar la variabilidad del mismo.

ÍNDICES CP Y CPK
Con objeto de comparar la capacidad del proceso y la amplitud de las tolerancias a
satisfacer, se define el índice de capacidad de proceso:

Si se pretende que la producción esté dentro de tolerancia, es necesario que Cp> 1.


Ilustración 5

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

14
ESTADÍSTICA APLICADA – UNIDAD 3

Si el proceso no estuviese centrado, el valor de este índice falsearía el grado de


cobertura con respecto a fabricar piezas fuera de tolerancias. En estos casos es más
significativo el índice Cpk que se define:

De este modo se define un proceso capaz como aquel que Cpk > 1.
Aplicando estos mismos conceptos a la variabilidad atribuible de una máquina de las
que integran el proceso de fabricación, podemos definir la capacidad de máquina, el
índice de capacidad de máquina CM y CMk. (Ruiz-Falcó, 2006).

Ilustración 6

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

EJEMPLO- 2: LA MÉTRICA “6 SIGMA”


En 1.988 Motorola alcanzó el prestigioso Malcom Baldrige National Quality Award.
Una de las bases fundamentales de su estrategia de calidad era el “Programa 6σ”. El
objetivo de este programa fue reducir la variación de los procesos de manera que el
intervalo de tolerancia fuera igual a 12σ (6 a cada lado). De acuerdo con la definición
del índice de capacidad de proceso:

15
ESTADÍSTICA APLICADA – UNIDAD 3

Suponiendo que se desplazase el proceso 1.5 σ, ver Figura 10, los coeficientes pasarían
a ser:

Aún estas circunstancias, la cantidad de producto fuera de tolerancia sería tan solo de
3.4 ppm. (Ruiz-Falcó, 2006).

Ilustración 7

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

GRÁFICOS DE CONTROL POR VARIABLES


Cuadro 2

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

16
ESTADÍSTICA APLICADA – UNIDAD 3

Cuadro 3

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

EJEMPLO: CONSTRUCCIÓN DE UN GRÁFICO DE SHEWHART


La galga de los platinos es una característica clave para su buen funcionamiento. La
tabla siguiente recoge medidas de 20 muestras de tamaño 5. Construir los gráficos de

control 𝑋 − R, 𝑋 − S y 𝑋 − S*

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

17
ESTADÍSTICA APLICADA – UNIDAD 3

SOLUCIÓN:
Dispongamos los cálculos en la tabla siguiente:

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

Método recorridos: A2= 0,577 D3= 0 D4= 2,115


Gráfico de medias:
LCS= 0,008 + 0,577x0,002 = 0,0094
LC= 0,008
LCI= 0,008 - 0,577 x0,002 = 0,0066
Gráfico de recorridos:
LCS= 2,115x0,002 = 0,005
LC= 0,002
LCI= 0,000x0,008 = 0,000

18
ESTADÍSTICA APLICADA – UNIDAD 3

En las figuras siguientes se representan el gráfico de medias y el de recorridos. (Ruiz-


Falcó, 2006).

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

Método s* A3= 1,427 B3= 0 B4= 2,089


Gráfico de medias:
LCS= 0,008 + 1,427x0,0024 = 0,0114
LC= 0,008
LCI= 0,008 - 1,427x0,0024 = 0,0045
Gráfico s*
LCS= 2,089x0,0010 = 0,0020
LC= 0,0010
LCI= 0,000x0,0010 = 0,0000
Método s A1= 1,596 B3= 0 B4= 2,089
Gráfico de medias:
LCS= 0,008 + 1,596x0,0009 = 0,0093
LC= 0,008
LCI= 0,008 - 1,596x0,0009= 0,0066
Gráfico s
LCS= 2,089x0,0009 = 0,0018
LC= 0,0009
LCI= 0,000x0,0009 = 0,0000

19
ESTADÍSTICA APLICADA – UNIDAD 3

Referencias bibliográficas
1- Bibliografía Básica
● Carro, R. y González, D. Control Estadístico de Procesos. (s.f.).
http://nulan.mdp.edu.ar/1617/1/12_control_estadistico.pdf
● Holmes, A. Illowsky,, B. y Dean, S. (2022). Introducción a la estadística
empresarial. Editorial/sitio web: OpenStax.
https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-
empresarial/pages/9-1-hipotesis-nula-y-alternativa
● López, J. F. (2017). Varianza. Economipedia.com.
https://economipedia.com/definiciones/varianza.html
● Montero, M.A. (s.f.). Inferencia, estimación y contraste de hipótesis.
https://www.ugr.es/~eues/webgrupo/Docencia/MonteroAlonso/estadistica
II/tema4.pdf
● Moreno, O. (s.f.). Distribución muestral de estadísticos. Ministerio de
Educación y Formación Profesional - INTEF. Licencia Creative Commons
Reconocimiento Compartir igual 4.0.
https://formacion.intef.es/pluginfile.php/246706/mod_resource/content/1/
distribucin_muestral_de_estadsticos.html
● Ruiz A. (2006). Control Estadístico de Procesos.
https://web.cortland.edu/matresearch/controlprocesos.pdf

3- Biblioteca Virtual UPAP


● Álvares, Á. (2010). Estadística empresarial. Firmas Press.
https://elibro.net/es/lc/biblioupap/titulos/36390
● Fernández, M. V. (2005). Muestreo estadístico. Septem Ediciones.
https://elibro.net/es/lc/biblioupap/titulos/35263
● Matus, R. Estadística. México: Instituto Politécnico Nacional, 2010. p.
https://elibro.net/es/ereader/biblioupap/76119?page=14
● Martínez, E. Estadística. Universidad Abierta para Adultos (UAPA),
2020. p. https://elibro.net/es/ereader/biblioupap/175596?page=44

20
ESTADÍSTICA APLICADA
Unidad 3
ESTADÍSTICA APLICADA – UNIDAD 3

Introducción
En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el
punto de incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican
técnicas estadísticas para esclarecer la paternidad de un escrito o los caracteres más
relevantes de un idioma.
La estadística es una ciencia auxiliar para todas las ramas del saber; su utilidad se
entiende mejor si se tienen en cuenta que los quehaceres y decisiones diarias embargan
cierto grado, trabaja con ella y orienta para tomar las decisiones con un determinado
grado de confianza.
La asignatura pretende formar a los alumnos en la aplicación de técnicas estadísticas
en el entorno industrial y productivo, que les ayuden en la toma de decisiones y en el
control de los procesos de los trabajos de las ingenierías.

Objetivo
General
● Conocer cómo tomar decisiones basadas en la aceptación o el rechazo de
ciertas relaciones que se toman como hipótesis.

Específicos
● Comprender las diferentes herramientas estadísticas que permiten el
análisis de datos.
● Utilizar los test de hipótesis para tomar decisiones de los resultados
obtenidos.
● Lograr hacer predecible un proceso en el tiempo a través del uso de las
gráficas de control.

1
ESTADÍSTICA APLICADA – UNIDAD 3

Desarrollo
UNIDAD III ESTADÍSTICA INDUCTIVA
La Estadística descriptiva y la teoría de la Probabilidad van a ser los pilares de un nuevo
procedimiento (Estadística Inferencial) con los que se va a estudiar el comportamiento
global de un fenómeno. La probabilidad y los modelos de distribución junto con las
técnicas descriptivas, constituyen la base de una nueva forma de interpretar la
información suministrada por una parcela de la realidad que interesa investigar.
En el siguiente esquema representa el tema a tratar y que será desarrollado a
continuación.
Ilustración 1

Fuente: Montero, M.A. (s.f.). Inferencia, estimación y contraste de hipótesis.


https://www.ugr.es/~eues/webgrupo/Docencia/MonteroAlonso/estadisticaII/tema4.pdf [imagen]

Los métodos básicos de la estadística inferencial son la estimación y el contraste de


hipótesis, que juegan un papel fundamental en la investigación.
Conceptos básicos
POBLACIÓN: Conjunto de elementos sobre los que se observa un carácter común. Se
representa con la letra N.
MUESTRA: Conjunto de unidades de una población. Cuanto más significativa sea, mejor
será la muestra. Se representa con la letra n.
UNIDAD DE MUESTREO: Está formada por uno o más elementos de la población. El
total de unidades de muestreo constituyen la población. Estas unidades están
dispuestas entre sí y cada elemento de la población pertenece a una unidad de
muestreo.
PARÁMETRO: Es un resumen numérico de alguna variable observada de la población.
Los parámetros normales que se estudian son:
- La media poblacional: 𝑋
- Total poblacional: X
- Proporción: P
ESTIMADOR: Un estimador θ* de un parámetro θ, es un estadístico que se emplea para
conocer el parámetro θ desconocido.

2
ESTADÍSTICA APLICADA – UNIDAD 3

ESTADÍSTICO: Es una función de los valores de la muestra. Es una variable aleatoria,


cuyos valores dependen de la muestra seleccionada. Su distribución de probabilidad,
se conoce como “Distribución muestral del estadístico”.
ESTIMACIÓN: Este término indica que a partir de lo observado en una muestra (un
resumen estadístico con las medidas que conocemos de Descriptiva) se extrapola o
generaliza dicho resultado muestral a la población total, de modo que lo estimado es el
valor generalizado a la población. Consiste en la búsqueda del valor de los parámetros
poblacionales objeto de estudio. (Montero, s.f.).

Diferenciación de los símbolos de la muestra, población y distribución muestral:

3.1 Distribución de muestras


En cada una de las distintas muestras que pueden ser extraídas de una población se
pueden calcular estadísticos como la media aritmética o la proporción de elementos que
presentan cierta característica; por ejemplo, la media de estaturas o la proporción de
licenciados universitarios. Cuando los elementos son escogidos de manera aleatoria,
los estadísticos pueden tomar distintos valores en cada una de las muestras, cada uno
de ellos con distinta probabilidad.
La probabilidad de cada uno de los posibles valores que puede tomar un estadístico en
muestras extraídas al azar viene dada por una función matemática denominada
distribución muestral, que depende del estadístico en cuestión. Se habla así, por
ejemplo, de la distribución muestral de la media aritmética o de la distribución muestral
de la proporción.
La gráfica muestra la curva de una función de densidad de probabilidad para una
variable x, y en ella se señala la probabilidad de que esa variable se encuentre entre los
valores 1 y 2, que corresponde al área bajo la curva marcada en azul:
Ilustración 2

Fuente: Moreno, O. (s.f.). Distribución muestral de estadísticas. Ministerio de Educación y Formación


Profesional - INTEF. Licencia Creative Com-mons Reconocimiento Compartirigual 4.0.
https://formacion.intef.es/pluginfile.php/246706/mod_resource/content/1/distribucin_muestral_de_estadstic
os.html [imagen]

3
ESTADÍSTICA APLICADA – UNIDAD 3

La función de densidad de probabilidad más importante en estadística se


llama distribución normal o distribución gaussiana, o también campana de Gauss.
La curva alcanza un máximo cuando la variable toma el valor de la media, y es simétrica
respecto a ese valor, aproximándose a cero indefinidamente conforme la variable se
aleja de la media por ambos lados. La desviación típica, que es la raíz cuadrada de la
varianza, está relacionada con la anchura de la campana: a mitad de altura del máximo,
la anchura de la campana es aproximadamente 2,36 σ. Una distribución normal de
media μ y varianza σ2 se puede simbolizar como N(μ,σ2), y así lo usaremos aquí.

EJEMPLO
Se tiene una variable aleatoria x con distribución normal de media 2 y varianza 9, N(2,9).
Se quiere calcular la probabilidad de que la variable tome valores entre 1 y 2.
La probabilidad pedida corresponde al área bajo la curva normal especificada y limitada
por los valores dados de la variable. Para poder consultar una tabla de áreas bajo la
curva normal estándar, se tipifican los valores límite de la variable:
zA = (xA−μ)/σ = (1−2)/√9 = -0,333
zB = (xB−μ)/σ = (2−2)/√9 = 0
El área bajo la curva normal N(2,9) delimitada por los valores de la variable 1 y 2 es la
misma que el área bajo la curva normal N(0,1) delimitada por los valores de la variable
−0,333 y 0. Si se busca en una tabla de áreas bajo la curva normal (como se describe
en los ejemplos posteriores), se obtiene 0,13. Así, la probabilidad de que una variable
aleatoria distribuida según N(2,9) tome valores entre 1 y 2 es de 0,13, es decir, un 13%.
(Moreno, s.f.).

3.2 Estimación
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de
los individuos de la población ya sea por el coste que supondría, o por la imposibilidad
de acceder a ello. Mediante la técnica inferencial obtendremos conclusiones para una
población no observada en su totalidad, a partir de estimaciones o resúmenes
numéricos efectuados sobre la base informativa extraída de una muestra de dicha
población. Por tanto, el esquema que se sigue es:

4
ESTADÍSTICA APLICADA – UNIDAD 3

Ilustración 3

Fuente: Montero, M.A. (s.f.). Inferencia, estimación y contraste de hipótesis.


https://www.ugr.es/~eues/webgrupo/Docencia/MonteroAlonso/estadisticaII/tema4.pdf

A partir de una población se extrae una muestra por algunos de los métodos existentes,
con la que se generan datos numéricos que se van a utilizar para generar estadística
con los que realizar estimaciones o contrastes poblacionales.
Existen dos formas de estimar parámetros:
- la estimación puntual y
- la estimación por intervalo de confianza.
En la primera se busca, con base en los datos muestrales, un único valor estimado para
el parámetro. Para la segunda, se determina un intervalo dentro del cual se encuentra
el valor del parámetro, con una probabilidad determinada.

ESTIMACIÓN PUNTUAL
Un estimador de un parámetro poblacional es una función de los datos muestrales. En
pocas palabras, es una fórmula que depende de los valores obtenidos de una muestra,
para realizar estimaciones. Lo que se pretende obtener es el valor exacto de un
parámetro. Por ejemplo, si se pretende estimar la talla media de un determinado grupo
de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla
media de los individuos de la muestra.
La media de la muestra puede ser un estimador de la media de la población, la
cuasivarianza muestral es un buen estimador de la varianza poblacional y el total
muestral es un buen estimador del total poblacional.
Una definición más matemática de un estimador y las propiedades que debe de cumplir
un estimador para ser bueno.
Sea X1......Xn, una m.a.s. de tamaño n, decimos que es un estimador θ* de un parámetro
θ si el estadístico que se emplea para conocer dicho parámetro desconocido es este.

5
ESTADÍSTICA APLICADA – UNIDAD 3

Las propiedades o criterios para seleccionar un buen estimador son los


siguientes:
A) Insesgadez: Diremos que un estimador θ* de un parámetro θ es insesgado si su
esperanza coincide con el verdadero valor del parámetro. E[θ* ] = θ.
En el caso de que no coincidan, diremos que el estimador es sesgado.
B) Eficiencia: Dados dos estimadores θ1 * y θ2 * para un mismo parámetro θ, se dice
que θ1 * es más eficiente que θ2 * si: V[θ1 * ] < V[θ2 * ].
C) Suficiencia: Se dice que un estimador de un parámetro es suficiente cuando para su
cálculo utiliza toda la información de la muestra.
D) Consistencia: Decimos que un estimador θ* de un parámetro θ es consistente si la
distribución del estimador tiende a concentrarse en un cierto punto cuando el tamaño de
la muestra tiende a infinito.

Métodos para obtener estimadores


El demostrar que un cierto estimador cumple estas propiedades puede ser complicado
en determinadas ocasiones. Existen varios métodos que nos van a permitir obtener los
estimadores puntuales. Los más importantes son:
- MÉTODO DE LOS MOMENTOS: se basa en que los momentos poblacionales y
se estiman mediante los momentos muestrales. Suelen dar estimadores
consistentes.
- MÉTODO DE MÍNIMOS CUADRADOS: consiste en obtener un estimador que
hace mínima una determinada función.
- MÉTODO DE MÁXIMA VEROSIMILITUD: consiste en tomar como parámetro
poblacional el valor de la muestra que sea más probable, es decir, que tenga
mayor probabilidad. Se suelen obtener estimadores consistentes y eficientes. Es
el más utilizado (Montero, s.f.).

ESTIMACIÓN POR INTERVALOS DE CONFIANZA


El intervalo de confianza está determinado por dos valores dentro de los cuales
afirmamos que está el verdadero parámetro con cierta probabilidad. Son unos límites o
margen de variabilidad que damos al valor estimado, para poder afirmar, bajo un criterio
de probabilidad, que el verdadero valor no los rebasará. Es una expresión del tipo [θ1,
θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro
estimado con una determinada certeza o nivel de confianza.
En la estimación por intervalos se usan los siguientes conceptos:
- Variabilidad del parámetro: Si no se conoce, puede obtenerse una aproximación en
los datos o en un estudio piloto. También hay métodos para calcular el tamaño de la
muestra que prescinden de este aspecto. Habitualmente se usa como medida de
esta variabilidad la desviación típica poblacional y se denota σ.
- Error de la estimación: Es una medida de su precisión que se corresponde con la
amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación
de un parámetro, más estrecho deberá ser el intervalo de confianza y, por tanto,

6
ESTADÍSTICA APLICADA – UNIDAD 3

menor el error, y más sujetos deberán incluirse en la muestra estudiada. Llamaremos


a esta precisión E, según la fórmula E = θ2 - θ1.
- Nivel de confianza: Es la probabilidad de que el verdadero valor del parámetro
estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de
confianza se denota por (1-α), aunque habitualmente suele expresarse con un
porcentaje ((1-α)·100%). Es habitual tomar como nivel de confianza un 95% o un
99%, que se corresponden con valores α de 0,05 y 0,01, respectivamente.
- Valor α: También llamado nivel de significación. Es la probabilidad (en tanto por uno)
de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel
de confianza (1-α). Por ejemplo, en una estimación con un nivel de confianza del
95%, el valor α es (100-95)/100 = 0,05.
- Valor crítico: Se representa por Zα/2. Es el valor de la abscisa en una determinada
distribución que deja a su derecha un área igual a α/2, siendo 1-α el nivel de
confianza. Normalmente los valores críticos están tabulados o pueden calcularse en
función de la distribución de la población. Por ejemplo, para una distribución normal,
de media 0 y desviación típica 1, el valor crítico para α = 0,05 se calcularía del
siguiente modo: se busca en la tabla de la distribución ese valor (o el más
aproximado), bajo la columna "Área"; se observa que se corresponde con -0,64.
Entonces Zα/2 = 0,64. Si la media o desviación típica de la distribución normal no
coinciden con las de la tabla, se puede realizar el cambio de variable t=(X-μ)/σ para
su cálculo.
Con estas definiciones, si tras la extracción de una muestra se dice que "3 es una
estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%",
podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3,
con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando,
respectivamente, la mitad del error, para obtener el intervalo de confianza según las
definiciones dadas (Montero, s.f.).

3.3 Test de hipótesis y significado


Una prueba de hipótesis consiste en recopilar datos de una muestra y evaluarlos. Luego,
el estadístico decide si existen o no pruebas suficientes basándose en el análisis de los
datos para rechazar la hipótesis nula.
La prueba real comienza considerando dos hipótesis. Se denominan hipótesis
nula e hipótesis alternativa. Estas hipótesis contienen puntos de vista opuestos.
H0: La hipótesis nula: Es una afirmación de que no hay diferencia entre las variables:
no están relacionadas. A menudo, esto puede considerarse el statu quo y, como
resultado, si no se puede aceptar lo nulo, se requiere alguna acción.
Ha: La hipótesis alternativa: Es una afirmación sobre la población que es contradictoria
con H0 y lo que concluimos cuando no podemos aceptar H0. Esto es normalmente lo que
el investigador está tratando de probar. La hipótesis alternativa es la contendiente y
debe ganar con pruebas significativas para derrocar el statu quo. Este concepto se
conoce a veces como la tiranía del statu quo porque, como veremos más adelante, para
derribar la hipótesis nula se necesita normalmente un 90 % o más de confianza en que
esta es la decisión correcta.

7
ESTADÍSTICA APLICADA – UNIDAD 3

Dado que las hipótesis nula y alternativa son contradictorias, debe examinar las pruebas
para decidir si tiene suficiente evidencia para rechazar la hipótesis nula o no. Las
pruebas se presentan en forma de datos de muestra.
Una vez que haya determinado qué hipótesis apoya la muestra, tome una decisión. Hay
dos opciones para tomar una decisión. Son “no puede aceptar H0” si la información de
la muestra favorece la hipótesis alternativa o “no se rechaza H0” o “se declina rechazar
H0” si la información de la muestra es insuficiente para rechazar la hipótesis nula. Todas
estas conclusiones se basan en un nivel de probabilidad, un nivel de significación, que
establece el analista.
Cuando se realiza una prueba de hipótesis hay cuatro resultados posibles en según la
verdad (o falsedad) de la hipótesis nula H0 y de la decisión de rechazarla o no. Los
resultados se resumen en el siguiente cuadro:
Cuadro 1 resultados posibles de prueba de hipótesis

Decisión estadística H0 es en realidad...


Verdadero Falso
No se puede rechazar H0 Resultado correcto Error tipo II
No se puede aceptar H0 Error de tipo I Resultado correcto
Fuente: Holmes, A. Illowsky,, B. y Dean, S. (2022). Introducción a la estadística empresarial. Editorial/sitio
web: OpenStax. https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-
empresarial/pages/9-1-hipotesis-nula-y-alternativa [imagen]

Los cuatro resultados posibles en la tabla son:


1. La decisión es que no rechaza H0 cuando H0 es verdadera (decisión
correcta).
2. La decisión es no aceptar H0 cuando H0 es verdadera (decisión incorrecta,
conocida como error de tipo I). Este caso se describe como “rechazar un buen
nulo”. Como veremos más adelante, es este tipo de error el que evitaremos al
fijar la probabilidad de cometerlo. El objetivo es NO realizar ninguna acción que
sea un error.
3. La decisión es no rechazar H0 cuando, de hecho, H0 es falsa (decisión
incorrecta, conocida como error de tipo II). Esto se llama “aceptar un falso nulo”.
En esta situación ha permitido que el statu quo siga en vigor cuando debió
anularse. Como veremos, la hipótesis nula tiene ventaja en la competencia con
la alternativa.
4. La decisión es no aceptar H0 cuando H0 es falsa (decisión correcta).
Cada uno de los errores se produce con una probabilidad determinada. Las letras
griegas α y β representan las probabilidades.

α = probabilidad de un error de tipo I = P (error de tipo I) = probabilidad de rechazar la


hipótesis nula cuando la hipótesis nula es verdadera: rechazar un buen nulo.

8
ESTADÍSTICA APLICADA – UNIDAD 3

β = probabilidad de un error tipo II = P(error tipo II) = probabilidad de no rechazar la


hipótesis nula cuando la hipótesis nula es falsa. (1 - β) se denomina la potencia de la
prueba.

α y β deben ser lo más pequeños posible porque son probabilidades de error.


La estadística nos permite establecer la probabilidad de que cometamos un error de tipo
I. La probabilidad de cometer un error de tipo I es α. Recordemos que los intervalos de
confianza se establecían al elegir un valor llamado Zα (o tα) y el valor alfa determina el
nivel de confianza de la estimación porque era la probabilidad de que el intervalo no
captara la verdadera media (o parámetro de proporción p). Esta y aquella alfa son
iguales. (Holmes, et al. 2022).

3.4 Análisis de varianza


La varianza es una medida de dispersión que representa la variabilidad de una serie de
datos respecto a su media. Formalmente se calcula como la suma de los residuos al
cuadrado divididos entre el total de observaciones.
También se puede calcular como la desviación típica al cuadrado. Entendemos como
residuo a la diferencia entre el valor de una variable en un momento y el valor medio de
toda la variable.
La varianza en estadística es muy importante, ya que aunque se trata de una medida
sencilla, puede aportar mucha información sobre una variable en concreto.
La unidad de medida de la varianza será siempre la unidad de medida correspondiente
a los datos pero elevada al cuadrado. La varianza siempre es mayor o igual que cero.
Al elevarse los residuos al cuadrado es matemáticamente imposible que la varianza
salga negativa. Y de esa forma no puede ser menor que cero.

Dónde:
● X: variable sobre la que se pretenden calcular la varianza
● xi: observación número i de la variable X. i puede tomará valores entre 1 y n.
● n: número de observaciones.
● x̄: Es la media de la variable X.

9
ESTADÍSTICA APLICADA – UNIDAD 3

La varianza es una medida de dispersión. Eso significa que pretende capturar en qué
medida los datos están en torno a la media. Si tenemos datos muy por encima y muy
por debajo de la media, esta será menos representativa y lo veremos reflejado en una
elevada varianza.
Ejemplo
Queremos calcular el salario medio de dos empresas de solo dos trabajadores. En la
empresa A, los salarios son de 24.500 y 23.500 euros. En la B, son de 16.000 y 32.000
euros. Vemos que, en ambos casos, la media es la misma: 24.000 euros. Sin embargo,
esa media es más representativa en la empresa A, ya que los 2 valores se encuentran
mucho más próximos a la media que en la empresa B.

Ejemplo
Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas, cada uno
con un salario diferente:
Juan: 1.500 euros
Pepe: 1.200 euros
José: 1.700 euros
Miguel: 1.300 euros
Mateo: 1.800 euros
La media del salario, la cual necesitamos para nuestro cálculo, es de ((1.500 + 1.200 +
1.700 + 1.300 + 1.800) /5) 1.500 euros.
Obtendremos que se debe calcular tal que:

El resultado es de 52.000 euros al cuadrado. Es importante recordar que siempre que


calculamos la varianza tenemos las unidades de medida al cuadrado. Para pasarlo a
euros, en este caso tendríamos que realizar la desviación típica. El resultado
aproximado sería de 228 euros. Esto quiere decir que, en media, la diferencia entre los
salarios de las distintas personas será de 228 euros. (López, 2017).

10
ESTADÍSTICA APLICADA – UNIDAD 3

3.5 Regresión
El análisis de regresión es una técnica estadística que permite comprobar la hipótesis
de que una variable depende de otra u otras variables. Además, el análisis de regresión
brinda una estimación de la magnitud del impacto de un cambio en una variable sobre
otra. Por supuesto, esta última característica es de vital importancia para predecir los
valores futuros.
El análisis de regresión se basa en una relación funcional entre variables y supone,
además, que la relación es lineal. Esta suposición de linealidad es necesaria porque, en
su mayor parte, las propiedades estadísticas teóricas de la estimación no lineal no están
aún bien elaboradas por los matemáticos y econometristas.
El modelo de regresión lineal general se puede enunciar mediante la ecuación:

yi=β0+β1X1i+β2X2i+⋯+βkXki+εiyi=β0+β1X1i+β2X2i+⋯+βkXki+εi

Dónde:
β0 es la intersección,
βi's es la pendiente entre Y y el Xi apropiado, y
ε, es el término de error que captura los errores en la medición de Y y el efecto sobre Y
de cualquier variable que falte en la ecuación y que contribuiría a explicar las variaciones
en Y.
Esta ecuación es la ecuación teórica de la población y, por lo tanto, utiliza letras griegas.
La ecuación que estimaremos tendrá los símbolos romanos equivalentes. Esto es
paralelo a la forma en que antes hemos mantenido el seguimiento de los parámetros de
la población y los parámetros de la muestra. El símbolo de la media poblacional era µ y
el de la media muestral 𝑋, para la desviación típica de la población fue σ y para la
desviación típica de la muestra fue s. Luego, la ecuación que se estimará con una
muestra de datos para dos variables independientes será:

yi=b0+b1x1i+b2x2i+eiyi=b0+b1x1i+b2x2i+ei

Este modelo solo funciona si se cumplen ciertos supuestos. Estos son: qué Y se
distribuya normalmente, que los errores también se distribuyan normalmente con una
media de cero y una desviación típica constante, y que los términos de error sean
independientes del tamaño de X e independientes entre sí. (Holmes, et al. 2022).

11
ESTADÍSTICA APLICADA – UNIDAD 3

3.6 Control estadístico de procesos.


Concepto y objetivo.
El “Control Estadístico de Procesos” nació a finales de los años 20 en los Bell
Laboratories. Su creador fue W. A. Shewhart, quien en su libro “Economic Control of
Quality of Manufactured Products” (1931) marcó la pauta que seguirían otros discípulos
distinguidos (Joseph Juran, W.E. Deming, etc.).
Un proceso industrial está sometido a una serie de factores de carácter aleatorio que
hacen imposible fabricar dos productos exactamente iguales.
Dicho de otra manera, las características del producto fabricado no son uniformes y
presentan una variabilidad. Esta variabilidad es claramente indeseable y el objetivo ha
de ser reducirla lo más posible o al menos mantenerla dentro de unos límites.
El Control Estadístico de Procesos es una herramienta útil para alcanzar este segundo
objetivo. Dado que su aplicación es en el momento de la fabricación, puede decirse que
esta herramienta contribuye a la mejora de la calidad de la fabricación. Permite también
aumentar el conocimiento del proceso (puesto que se le está tomando “el pulso” de
manera habitual) lo cual en algunos casos puede dar lugar a la mejora del mismo.
El proceso está afectado por un gran número de factores sometidos a una variabilidad
(por ejemplo oscilaciones de las características del material utilizado, variaciones de
temperatura y humedad ambiental, variabilidad introducida por el operario, repetibilidad
propia de la maquinaria utilizada, etc.), que inciden en él y que inducen una variabilidad
de las características del producto fabricado.
Si el proceso está operando de manera que existen pequeñas oscilaciones de todos
estos factores, pero de modo que ninguno de ellos tienen un efecto preponderante frente
a los demás, entonces en virtud del TLC es esperable que la característica de calidad
del producto fabricado se distribuya de acuerdo con una ley normal. Al conjunto de esta
multitud de factores se denominan causas comunes.
Por el contrario, si circunstancialmente incide un factor con un efecto preponderante,
entonces la distribución de la característica de calidad no tiene por qué seguir una ley
normal y se dice que está presente una causa especial o asignable.
Por ejemplo, si en un proceso industrial se está utilizando materias primas procedentes
de un lote homogéneo y se continúa la fabricación con materias primas procedentes de
otro lote, cuyas características son muy diferentes de las anteriores, es muy posible que
las características de los productos fabricados sean significativamente distintas a partir
de la utilización del nuevo lote.
Por definición, se dice que un proceso está bajo control estadístico cuando no hay
causas asignables presentes. El Control Estadístico de Procesos se basa en analizar
la información aportada por el proceso para detectar la presencia de causas asignables
y habitualmente se realiza mediante una construcción gráfica denominada Gráfico de
Control.

12
ESTADÍSTICA APLICADA – UNIDAD 3

Ilustración 4 Control del proceso

Fuente: Carro, R. y González, D. Control Estadístico de Procesos. (s.f.).


http://nulan.mdp.edu.ar/1617/1/12_control_estadistico.pdf [imagen]

Si el proceso se encuentra bajo control estadístico es posible realizar una predicción del
intervalo en el que se encontrarán las características de la pieza fabricada. (Ruiz-Falcó,
2006).
Para que tenga sentido la aplicación de los gráficos de control, el proceso ha de tener
una estabilidad suficiente que, aun siendo aleatorio, permite un cierto grado de
predicción. En general, un proceso caótico no es previsible y no puede ser controlado.
A estos procesos no se les puede aplicar el gráfico de control ni tiene sentido hablar de
capacidad. Un proceso de este tipo debe ser estudiado mediante herramientas
estadísticas avanzadas hasta que el grado de conocimiento empírico obtenido sobre el
mismo permita conocer las causas de la estabilidad y se eliminen.
En lo sucesivo, se supondrá que los procesos tienen un cierto grado de estabilidad.
Podemos distinguir dos casos:
∙ El proceso está regido por una función de probabilidad cuyos parámetros permanecen
constantes a lo largo del tiempo. Este sería el caso de un proceso normal de media
constante y desviación típica constante. Este es el caso ideal y al que se pueden aplicar
los gráficos de control para detectar la presencia de causas asignables.
∙ El proceso está regido por una función de probabilidad, alguno de cuyos parámetros
varía ligeramente a lo largo del tiempo. Este sería el caso de un proceso normal cuya
media varía a lo largo del tiempo (por ejemplo, una herramienta de corte que va
desgastando la cuchilla de corte). Estrictamente hablando, este desgaste de la
herramienta sería una causa especial; sin embargo sí puede conocerse la velocidad de
desgaste, podría compensarse resultando un proceso análogo al caso anterior. (Ruiz,
2006).

13
ESTADÍSTICA APLICADA – UNIDAD 3

CONCEPTO DE CAPACIDAD DE PROCESO


Como consecuencia de todo lo anterior, si un proceso normal está en control estadístico,
la característica de calidad del 99,73% de los elementos fabricados estará comprendida
entre µ - 3σ y µ + 3σ. El parámetro m depende del punto en el que centremos el proceso.
Sin embargo, depende del número y variabilidad de las causas comunes del proceso y
por lo tanto es intrínseca a él.
Por lo tanto 6σ es la Variabilidad Natural del Proceso o Capacidad del Proceso. Por
definición:
CAPACIDAD DEL PROCESO = 6σ
Es esencial resaltar que la variabilidad natural del proceso, 6σ, es intrínseca a él e
independiente de las tolerancias que se asignen. Por lo tanto si 6σ es menor que el
intervalo de las tolerancias a cumplir, necesariamente algunos productos fabricados
estarán fuera de tolerancia y serán no conformes. Si no se tiene en cuenta este hecho
y se pretende corregir a base de reajustar el proceso, es decir modificar el centrado, lo
único que se consigue es aumentar la variabilidad del mismo.

ÍNDICES CP Y CPK
Con objeto de comparar la capacidad del proceso y la amplitud de las tolerancias a
satisfacer, se define el índice de capacidad de proceso:

Si se pretende que la producción esté dentro de tolerancia, es necesario que Cp> 1.


Ilustración 5

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

14
ESTADÍSTICA APLICADA – UNIDAD 3

Si el proceso no estuviese centrado, el valor de este índice falsearía el grado de


cobertura con respecto a fabricar piezas fuera de tolerancias. En estos casos es más
significativo el índice Cpk que se define:

De este modo se define un proceso capaz como aquel que Cpk > 1.
Aplicando estos mismos conceptos a la variabilidad atribuible de una máquina de las
que integran el proceso de fabricación, podemos definir la capacidad de máquina, el
índice de capacidad de máquina CM y CMk. (Ruiz-Falcó, 2006).

Ilustración 6

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

EJEMPLO- 2: LA MÉTRICA “6 SIGMA”


En 1.988 Motorola alcanzó el prestigioso Malcom Baldrige National Quality Award.
Una de las bases fundamentales de su estrategia de calidad era el “Programa 6σ”. El
objetivo de este programa fue reducir la variación de los procesos de manera que el
intervalo de tolerancia fuera igual a 12σ (6 a cada lado). De acuerdo con la definición
del índice de capacidad de proceso:

15
ESTADÍSTICA APLICADA – UNIDAD 3

Suponiendo que se desplazase el proceso 1.5 σ, ver Figura 10, los coeficientes pasarían
a ser:

Aún estas circunstancias, la cantidad de producto fuera de tolerancia sería tan solo de
3.4 ppm. (Ruiz-Falcó, 2006).

Ilustración 7

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

GRÁFICOS DE CONTROL POR VARIABLES


Cuadro 2

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

16
ESTADÍSTICA APLICADA – UNIDAD 3

Cuadro 3

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

EJEMPLO: CONSTRUCCIÓN DE UN GRÁFICO DE SHEWHART


La galga de los platinos es una característica clave para su buen funcionamiento. La
tabla siguiente recoge medidas de 20 muestras de tamaño 5. Construir los gráficos de

control 𝑋 − R, 𝑋 − S y 𝑋 − S*

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

17
ESTADÍSTICA APLICADA – UNIDAD 3

SOLUCIÓN:
Dispongamos los cálculos en la tabla siguiente:

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

Método recorridos: A2= 0,577 D3= 0 D4= 2,115


Gráfico de medias:
LCS= 0,008 + 0,577x0,002 = 0,0094
LC= 0,008
LCI= 0,008 - 0,577 x0,002 = 0,0066
Gráfico de recorridos:
LCS= 2,115x0,002 = 0,005
LC= 0,002
LCI= 0,000x0,008 = 0,000

18
ESTADÍSTICA APLICADA – UNIDAD 3

En las figuras siguientes se representan el gráfico de medias y el de recorridos. (Ruiz-


Falcó, 2006).

Fuente: Ruiz-Falcó, A. (2006). Control Estadístico de Procesos.


https://web.cortland.edu/matresearch/controlprocesos.pdf [imagen]

Método s* A3= 1,427 B3= 0 B4= 2,089


Gráfico de medias:
LCS= 0,008 + 1,427x0,0024 = 0,0114
LC= 0,008
LCI= 0,008 - 1,427x0,0024 = 0,0045
Gráfico s*
LCS= 2,089x0,0010 = 0,0020
LC= 0,0010
LCI= 0,000x0,0010 = 0,0000
Método s A1= 1,596 B3= 0 B4= 2,089
Gráfico de medias:
LCS= 0,008 + 1,596x0,0009 = 0,0093
LC= 0,008
LCI= 0,008 - 1,596x0,0009= 0,0066
Gráfico s
LCS= 2,089x0,0009 = 0,0018
LC= 0,0009
LCI= 0,000x0,0009 = 0,0000

19
ESTADÍSTICA APLICADA – UNIDAD 3

Referencias bibliográficas
1- Bibliografía Básica
● Carro, R. y González, D. Control Estadístico de Procesos. (s.f.).
http://nulan.mdp.edu.ar/1617/1/12_control_estadistico.pdf
● Holmes, A. Illowsky,, B. y Dean, S. (2022). Introducción a la estadística
empresarial. Editorial/sitio web: OpenStax.
https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-
empresarial/pages/9-1-hipotesis-nula-y-alternativa
● López, J. F. (2017). Varianza. Economipedia.com.
https://economipedia.com/definiciones/varianza.html
● Montero, M.A. (s.f.). Inferencia, estimación y contraste de hipótesis.
https://www.ugr.es/~eues/webgrupo/Docencia/MonteroAlonso/estadistica
II/tema4.pdf
● Moreno, O. (s.f.). Distribución muestral de estadísticos. Ministerio de
Educación y Formación Profesional - INTEF. Licencia Creative Commons
Reconocimiento Compartir igual 4.0.
https://formacion.intef.es/pluginfile.php/246706/mod_resource/content/1/
distribucin_muestral_de_estadsticos.html
● Ruiz A. (2006). Control Estadístico de Procesos.
https://web.cortland.edu/matresearch/controlprocesos.pdf

3- Biblioteca Virtual UPAP


● Álvares, Á. (2010). Estadística empresarial. Firmas Press.
https://elibro.net/es/lc/biblioupap/titulos/36390
● Fernández, M. V. (2005). Muestreo estadístico. Septem Ediciones.
https://elibro.net/es/lc/biblioupap/titulos/35263
● Matus, R. Estadística. México: Instituto Politécnico Nacional, 2010. p.
https://elibro.net/es/ereader/biblioupap/76119?page=14
● Martínez, E. Estadística. Universidad Abierta para Adultos (UAPA),
2020. p. https://elibro.net/es/ereader/biblioupap/175596?page=44

20
ESTADÍSTICA APLICADA
Unidad 1
ESTADÍSTICA APLICADA – UNIDAD 1

Introducción
En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el
punto de incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican
técnicas estadísticas para esclarecer la paternidad de un escrito o los caracteres más
relevantes de un idioma.
La estadística es una ciencia auxiliar para todas las ramas del saber; su utilidad se
entiende mejor si se tienen en cuenta que los quehaceres y decisiones diarias embargan
cierto grado de incertidumbre y, la Estadística, ayuda en la incertidumbre, trabaja con
ella y orienta para tomar las decisiones con un determinado grado de confianza.
La asignatura pretende formar a los alumnos en la aplicación de técnicas estadísticas
en el entorno industrial y productivo, que les ayuden en la toma de decisiones y en el
control de los procesos de los trabajos de las ingenierías.

Objetivos
General
● Resumir la información de conjuntos más o menos numerosos de datos, a través
de los métodos de la estadística descriptiva.

Específicos
● Elaborar tablas de distribución de frecuencias absolutas, relativas,
porcentuales y acumuladas.
● Estudiar las medidas numéricas descriptivas y las variables estadísticas
bidimensionales.
● Introducir los conceptos de espacio de probabilidad, variables aleatorias
discretas variables aleatorias continuas.

1
ESTADÍSTICA APLICADA – UNIDAD 1

Desarrollo
UNIDAD I ESTADÍSTICA DESCRIPTIVA Y
PROBABILIDADES
1.1 Introducción
Breve análisis histórico
La palabra estadística se origina, en las técnicas de recolección, organización,
conservación, y tratamiento de los datos propios de un estado, con los antiguos.
Gobernantes controlaban sus súbditos y dominios económicos. Estas técnicas
evolucionaron a la par con el desarrollo de las matemáticas, utilizando sus herramientas
en el proceso del análisis e interpretación de la información.
Para mediados del siglo XVII en Europa, los juegos de azar eran frecuentes, aunque sin
mayores restricciones legales. El febril jugador De Méré consultó al famoso matemático
y filósofo Blaise Pascal (1623-1662) para que le revelara las leyes que controlan el juego
de los dados, el cual, interesado en el tema, sostuvo una correspondencia con Pierre de
Fermat (1601-1665, funcionario público apasionado por las matemáticas; célebre
porque no publicaba sus hallazgos) dando origen a la teoría de la probabilidad, la cual
se ha venido desarrollando y constituyéndose en la base primordial de la estadística.
En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que,
partiendo de observaciones muestrales o históricas, crean modelos lógico-matemáticos
que se "aventuran" describir o pronosticar un determinado fenómeno con cierto grado
de certidumbre medible.
El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la
estadística, sobre todo en la manipulación de la información, pues en el mercado existen
paquetes estadísticos de excelente calidad, como el SAS, SPSS, SCA,
STATGRAPHICS, y otros, que se instalan en un ordenador sin mayores exigencias
técnicas, permitiendo el manejo de grandes volúmenes de información y de variables.
La estadística, entonces, ha dejado de ser una técnica exclusiva de los estados, para
convertirse en una herramienta imprescindible de todas las ciencias, de donde proviene
la desconcertante falta de uniformidad en las definiciones de los diferentes autores, ya
que cada estudioso la define de acuerdo con lo que utiliza de ella y tenemos definiciones
como que:
La estadística es la tecnología del método científico, o que es el conocimiento
relacionado con la toma de decisiones en condiciones de incertidumbre, o que la
estadística son métodos para obtener conclusiones a partir de los resultados de los
experimentos o procesos, o que es un método para describir o medir las propiedades
de una población. No se tratará aquí de discutir si la estadística es una ciencia, una
técnica o una herramienta, sino de la utilización de sus métodos en provecho de la
evolución del conocimiento.

2
ESTADÍSTICA APLICADA – UNIDAD 1

La estadística hace inferencias sobre una población, partiendo de una muestra


representativa de ella. Es a partir del proceso del diseño y toma de la muestra desde
donde comienzan a definirse las bondades y confiabilidad de las aseveraciones, hechas,
preferentemente, con un mínimo costo y mínimo error posible.

DEFINICIÓN
Definir la estadística es una tarea difícil porque tendríamos que definir cada una de las
técnicas que se emplean en los diferentes campos en los que interviene. Sin embargo,
diremos, en forma general, que la estadística es un conjunto de técnicas que, partiendo
de la observación de fenómenos, permiten al investigador obtener conclusiones útiles
sobre ellos (Guarín, 2002).

DIVISIÓN
La estadística se divide en dos grandes ramas de estudio que son:
1. La estadística descriptiva, la cual se encarga de la recolección, clasificación y
descripción de datos muestrales y poblacionales, para su interpretación y
análisis.
2. La estadística matemática o inferencial, que desarrolla modelos teóricos que
se ajusten a una determinada realidad con cierto grado de confianza.
Estas dos ramas no son independientes; por el contrario, son complementarias y entre
ambas dan la suficiente ilustración sobre una posible realidad futura, con el fin de que
quien tenga poder de decisión, tome las medidas necesarias para transformar ese futuro
o para mantener las condiciones existentes (Guarín, 2002).

1.2 Descripción de frecuencia


Distribución de frecuencias
Después de recolectar toda la información correspondiente a una investigación, o sea,
al agotar todo el trabajo de campo, tendremos gran cantidad de datos relativamente
desordenados los cuales, al ser tomados como observaciones individuales, dicen muy
poco sobre la población estudiada; es, entonces, tarea del investigador interpretar las
cifras, extraer información cabal, comenzando por la clasificación y ordenamiento,
consignando la información en tablas inteligibles que denominamos, distribuciones de
frecuencias y que podrán ser distribución de frecuencias simple y distribución de
frecuencias por intervalos.

3
ESTADÍSTICA APLICADA – UNIDAD 1

DISTRIBUCIÓN DE FRECUENCIAS SIMPLE


Para mejor entendimiento veamos el siguiente ejemplo:
Supongamos que en una fábrica de confecciones, ha estallado un conflicto laboral y sus
cincuenta operarias solicitan un aumento en el salario integral diario, caso contrario
paralizarían la fábrica.
El funcionario encargado recolecta la información relacionada con la variable SALARIO
DIARIO de sus 50 operarias y la relaciona en la Tabla 1. (Guarín, 2002).
Tabla 1 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

4
ESTADÍSTICA APLICADA – UNIDAD 1

Tabla 2 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]
Nota: (Se sacó el número correspondiente a cada operaria)

Tabla 3 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]
Nota: (Se estableció un orden creciente de los salarios diarios)

5
ESTADÍSTICA APLICADA – UNIDAD 1

Tabla 4 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]
Nota: (Se contabilizaron las ocurrencias de cada cifra, en orden creciente)

Como se puede observar, hay una gran diferencia entre los datos brutos de la Tabla
No.1 y el ordenamiento y agrupamiento de la Tabla 4.

Con el fin de obtener una mejor tabla interpretativa, introduciremos la siguiente


simbología:
● n: El tamaño de la muestra, es el número de observaciones.
● Xi: La variable; es cada uno de los diferentes valores que se han observado. La
variable Xi, toma los X1, X2... Xm valores.
● fi: La frecuencia absoluta o simplemente frecuencia, es el número de veces que
se repite la variable Xi; así f1, es el número de veces que se repite la observación
x1, f2 el número de veces que se repite la observación X2, etc.
● fa: La frecuencia acumulada, se obtiene acumulando la frecuencia absoluta.
● fr: Frecuencia relativa; es el resultado de dividir cada una de las frecuencias
absolutas por el tamaño de la muestra.
● fra: Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia
acumulada entre el tamaño de la muestra. (Guarín, 2002).

6
ESTADÍSTICA APLICADA – UNIDAD 1

Tabla 5 Distribución Teórica de Frecuencias de n observaciones

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

En el ejemplo que venimos trabajando:

Tabla 6 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

7
ESTADÍSTICA APLICADA – UNIDAD 1

En la práctica, cuando se tiene confianza en el ordenamiento, no son necesarias tantas


tablas; se puede pasar de la Tabla 1 directamente a la tabla 7.

Tabla 7 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

Analizando las columnas porcentuales fr y fra se obtienen, entre otras las siguientes
conclusiones:
● Sólo el 4% de las obreras gana el máximo salario/día de la fábrica, el cual
corresponde a $58.000.00 → fila 9.
● El salario diario mínimo ($50.000.00) lo gana únicamente una obrera, lo que
constituye el 2% del personal asalariado → fila 1.
● El 62% de las operarias tiene un salario diario entre $53.000.00 y $55.000.00 →
filas 4, 5 y 6.
● El 60% de las obreras tiene un salario/día de $54.000.00 o menos → fila 5.
● El 64% tiene un ingreso/día de $54.000.00 o más → filas 5+6+7+8+9. (Guarín,
2002).

DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS


Usualmente los valores de los datos no permiten un agrupamiento de ellos en una tabla
de frecuencias simple, debido a que se encuentran distribuidos a través de todo el
recorrido y el número de veces que se repite cada observación no es significativo en
todos los casos, y en la mayoría de ellos su frecuencia es baja. Una tabla de frecuencias
construida en estas condiciones, no presenta ninguna utilidad.

8
ESTADÍSTICA APLICADA – UNIDAD 1

Ilustraremos el caso a través de un ejemplo, para ello, supongamos que una fábrica de
baldosas, con el objeto de ofrecer una garantía de su producto, desea hacer un estudio
técnico de su producción, para lo cual extrae una muestra de 100 baldosas, cada una
de las cuales se somete a una prueba de resistencia destructiva cuyos datos expresados
en kg/cm2, se relacionan a continuación:
Tabla 8 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

La clasificación en una distribución de frecuencias simple daría como resultante un


ordenamiento de por lo menos 80 ítems; la mayoría de ellos con frecuencia unitaria.
Se hace necesario el agrupamiento en intervalos o clases que haga más compacta,
manejable y presentable la información.

El número de clases y la amplitud de los intervalos los fija el investigador de acuerdo


con:
● El conocimiento que posea de la población,
● La necesidad de hacer comparación con otras investigaciones y
● La presentación de la información.
Se recomienda que la información no sea demasiado compacta, lo cual le restaría
precisión, ni demasiado dispersa, ya que no se tendría claridad.
● En términos generales, es usual que el número de intervalos no sea inferior a 5
ni superior a 15.
● Struges propone que el número de clases o intervalos sea determinado por la
expresión m ≈1 + 3.3 log(n).

9
ESTADÍSTICA APLICADA – UNIDAD 1

● La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe
trabajar con clases abiertas. (Guarín, 2002).

Reglas empíricas para la construcción de intervalos


Cuando no se tiene experiencia en el manejo de la información es aconsejable seguir
los pasos que se dan a continuación:

1. Determinar los datos de mayor y menor valor Xmax, Xmin.


2. Calcular el rango o recorrido: R = Xmax - Xmin
3. Determinar el número de intervalos (m) y la amplitud de clase (A): m ≈1 + 3.3
log(n). Debe tenerse presente que m es un número natural. Luego se busca la
amplitud A: A > R/m.
4. Calcular el rango ampliado: Ra = m∙A.
5. Establecer la diferencia a = Ra – R, es decir la cantidad en que ha sido alterado
el recorrido, la cual no debe ser superior a la amplitud. "a" también puede ser
definida como la cantidad positiva más pequeña que le hace falta al rango o
recorrido para ser divisible exactamente por la amplitud.
6. Distribuir adecuadamente la cantidad "a" de la siguiente manera:

Al valor Xmin se le resta aproximadamente a/2 y la parte restante se le suma a X max,


obteniendo el límite inferior del primer intervalo y el límite superior del último,
respectivamente.

7. Construir los intervalos, calcular los puntos medios o marcas de clase y hacer el
agrupamiento de frecuencias.
n: Número de observaciones.
LIPI: Límite inferior del primer intervalo.
LSUI: Límite superior del último intervalo.
Xi: Punto medio del intervalo, o marca de clase (Guarín, 2002).

10
ESTADÍSTICA APLICADA – UNIDAD 1

Tabla 9 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

Con el fin de prever dobles conteos, quien clasifica deberá especificar si los intervalos
son abiertos a la derecha o abiertos a la izquierda, acá trabajaremos con intervalos
abiertos a la derecha; es decir, del tipo a ≤ X < b donde el límite superior no está incluido
dentro de la clase.

Retomando el ejercicio de la Tabla N° 8 y construyamos una distribución de frecuencia


por intervalos.
1. Xmax = 780; Xmin = 122
a<X≤b

2. R = Xmax - Xmin
R = 780 – 122 = 658

3. Número de intervalos:
m ≈1 + 3.3 log(n)
m ≈1 + 3.3 log(100)

11
ESTADÍSTICA APLICADA – UNIDAD 1

m ≈1 + 3.3 (2)
m = 7.6
No es lógico tener 7.6 intervalos, por lo tanto se procede a aproximar el número de
intervalos a un número natural cercano. Aproximemos m = 7 y determinemos la amplitud
A > R/m;
A > 658/7
A > 94
Ya determinado el número de clases en m=7 encontramos que la amplitud debe ser
mayor que 94. Fijémosla, entonces, en A = 100, que hace más manejable y presentable
la tabla con la información.

4. Rango ampliado
Ra = m∙A
Ra = 7 ∙ 100
Ra = 700

5. Hemos alterado el rango original R = 658, cambiándolo por el rango ampliado Ra


= 700. La diferencia está representada por a = Ra – R, o sea:
a = 700 – 658
a = 42

6. Tenemos por tanto, que distribuir


adecuadamente la diferencia
entre los rangos:

Como se dijo antes, no estamos hablando de restar o sumar estrictamente a/2 sino una
cantidad aproximada que brinde una buena presentación.

12
ESTADÍSTICA APLICADA – UNIDAD 1

7. Construcción de los intervalos:


Tabla 10 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

Se puede desde luego, proceder a agrupar la información en los respectivos intervalos,


haciendo la salvedad de que ninguno de los límites superiores de clase es considerado
dentro de los intervalos.
Tabla 11 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

Conclusiones:
● El 72% de las baldosas tiene una resistencia entre 300 y 600 kg/cm2.
● El 86% de las baldosas resiste menos de 600 kg/cm2.
● Sólo el 5% resiste 700 o más kg/cm2. (Guarín, 2002).

13
ESTADÍSTICA APLICADA – UNIDAD 1

1.3 Medidas descriptivas. Medidas de


tendencia central, de posición y
dispersión
Las medidas descriptivas son valores numéricos que resumen la información contenida
en un conjunto de datos.
Las medidas descriptivas pueden calcularse a partir de los datos de una muestra o los
datos de una población.

Una medida descriptiva calculada a partir de los datos de una muestra recibe el nombre
de Estadística/o.
Una medida descriptiva calculada a partir de los datos de una población recibe el
nombre de Parámetro.

Las medidas descriptivas se clasifican en:


● Medidas de Tendencia Central (MTC)
● Medidas de Dispersión
● Medidas de Posición
● Medidas de Forma

MEDIDAS DE TENDENCIA CENTRAL


Las medidas que describen un valor típico en un grupo de observaciones suelen
llamarse medidas de tendencia central. Es importante tener en cuenta que estas
medidas se aplican a grupos, un promedio es una característica de grupo, no individual.
Estos valores tienden a ocupar posiciones en el centro del grupo cuando el mismo se
organiza de forma ascendente o descendente. Los más conocidos y utilizados son:
1. La media aritmética.
2. La mediana.
3. La moda.
Las medidas de tendencia central, llamadas así porque tienden a localizarse en el
centro de la información, son de gran importancia en el manejo de las técnicas
estadísticas, sin embargo, su interpretación no debe hacerse aisladamente de las
medidas de dispersión, ya que la representatividad de ellas está asociada con el
grado de concentración de la información.

14
ESTADÍSTICA APLICADA – UNIDAD 1

MEDIA ARITMÉTICA
Cotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por
ejemplo, decimos que un determinado fumador consume una cajetilla de cigarrillos
diaria, no aseguramos que diariamente deba consumir exactamente los 20 cigarrillos
que contiene un paquete sino que es el resultado de la observación, es decir, dicho
sujeto puede consumir 18, un día; 19 otro; 20, 21, 22; pero según nuestro criterio, el
número de unidades estará alrededor de 20. (Guarín, 2002).

Matemáticamente, la media aritmética se define como la suma de los valores


observados dividida entre el número de observaciones.

Ejemplo: Cantidad de cigarrillos consumidos por un fumador en una semana.


1. Lunes: 18
2. Martes: 21
3. Miércoles: 22
4. Jueves: 21
5. Viernes: 20
6. Sábado: 19
7. Domingo: 19

15
ESTADÍSTICA APLICADA – UNIDAD 1

Entonces la media aritmética es:

El fumador consume en promedio 20 cigarrillos diarios.

Cuando la variable está agrupada en una distribución de frecuencias (se ordenan las
cifras), la media aritmética se calcula por la fórmula:

Ejemplo:

16
ESTADÍSTICA APLICADA – UNIDAD 1

Ejemplo:
Cálculo de la Media aritmética. El Salario/día de 50 operarias

Si la información está relacionada en una distribución de frecuencias por intervalos, se


toman como valores de la variable las marcas de clase de los intervalos, entiéndase por
marca de clase el punto medio entre los límites de cada clase o intervalo. (Guarín, 2002).

17
ESTADÍSTICA APLICADA – UNIDAD 1

Ejemplo:
Cálculo de la Media aritmética de la resistencia de 100 baldosas

La resistencia promedio de las 100 baldosas es de 448 kg/cm².

PROPIEDADES DE LA MEDIA ARITMÉTICA


1. La suma de las diferencias de los datos con respecto a la media aritmética es
igual a cero.
2. La suma de las diferencias cuadráticas de los datos, con respecto a la media
aritmética, es mínima.
Quiere decir esta propiedad que cualquier otro parámetro p, diferente a la media
aritmética hace mayor la expresión
3. Si a cada uno de los resultados le sumamos o le restamos una constante C, la
Media Aritmética queda alterada en esa constante
4. Si cada uno de los datos se multiplica por una constante k, entonces la media
aritmética queda multiplicada por esa constante. (Guarín, 2002).

LA MEDIANA
Otra medida de tendencia central, utilizada principalmente en estadística no
paramétrica, es la mediana, la cual no se basa en la magnitud de los datos, como la
media aritmética, sino en la posición central que ocupa en el orden de su
magnitud, dividiendo la información en dos partes iguales, dejando igual número
de datos por encima y por debajo de ella.

18
ESTADÍSTICA APLICADA – UNIDAD 1

La Mediana cuando los datos no están agrupados en intervalos.


Partiendo de la información bruta, ordenamos los datos ascendente o
descendentemente:

En el ejercicio de los cigarrillos, consumidos por un fumador tenemos lunes 18, martes
21, miércoles 22, jueves 21, viernes 20, sábado 19, y domingo 19.

Ordenando ascendentemente:
x1 → 18
x2 → 19
x3 → 19
x4 → 20
x5 → 21
x6 → 21
x7 → 22
n = 7, es impar;

19
ESTADÍSTICA APLICADA – UNIDAD 1

Cuando n es par:

Como se puede observar, en este caso la mediana no es un dato perteneciente a la


información, es un parámetro que divide la información dejando el 50% por encima y el
50% por debajo de ella. (Guarín, 2002).

La Mediana cuando la información se encuentra agrupada en intervalos


Si la información esta agrupada en intervalos iguales, entonces la mediana se calcula
según la siguiente expresión:

20
ESTADÍSTICA APLICADA – UNIDAD 1

Ejemplo:
En la columna de frecuencia acumulada advertimos que la observación número 50 se
halla en el cuarto intervalo 4.

Se concluye que el 50% de las baldosas resiste menos de 445.45 kg/cm2 y el 50%
resiste más de 445.45 kg/cm2. (Guarín, 2002).

LA MODA
La moda, como su nombre lo indica, es el valor más común (de mayor frecuencia dentro
de una distribución. Una información puede tener una moda y se llama unimodal, dos
modas y se llama bimodal, o varias modas y llamarse multimodal. Sin embargo puede
ocurrir que la información no posea moda.
Ilustración 1 La Moda

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

21
ESTADÍSTICA APLICADA – UNIDAD 1

La Moda cuando los datos no están agrupados en intervalos:


Tabla 12 Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

El valor que más veces se repite es 54 con una frecuencia de 12, entonces decimos que
la moda es Mo = 54.000.00 pesos diarios.

Los valores de mayor frecuencia


corresponden a 19 y 21, por lo tanto se
trata de una distribución bimodal con
Mo1=19 y Mo2=21

22
ESTADÍSTICA APLICADA – UNIDAD 1

Cálculo de la Moda cuando la información está agrupada en intervalos.


Cuando la información se encuentra agrupada en intervalos de igual tamaño la Moda se
calcula con la siguiente expresión.

Ejemplo:
Tabla 13 Resistencia de 100 Baldosas

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

A pesar que el valor 444.44 no es un dato real de la información asumimos ese


parámetro como el de mayor ocurrencia. (Guarín, 2002).

23
ESTADÍSTICA APLICADA – UNIDAD 1

MEDIDAS DE POSICIÓN (PERCENTILES)


Anteriormente, vimos lo referente a las MEDIDAS DE TENDENCIA CENTRAL, las
cuales, a su vez, son también MEDIDAS DE POSICIÓN ya que, de todas maneras
ocupan un lugar dentro de la información.
Nos ocuparemos ahora de ciertos parámetros posicionales muy útiles en la
interpretación porcentual de la información.

CUARTILES
Las cuartillas o cuartiles son valores posicionales que dividen la información en cuatro
partes iguales, el primer cuartil deja el 25% de la información por debajo de él, y el 75%
por encima, el segundo cuartil, al igual que la mediana, divide la información en dos
partes iguales, y por último el tercer cuartil deja el 75% por debajo de sí, y el 25% por
encima.

Gráficamente:
Ilustración 2 Cuartiles

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

Se necesita, entonces calcular tres cuartillas ya que la cuarta queda automáticamente


determinada.

24
ESTADÍSTICA APLICADA – UNIDAD 1

Ejemplo:

Posición que debe ser ubicada en la frecuencia acumulada, para determinar que clase
contiene este cuartil.

El 25% de las baldosas resiste menos de 352.38 kg/cm2 y el 75% tiene una resistencia
superior.
Como el segundo cuartil es lo mismo que la mediana: Me=Q2=445.45 kg/cm2.

Calculemos la tercera cuartilla k=3

El 75% de las baldosas tiene una resistencia inferior a 538.88 kg/cm2 y el 25% una
resistencia superior. (Guarín, 2002).

25
ESTADÍSTICA APLICADA – UNIDAD 1

QUINTILES
Los quintiles o quintillas dividen la información en cinco partes iguales, agrupándolas en
porcentajes de 20, 40, 60, y 80 por ciento, en consecuencia debemos calcular cuatro
parámetros:
Gráficamente:
Ilustración 3 Quintiles

Fuente: Guarín, N. (2002). Estadística aplicada. http://tifon.unalmed.edu.co/~pagudel/estadistica.html.


[imagen]

Calculemos por ejemplo la segunda quintilla para el ejercicio que traemos:

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

El 40% de las baldosas resiste menos de 415.15kg/cm2 y el 60% resiste más. (Guarín,
2002).

DECILES
Similarmente, los deciles o decillas dividen la información en diez partes iguales, en
cantidades porcentuales de 10 en 10. (Guarín, 2002).
Ilustración 4 Deciles

26
ESTADÍSTICA APLICADA – UNIDAD 1

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

CENTILES
Obviamente los centiles dividen la información en 100 partes, lo cual facilita la
interpretación porcentual de una distribución de frecuencias.

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

RESUMEN
En general para calcular cualquier percentil:

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

27
ESTADÍSTICA APLICADA – UNIDAD 1

En nuestro ejercicio, si el gerente de la fábrica de baldosas desea ofrecer un garantía


de resistencia mínima. Basado en la muestra que se ha obtenido, si no quiere remplazar
ninguna pieza, lógicamente debe afirmar que el producto resiste 100 o más kg/cm2. Pero
si está dispuesto a remplazar el 5% de su producción, entonces:

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

Se debe dar una garantía de 210 kg/cm2 de resistencia mínima. (Guarín, 2002).
MEDIDAS DE DISPERSIÓN
En el análisis estadístico no basta el cálculo e interpretación de las medidas de
tendencia central o de posición, ya que, por ejemplo, cuando pretendemos representar
toda una información con la media aritmética, no estamos siendo absolutamente fieles
a la realidad, pues pueden existir datos extremos inferiores y superiores a la media
aritmética, que no están siendo bien representados por este parámetro.
En dos informaciones con igual media aritmética, no significa este hecho, que las
distribuciones sean exactamente iguales, por lo tanto, debemos analizar el grado de
homogeneidad entre sus datos. Por ejemplo, los valores 5, 50 y 95 tiene igual media
aritmética, y mediana que los valores 49, 50 y 51; sin embargo, para la primera
información la media aritmética, se encuentra muy alejada de los valores extremos 5 y
95, cosa que no ocurre con la segunda información que posee igual media aritmética y
mediana, vemos entonces que la primera información es más heterogénea o dispersa
que la segunda.

Para medir el grado de dispersión de una variable, se utilizan principalmente los


siguientes indicadores:
● Rango o recorrido
● Desviación media
● Varianza y desviación típica o estándar
● Coeficiente de variabilidad. (Guarín, 2002).

28
ESTADÍSTICA APLICADA – UNIDAD 1

RANGO O RECORRIDO
Es la medida de dispersión más sencilla ya que solo considera los dos valores extremos
de una colección de datos, sin embargo, su mayor utilización está en el campo de la
estadística no paramétrica.
R = Xmax – Xmin
Xmax, Xmin son el máximo y el mínimo valor de la variable X, respectivamente.

En el ejemplo introductorio, vemos que el rango para la primera información es R1 = 95-


5 = 90, mientras que R2 = 51-49= 2, se hace pues manifiesta la gran dispersión de la
primera información contra la homogeneidad de la segunda. (Guarín, 2002).

DESVIACIÓN MEDIA
La desviación media, mide la distancia absoluta promedio entre cada uno de los datos,
y el parámetro que caracteriza la información. Usualmente se considera la desviación
media con respecto a la media aritmética:

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

29
ESTADÍSTICA APLICADA – UNIDAD 1

Ejemplo

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

1.400.00 es el error promedio que se comete al remplazar los ingresos diarios de cada
una de las 50 obreras por 54.100 pesos. (Guarín, 2002).

30
ESTADÍSTICA APLICADA – UNIDAD 1

VARIANZA
El problema de los signos en la desviación media, es eludido tomando los valores
absolutos de las diferencias de los datos con respecto a la media aritmética. Ahora bien,
la varianza obvia los signos elevando las diferencias al cuadrado, lo cual resulta ser más
elegante, aparte de que es supremamente útil en el ajuste de modelos estadísticos que
generalmente conllevan formas cuadráticas.
La varianza es uno de los parámetros más importantes en estadística paramétrica, se
puede decir que, teniendo conocimiento de la varianza de una población, se ha
avanzado mucho en el conocimiento de la población misma. (Guarín, 2002).
Numéricamente definimos la varianza, como desviación cuadrática media de los datos
con respecto a la media aritmética:

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

31
ESTADÍSTICA APLICADA – UNIDAD 1

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

Como los datos están expresados en miles de pesos y la varianza se encuentra en forma
cuadrática obtenemos una varianza de 3 210 000 pesos. Sin embargo para una mejor
comprensión debemos recurrir a la desviación típica o estándar definida como la raíz
cuadrada de la varianza:

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

El error estándar es de 1 791 pesos/diarios.

En el ejemplo de las baldosas:

(Guarín, 2002).

Fuente: Guarín, N. (2002). Estadística aplicada. [imagen]


http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

32
ESTADÍSTICA APLICADA – UNIDAD 1

COEFICIENTE DE VARIABILIDAD
Generalmente, interesa establecer comparaciones de la dispersión, entre diferentes
muestras que posean distintas magnitudes o unidades de medida.
El coeficiente de variabilidad tiene en cuenta el valor de la media aritmética, para
establecer un número relativo, que hace comparable el grado de dispersión entre dos o
más variables, y se define como:

Comparemos la homogeneidad de las dos informaciones anteriores, las cuales tienen


diferente unidad de medida.

Para el salario:

Para la resistencia

Concluimos que es mucho más dispersa la información correspondiente a la resistencia


de las baldosas. (Guarín, 2002).

33
ESTADÍSTICA APLICADA – UNIDAD 1

Referencias bibliográficas
1- Bibliografía Básica
● Guarín, N. (2002). Estadística aplicada.
http://tifon.unalmed.edu.co/~pagudel/estadistica.html.

2- Bibliografía Complementaria
● Del Castillo, S. y Salazar, C. (2018). FUNDAMENTOS BÁSICOS DE
ESTADÍSTICA. Primera edición.
http://www.dspace.uce.edu.ec/bitstream/25000/13720/3/Fundamentos%
20B%C3%A1sicos%20de%20Estad%C3%ADstica-Libro.pdf.
● Vergara, J. C. y Quesada, V. M. Estadística básica con aplicaciones en
MS Excel. Universidad de Cartagena. ISBN: 978-84-690-5503-8

3- Biblioteca Virtual UPAP


● Alba Fernández, M. V. (2005). Muestreo estadístico. Septem Ediciones.
https://elibro.net/es/lc/biblioupap/titulos/35263
● Matus, R. Estadística. México: Instituto Politécnico Nacional, 2010. p.
https://elibro.net/es/ereader/biblioupap/76119?page=14
● Martínez, E. Estadística. Universidad Abierta para Adultos (UAPA),
2020. p. https://elibro.net/es/ereader/biblioupap/175596?page=44
● Jorge Álvares, Á. (2010). Estadística empresarial. Firmas Press.
https://elibro.net/es/lc/biblioupap/titulos/36390

34

También podría gustarte