Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y Estadística
Diciembre de 2020
ÍNDICE
INTRODUCCIÓN............................................................................................................................. 1
DESARROLLO ................................................................................................................................. 2
DISTRIBUCIONES ............................................................................................................... 2
DISCRETAS ............................................................................................................... 2
CONTINUAS ............................................................................................................. 5
REGRESIÓN LINEAL .......................................................................................................... 9
CORRELACIÓN.................................................................................................................. 11
CONCLUSION ................................................................................................................................ 14
REFERENCIAS .............................................................................................................................. 15
INDICE DE ECUACIONES
INDICE DE FIGURAS
Todos los día se amplía el campo de trabajo de los ingenieros. El desarrollo de nuevos productos, el
diseño de prototipos, el perfeccionamiento de herramientas, máquinas y procesos, el mantenimiento,
la localización y reparación de averías, son ejemplos simples del amplio quehacer ingenieril. En cada
una de estas funciones los ingenieros deben coleccionan y analizan datos. Al respecto Bisgaard [1],
ha señalado que: “[…] hayan aprendido o no estadística, ellos harán estadística. Por tanto, el asunto
no es si utilizan estadística o no, sino cuán bien deben hacerlo”. Por tal motivo, el aprendizaje de
contenidos estadísticos constituye un aspecto importante en la formación universitaria de estos
profesionales.
En el presente trabajo se abordaran situaciones que provienen de un contexto estadístico tal es el caso
de diferentes distribuciones demás de la regresión lineal y correlación.
1
DESARROLLO
DISTRIBUCIONES
Una distribución de probabilidad nos indica todos los resultados posibles de un evento, así como su
posibilidad de ocurrencia.
La distribución de los datos que provienen de una variable estadística nos permite identificar qué
valores toma y con qué frecuencia se presenta cada valor. Los datos también pueden derivarse de la
observación de un fenómeno o experimento aleatorio. En este caso particular, la variable recibe el
nombre de variable aleatoria.
DISCRETAS
Para tomar en cuenta. Una variable aleatoria discreta puede tomar un número finito o infinito contable
de valores. Por lo general estas variables se asocian a procesos de contar, por lo que pueden tomar
valores como 0, 1, 2, 3, . . . Por ejemplo: el número de hijos por familia, la cantidad de bacterias por
unidad de área en un alimento, los años de vida de un ser humano, etcétera.[2]
Binomial
Planteada por el matemático suizo Jacob Bernoulli (1654-1705), ésta es la más sencilla de todas las
distribuciones, pues sólo estudia procesos en los cuales los resultados posibles son sólo dos, éxito o
fracaso, tienen probabilidades constantes y son independientes entre sí, la variedad de casos en los
cuales es apropiada la distribución binomial es muy amplia.[3]
Aplicabilidad:
2
La probabilidad de que un evento ocurra exactamente ”x” veces al realizar "n” veces un proceso de
Bernoulli, en la cual la probabilidad de éxito es ”p" y, en consecuencia, la probabilidad de fracaso es
1 − 𝑝 (conocida como ”q”), está dada por la siguiente expresión:
𝑥 = número de éxitos esperados, pueden ser todos los valores enteros entre 0 y n.
La media y la varianza de una distribución binomial son dos medidas de gran utilidad, sobre todo si
se considera que una aplicación típica de la distribución binomial puede resolverse por medio de otra
distribución más general. Las fórmulas que se utilizan para calcular la media y la varianza de una
distribución binomial son útiles cuando la muestra proviene de una población infinita, o cuando la
muestra no excede del 5% de la población total.[4]
𝑴𝒆𝒅𝒊𝒂 = 𝝁 = 𝒏𝒑
3
Esta distribución se ha utilizado y comprobado su gran utilidad en control de calidad, y problemas de
muestreo y encuestas, casos que, por supuesto están dentro de la ingeniería, por ejemplo, control de
calidad está dentro de la ingeniería química y/o de alimentos.
Poisson
El concepto de evento ”raro” o poco frecuente debe entenderse en el sentido de que la probabilidad
de observar 𝑘 eventos decrece rápidamente a medida que 𝑘 aumenta. Para que una variable recuento
siga una distribución de Poisson deben cumplirse las condiciones siguientes:
2. La probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan reducida
que, a efectos prácticos, se puede considerar nula.
Esta distribución, que debe su nombre al matemático francés Simeón Denis Poisson (1781- 1840), ya
había sido introducida en 1718 por Abraham De Moivre como una forma límite de la distribución
binomial que surge cuando se observa un evento raro después de un gran número de repeticiones.[5]
4
De acuerdo con Obando López y Arango Londoño [7], la media y varianza de la distribución de
Poisson se obtienen según:
𝑴𝒆𝒅𝒊𝒂 = 𝝁 = 𝒏
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝒏
Hay muchos fenómenos aleatorios interesantes en las ciencias que satisfacen las condiciones de la
densidad de probabilidad de Poisson, problemas típicos en los que la probabilidad 𝑝 de que el evento
ocurra es relativamente pequeña y el número de observaciones 𝑛 es grande son aquellos problemas
que están relacionados con ocurrencias raras de eventos en un intervalo de tiempo.[6]
Esta distribución se puede expresar de forma gráfica, pues consiste en un diagrama de barras con
forma asimétrica positiva (como sucede con la distribución binomial). Sin embargo, al ir aumentando
los valores de 𝜆, va adquiriendo la típica forma de la campana de Gauss, pudiendo deducirse, que
conforme aumenta 𝜆, las variables de Poisson van a poder aproximarse a la distribución normal. La
aproximación se considera buena para valores de 𝜆 iguales o superiores a nueve.
CONTINUAS
Para tomar en cuenta. Una variable aleatoria continua puede tomar cualquier valor entre un intervalo
dado, por tal motivo es común que se expresen mediante rangos de valores. Por lo común estas
variables se asocian a procesos de medir.[3] Por ejemplo: la temperatura de una ciudad durante el día,
el peso de una muestra de personas sujetas a un tratamiento dietético, la calificación de un examen.
Normal
5
reacción en experimentos psicológicos, mediciones de inteligencia y aptitud, calificaciones en varios
exámenes y numerosas medidas e indicadores económicos.[8]
Se dice que una variable aleatoria continua “x” tiene una distribución normal con parámetros 𝝁 y 𝝈
(o 𝝁 y 𝝈𝟐), dónde −∞ < 𝜇 < ∞ y 0 < 𝜎 , si la función de densidad de probabilidad de 𝑥 es:
𝟏 𝟐 /(𝟐𝝈𝟐 )
𝒇(𝒙; 𝝁, 𝝈) = 𝒆−(𝒙−𝝁) Ecuación 3. Distribución Normal
√𝟐𝝅𝝈
De nuevo, 𝑒 denota la base del sistema de logaritmos naturales y es aproximadamente igual a 2.7182
y 𝜋 representa la conocida constante matemática con un valor aproximado de 3.14159.
𝜎 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟;
𝑴𝒆𝒅𝒊𝒂 = 𝝁
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝝈𝟐
Gamma
Según Rosenthal y Evans [9], podemos utilizar la función gamma para definir la densidad de la
distribución Gamma (𝑥, 𝜆) de la siguiente manera. Sean 𝛼 > 0, 𝜆 > 0 y 𝑓 una función definida por:
𝒙𝜶−𝟏 −𝝀𝒙
𝒇(𝒙) = 𝒆 Ecuación 4. Distribución Gamma
𝝀𝜶 𝚪(𝜶)
Una variable aleatoria 𝑋 que tiene una función densidad 𝑓 definida por la ecuación anterior se dice
que sigue una distribución Gamma con parámetros 𝜶 y 𝝀, lo que representamos por
𝑋~𝐺𝑎𝑚𝑚𝑎(𝛼, 𝜆).
De acuerdo con Obando López y Arango Londoño [7], el valor esperado (media) de la distribución
𝝀𝜶 ∞
Gamma es:𝝁(𝒙) = ∫
𝚪(𝜶) 𝟎
𝒙𝒙𝜶−𝟏 𝒆−𝝀𝒙 𝒅𝒙 = 𝜶𝝀, y la varianza es: 𝝈𝟐 (𝒙) = 𝝁𝒙𝟐 − (𝝁𝒙)𝟐 = 𝜶𝝀𝟐 .
6
En general, la distribución gamma es una distribución flexible para modelizar las formas de la
asimetría positiva, de las más concentradas y puntiagudas, a las más dispersas y achatadas. Lo anterior
es debido a sus parámetros (𝛼 y 𝜆), por ejemplo, el primer parámetro (𝛼) sitúa la máxima intensidad
de probabilidad y por este motivo es denominada la forma de la distribución. Cuando se toman valores
próximos a cero aparece entonces un dibujo muy similar al de la distribución exponencial. Cuando se
toman valores grandes de 𝛼, el centro de la distribución se desplaza a la derecha, por lo que va
apareciendo la forma de la campana de Gauss con asimetría positiva.
Esta distribución es útil en ingenierías que conllevan situaciones donde el tiempo relevante es el de
espera a que ocurra un número entero de eventos. Se ha aplicado en problemas de confiabilidad, en
teoría de colas y para modelar precipitación pluvial diaria en varias regiones del mundo.
Exponencial
Como menciona Llinás Solano [6], realmente esta distribución se puede considerar como un caso
especial de la distribución gamma cuando en la fórmula tomamos 𝛼 = 1.
𝟎, 𝒑𝒂𝒓𝒂 𝒙 < 𝟎
𝒇(𝒙): = 𝒇(𝒙; 𝝀) = { −𝝀𝒙 Ecuación 5. Distribución Exponencial
𝝀𝒆 , 𝒙≥𝟎
Según Devore [8], para obtener la media y la varianza para la distribución exponencial, se utilizan:
𝟏
𝑴𝒆𝒅𝒊𝒂 = 𝝁 =
𝝀
𝟏
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝝈𝟐 =
𝝀𝟐
La distribuciones exponencial juega un papel importante tanto en teoría de colas como en problemas
de confiabilidad. Para un ingeniero eléctrico o electromecánico, el tiempo entre las llegadas en las
instalaciones de servicio y el tiempo de falla de los componentes y sistemas eléctricos, frecuentemente
involucran la distribución exponencial. En muchas aplicaciones, el período o la cantidad de espacio
7
es la variable aleatoria. Por ejemplo, un ingeniero industrial puede interesarse en el tiempo T entre
llegadas en una intersección congestionada durante la hora de salida de trabajo en una gran ciudad.
Weibull
El físico sueco Waloddi Weibull introdujo la familia de distribuciones Weibull en 1939; su artículo
de 1951 “A Statiscal Distribution Function of Wide Applicability” aborda varias aplicaciones.[8]
De acuerdo con Llinás Solano [6], una variable aleatoria 𝑋 tiene distribución de Weibull con
parámetros 𝛼, 𝛽, 𝛾 > 0, en símbolos, 𝑋 = 𝑊(𝛼, 𝛽, 𝛾), si su densidad de probabilidad está dada por:
𝜷
𝜷 𝒙 − 𝜸 𝜷−𝟏 (𝒙 − 𝜸)
( ) 𝒆𝒙𝒑 {− [ ] } 𝒔𝒊 𝒙 > 𝜸 Ecuación 6. Distribución de
𝒇(𝒙) = {𝜶 𝜶 𝜶
Weibull
𝟎, 𝒅𝒆 𝒐𝒕𝒓𝒐 𝒎𝒐𝒅𝒐
Los tres parámetros, 𝜶, 𝜷, 𝜸, que describen completamente a la densidad de Weibull son de mucha
importancia. Aquí 𝛼 es un parámetro de escala, 𝛽 es un parámetro de forma y 𝛾 es el parámetro de
localización.
Por otra parte, para Obando López y Arango Londoño [7], una variable aleatoria 𝑋~𝑊𝑒𝑖𝑏𝑢𝑙𝑙(𝛼, 𝛽)
si la función de densidad de X está dada por:
𝛽
𝑓(𝑥) = 𝛼𝛽𝑥 𝛽−1 𝑒 −𝛼𝑥 𝑥>0
𝟏 𝟏
−
𝝁(𝒙) = 𝜶 𝜷 𝚪 (𝟏 + )
𝜷
𝟐
𝟐 𝟏
𝑽𝒂𝒓(𝒙) = 𝜶−𝟐/𝜷 {𝚪 (𝟏 + ) − [𝚪 (𝟏 + )] }
𝜷 𝜷
El comportamiento gráfico de esta distribución muestra cómo varía 𝑓(𝑥) respecto al tiempo (o en
otro caso el número de ciclos); una vez hecho el gráfico, puede pasar que salga directamente a una
línea recta (en cuyo caso 𝛾 = 0) o que salga una curva (𝛾 ≠ 0). En este segundo caso existe un
periodo de tiempo entre en que ningún componente falla (si 𝛾 es positivo) o parte de las muestras
8
fallan antes de ensayarlas (caso de 𝛾 negativo). El parámetro 𝛾 es aquel valor que se le tiene que restar
a todos los tiempos para que los puntos representados sigan una recta.
• Zobeck, Gill, y Popham [10], usaron una distribución Weibull para describir el tamaño de
partículas de polvo en el aire.
• Jiang, y Murthy [11], revisaron el uso de distribuciones Weibull en estudios de confiabilidad
para modelar tiempos de vida, edades de reemplazo y vida residual en equipos y
componentes.
• Razali, Abidin, Zaharim, y Sopian [12], modelaron datos de velocidades de vientos con una
distribución Weibull.
REGRESIÓN LINEAL
Según, Gorgas García, Cardial López y Zamorano Calvo [13], dentro del estudio de las variables
estadísticas bidimensionales se aborda el análisis de la existencia de relaciones o dependencias entre
las dos variables x e y que forman la variable bidimensional.
El primer paso para el estudio de la relación entre las variables consiste en la construcción y
observación de un diagrama de dispersión (Figura 1). El problema de la regresión se concreta entonces
en ajustar una función a la nube de puntos representada en dicho diagrama. Esta función permitirá
entonces obtener, al menos de forma aproximada, una estimación del valor de una de las variables a
partir del valor que tome la otra.[13]
9
Se conoce como línea de regresión a la representación gráfica de la función que se ajusta a la nube de
puntos del diagrama de dispersión. Un primer problema para el estudio de la regresión es la elección
del tipo de línea de regresión. Efectivamente, ésta podrá adoptar diferentes formas funcionales, y el
tipo de línea se elegirá a partir de la forma de la nube de puntos. Cuando dicha nube se distribuya
aproximadamente a lo largo de una línea recta ajustaremos una recta de regresión. Será el caso
particular de la regresión lineal. En este caso importante, la regresión de y sobre x vendrá dada
entonces por: 𝑦 = 𝑎 + 𝑏𝑥, donde 𝑎 y 𝑏 son dos parámetros que hay que determinar. Gráficamente 𝑎
será la ordenada de la recta en el origen (es decir el valor de 𝑦 para x 𝑥 = 0) y 𝑏 la pendiente de
ésta.[13]
Para calcular la recta que mejor se ajusta a la nube de puntos observada se usa el método de mínimos
cuadrados. Gorgas García, Cardial López y Zamorano Calvo [13], muestran (a continuación) en qué
consiste.
Sea una muestra de tamaño n en que la variable estadística bidimensional toma los valores
𝑦𝑖∗ = 𝑎 + 𝑏𝑥𝑖
Llamemos 𝑑𝑖 a la diferencia entre los dos valores, observado y dado por la recta, de la variable 𝑦 en
cada punto: 𝑑𝑖 = 𝑦𝑖∗ − 𝑦𝑖
Para que la recta a determinar sea la que mejor se ajuste a la nube de puntos de entre todas las rectas
posibles, dichas distancias 𝑑𝑖 deberán ser lo más pequeñas posible. Es decir, hay que minimizar los
𝑑𝑖 . Para ello es conveniente tomar los cuadrados de las distancias, para que así no se anulen
desviaciones positivas y negativas. De esta forma, el problema se reduce a minimizar la expresión:
𝑛 𝑛 𝑛
Para encontrar los valores de 𝑎 y 𝑏 que hacen mínima esa expresión se deriva M respecto a esos dos
parámetros y se igualan las derivadas a 0 (a partir de aquí se simplifica la notación de los sumatorios
y no se indica que el índice va desde 𝑖 = 1 hasta 𝑛).
10
Desarrollando los sumatorios se obtiene un sistema sencillo de ecuaciones, conocidas como
ecuaciones normales, el cual se puede resolver por el método de Cramer, calculando en primer lugar
el determinante y cada uno de los parámetros:
1 ∑ 𝑦𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖2 ∑ 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑥𝑖 , 𝑦𝑖
𝑎= | |=
∆ ∑𝑥 ,𝑦 ∑ 𝑥2 𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
𝑖 𝑖 𝑖
1 𝑛 ∑ 𝑦𝑖 𝑛 ∑ 𝑥𝑖 , 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑏= | |=
∆ ∑𝑥 ∑ 𝑥𝑖 , 𝑦𝑖 𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
𝑖
Estas expresiones para los parámetros de la recta se pueden simplificar introduciendo las definiciones
de media:
∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑥̅ = y 𝑦̅ =
𝑛 𝑛
1
∑ 𝑥𝑖 , 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑏= 𝑛
1
∑ 2 2
𝑛 𝑥𝑖 − 𝑥̅
Por otra parte, se tiene 𝑦̅ = 𝑎 + 𝑏𝑥̅ , que indica que la recta de regresión debe pasar por (𝑥̅ , 𝑦̅), es
decir, por el centro de la nube de puntos.
CORRELACIÓN
De acuerdo con Johnson [14], un diagrama de dispersión ofrece una impresión visual de la relación
entre los valores 𝑥 y 𝑦 en un conjunto de datos bivariado. A menudo, los puntos parecen dispersarse
en torno a una recta. La cercanía de la dispersión a una línea recta se expresa numéricamente en
términos del coeficiente de correlación. La mejor interpretación del coeficiente de correlación
muestral está en términos de las observaciones estandarizadas:
11
𝑛
𝑟 = +1 si todos los pares 𝑓(𝑥, 𝑦) caen exactamente sobre una línea recta que tenga una pendiente
positiva.
𝑟 > 0 si el patrón en el gráfico de dispersión va del extremo inferior izquierdo al superior derecho.
𝑟 < 0 si el patrón en el gráfico de dispersión va del extremo superior izquierdo al inferior derecho.
𝑟 = −1 si todos los pares 𝑓(𝑥, 𝑦) yacen exactamente sobre una línea recta que tenga una
pendiente negativa.
➢ Un valor de 𝑟 cercano a cero implica que la asociación lineal es débil. Todavía puede existir
una asociación fuerte a lo largo de la curva.
Existe también, una fórmula de cálculo más sencilla para 𝑟, teniendo en cuenta las definiciones de
𝑆𝑥𝑥 , 𝑆𝑥𝑦 y 𝑆𝑦𝑦 .
𝑆𝑥𝑦
𝑟=
√𝑆𝑥𝑥 ∗ 𝑆𝑦𝑦
Por último, para Hernández Garciadiego, Hernández Garciadiego y de Oteyza [4], cuando se hacen
estudios de correlación lineal entre 2 variables, otro dato que suele reportarse es el cuadrado del
coeficiente de correlación:
2 Ecuación 8. Coeficiente de
𝑅 2 = (𝑟𝑥𝑦 )
determinación
que es el coeficiente de determinación, pero se le conoce simplemente como R cuadrada.
12
Dado que 𝑅 es un número entre −1 y 1, su cuadrado, 𝑅 2 es un número entre 0 y 1, y se interpreta
como la parte de la variable que se encuentra en el eje 𝑦 que puede explicarse a través de la variable
del eje 𝑥.
Para una forma distinta de expresar el coeficiente de determinación, Gamero Burón [15], partiendo
de una igualdad de varianzas, define el coeficiente de determinación (𝑅 2) como la proporción o
porcentaje de la variación total de la variable dependiente que viene explicada por el modelo
matemático:
𝑆𝑦2∗
𝑅2 =
𝑆𝑦2
Por otro lado, en cuanto a su interpretación, se tiene que cuanto mayor sea 𝑅 2 mejor será el ajuste, y
viceversa. 𝑅 2 = 1 implica 𝑆𝑒2 = 0 y, por lo tanto, que el ajuste es perfecto (la dependencia estadística
es una dependencia matemática). Por el contrario, si 𝑅 2 = 0, entonces 𝑆𝑒2 = 𝑆𝑦2 de manera que el
modelo lineal resulta totalmente inadecuado.
13
CONCLUSION
La disciplina de la Estadística para un estudiante de Ingeniería enseña cómo razonar de manera lógica
y tomar decisiones en presencia de incertidumbre. De esta forma, la Estadística se configura como
una herramienta de gran valor para los ingenieros ya que ayuda al diseño de nuevos productos y
sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos de producción.
14
REFERENCIAS
[1] S. Bisgaard, Teaching statistics to engineers. The American Statistician, Alexandria, v. 45,
n. 4, 1991, p. 274-283.
[2] E. A. Sánchez Sánchez, Probabilidad y estadística II. México D.F: Grupo Editorial Patria,
2015. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/40387?
[5] A. M. Juan González, Probabilidad. Almería: Editorial Universidad de Almería, 2016. [En
Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/44558?
[7] J. Obando López y N. Arango Londoño, Probabilidad y estadística. Fondo Editorial EIA,
2019. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/125705?
[8] J. L. Devore, Probabilidad y estadística para ingeniería y ciencias (9a. ed.). México:
Cengage Learning, 2016. [En Línea] Disponible en:
https://elibro.net/es/ereader/bibliotecauv/93280?
[11] R. Jiang, y D.N.P. Murthy, A study of Weibull shape parameter: Properties and significance,
Reliability Engineering & System Safety.Volume 96. 2011, Pages 1619-1626. . [En Línea]
15
Disponible en:
https://www.sciencedirect.com/science/article/pii/S095183201100175X?via%3Dihub
[13] J. Gorgas García, N. Cardial López y J. Zamorano Calvo, Estadística Básica Para
Estudiantes de Ciencia. España: Universidad Computense de Madrid, 2011. [En línea]
Disponible en:
https://webs.ucm.es/info/Astrof/users/jaz/ESTADISTICA/libro_GCZ2009.pdf
[14] R. A. Johnson, Probabilidad y estadística para ingenieros (8a. ed.). México D.F: Pearson
Educación, 2012. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/37870?
16