Está en la página 1de 18

“ Distribuciones, Regresión Lineal y Correlación”

Probabilidad y Estadística

Diciembre de 2020
ÍNDICE

INTRODUCCIÓN............................................................................................................................. 1
DESARROLLO ................................................................................................................................. 2
DISTRIBUCIONES ............................................................................................................... 2
DISCRETAS ............................................................................................................... 2
CONTINUAS ............................................................................................................. 5
REGRESIÓN LINEAL .......................................................................................................... 9
CORRELACIÓN.................................................................................................................. 11
CONCLUSION ................................................................................................................................ 14
REFERENCIAS .............................................................................................................................. 15

INDICE DE ECUACIONES

Ecuación 1. Distribución Binomial ..................................................................................................... 3


Ecuación 2. Distribución de Poisson ................................................................................................... 4
Ecuación 3. Distribución Normal ........................................................................................................ 6
Ecuación 4. Distribución Gamma ....................................................................................................... 6
Ecuación 5. Distribución Exponencial ................................................................................................ 7
Ecuación 6. Distribución de Weibull .................................................................................................. 8
Ecuación 7. Coeficiente de correlación ............................................................................................. 12
Ecuación 8. Coeficiente de determinación ........................................................................................ 12

INDICE DE FIGURAS

Figura 1. Ejemplo de diagrama de dispersión. .................................................................................... 9


INTRODUCCIÓN

Todos los día se amplía el campo de trabajo de los ingenieros. El desarrollo de nuevos productos, el
diseño de prototipos, el perfeccionamiento de herramientas, máquinas y procesos, el mantenimiento,
la localización y reparación de averías, son ejemplos simples del amplio quehacer ingenieril. En cada
una de estas funciones los ingenieros deben coleccionan y analizan datos. Al respecto Bisgaard [1],
ha señalado que: “[…] hayan aprendido o no estadística, ellos harán estadística. Por tanto, el asunto
no es si utilizan estadística o no, sino cuán bien deben hacerlo”. Por tal motivo, el aprendizaje de
contenidos estadísticos constituye un aspecto importante en la formación universitaria de estos
profesionales.

Se ha reportado que, a la altura de la culminación de estudios, los estudiantes de ingeniería vienen a


comprender la importancia de la estadística en su formación profesional, pero la perdurabilidad y
solidez del conocimiento resulta insuficiente.

Un concepto de vital importancia en el aprendizaje de los contenidos estadísticos es el concepto de


distribución, el cual, un poco erróneamente está asociado a la idea primaria de variabilidad.

Las distribuciones de probabilidad constituyen un tema en el que confluyen tanto conceptos de


estadística como de probabilidad. De hecho, son un puente que conecta estas dos importantes áreas,
y son la puerta de entrada a la inferencia estadística. En estadística se estudian distribuciones de datos,
que se describen mediante medidas de tendencia central y variabilidad. Sin embargo, en las
aplicaciones más frecuentes de la estadística los datos son tomados de muestras de una población o
de experimentos aleatorizados, por lo que están sujetos a incertidumbre.

Se requiere, por lo tanto, establecer medidas probabilísticas de confiabilidad para hacer


generalizaciones y obtener conclusiones válidas. Las distribuciones de probabilidad desempeñan un
papel muy importante para lo anterior, ya que permiten conocer todos los valores posibles de una
variable aleatoria y sus respectivas probabilidades.

Con frecuencia el estudio de la probabilidad se ve como un aspecto separado de la estadística, sin


embargo, existen importantes conexiones entre diversas situaciones cotidianas con la probabilidad y
la estadística.

En el presente trabajo se abordaran situaciones que provienen de un contexto estadístico tal es el caso
de diferentes distribuciones demás de la regresión lineal y correlación.

1
DESARROLLO

DISTRIBUCIONES
Una distribución de probabilidad nos indica todos los resultados posibles de un evento, así como su
posibilidad de ocurrencia.

La distribución de los datos que provienen de una variable estadística nos permite identificar qué
valores toma y con qué frecuencia se presenta cada valor. Los datos también pueden derivarse de la
observación de un fenómeno o experimento aleatorio. En este caso particular, la variable recibe el
nombre de variable aleatoria.

DISCRETAS
Para tomar en cuenta. Una variable aleatoria discreta puede tomar un número finito o infinito contable
de valores. Por lo general estas variables se asocian a procesos de contar, por lo que pueden tomar
valores como 0, 1, 2, 3, . . . Por ejemplo: el número de hijos por familia, la cantidad de bacterias por
unidad de área en un alimento, los años de vida de un ser humano, etcétera.[2]

Binomial

Planteada por el matemático suizo Jacob Bernoulli (1654-1705), ésta es la más sencilla de todas las
distribuciones, pues sólo estudia procesos en los cuales los resultados posibles son sólo dos, éxito o
fracaso, tienen probabilidades constantes y son independientes entre sí, la variedad de casos en los
cuales es apropiada la distribución binomial es muy amplia.[3]

Aplicabilidad:

- Sólo son posibles dos resultados mutuamente excluyentes.


- La probabilidad de éxito permanece constante durante todas .
- EI total de observaciones posibles (o población) es muy grande o infinito, en relación con el
número de observaciones (o muestra) que se realiza.
- Los resultados son independientes entre sí.

2
La probabilidad de que un evento ocurra exactamente ”x” veces al realizar "n” veces un proceso de
Bernoulli, en la cual la probabilidad de éxito es ”p" y, en consecuencia, la probabilidad de fracaso es
1 − 𝑝 (conocida como ”q”), está dada por la siguiente expresión:

𝑷(𝒙) = 𝒏𝑪𝒙 ∙ 𝒑𝒙 𝒒𝒏−𝒙 Ecuación 1. Distribución Binomial

𝑃(𝑥) = es la probabilidad de que sucedan exactamente “x” éxitos de “n” intentos.

𝑛𝐶𝑥 = es la combinación del total de intentos y número de éxitos.

𝑥 = número de éxitos esperados, pueden ser todos los valores enteros entre 0 y n.

𝑛 = número de veces que se realiza la operación.

𝑝 = probabilidad de obtener éxito.

𝑞 = Probabilidad de obtener un fracaso, es decir, es el complemento de éxito 𝑞 = 1 − 𝑝

Tratándose de distribución binomial, los parámetros son 𝒏 y 𝒑. Lo anterior se acostumbra a expresar


simbólicamente de la siguiente manera: 𝑋~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑛, 𝑝). [3]

La media y la varianza de una distribución binomial son dos medidas de gran utilidad, sobre todo si
se considera que una aplicación típica de la distribución binomial puede resolverse por medio de otra
distribución más general. Las fórmulas que se utilizan para calcular la media y la varianza de una
distribución binomial son útiles cuando la muestra proviene de una población infinita, o cuando la
muestra no excede del 5% de la población total.[4]

𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠; 𝑝 = 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 é𝑥𝑖𝑡𝑜

𝑴𝒆𝒅𝒊𝒂 = 𝝁 = 𝒏𝒑

𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝒏𝒑(𝟏 − 𝒑)

Nótese que la varianza es máxima cuando 𝑝 = 𝑞 = 1/2.

La distribución binomial se puede expresar de forma gráfica, y es que en realidad consiste en un


diagrama de barras, similar a los obtenidos en la función de probabilidad pero que van a ir variando
su forma en función de los valores de 𝑛 y de 𝑝 al modificarse las probabilidades de los distintos
posibles valores de 𝑃(𝑋 = 𝑥). La gráfica es simétrica para 𝑝 = 0.5. Si 𝑝 < 0.5 presenta asimetría
positiva y si 𝑝 > 0.5 presenta asimetría negativa.

3
Esta distribución se ha utilizado y comprobado su gran utilidad en control de calidad, y problemas de
muestreo y encuestas, casos que, por supuesto están dentro de la ingeniería, por ejemplo, control de
calidad está dentro de la ingeniería química y/o de alimentos.

Poisson

La distribución de Poisson surge cuando un evento o suceso ”raro” ocurre aleatoriamente en


intervalos que pueden ser temporales, espaciales o de cualquier otro tipo. Por ejemplo, el número de
llamadas telefónicas por minuto en algún tablero de interruptores, el número de errores de impresión
por página en un texto grande, el número de partículas emitidas por una sustancia radiactiva,
etcétera.[5]

El concepto de evento ”raro” o poco frecuente debe entenderse en el sentido de que la probabilidad
de observar 𝑘 eventos decrece rápidamente a medida que 𝑘 aumenta. Para que una variable recuento
siga una distribución de Poisson deben cumplirse las condiciones siguientes:

1. En un intervalo muy pequeño (p.e. un milisegundo) la probabilidad de que ocurra un evento


es proporcional al tamaño del intervalo.

2. La probabilidad de que ocurran dos o más eventos en un intervalo muy pequeño es tan reducida
que, a efectos prácticos, se puede considerar nula.

3. El número de ocurrencias en un intervalo pequeño no depende de lo que ocurra en cualquier


otro intervalo pequeño que no se solape con aquél.

Formalmente, la v.a. de Poisson, 𝑋~𝑃(𝜆), es la que describe el número de éxitos ocurridos en un


intervalo de tiempo o de espacio determinado. Su parámetro λ o tasa de ocurrencia, es el número
medio de ocurrencias del suceso observado en un intervalo unidad, y su función de masa es:
𝝀𝒙
𝑷(𝒙) = Ecuación 2. Distribución de Poisson
𝒙! 𝒆𝝀
𝑥 = número de éxitos.

𝜆 = promedio de ocurrencia de un evento

𝑒 = base del logaritmo natural, cuyo valor es 2.7182

Esta distribución, que debe su nombre al matemático francés Simeón Denis Poisson (1781- 1840), ya
había sido introducida en 1718 por Abraham De Moivre como una forma límite de la distribución
binomial que surge cuando se observa un evento raro después de un gran número de repeticiones.[5]

4
De acuerdo con Obando López y Arango Londoño [7], la media y varianza de la distribución de
Poisson se obtienen según:

𝑛 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑒𝑐𝑒𝑠 𝑞𝑢𝑒 𝑜𝑐𝑢𝑟𝑟𝑒 𝑢𝑛 𝑒𝑣𝑒𝑛𝑡𝑜;

𝑴𝒆𝒅𝒊𝒂 = 𝝁 = 𝒏

𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝒏

Hay muchos fenómenos aleatorios interesantes en las ciencias que satisfacen las condiciones de la
densidad de probabilidad de Poisson, problemas típicos en los que la probabilidad 𝑝 de que el evento
ocurra es relativamente pequeña y el número de observaciones 𝑛 es grande son aquellos problemas
que están relacionados con ocurrencias raras de eventos en un intervalo de tiempo.[6]

Esta distribución se puede expresar de forma gráfica, pues consiste en un diagrama de barras con
forma asimétrica positiva (como sucede con la distribución binomial). Sin embargo, al ir aumentando
los valores de 𝜆, va adquiriendo la típica forma de la campana de Gauss, pudiendo deducirse, que
conforme aumenta 𝜆, las variables de Poisson van a poder aproximarse a la distribución normal. La
aproximación se considera buena para valores de 𝜆 iguales o superiores a nueve.

La distribución de Poisson se aplica en algunas ingenierías como industrial e informática, además, se


utiliza para conteo de eventos de interés cuando se puede en principio, contar cualquier número de
eventos. El lapso de observación suele ser tiempo, pero también aplica en espacios físicos (p. ej. núm.
de defectos por metro lineal en un cable, o el número de defectos por 𝑚2 , etc.)

CONTINUAS
Para tomar en cuenta. Una variable aleatoria continua puede tomar cualquier valor entre un intervalo
dado, por tal motivo es común que se expresen mediante rangos de valores. Por lo común estas
variables se asocian a procesos de medir.[3] Por ejemplo: la temperatura de una ciudad durante el día,
el peso de una muestra de personas sujetas a un tratamiento dietético, la calificación de un examen.

Normal

La distribución normal es la más importante tanto en la probabilidad y en la estadística. Muchas


poblaciones numéricas tienen distribuciones que pueden ser representadas muy fielmente mediante
una curva normal apropiada. los ejemplos incluyen estaturas, pesos y otras características físicas,
errores de medición en experimentos científicos, mediciones antropométricas en fósiles, tiempos de

5
reacción en experimentos psicológicos, mediciones de inteligencia y aptitud, calificaciones en varios
exámenes y numerosas medidas e indicadores económicos.[8]

Se dice que una variable aleatoria continua “x” tiene una distribución normal con parámetros 𝝁 y 𝝈
(o 𝝁 y 𝝈𝟐), dónde −∞ < 𝜇 < ∞ y 0 < 𝜎 , si la función de densidad de probabilidad de 𝑥 es:

𝟏 𝟐 /(𝟐𝝈𝟐 )
𝒇(𝒙; 𝝁, 𝝈) = 𝒆−(𝒙−𝝁) Ecuación 3. Distribución Normal
√𝟐𝝅𝝈

De nuevo, 𝑒 denota la base del sistema de logaritmos naturales y es aproximadamente igual a 2.7182
y 𝜋 representa la conocida constante matemática con un valor aproximado de 3.14159.

La media y varianza de la distribución normal se obtienen normalmente, con:

𝜎 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟;

𝑴𝒆𝒅𝒊𝒂 = 𝝁

𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝝈𝟐

Si se tratase de una distribución normal estándar, la media es igual a 0, y la varianza igual a 1.

La gráfica correspondiente a la distribución normal se denomina campana de Gauss o gaussiana, en


honor a Carl Friedrich Gauss, quién fue el primero en estudiar la distribución normal.

Gamma

Según Rosenthal y Evans [9], podemos utilizar la función gamma para definir la densidad de la
distribución Gamma (𝑥, 𝜆) de la siguiente manera. Sean 𝛼 > 0, 𝜆 > 0 y 𝑓 una función definida por:

𝒙𝜶−𝟏 −𝝀𝒙
𝒇(𝒙) = 𝒆 Ecuación 4. Distribución Gamma
𝝀𝜶 𝚪(𝜶)

Una variable aleatoria 𝑋 que tiene una función densidad 𝑓 definida por la ecuación anterior se dice
que sigue una distribución Gamma con parámetros 𝜶 y 𝝀, lo que representamos por
𝑋~𝐺𝑎𝑚𝑚𝑎(𝛼, 𝜆).

De acuerdo con Obando López y Arango Londoño [7], el valor esperado (media) de la distribución
𝝀𝜶 ∞
Gamma es:𝝁(𝒙) = ∫
𝚪(𝜶) 𝟎
𝒙𝒙𝜶−𝟏 𝒆−𝝀𝒙 𝒅𝒙 = 𝜶𝝀, y la varianza es: 𝝈𝟐 (𝒙) = 𝝁𝒙𝟐 − (𝝁𝒙)𝟐 = 𝜶𝝀𝟐 .

6
En general, la distribución gamma es una distribución flexible para modelizar las formas de la
asimetría positiva, de las más concentradas y puntiagudas, a las más dispersas y achatadas. Lo anterior
es debido a sus parámetros (𝛼 y 𝜆), por ejemplo, el primer parámetro (𝛼) sitúa la máxima intensidad
de probabilidad y por este motivo es denominada la forma de la distribución. Cuando se toman valores
próximos a cero aparece entonces un dibujo muy similar al de la distribución exponencial. Cuando se
toman valores grandes de 𝛼, el centro de la distribución se desplaza a la derecha, por lo que va
apareciendo la forma de la campana de Gauss con asimetría positiva.

Esta distribución es útil en ingenierías que conllevan situaciones donde el tiempo relevante es el de
espera a que ocurra un número entero de eventos. Se ha aplicado en problemas de confiabilidad, en
teoría de colas y para modelar precipitación pluvial diaria en varias regiones del mundo.

Exponencial

Como menciona Llinás Solano [6], realmente esta distribución se puede considerar como un caso
especial de la distribución gamma cuando en la fórmula tomamos 𝛼 = 1.

Una variable aleatoria 𝑋, tiene distribución exponencial, en símbolos y con un parámetro 𝝀,


𝑋 = exp(𝜆), si para todo 𝜆 > 0 su densidad es:

𝟎, 𝒑𝒂𝒓𝒂 𝒙 < 𝟎
𝒇(𝒙): = 𝒇(𝒙; 𝝀) = { −𝝀𝒙 Ecuación 5. Distribución Exponencial
𝝀𝒆 , 𝒙≥𝟎

Según Devore [8], para obtener la media y la varianza para la distribución exponencial, se utilizan:

𝟏
𝑴𝒆𝒅𝒊𝒂 = 𝝁 =
𝝀

𝟏
𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 = 𝑽𝒂𝒓 = 𝝈𝟐 =
𝝀𝟐

Al tratarse de una distribución exponencial, su forma típica de comportamiento es al de la función


exponencial, y al ser un caso especial de la distribución gamma, su comportamiento es similar a ésta
también.

La distribuciones exponencial juega un papel importante tanto en teoría de colas como en problemas
de confiabilidad. Para un ingeniero eléctrico o electromecánico, el tiempo entre las llegadas en las
instalaciones de servicio y el tiempo de falla de los componentes y sistemas eléctricos, frecuentemente
involucran la distribución exponencial. En muchas aplicaciones, el período o la cantidad de espacio

7
es la variable aleatoria. Por ejemplo, un ingeniero industrial puede interesarse en el tiempo T entre
llegadas en una intersección congestionada durante la hora de salida de trabajo en una gran ciudad.

Weibull

El físico sueco Waloddi Weibull introdujo la familia de distribuciones Weibull en 1939; su artículo
de 1951 “A Statiscal Distribution Function of Wide Applicability” aborda varias aplicaciones.[8]

De acuerdo con Llinás Solano [6], una variable aleatoria 𝑋 tiene distribución de Weibull con
parámetros 𝛼, 𝛽, 𝛾 > 0, en símbolos, 𝑋 = 𝑊(𝛼, 𝛽, 𝛾), si su densidad de probabilidad está dada por:

𝜷
𝜷 𝒙 − 𝜸 𝜷−𝟏 (𝒙 − 𝜸)
( ) 𝒆𝒙𝒑 {− [ ] } 𝒔𝒊 𝒙 > 𝜸 Ecuación 6. Distribución de
𝒇(𝒙) = {𝜶 𝜶 𝜶
Weibull
𝟎, 𝒅𝒆 𝒐𝒕𝒓𝒐 𝒎𝒐𝒅𝒐

Los tres parámetros, 𝜶, 𝜷, 𝜸, que describen completamente a la densidad de Weibull son de mucha
importancia. Aquí 𝛼 es un parámetro de escala, 𝛽 es un parámetro de forma y 𝛾 es el parámetro de
localización.

Por otra parte, para Obando López y Arango Londoño [7], una variable aleatoria 𝑋~𝑊𝑒𝑖𝑏𝑢𝑙𝑙(𝛼, 𝛽)
si la función de densidad de X está dada por:

𝛽
𝑓(𝑥) = 𝛼𝛽𝑥 𝛽−1 𝑒 −𝛼𝑥 𝑥>0

El valor esperado (media) de la distribución de Weibull es:

𝟏 𝟏

𝝁(𝒙) = 𝜶 𝜷 𝚪 (𝟏 + )
𝜷

La varianza se conoce mediante:

𝟐
𝟐 𝟏
𝑽𝒂𝒓(𝒙) = 𝜶−𝟐/𝜷 {𝚪 (𝟏 + ) − [𝚪 (𝟏 + )] }
𝜷 𝜷

El comportamiento gráfico de esta distribución muestra cómo varía 𝑓(𝑥) respecto al tiempo (o en
otro caso el número de ciclos); una vez hecho el gráfico, puede pasar que salga directamente a una
línea recta (en cuyo caso 𝛾 = 0) o que salga una curva (𝛾 ≠ 0). En este segundo caso existe un
periodo de tiempo entre en que ningún componente falla (si 𝛾 es positivo) o parte de las muestras

8
fallan antes de ensayarlas (caso de 𝛾 negativo). El parámetro 𝛾 es aquel valor que se le tiene que restar
a todos los tiempos para que los puntos representados sigan una recta.

Es una de las distribuciones más utilizadas en estudios de confiabilidad de equipos y de sistemas.


Algunos ejemplos de importantes aplicaciones son:

• Zobeck, Gill, y Popham [10], usaron una distribución Weibull para describir el tamaño de
partículas de polvo en el aire.
• Jiang, y Murthy [11], revisaron el uso de distribuciones Weibull en estudios de confiabilidad
para modelar tiempos de vida, edades de reemplazo y vida residual en equipos y
componentes.
• Razali, Abidin, Zaharim, y Sopian [12], modelaron datos de velocidades de vientos con una
distribución Weibull.

REGRESIÓN LINEAL
Según, Gorgas García, Cardial López y Zamorano Calvo [13], dentro del estudio de las variables
estadísticas bidimensionales se aborda el análisis de la existencia de relaciones o dependencias entre
las dos variables x e y que forman la variable bidimensional.

El primer paso para el estudio de la relación entre las variables consiste en la construcción y
observación de un diagrama de dispersión (Figura 1). El problema de la regresión se concreta entonces
en ajustar una función a la nube de puntos representada en dicho diagrama. Esta función permitirá
entonces obtener, al menos de forma aproximada, una estimación del valor de una de las variables a
partir del valor que tome la otra.[13]

Figura 1. Ejemplo de diagrama de dispersión.


Fuente: [13]

9
Se conoce como línea de regresión a la representación gráfica de la función que se ajusta a la nube de
puntos del diagrama de dispersión. Un primer problema para el estudio de la regresión es la elección
del tipo de línea de regresión. Efectivamente, ésta podrá adoptar diferentes formas funcionales, y el
tipo de línea se elegirá a partir de la forma de la nube de puntos. Cuando dicha nube se distribuya
aproximadamente a lo largo de una línea recta ajustaremos una recta de regresión. Será el caso
particular de la regresión lineal. En este caso importante, la regresión de y sobre x vendrá dada
entonces por: 𝑦 = 𝑎 + 𝑏𝑥, donde 𝑎 y 𝑏 son dos parámetros que hay que determinar. Gráficamente 𝑎
será la ordenada de la recta en el origen (es decir el valor de 𝑦 para x 𝑥 = 0) y 𝑏 la pendiente de
ésta.[13]

Para calcular la recta que mejor se ajusta a la nube de puntos observada se usa el método de mínimos
cuadrados. Gorgas García, Cardial López y Zamorano Calvo [13], muestran (a continuación) en qué
consiste.

Sea una muestra de tamaño n en que la variable estadística bidimensional toma los valores

(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), … , (𝑥𝑛 , 𝑦𝑛 ).

A cada valor 𝑥𝑖 de la variable 𝑥 le corresponde entonces un valor 𝑦𝑖 de la variable 𝑦, pudiendo,


además asociársele un valor 𝑦𝑖∗ , que sería el dado por la recta que queremos calcular. Es decir:

𝑦𝑖∗ = 𝑎 + 𝑏𝑥𝑖

Llamemos 𝑑𝑖 a la diferencia entre los dos valores, observado y dado por la recta, de la variable 𝑦 en
cada punto: 𝑑𝑖 = 𝑦𝑖∗ − 𝑦𝑖

Para que la recta a determinar sea la que mejor se ajuste a la nube de puntos de entre todas las rectas
posibles, dichas distancias 𝑑𝑖 deberán ser lo más pequeñas posible. Es decir, hay que minimizar los
𝑑𝑖 . Para ello es conveniente tomar los cuadrados de las distancias, para que así no se anulen
desviaciones positivas y negativas. De esta forma, el problema se reduce a minimizar la expresión:

𝑛 𝑛 𝑛

𝑀= ∑ 𝑑𝑖2 = ∑(𝑦𝑖∗ − 𝑦𝑖 )2 𝑜, 𝑑𝑖𝑐ℎ𝑜 𝑑𝑒 𝑜𝑡𝑟𝑎 𝑓𝑜𝑟𝑚𝑎, 𝑀 = ∑(𝑎 + 𝑏𝑥𝑖 − 𝑦𝑖 )2


𝑖=1 𝑖=1 𝑖=1

Para encontrar los valores de 𝑎 y 𝑏 que hacen mínima esa expresión se deriva M respecto a esos dos
parámetros y se igualan las derivadas a 0 (a partir de aquí se simplifica la notación de los sumatorios
y no se indica que el índice va desde 𝑖 = 1 hasta 𝑛).

10
Desarrollando los sumatorios se obtiene un sistema sencillo de ecuaciones, conocidas como
ecuaciones normales, el cual se puede resolver por el método de Cramer, calculando en primer lugar
el determinante y cada uno de los parámetros:

1 ∑ 𝑦𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖2 ∑ 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑥𝑖 , 𝑦𝑖
𝑎= | |=
∆ ∑𝑥 ,𝑦 ∑ 𝑥2 𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
𝑖 𝑖 𝑖

1 𝑛 ∑ 𝑦𝑖 𝑛 ∑ 𝑥𝑖 , 𝑦𝑖 − ∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑏= | |=
∆ ∑𝑥 ∑ 𝑥𝑖 , 𝑦𝑖 𝑛 ∑ 𝑥𝑖2 − (∑ 𝑥𝑖 )2
𝑖

Estas expresiones para los parámetros de la recta se pueden simplificar introduciendo las definiciones
de media:

∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑥̅ = y 𝑦̅ =
𝑛 𝑛

Dividiendo por 𝑛2 en el numerador y denominador de la expresión para 𝑏, ésta queda:

1
∑ 𝑥𝑖 , 𝑦𝑖 − 𝑥̅ 𝑦̅
𝑏= 𝑛
1
∑ 2 2
𝑛 𝑥𝑖 − 𝑥̅

Por otra parte, se tiene 𝑦̅ = 𝑎 + 𝑏𝑥̅ , que indica que la recta de regresión debe pasar por (𝑥̅ , 𝑦̅), es
decir, por el centro de la nube de puntos.

Y una vez calculado 𝑏, 𝑎 se puede calcular de forma inmediata por 𝑎 = 𝑦̅ − 𝑏𝑥̅ .

CORRELACIÓN
De acuerdo con Johnson [14], un diagrama de dispersión ofrece una impresión visual de la relación
entre los valores 𝑥 y 𝑦 en un conjunto de datos bivariado. A menudo, los puntos parecen dispersarse
en torno a una recta. La cercanía de la dispersión a una línea recta se expresa numéricamente en
términos del coeficiente de correlación. La mejor interpretación del coeficiente de correlación
muestral está en términos de las observaciones estandarizadas:

𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 − 𝑚𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑥𝑖 − 𝑥̅


=
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑆𝑥

donde el subíndice 𝑥 en 𝑆 distingue la varianza muestral de las observaciones 𝑥,

11
𝑛

𝑆𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2 /(𝑛 − 1) = 𝑆𝑥𝑥 /(𝑛 − 1)


𝑖=1

de la varianza muestral de las observaciones de 𝑦.

El coeficiente de correlación muestral 𝑟 es la suma de productos de las variables estandarizadas


dividida entre 𝑛 − 1, el mismo divisor usado para varianza muestral.
𝑛
1 𝑥𝑖 − 𝑥̅ 𝑦𝑖 − 𝑦̅ Ecuación 7. Coeficiente de
𝑟= ∑( )( )
𝑛−1 𝑠𝑥 𝑠𝑦 correlación
𝑖=1

➢ La magnitud de 𝑟 describe la fortaleza de una relación lineal, mientras su signo indica la


dirección.

𝑟 = +1 si todos los pares 𝑓(𝑥, 𝑦) caen exactamente sobre una línea recta que tenga una pendiente
positiva.

𝑟 > 0 si el patrón en el gráfico de dispersión va del extremo inferior izquierdo al superior derecho.

𝑟 < 0 si el patrón en el gráfico de dispersión va del extremo superior izquierdo al inferior derecho.

𝑟 = −1 si todos los pares 𝑓(𝑥, 𝑦) yacen exactamente sobre una línea recta que tenga una
pendiente negativa.

Un valor de 𝑟 cercano a −1 o +1 describe una relación lineal fuerte.

➢ Un valor de 𝑟 cercano a cero implica que la asociación lineal es débil. Todavía puede existir
una asociación fuerte a lo largo de la curva.

Existe también, una fórmula de cálculo más sencilla para 𝑟, teniendo en cuenta las definiciones de
𝑆𝑥𝑥 , 𝑆𝑥𝑦 y 𝑆𝑦𝑦 .

𝑆𝑥𝑦
𝑟=
√𝑆𝑥𝑥 ∗ 𝑆𝑦𝑦

Por último, para Hernández Garciadiego, Hernández Garciadiego y de Oteyza [4], cuando se hacen
estudios de correlación lineal entre 2 variables, otro dato que suele reportarse es el cuadrado del
coeficiente de correlación:
2 Ecuación 8. Coeficiente de
𝑅 2 = (𝑟𝑥𝑦 )
determinación
que es el coeficiente de determinación, pero se le conoce simplemente como R cuadrada.

12
Dado que 𝑅 es un número entre −1 y 1, su cuadrado, 𝑅 2 es un número entre 0 y 1, y se interpreta
como la parte de la variable que se encuentra en el eje 𝑦 que puede explicarse a través de la variable
del eje 𝑥.

Para una forma distinta de expresar el coeficiente de determinación, Gamero Burón [15], partiendo
de una igualdad de varianzas, define el coeficiente de determinación (𝑅 2) como la proporción o
porcentaje de la variación total de la variable dependiente que viene explicada por el modelo
matemático:

𝑆𝑦2∗
𝑅2 =
𝑆𝑦2

Algunas propiedades de 𝑅 2 son:

➢ 𝑅 2 es adimensional: es el cociente de 2 varianzas que se expresan en la misma unidad de


medida.
➢ 𝑅 2 está acotado, en concreto 0 ≤ 𝑅 2 ≤ 1

Por otro lado, en cuanto a su interpretación, se tiene que cuanto mayor sea 𝑅 2 mejor será el ajuste, y
viceversa. 𝑅 2 = 1 implica 𝑆𝑒2 = 0 y, por lo tanto, que el ajuste es perfecto (la dependencia estadística
es una dependencia matemática). Por el contrario, si 𝑅 2 = 0, entonces 𝑆𝑒2 = 𝑆𝑦2 de manera que el
modelo lineal resulta totalmente inadecuado.

13
CONCLUSION

La disciplina de la Estadística para un estudiante de Ingeniería enseña cómo razonar de manera lógica
y tomar decisiones en presencia de incertidumbre. De esta forma, la Estadística se configura como
una herramienta de gran valor para los ingenieros ya que ayuda al diseño de nuevos productos y
sistemas, a perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos de producción.

Gracias a la investigación realizada, se pudo reforzar y aminorar un poco de la situación descrita en


la introducción, donde se mencionó que “a la altura de la culminación de estudios, los estudiantes de
ingeniería vienen a comprender la importancia de la estadística en su formación profesional, pero la
perdurabilidad y solidez del conocimiento resulta insuficiente”, es verdad que muchos de los
estudiantes no le damos la importancia real a la probabilidad y la estadística, normalmente la vemos
como una experiencia educativa obligatoria básica, pero la verdad es que es una herramienta
significativamente útil para un ingeniero, conocer lo mayor posible, más de lo que contempla el plan
de estudios o de lo que da tiempo ver en clase, es necesario para tener un mejor desempeño como
ingenieros en el futuro.

14
REFERENCIAS
[1] S. Bisgaard, Teaching statistics to engineers. The American Statistician, Alexandria, v. 45,
n. 4, 1991, p. 274-283.

[2] E. A. Sánchez Sánchez, Probabilidad y estadística II. México D.F: Grupo Editorial Patria,
2015. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/40387?

[3] C. A. Islas Salomón, M. P. Colín Uribe y F. Morales Téllez, Probabilidad y estadística.


Grupo Editorial Éxodo, 2018. [En Línea] Disponible en:
https://elibro.net/es/ereader/bibliotecauv/128557?

[4] C. Hernández Garciadiego, C. Hernández Garciadiego y E. de Oteyza, Probabilidad y


estadística. México D.F: Pearson Educación, 2015. [En Línea] Disponible en:
https://elibro.net/es/ereader/bibliotecauv/38015?

[5] A. M. Juan González, Probabilidad. Almería: Editorial Universidad de Almería, 2016. [En
Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/44558?

[6] H. Llinás Solano, Introducción a la teoría de probabilidad. Barranquilla: Universidad del


Norte, 2018. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/70067?

[7] J. Obando López y N. Arango Londoño, Probabilidad y estadística. Fondo Editorial EIA,
2019. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/125705?

[8] J. L. Devore, Probabilidad y estadística para ingeniería y ciencias (9a. ed.). México:
Cengage Learning, 2016. [En Línea] Disponible en:
https://elibro.net/es/ereader/bibliotecauv/93280?

[9] J. S. Rosenthal y M. J. Evans, Probabilidad y estadística: la ciencia de incertidumbre.


Barcelona: Editorial Reverté, 2015. [En Línea] Disponible en:
https://elibro.net/es/ereader/bibliotecauv/46793?

[10] T. M. Zobeck, T. E.Gill, y T. W. Popham, A two‐parameter Weibull function to describe


airborne dust particle size distributions. Wiley Online library, 1999. [En Línea] Disponible
en: https://onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291096-
9837%28199909%2924:10%3C943::AID-ESP30%3E3.0.CO;2-9

[11] R. Jiang, y D.N.P. Murthy, A study of Weibull shape parameter: Properties and significance,
Reliability Engineering & System Safety.Volume 96. 2011, Pages 1619-1626. . [En Línea]

15
Disponible en:
https://www.sciencedirect.com/science/article/pii/S095183201100175X?via%3Dihub

[12] A. M. Razali, R. Z. Abidin, A. Zaharim, y K. Sopian, Fitting of Statistical Distributions to


Wind Speed Data. 4th IASME/WSEAS International Conference on ENERGY,
ENVIRONMENT, ECOSYSTEMS and SUSTAINABLE DEVELOPMENT
(EEESD'08).Algarve, Portugal, 2008. [En Línea] Disponible en:
http://www.wseas.us/elibrary/conferences/2008/algarve/EEESD/023-588-353.pdf

[13] J. Gorgas García, N. Cardial López y J. Zamorano Calvo, Estadística Básica Para
Estudiantes de Ciencia. España: Universidad Computense de Madrid, 2011. [En línea]
Disponible en:
https://webs.ucm.es/info/Astrof/users/jaz/ESTADISTICA/libro_GCZ2009.pdf

[14] R. A. Johnson, Probabilidad y estadística para ingenieros (8a. ed.). México D.F: Pearson
Educación, 2012. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/37870?

[15] C. Gamero Burón, Estadística I: elementos de estadística descriptiva y de teoría de la


probabilidad. Málaga: Servicio de Publicaciones y Divulgación Científica de la Universidad
de Málaga, 2017. [En Línea] Disponible en: https://elibro.net/es/ereader/bibliotecauv/60724?

16

También podría gustarte