Está en la página 1de 18

República Bolivariana de Venezuela

Ministerio del Poder Popular para la Educación Universitaria

Instituto Politécnico Santiago Mariño – Extensión Caracas

Ingeniería en Electrónica Nº 44 Turno Nocturno – Sección “A”

Catedra: Estadística

PRACTICA N2

Profesor: Alumno:

Carlos Antequera Navia Gilberto Bermúdez C.I.17.143.777

Caracas, enero 2022


I. Parte.
Aspectos Teóricos.
1. Definir los siguientes términos:

Correlación simple: Es una técnica estadística que establece un índice que proporciona,
en un solo número, una medida de la fuerza de asociación entre dos variables de interés. El
principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación
entre dos variables.

Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza dos
variables, el análisis de correlación es la herramienta estadística que podemos usar para describir
el grado o la fuerza en la que una variable esta linealmente relacionada con otra.

Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan cercanamente
se mueven dos variables y, por lo tanto, con cuanta confiabilidad se puede estimar una variable
con ayuda de la otra.

Coeficiente de correlación simple: El coeficiente de correlación es la medida específica


que cuantifica la intensidad de la relación lineal entre dos variables en un análisis de correlación.
En los informes de correlación, este coeficiente se simboliza con la r.

El coeficiente de correlación más utilizado es el de Pearson, este es un índice estadístico


que mide la relación lineal entre dos variables cuantitativas, es una forma de medir la intensidad
de la relación lineal entre dos variables. El valor del coeficiente de correlación puede tomar
valores desde menos uno hasta uno, −1<r <1, indicando que mientras más cercano a uno sea el
valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal
entre las dos variables. El coeficiente de correlación de cálculo “ r ”es un estimador muestral del
coeficiente poblacional Rho ρ .

Mientras más cercano a cero sea el coeficiente de correlación, este indicará que más
débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación
lineal alguna entre ambas variables. Diagrama de dispersión en correlación.

La fórmula del coeficiente de correlación se definirá como el cociente entre la


variabilidad explicada por la regresión y la variabilidad total, esto es:
2
2 σ XY
R= 2 2
σ X σ Y

Donde:

 σ XY : Es la covarianza de (X , Y )
 σ X : Es la desviación típica de la variable X

 σ Y : Es la desviación típica de la variable 𝑌

La correlación puede tomar los siguientes valores:

R=−1 : Correlación perfecta negativa

R=0 : No existe correlación

R=+ 1: Correlación perfecta positiva

Diagrama de dispersión en correlación: Es un diagrama de dispersión de punto X Y, el


cual es una representación gráfica de la relación entre dos variables, muy utilizada en las fases
de comprobación de teorías e identificación de causas raíz y en el diseño de soluciones y
mantenimiento de los resultados obtenidos. Tres conceptos especialmente son destacables: que
el descubrimiento de las verdaderas relaciones de causa-efecto es la clave de la resolución eficaz
de un problema, que las relaciones de causa-efecto casi siempre muestran variaciones, y que es
más fácil ver la relación en un diagrama de dispersión que en una simple tabla de números.

Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden
darse alguna de las siguientes relaciones: Lineal, Logarítmica, Exponencial, Cuadrática,
Inversa, entre otros.

Estas nubes de puntos pueden generar polígonos a partir de ecuaciones de regresión que
permitan predecir el comportamiento de la variable dependiente. El diagrama de dispersión nos
da información visual sobre el tipo de relación entre las variables
Variable dependiente: Una variable cuyo valor se suponga desconocido y que se
explique o prediga con ayuda de otra se llama variable dependiente y se simboliza con la letra Y.
Estas también pueden definirse como la o las variables que se predicen o se calculan.

La variable dependiente, al igual que la variable independiente es llamada de diferentes


maneras algunas de ellas son: variable explicada o variable pronosticada.

Variable Independiente: una variable cuyo valor se suponga conocido y que se utilice
para explicar o predecir el valor de otra variable de interés se llama variable independiente; se
simboliza con la letra X. Dicho de otra manera esta es la o las variables que proporcionan las
bases para el cálculo.

Otros nombres alternativos para la variable independiente (X), son variable


explicatorias, variable predictora y en ocasiones variable regresivas.

Varianza: Es una medida de dispersión que se utiliza para representar la variabilidad de


un conjunto de datos respecto de la media aritmética de los mismo. Así, se calcula como la suma
de los residuos elevados al cuadrado y divididos entre el total de observaciones.

La varianza podrá ser calculada mediante la siguiente expresión matemática:


n

∑ (xi −X )2
1
Var ( X )=
n

Donde:

X : variable sobre la que se pretende calcular la varianza


x i: observación númeroi de la variable X . i puede tomar valores entre 1 y n

n : número de observaciones
X : Es la medida de la variable X
O lo que es lo mismo:

Var (X )=¿ ¿

Covarianza: es el valor a través del cual se refleja en qué cuantía don variables
cualesquiera varían de forma conjunta respecto de sus medias aritméticas. Así, esta medida nos
permite conocer cómo se comportan las variables en cuestión respecto de otras variables.

La Covarianza nos permite saber cómo se comporta una variable en función de lo que
hace otra variable. Es decir, cuando X sube ¿Cómo se comporta Y ? Así pues, la covarianza
puede tomar los siguientes valores:

Covarianza ( X , Y ) es menor que cero cuando “ X ” sube e “Y ”baja. Hay una relación
negativa.

Covarianza(X , Y ) es mayor que cero cuando “ X ” sube e “Y ” sube. Hay una relación
positiva.

Covarianza ( X , Y )es igual que cero cuando no hay relación existente entre las variables
“ X ” e “Y ” .
La fórmula de la covarianza podrá ser calculada mediante la siguiente expresión
matemática:
n

∑ (x i−x )( y i− y )
1
cov ( X , Y )=
n

Donde:

y : media de la variable Y

x : media de la variable X

i : posición de la observación y

n : número de observaciones

Media aritmética: La Media Aritmética (también Promedio o Media) es el resultado que


se obtiene sumando todos los valores de una muestra y dividiéndolo por el número de dichos
valores.

La Media Aritmética se representa mediante una x con una barra superior ( X ) y se


formula de la siguiente manera:

x 1 + x 2+ x 3 + x 4 + x 5 + x 6 + x7 + x 8 + x 9 + x 10 … + x n
X=
N

Donde:

n : número de datos

Desviación típica: La desviación típica es la desviación media de una variable respecto


de su media aritmética, adquiriendo siempre unos valores que son iguales o mayores que 0. En
todo caso, para entender este concepto a la perfección es necesario llevar a cabo el análisis de 2
conceptos fundamentales. Son los siguientes:

1.- La media aritmética de la serie de los datos utilizados.


2.- La desviación, es decir, la separación que existe entre cualquier valor de la serie y la
media aritmética de todos los datos de dicha serie.

Así, una vez analizados ambos conceptos, la desviación típica se calcula de forma muy
parecida a la media, si bien es cierto que en el cálculo de la desviación típica se toman como
valores las desviaciones. Aunque el razonamiento resulta bastante lógico, lo cierto es que existe
un fallo que se solucionan a través de los diferentes cálculos de la desviación típica.

La desviación típica podrá ser calculada mediante la siguiente expresión matemática:


n

∑ ( X i −X )2
1
σ=
N

Coeficiente de determinación: El coeficiente de determinación es la proporción de la


varianza total de la variable explicada por la regresión. Es también denominado R cuadrado y
sirve para reflejar la bondad del ajuste de un modelo a la variable que se pretende explicar.

El coeficiente de determinación puede adquirir resultados que oscilan entre 0 y 1. Así,


cuando adquiere resultados más cercanos a 1, mayor resultará el ajuste del modelo a la variable
que se pretende aplicar para el caso en concreto. Por el contrario, cuando adquiere resultados que
se acercan al valor 0, menor será el ajuste del modelo a la variable que se pretende aplicar y,
justo por eso, resultará dicho modelo menos fiable.

El coeficiente de determinación podrá ser calculado mediante la siguiente expresión


matemática:

2. Explicar el uso o la aplicabilidad de la correlación simple en el campo de la ingeniería y


en otras ciencias del conocimiento humano.
Determinar la influencia de las armónicas de tensión y corriente en los sistemas
eléctricos industriales es de gran importancia para la evaluación de la calidad de la energía y la
administración eficiente del recurso energético, Usualmente, para medir la influencia de los
armónicos en los sistemas eléctricos se usan los índices de distorsión armónica total de tensión y
distorsión armónica total de corriente que se obtienen a partir de los registros que almacenan los
equipos analizadores de calidad de energía eléctrica.

la tensión a la frecuencia de orden es la magnitud de la tensión a la frecuencia


fundamental, mientras que la distorsión armónica individual, mide el nivel de contenido
armónico de la componente de orden n respecto del valor de referencia conocido como
fundamental.

A partir de esto han desarrollado modelos estadísticos de regresión lineal para evaluar
las componentes armónicas, considerando a la distorsión armónica total de tensión y/o corriente
como variable de interés, esto debido a que en sus estudios se analizan cargas de distinta
naturaleza (residencial, comercial e industrial) en un mismo registro de datos.

Por otro lado, es muy común que las personas tomen decisiones en la vida cotidiana y
profesional basadas en predicciones de sucesos futuros. Para hacerlo, se fundamentan en la
relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si se dieran cuenta
que se puede determinar cómo lo conocido se relaciona con un evento futuro, facilitarían el
proceso de toma de decisiones.

Por ejemplo, se sabe que existe una relación entre la frustración y la agresión, entre la
presión arterial y un accidente cerebro-vascular, entre la obesidad y la diabetes; en los tres casos
hay una relación entre dos variables, pero no conocemos la naturaleza y fuerza de la misma. Si
se observa con detenimiento, obtendremos datos e información que podemos medir,
experimentar y formular hipótesis para comprobarlas y generar conclusiones. Cualquier método
estadístico que tenga como finalidad establecer una ecuación que permita estimar el valor
desconocido de una variable a partir del valor conocido de una o más variables mediante el
análisis de correlación.

El análisis de correlación simple se utiliza para explorar y cuantificar la relación de una


variable independiente, con una dependiente que en cualquier momento puede ser modificada
por la primera. Por ejemplo, refiriéndonos a los condicionantes de la salud, se puede afirmar que
el nivel socioeconómico de las personas es uno de ellos. En este caso las personas con nivel
socioeconómico bajo tienen más riesgos a perder la salud, en este ejemplo el nivel
socioeconómico es una variable independiente puesto que no depende de otras circunstancias, ni
de la otra variable que sería riesgo a la salud. En otros casos existen relaciones de más de dos
variables dependientes. Por lo cual este en este capítulo revisaremos tanto el caso de dos
variables, regresión simple, como de más de dos variables regresión múltiple.

3. Realizar un cuadro comparativo donde se establezcan las ventajas, desventajas y


semejanzas del coeficiente de correlación de Pearson y el de Spearman. Luego deberá
interpretar el cuadro elaborado.

Coeficiente de Correlación de Coeficiente de Correlación de


Pearson Spearman

Es un índice estadístico que mide la relación El coeficiente de correlación de Spearman, ρ


lineal entre dos variables cuantitativas. A (rho) es una medida de la correlación (la
diferencia de la covarianza, la correlación de asociación o interdependencia) entre dos
Pearson es independiente de la escala de variables aleatorias continuas. Para calcular
Definición
medida de las variables, es decir, son la ρ, los datos son ordenados y reemplazados
expresión numérica que nos indica el grado de por su respectivo orden.
relación existente entre las 2 variables y en
qué medida se relacionan.

r=
σXY 6 ∑ di
σ X . σY ρ=1−
i
2
n(n −1)
Donde:
Donde:
Fórmula σXY : Covarianza de ( X ; Y )
Matemática n=¿ número de puntos de datos de las dos
σ X , σ Y : Deviaciones típicas de las variables variables

di=¿ diferencia de rango del elemento


“ n”

Utilidad - Identifica el dependiente variable que se - Para aplicar la correlación de Spearman se


probará dentro de dos observaciones derivadas requiere que al menos las variables estén
independientemente. Uno de los requisitos es medidas en al menos escala ordinal, es decir,
que Las dos variables que se comparen deben de forma que las puntuaciones que la
observarse o medirse de manera independiente representan puedan ser colocadas en dos
para eliminar cualquier resultado sesgado. series ordenadas.

- Determina la importancia de los resultados. - Este coeficiente es una medida de


Esto se logra con el uso del coeficiente de asociación lineal que utiliza los rangos,
correlación, grados de libertad, y una tabla de números de orden, de cada grupo de sujetos
valores críticos del coeficiente de correlación. y compara dichos rangos

-Los grados de la libertad se calculan con el - Una generalización del coeficiente de


número de observaciones menos 2 Spearman es útil en la situación en la cual
hay tres o más condiciones, varios
-Reporta un valor de correlación cercano a 0
individuos son observados en cada una de
como un indicador de que no hay relación
ellas, y predecimos que las observaciones
lineal entre las dos variables.
tendrán un orden en particular. Por ejemplo,
-Reporta un valor de correlación cercano a 1 un conjunto de individuos puede tener tres
como indicador de que existe una relación oportunidades para intentar cierta tarea, y
lineal positiva entre las dos variables, entre predecimos que su habilidad mejorará de
más cercano sea a 1 el resultado, habrá una intento en intento. Un valor de +1 en ⍴
mayor correlación positiva significa una perfecta asociación de rango

- Reporta un valor cercano a -1 como


-Un valor 0 en ⍴ significa que no hay
indicador de que hay una relación lineal
asociación de rangos
negativa entre las variables.
-Un valor de -1 en ⍴ significa una perfecta
asociación negativa entre los rangos.

Ventajas -Requiere datos en cantidad solo del período -Permite medir la correlación o asociación
base. entre dos variables cuando las mediciones se
realizan en una escala ordinal, o cuando no
-A diferencia de la covarianza la correlación
existe distribución norma.
de Pearson es independiente de la escala de
medidas de las variables. -El coeficiente de Spearman es no
paramétrico, (es decir, es libre de
-Dada dos variables, permite hacer
distribución probabilística).
estimaciones del valor de una de ellas
conociendo el valor de la otra variable. -Se calcula en base a una serie de rangos
asignados.
-El coeficiente de Pearson es paramétrico
-Permite medir la correlación o asociación -La manifestación de una relación causa-
entre dos variables cuando se trabaja con efecto es posible sólo a través de la
variables numéricas con distribución normal comprensión de la relación natural que
existe entre las variables y no debe
manifestarse sólo por la existencia de una
fuerte correlación.

-No refleja cambios en los patrones de -Es menos sensible que el coeficiente de
compra, conforme pasa el tiempo. Pearson para los valores muy lejos de lo
esperado.
-Conforme el coeficiente de correlación se
Desventajas
acerque al 0, los valores se vuelven menos -El coeficiente de correlación no debe
correlacionados, lo que identifica las variables utilizarse para comparar dos métodos que
que no pueden ser relacionadas entre sí. intentan medir el mismo evento.

II. Parte.

Ejercicio de correlación simple.

1.- El ingeniero Keith Houston, director de personal de la compañía Danielson Tool & Die,
cree que existe relación entre las edades de los operadores de computadoras en la empresa y el
número días que faltaron a trabajar el mes pasado. Después de leer un artículo en Today`s
Office., en el que se cuestiona que, si los nuevos programas de computadora darán lo que
promete, se puso en pensar sobre los problemas de absentismo, ya que estos operadores están
usando el tipo de programa que describe el artículo. El ingeniero elige una muestra aleatoria de
10 trabajadores y recoge los siguientes datos.

Trabajador Días ausentes Edad


1 5 25
2 0 30
3 1 77
4 7 33
5 8 45
6 12 27
7 6 55
8 11 41
9 2 77
10 3 58

Se pide:
 Identificar la variable dependiente y la variable independiente en el ejercicio propuesto.

Variable independiente: Días de ausencia de cada uno de los trabajadores.


Variable dependiente: Por lo tanto, las edades de cada uno de los trabajadores las
definiremos como las variables dependientes.

 Elaborar un diagrama de dispersión con los datos suministrados en el ejercicio y realizar


su respectivo análisis.

Danielson Tool & Die


Diagrama de Dispersión
90
80
77 77
70
60 58
55
50
Edades

45
40 41
33
30 30
25 27
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Días de Ausencia

De acuerdo a los conceptos revisados en esta práctica, se puede determinar que los
resultados obtenidos no reflejan una relación lineal. A simple vista se pudiera asumir que
mientras más edad tenga el operador, este pudiera tener mas ausentismo debido a la
implementación del nuevo programa, sin embargo, notamos que esto no es del todo cierto, ya
que salvo el operador que tiene 30 años de edad, que no tuvo ausencias, los operadores de más
edad (77 años), mantuvieron el índice de ausentismo mas bajo de toda la población a estudiar.
Así mismo podemos asumir que el coeficiente de correlación debe estar muy próximo a
cero (0), estableciendo que la relación entre las variables es muy débil. (Una vez realizados los
cálculos restantes con respecto a la Media Aritmética y Covarianza, pondremos a prueba este
punto (*))

 Construir la tabla con las variables X y Y para establecer la relación entre el número de
trabajadores y los días ausentes.
x y x
2
x.y
5 25 25 125
0 30 0 0
1 77 1 77
7 33 49 231
8 45 64 360
12 27 144 324
6 55 36 330
11 41 121 451
2 77 4 154
3 58 9 174

∑ 55 ∑ 468 ∑ 4 53 ∑ 2226
x y x
2
x.y

 Calcular la media aritmética.

Media Aritmética para la variable X

x 1 + x 2+ x 3 + x 4 + x 5 … + x n
X=
N
5+ 0+1+7+8+ 12+ 6+11+2+3
X=
10
55
X=
10
X =5,5

Media Aritmética para la variable Y


y 1 + y 2 + y 3 + y 4 + y 5 …+ y n
Y=
N
25+30+ 77+33+45+ 27+55+ 41+77 +58
Y=
10
468
Y=
10
Y =46,8

Con la finalidad de facilitar los cálculos estaremos realizando el cálculo del coeficiente
de correlación típica para lo cual estableceremos la creación de la siguiente tabla
x y x−x y− y (x−x )2 ( y− y)2 (x−x )( y− y )
5 25 -0,5 -21,8 0,25 475,24 10,9
0 30 -5,5 -16,8 30,25 282,24 92,4
1 77 -4,5 30,2 20,25 912,04 -135,9
7 33 1,5 -13,8 2,25 190,44 -20,7
8 45 2,5 -1,8 6,25 3,24 -4,5
12 27 6,5 -19,8 42,25 392,04 -128,7
6 55 0,5 8,2 0,25 67,24 4,1
11 41 5,5 -5,8 30,25 33,64 -31,9
2 77 -3,5 30,2 12,25 912,04 -105,7
3 58 -2,5 11,2 6,25 125,44 -28
55 468 150,5 3393,6 -348

 Calcular la covarianza

∑ ( x i−x )( y i− y )
1
cov ( X , Y )=
n
−348
cov ( X , Y )=
10

cov ( X , Y )=−34 , 8

 Calcular la varianza
Varianza para x
n

∑ ( xi −x)2
1
Var ( X )=
n

150,5
Var ( X )=
10

Var ( X )=15,05

 Calcular la desviación típica.

Desviación Típica para x


n

∑ ( x i−x)2
1
σ=
N

σ=
√ 150,5
10
σ =√ 15,05
σ =3,87

Desviación Típica para y


n

∑ ( y i− y )2
1
σ=
N
σ=
√ 3393,6
10
σ =√ 339,36
σ =18,42

 Calcular el coeficiente de correlación simple y realizar la interpretación del mismo.

2 σ 2 XY
R=
σ 2X σ 2 Y

Donde:

 σ XY : Es la covarianza de (X , Y )
 σ X : Es la desviación típica de la variable X
 σ Y : Es la desviación típica de la variable 𝑌

2 −34,8
R=
3,87 . 18,42

2 −34,8
R=
71,28
2
R =−0,48

(*) Tal como asumimos en párrafos anteriores el resultado es muy cercano a cero (0)
estableciendo que no existen correlación lineal entre las variables. Adicionalmente mientras mas
aumenta una variable disminuye la otra.

 Calcular el coeficiente de determinación y realizar la interpretación del mismo.

2 2
R =−0,48 =0,2304

0,230 4 .100=23,04 %

El coeficiente de determinación nos arroja un rango aproximado del mayor porcentaje de


ausencia de todas las muestras evaluadas, sin embargo tal y como hemos mencionado
anteriormente al no existir una relación lineal, se determina que la edad y la implementación del
nuevo software no tienen una relación directa, con la cantidad de ausencias del personal, por lo
que será necesario analizar otros factores que propicien esta condición.

Bibliografía

 Navia, A., Carlos (2021) Análisis de Correlación Simple. Presentación Power Point,
para la materia Estadística I IPSM.
 Spiegel, M. R. Teoría y Problemas de Probabilidad Estadística New York: McGraw-
Hill, p. 298, 1992.

 Camarena, P. (2010). Aportaciones de Investigación al aprendizaje y enseñanza de la


matemática en Ingeniería. Ingeniería en Comunicaciones y Electrónica. IPN.

También podría gustarte