Está en la página 1de 36

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA

FACULTAD DE CIENCIAS ECONÓMICAS


ESCUELA DE AUDITORÍA
SEMINARIO INTEGRADOR PROFESIONAL 2023
LICDA. DINA ELIZABETH VARGAS
LIC. AUXILIAR: FERNANDO JOSE CHEVES YDIGORAS

REGRESIÓN Y CORRELACIÓN

GRUPO NO. 13
SALÓN 207

GUATEMALA, 01 DE FEBRERO DE 2023


EVALUACIÓN

COORDINADOR: Saúl Ismael Mazariegos Alfaro 201712192

EVALUACIÓN
BAJA - MEDIA -5 ALTA -
NOMBRE CARNÉ OBSERVACIÓN
0 PTS. PTS. 10 PTS.
Daniel Alexander
201404788 9
Alfaro Leonardo
Julio Javier De Paz
201505516 9
Jacobo
Jeanifer Paola
201605386 9
Álvarez
José Alfredo Pistún
201605449 9
Pixtún
Yesli Estiffani
Lisseth Abril 201704704 9
Realique
Esly Adonai Ruano
201712105 9
Muñoz
Ingrid Aracely
201712322 9
Santos Lorenzo
Kevin Gerardo
201712695 9
Chacón de la Cruz
Gerardo Antonio
201713442 9
Canizales Rodenas
ÍNDICE
INTRODUCCIÓN ................................................................................................................. i

CAPÍTULO I ........................................................................................................................ 1

REGRESIÓN Y CORRELACIÓN ..................................................................................... 1

1.1 Regresión ..................................................................................................................... 1

1.1.1 Tipos de Regresión .................................................................................................. 1

1.2 Ecuación Lineal ........................................................................................................... 1

1.3 Determinación de la ecuación matemática .................................................................. 2

1.4 Métodos de mínimos cuadrados .................................................................................. 2

1.5 Interferencia en el análisis de regresión ........................................................................... 3

1.6 El error estándar de estimación ................................................................................... 4

1.7 Inferencia acerca de la pendiente de una línea de regresión............................................. 5

1.8 Análisis de correlación ..................................................................................................... 5

1.8.1 Tipos de correlación ................................................................................................. 6

1.8.1.1 Correlación directa ..................................................................................................... 6

1.8.1.2 Correlación inversa ..................................................................................................... 6

1.8.1.3 Correlación nula ......................................................................................................... 7

1.8.2 Propiedades de la correlación lineal .............................................................................. 7

1.8.3 Coeficiente de correlación ............................................................................................. 8

1.9 Datos continuos: r de Pearson .......................................................................................... 9

1.9.1 Tipos de variables donde se puede utilizar el coeficiente r de Pearson ....................... 11

1.10 Carácter de r............................................................................................................... 11

1.11 Método para calcular r ............................................................................................... 12

1.12 Inferencias respeto de r (coeficiente de correlación de Pearson) ................................. 13

1.13 Intervalo de confianza para la correlación de la población .......................................... 15


1.14 Prueba de significancia para cada coeficiente de la regresión ...................................... 16

1.15 Datos jerarquizados de: r sperman................................................................................ 17

1.16 Datos nominales: coeficiente de contingencia ............................................................. 17

1.17 Ventajas ........................................................................................................................ 17

1.18 Limitaciones ................................................................................................................. 18

1.19 Diferencia entre regresión y correlación ...................................................................... 23

CAPÍTULO II ..................................................................................................................... 24

CASO PRÁCTICO ............................................................................................................. 24

CONCLUSIONES .............................................................................................................. 28

RECOMENDACIONES .................................................................................................... 29

WEBGRAFÍA ..................................................................................................................... 30
INTRODUCCIÓN

El Seminario Integración Profesional, consiste en el desarrollo de actividades de


investigación y exposición por grupos de temas seleccionados y de actualidades que permita
la revisión teórica y práctica del pensum de Contaduría Pública y Auditoría, relacionados con
Contabilidad, Auditoría, Finanzas, Matemáticas, Estadística y Legislación; con el propósito
de preparar al estudiante para sustentar sus Exámenes de Evaluación Final.

El presente trabajo pretende contribuir al desarrollo de esta rama de la Estadística por medio
de la aplicación de la teoría a un problema real y que a su vez pueda ser utilizado como una
guía de estudio para los estudiantes de la Licenciatura en Estadística como también por los
docentes para el desarrollo del curso de Modelos Lineales, ya que no se encuentra bibliografía
completa para el desarrollo del curso.

La regresión lineal simple utiliza una sola variable de regresión y el caso más sencillo es el
modelo de línea recta. Determina si los cambios en una de ellas influyen en los valores de la
otra. Si ocurre esto se dice que las variables están correlacionadas o bien que
hay correlación entre ellas.

Un Modelo Lineal se puede determinar de manera gráfica o bien, por medio de una ecuación.
Existen ocasiones en que en una de las variables se quiere que cumpla varias condiciones a
la vez, entonces surge un conjunto de ecuaciones donde el punto de intersección de dichas
ecuaciones representa la solución del problema.

Capítulo I, se presenta una pequeña introducción, así como también una definición de
términos básicos.

Capítulo II, caso práctico modelo de regresión y correlación.


CAPÍTULO I
REGRESIÓN Y CORRELACIÓN

1.1 Regresión

La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación
matemática lineal que describe la reacción entre dos variables.

La regresión puede ser utilizada de diversas formas. Se emplean en situaciones en la que las
dos variables miden aproximadamente lo mismo, pero en las que una variable es
relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que
con la otra variable no ocurre lo mismo.

La finalidad de una ecuación de regresión seria estimar los valores de una variable con base
en los valores conocidos de la otra.

Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable
en término de otra. Es decir, se puede intuir una relación de causa y efecto entre dos variables.
El análisis de regresión únicamente indica qué relación matemática podría haber, de existir
una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa
“ciertos valores de otra variable. (Pedagogia, 2022)

1.1.1 Tipos de Regresión


Podemos realizar 3 modelos de análisis distintos en función del número de variables y la
forma de interactuar entre ellas: (Software del Sol, 2020)

✓ Modelo de regresión lineal simple


✓ Modelo de regresión lineal múltiple
✓ Modelo de regresión no lineal

1.2 Ecuación Lineal


Una ecuación lineal es una igualdad matemática entre dos expresiones algebraicas,
denominadas miembros, en las que aparecen elementos conocidos y desconocidos

1
(denominados variables), y que involucra solamente sumas y restas de una variable a la
primera potencia. Por ejemplo, 2x – 3 = 3x + 2 es una ecuación lineal o de primer grado.
Donde: (Profe, 2022)

✓ El Primer término es 2x – 3 y el segundo 3x + 2.


✓ Los coeficientes 2 y 3, y los números 3 y 2, son contantes conocidas.
✓ x es la incógnita y constituye el valor que se desea hallar para que la igualdad sea
cierta. Por ejemplo, si x = – 5, entonces en la ecuación anterior tenemos: 2( – 5)
– 3 = 3( – 5) + 2

1.3 Determinación de la ecuación matemática


Con la teoría que hemos desarrollado acerca de espacios vectoriales, de determinantes y con
las herramientas que hemos adquirido para calcularlos, podemos volver a visitar el tema de
sistemas de ecuaciones lineales y verlo desde una perspectiva más completa. Los
determinantes en sistemas de ecuaciones lineales nos sirven para varias cosas.

Por un lado, sirven para encontrar el rango de una matriz. El rango está relacionado con la
dimensión del espacio de soluciones a un sistema lineal de ecuaciones.

Por otro lado, cuando tenemos sistemas lineales con matriz asociada cuadrada e invertible,
podemos usar determinantes para encontrar las soluciones. A esto se le conoce como
las fórmulas de Cramer o la regla de Cramer. La regla de Cramer es parcialmente útil en
términos prácticos, pues para sistemas concretos conviene más usar reducción gaussiana. Sin
embargo, ero es muy importante en términos teóricos, cuando se quieren probar propiedades
de las soluciones a un sistema de ecuaciones. (Sandoval, 2020)

1.4 Métodos de mínimos cuadrados


El método de los mínimos cuadrados se utiliza para calcular la recta de regresión lineal que
minimiza los residuos, esto es, las diferencias entre los valores reales y los estimados por la
recta. Se revisa su fundamento y la forma de calcular los coeficientes de regresión con este
método. (Molina, 2020)

2
1.5 Interferencia en el análisis de regresión
Los Modelos de Regresión Lineal permiten analizar la posible relación existente entre la
pauta de variabilidad de una variable aleatoria y los valores de una o más variables
(aleatorias o no) de las que la primera depende, o puede depender. El ANOVA es un caso
particular de los Modelos de Regresión (MR) Lineal.  Exigen cálculos mucho más
laboriosos que los implicados en los ANOVA   El recurso a un software estadístico es
prácticamente indispensable. (Vasquez, 2015)

3
1.6 El error estándar de estimación
El error estándar es una estimación de la cantidad que el valor de una estadística de prueba
varía de muestra a muestra. Es la medida de la incertidumbre de la estadística de prueba. Es
posible que el error estándar se abrevie como std. Error.

El error estándar se calcula tomando la desviación estándar de la distribución de muestreo


para la estadística de prueba. La distribución de muestreo es la distribución de todas las
muestras posibles.

Imagine que estaba realizando una encuesta y se eligió al azar a 1000 personas para la
encuesta. Este grupo es una muestra. Puede elegir otra muestra aleatoria de 1000 personas, y
otra muestra, y otra muestra, etc. A continuación, puede calcular la media para cada muestra.
La distribución de estos medios de muestreo es la distribución del muestreo. Mediante el
cálculo de la desviación estándar de esta distribución, se obtiene el error estándar de la media.
Cuando se escribe un error estándar sin cualificación, se supone que es el error estándar de
la media.

También puede calcular el error estándar de la curtosis y el error estándar de la asimetría.


Para calcular el error estándar de la curtosis, se calcula la curtosis por cada muestra y se toma
la desviación estándar de la distribución resultante. El error estándar de asimetría es similar,
excepto que se calcula la asimetría de cada muestra. (IBM, 2023)

4
1.7 Inferencia acerca de la pendiente de una línea de regresión
Aun cuando es poca a nula la relación entre dos variables de una población, es posible tener
valores que hacen que parezca que las variables están relacionadas, es importante probar los
resultados tales del cálculo, a fin de determinar si son significativos (es decir si los parámetros
verdaderos no son cero), si no existiere ninguna relación se esperaría tener una pendiente
cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.

La significación del coeficiente de regresión se comprobar con su desviación estándar

VALOR DE LA MUESTRA - VALOR ESPERADO


t=
DESVIACION ESTANDAR

1.8 Análisis de correlación


El objetivo de un estudio de correlación es determinar la consistencia de una relación entre
observaciones por partes. El termino Correlación significa relación mutua, ya que indica el
grado en que los valores de una variable se relacionan con los valores de otra. Se considera
tres técnicas de correlación:

✓ Para datos de medición


✓ Para jerarquización
✓ Para clasificaciones nominales

El objetivo primordial de análisis de correlación lineal es medir la intensidad de una relación


entre dos variables. Se analizarían algunos diagramas ya sea de dispersión que muestran
diferentes relaciones entre variables independientes o de entrada (X) y variables
independientes o de salida (Y) se dice que no hay correlación o relación entre X y Y.

Si a medida que crece X hay un cambio en los valores de Y existe una correlación. La
correlación es positiva cuando Y tiende a crecer y en negativo cuando pasa lo contrario Y
empieza a decrecer si los pares ordenados (X, Y) tienden a seguir un patrón de línea recta, se
tiene una correlación lineal. La relación lineal perfecta ocurre cuando todos los puntos estas
exactamente sobre una recta. Esta correlación puede ser positiva o negativa dependiendo si

5
Y crece o decrece a medida de que X se incrementa. Si los datos forman una recta horizontal
o vertical hay correlación, ya que una variable no afecta a la otra.

1.8.1 Tipos de correlación


Los tipos de correlación se clasifican en tres los cuales son:

1.8.1.1 Correlación directa

La correlación directa se da cuando al aumentar una de las variables la otra aumenta.

La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

1.8.1.2 Correlación inversa

La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.

La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.

6
1.8.1.3 Correlación nula

La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma
redondeada.

1.8.2 Propiedades de la correlación lineal


El coeficiente de correlación lineal tiene las siguientes propiedades:

El coeficiente de correlación no sufre ninguna variación al variar la escala de medición, lo


que quiere decir que dicho coeficiente no variará si expresamos la altura, por ejemplo, en
metros o en centímetros.

7
El coeficiente de correlación tiene el mismo signo que el del coeficiente de covarianza. Así,
si la covarianza es positiva, la correlación es directa; y si la covarianza es negativa, la
correlación es, por tanto, inversa. Por su parte, cuando la covarianza es nula, la correlación
no existe.

El coeficiente de correlación lineal es un número real entre el número -1 y el número 1. Así,


cuando el coeficiente de correlación lineal adquiere valores que se acercan al -1, la
correlación es inversa y fuerte, mientras que cuando dicho coeficiente se acerca al número 1,
la correlación es directa y también fuerte. Por su parte, cuando la correlación adquiere valores
cercanos a 0, la correlación es débil.

1.8.3 Coeficiente de correlación


Vista la definición de correlación y cuáles son los diferentes tipos de correlación que hay,
vamos a ver cómo se calcula este valor estadístico.

El coeficiente de correlación, también llamado coeficiente de correlación lineal o coeficiente


de correlación de Pearson, es el valor de la correlación entre dos variables.

El coeficiente de correlación de dos variables estadísticas es igual al cociente entre la


covarianza de las variables y la raíz cuadrada del producto de la varianza de cada variable.
Cuando se calcula el coeficiente de correlación sobre una población, el símbolo de la
correlación es la letra griega ρ. Pero cuando se está calculando el coeficiente respecto a una
muestra suele usarse como símbolo la letra r.

El valor del índice de correlación puede estar entre -1 y +1, ambos incluidos. Más abajo
veremos cómo se interpreta el valor del coeficiente de correlación.

Ten en cuenta que existen otros tipos de coeficientes de correlación, como por ejemplo el
coeficiente de correlación de Spearman o el de Kendall. Pero sin duda el más habitual es el
coeficiente de correlación de Pearson.

8
1.9 Datos continuos: r de pearson
El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre
dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el
coeficiente no se encuentra representado adecuadamente.

El coeficiente de correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica


que no hay asociación entre las dos variables. Un valor mayor que 0 indica una asociación
positiva. Es decir, a medida que aumenta el valor de una variable, también lo hace el valor
de la otra. Un valor menor que 0 indica una asociación negativa; es decir, a medida que
aumenta el valor de una variable, el valor de la otra disminuye.

Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:

✓ La escala de medida debe ser una escala de intervalo o relación.


✓ Las variables deben estar distribuida de forma aproximada.
✓ La asociación debe ser lineal.
✓ No debe haber valores atípicos en los datos.
✓ Cómo se calcula el coeficiente de correlación de Pearson

La fórmula del coeficiente de correlación de Pearson es la siguiente:

Donde:
“x” es igual a la variable número uno, “y” pertenece a la variable número dos, “zx” es
la desviación estándar de la variable uno, “zy” es la desviación estándar de la variable dos y
“N” es el número de datos.

Interpretación del coeficiente de correlación de Karl Pearson: El coeficiente de correlación

9
de Pearson tiene el objetivo de indicar cuán asociadas se encuentran dos variables entre sí
por lo que:

Correlación menor a cero: Si la correlación es menor a cero, significa que es negativa, es


decir, que las variables se relacionan inversamente.

Cuando el valor de alguna variable es alto, el valor de la otra variable es bajo. Mientras más
próximo se encuentre a -1, más clara será la covariación extrema. Si el coeficiente es igual a
-1, nos referimos a una correlación negativa perfecta.

Correlación mayor a cero: Si la correlación es igual a +1 significa que es positiva perfecta.


En este caso significa que la correlación es positiva, es decir, que las variables se
correlacionan directamente.

Cuando el valor de una variable es alto, el valor de la otra también lo es, sucede lo mismo
cuando son bajos. Si es cercano a +1, el coeficiente será la covariación.

Correlación igual a cero: Cuando la correlación es igual a cero significa que no es posible
determinar algún sentido de covariación. Sin embargo, no significa que no exista una relación
no lineal entre las variables.

Cuando las variables son independientes significa que estas se encuentran correlacionadas,
pero esto no significa que el resultado sea verdadero.

Ventajas y desventajas del coeficiente de correlación de Pearson

Entre las principales ventajas del coeficiente de correlación de Karl Pearson se encuentran:
✓ El valor es independiente de cualquier unidad que se utiliza para medir las variables.
✓ Si la muestra es grande, es más probable la exactitud de la estimación.
Alguna de las desventajas del coeficiente de correlación es:
✓ Es necesario las dos variables sean medidas a un nivel cuantitativo continuo.
✓ La distribución de las variables debe ser semejante a la curva normal.

10
1.9.1 Tipos de variables donde se puede utilizar el coeficiente r de Pearson
Para poder usar el coeficiente de correlación r de Pearson se usan en variables las cuales son:
✓ Las dos continuas
✓ Una continua y una discontinua (1 ó 0)
✓ Las dos Dicotomaticas (1 ó 0)

La relación entre una variable continua y otra dicotomatica se denomina correlación biserial
puntual (rbp) pero el cálculo y la interpretación son los mismos que cuando las dos variables
son continuas (y podemos utilizar calculadoras y programas que tienen ya programada la
correlación r de Pearson (Ortega)

1.10 Carácter de r

Los valores para r:

Si r > 0, correlación positiva Si r < 0, correlación negativa Si r= 0 no existe correlación Si r=


-1, correlación perfecta negativa Si r= 1, correlación perfecta positiva Si -1 ≤ r ≤ 1, la
correlación es fuerte o débil, según se acerque a cero. El coeficiente de correlación es un
valor entre -1 y +1 que indica el nivel de la relación lineal. Para una población se identifica
como p y para una muestra se identifica como r. El valor -1 indica una relación lineal negativa
perfecta, +1 una relación lineal positiva perfecta y 0 indica que no hay relación lineal.
Ecuación para el cálculo del coeficiente de correlación.

11
El coeficiente de determinación (r2) representa la proporción de la varianza explicada por
una variable respecto a la varianza total de otra variable. Recibe el nombre de determinación
porque se suele considerar como medida del grado de influencia de una variable en otra.
Fórmula de coeficiente de determinación:

1.11 Método para calcular r


Métodos Para Determinar la Relación Puede determinarse por el método gráfico y por el
método matemático Método Gráfico El método gráfico se emplea para resolver problemas
que presentan sólo dos variables de decisión. La naturaleza de relación entre dos variables
puede tomar muchas formas, que van desde algunas funciones sencillas a otras un poco más
complicadas. La relación más evidente consiste en una línea recta o relación lineal. Entre
estas formas podemos mencionar las siguientes: Relación Lineal positiva Relación Lineal
negativa Relación Curvilínea Cuando no existe ninguna relación entre “X” y “Y” Relación
lineal positiva o directa Cuando ambas variables aumentan o disminuyen simultáneamente a
un ritmo constante, existe una relación lineal positiva. (Minitab, 2019) Es decir, cuando “X”
y “Y” se mueven en direcciones similares. A medida que “X” aumenta o disminuye, “Y”
también aumenta o disminuye. Es lineal porque la relación puede identificarse mediante una
línea recta que se puede dibujar entre los puntos (de la nube de puntos). La siguiente tabla
muestra las cantidades vendidas (y) por 15 vendedores de una compañía en un periodo dado.
La tabla también muestra el número de periodos (x) de experiencia que cada vendedor tiene.
(CONSULTORIA, 2019)

12
1.12 Inferencias respeto de r (coeficiente de correlación de Pearson)
La inferencia estadística es el conjunto de métodos y técnicas que permiten inducir, a partir
de la información empírica proporcionada por una muestra, cual es el comportamiento de
una determinada población con un riesgo de error medible en términos de probabilidad.

Los métodos paramétricos de la inferencia estadística se pueden dividir, básicamente, en dos:


métodos de estimación de parámetros y métodos de contraste de hipótesis. Ambos métodos
se basan en el conocimiento teórico de la distribución de probabilidad del estadístico muestral
que se utiliza como estimador de un parámetro.

La estimación de parámetros consiste en asignar un valor concreto al parámetro o parámetros


que caracterizan la distribución de probabilidad de la población. Cuando se estima un
parámetro poblacional, aunque el estimador que se utiliza posea todas las propiedades
deseables, se comete un error de estimación que es la diferencia entre la estimación y el
verdadero valor del parámetro. El error de estimación es desconocido por lo cual es imposible
saber en cada caso cual ha sido la magnitud o el signo del error; para valorar el grado de

13
precisión asociado con una estimación puntual se parte de dicha estimación para construir un
intervalo de confianza. En síntesis, un intervalo de confianza está formado por un conjunto
de valores numéricos tal que la probabilidad de que éste contenga al verdadero valor del
parámetro puede fijarse tan grande como se quiera. Esta probabilidad se denomina grado de
confianza del intervalo, y la amplitud de éste constituye una medida del grado de precisión
con el que se estima el parámetro.

Inferencias respeto de r (coeficiente de correlación de Pearson)

a) Supuestos:

La población sigue la distribución Normal.

Los datos son independientes.

b) Hipótesis:

c) Estadístico de contraste:

donde Zr es la transformación de Fisher del coeficiente de correlación.

d) Distribución del estadístico de contraste: Normal.

e) Significación del estadístico de contraste.

g) Intervalo de confianza:

14
1.13 Intervalo de confianza para la correlación de la población
a) Supuestos:

La población sigue la distribución Normal.

Los datos son independientes.

b) Hipótesis:

c) Estadístico de contraste:

donde Zr es la transformada de Fisher del coeficiente de correlación de Pearson.

d) Distribución del estadístico de contraste: Normal.

e) Significación del estadístico de contraste.

g) Intervalo de confianza:

15
1.14 Prueba de significancia para cada coeficiente de la regresión

La prueba individual de un coeficiente de regresión puede ser útil para determinar si:

Se incluyen otra variable regresora

Se elimina una o más variables regresoras presentes en el modelo

La adición de variables regresoras en el modelo implica:

La SC incremente

La SC disminuya

pero se debe decidir si el incremento en la SC es tan significativo que justifique la


inclusión de otra variable regresora en el modelo, ya que la inclusión de variables que no

deberían ser incluidas puede aumentar la SC .

La hipótesis para probar la significancia de cualquier coeficiente de regresión es

Si la hipótesis nula no es rechazada, es un indicador de que la variable regresora puede ser


eliminada del modelo.

La prueba estadística para la hipótesis es

donde es el elemento de la diagonal de la matriz correspondiente a . La

prueba estadística se distribuye con grados de la libertad del error. La hipótesis


nula se rechaza si:

16
1.15 Datos jerarquizados de: r sperman
1. Depuración de datos y detección de valores atípicos de la variable dependiente de
respuesta, a través del Diagrama de Caja.

2. Análisis Descriptivo.

3. Análisis de Correlaciones. (Pearson o Spearman según se detecte normalidad o no).

4. Comprobación de los supuestos de partida del modelo de regresión múltiple.

5. Bondad del ajuste con el R2 ajustado o % de variabilidad explicada por la modelo


asociada.

6. Significatividad de los factores (variables explicativas independientes) de cara a la


predicción del modelo ajustado de la variable explicada del estudio.

7. Modelo de regresión múltiple (GLM).

(CONSULTORIA, 2019)

1.16 Datos nominales: coeficiente de contingencia


El coeficiente de correlación es la medida específica que cuantifica la intensidad de la relación lineal
entre dos variables en un análisis de correlación. En los informes de correlación, este coeficiente se
simboliza con la r.

1.17 Ventajas
Para dos variables, la fórmula compara la distancia de cada dato puntual respecto a la media
de la variable y utiliza esta comparación para decirnos hasta qué punto la relación entre las
variables se ajusta a una línea imaginaria trazada entre los datos. A esto nos referimos cuando
decimos que la correlación examina las relaciones lineales.

17
1.18 Limitaciones
La correlación sólo se refiere a las dos variables dadas y no aporta información sobre las relaciones
más allá de los datos bivariados. Esta prueba no puede detectar valores atípicos en los datos (y por
tanto estos sesgan los resultados) y tampoco puede detectar correctamente las relaciones
curvilíneas.

El coeficiente de correlación r es un valor sin unidades entre -1 y 1. La significancia estadística se


indica con un valor p. Por lo tanto, usualmente las correlaciones se escriben con dos números
clave: r = y p = .

✓ Cuanto más se aproxima r a cero, más débil es la relación lineal.

✓ Los valores de r positivos indican una correlación positiva, en la que los valores de ambas variables

tienden a incrementarse juntos.


✓ Los valores de r negativos indican una correlación negativa, en la que los valores de una variable

tienden a incrementarse mientras que los valores de la otra variable descienden.


✓ Los valores 1 y -1 representan una correlación "perfecta" positiva y negativa, respectivamente.

Dos variables perfectamente correlacionadas cambian conjuntamente a una tasa fija. Decimos que
tienen una relación linear; cuando representados en un gráfico de dispersión, todos los puntos
correspondientes a los datos pueden conectarse con una misma línea recta.
✓ El valor p nos ayuda a determinar si podemos o no concluir de manera significativa que el

coeficiente de correlación de la población es diferente a cero, basándonos en lo que observamos en


la muestra.

El valor p es una medida de probabilidad empleada para hacer pruebas de hipótesis. El objetivo de
una prueba de hipótesis es determinar si hay evidencia suficiente para apoyar una determinada
hipótesis sobre los datos. De hecho, formulamos dos hipótesis: la hipótesis nula y la hipótesis
alternativa.

En el análisis de correlación, usualmente, la hipótesis nula expresa que la relación observada entre
las variables es producto del mero azar (esto es, que el coeficiente de correlación en realidad es
cero y no hay una relación lineal).

18
El coeficiente de correlación de la muestra puede representarse con una fórmula:

Complete el denominador de la ecuación del coeficiente

El denominador de nuestra ecuación del coeficiente de correlación tiene este aspecto:

Variantes del coeficiente de correlación

En esta sección nos centraremos en la correlación producto-momento de Pearson. Es uno de


los tipos de medidas de correlación más empleados en la práctica, pero no es el único. Otra
variante estrechamente relacionada es la correlación de Spearman, que se usa de manera
similar, pero se aplica a datos clasificados.

Vamos a ver cómo calcular el coeficiente de correlación a través de un ejemplo con un


conjunto pequeño de números, para que sea fácil seguir las operaciones.
Supongamos que queremos saber si podemos esperar más ventas de helado en nuestra ciudad
en los días de calor. Las heladerías empiezan a abrir en primavera; tal vez porque la gente
compra más helado en los días que hace calor. Alternativamente, a lo mejor la gente compra
helado de manera regular porque les gusta mucho.

Para empezar a responder a esta pregunta, recopilaremos los datos de los promedios diarios de
venta de helado y la temperatura máxima diaria. Por tanto, las ventas de helado y la temperatura
son las dos variables que usaremos para calcular el coeficiente de correlación. A veces a este tipo
de datos se los llama datos bivariados, porque cada observación (o instante de tiempo en el que

19
hemos medido tanto las ventas como la temperatura) tiene dos datos que podemos usar para
describirla. En otras palabras, nos estamos preguntando si las ventas de helado y la temperatura
varían conjuntamente.

Tal como lo hemos hecho antes, un gráfico de dispersión es útil para echar un primer vistazo:

También podemos ver los datos en una tabla, ya que nos ayuda a seguir el cálculo del
coeficiente a partir de cada dato bivariado. Cuando hablamos de datos bivariados, lo común
es llamar a una variable X y a la otra Y (esto también nos ayuda a orientarnos en un plano
visual, como los ejes de un gráfico). Vamos a llamar X a las ventas de helado e Y a la
temperatura.

Observe que todos los datos bivariados se dan por pares. Recuerde que estamos observando
en instantes individuales en el tiempo, y cada uno de ellos tiene un valor tanto para las ventas
como para la temperatura.

20
Comience averiguando las medias de la muestra

Ahora que hemos orientado nuestros datos, podemos empezar con dos subcálculos
importantes de la fórmula anterior: la media de la muestra y la diferencia entre cada dato
puntual y esta media (durante estos pasos, también podrá ver los cimientos iniciales de
la desviación estándar).

Las medias de la muestra se representan con los símbolos x̅ e y̅, a veces llamados "X-Barra"
e "Y-Barra". Las medias de venta de helados (x̅) y temperatura (y̅) pueden calcularse
fácilmente de la siguiente manera:

Calcule la distancia de cada dato puntual respecto a su media

Una vez que hemos obtenido la media de cada una de las dos variables, el siguiente paso es
restar la media de ventas de helado (6) de cada uno de los datos puntuales de ventas (x_i en
la fórmula) y la media de temperatura (75) de cada uno de los datos puntuales de temperatura
(y_i en la fórmula). Tenga en cuenta que esta operación a veces da lugar a un número negativo
o a cero.

21
Complete el numerador de la ecuación del coeficiente

Esta parte de la ecuación se llama la suma de los productos. Un producto es un número que
se obtiene tras una multiplicación, así que esta fórmula es justo lo que parece: la suma de los
números que ha multiplicado.

Tomamos los pares de valores de cada fila de las últimas dos columnas de la tabla de arriba,
los multiplicamos (recuerde que al multiplicar dos números negativos se obtiene un resultado
positivo) y sumamos los resultados:

Complete el denominador de la ecuación del coeficiente

El denominador de nuestra ecuación del coeficiente de correlación tiene este aspecto:

Vamos a ver las expresiones de esta ecuación por separado con los números de nuestro
ejemplo de ventas de helado:

22
Cuando multiplicamos el resultado de las dos expresiones entre sí, obtenemos:

Y el denominador de la ecuación quedaría así:

Complete el cálculo y compare el resultado con el gráfico de dispersión

Transcribimos de nuevo nuestra ecuación para el coeficiente de correlación completa:

Introduzcamos en el numerador y el denominador los números que hemos calculado en los


pasos anteriores:

1.19 Diferencia entre regresión y correlación


La regresión supone que hay una variable fija, controlada por el investigador (es la variable
independiente o predictora), y otra que no está controlada (variable respuesta o dependiente).

23
La correlación supone que ninguna es fija: las dos variables están fuera del control de investigador.
(estadística, 2023)

CAPÍTULO II
CASO PRÁCTICO

Regresión y correlación lineal simple

a. Estimar los gastos para un ingreso de Q. 50mil.


Formula
Yc = a + bx

Ingresos 25 30 40 35 20
Gastos 20 22 35 30 18

Como se desea estimar los gastos, por tanto, se identificarán como


Y
X Y X^2 Y^2 XY
Ingresos Gastos
25 20 625 400 500
30 22 900 484 660
40 35 1,600 1,225 1,400
35 30 1,225 900 1,050
20 18 400 324 360
150 125 4,750 3,333 3,970

ΣX = 150
ΣY = 125
ΣX² = 4,750
ΣY² = 3,333
ΣXY = 3,970
n = 5

No conocemos la variable a y
ΣY = na + bΣX b
ΣXY = aΣX+bΣX^2

125 = 5a+150b
3970 = 150a+4750b

24
125 = 5a+150b

-5a = -125+150b

a = -125+150b
-5
a = 25 - 30b

3970 = 150a+4750b

150*(25-
3970 = 30b)+4750b

3970 = 3750 - 4500b + 4750b

3970 = 3750 + 250b

- 250b = 3750-3970

- 250b = -220

b = -220
-250

b = 0.88

125 = 5a+150b

-5a = -125+150*(0.88)

-5a = -125 +132

-5a = 7

a = 7
-5

a = -1.4

Yc = a + bx

25
La x se reemplaza
Yc = -1.4 + 0.88x por 50
Yc = 42.6

b. Determinar el
coeficiente de
correlación y su
interpretación

a(ΣY) + b(ΣXY) - n(𝑦 ̅)^2 𝑦 ̅ = ΣY/n


r=
ΣY^2 - n(𝑦 ̅)^2

-175 + 3494 - 3125


r=
3333 - 3125

193.6
r=
208

r= 0.93077

r= 0.96476382

La correlación es de 0.9648 por lo que se dice que es una correlación positiva.

c. Determinar el
error estándar de
la regresión

ΣY^2 + a(ΣY) - b(ΣXY)


Sy/x =
n

26
Sy/x = 3333 + -175 - 3494
5

Sy/x = 14.4
5

2.88
Sy/x =

Sy/x = 1.69705627

27
CONCLUSIONES

1. El coeficiente de correlación de Pearson es una medida considerablemente utilizada


en diversas áreas del que hacer científico, desde estudios técnicos, econométricos o
de ingeniería; hasta investigaciones relacionadas con las ciencias sociales, del
comportamiento o de la salud. Debido a que el gran campo que abarca se le da en
ocasiones uso indebido el más frecuente es al momento de comprobar premisas
siendo que esta se verifica únicamente a nivel univariado y se omite su revisión
bivariada.

2. El método de coeficiente de correlación muestra en que grado los sujetos o las


situaciones tienen el mismo orden en las variables que se estudian. Estos grados de
relación son tanto positivos, negativos o nulas, estos se representan por medio de los
diagramas de dispersión, pues por medio de ellos se pueden observar el
comportamiento y lograr obtener así el mejor resultado.

3. La regresión y correlación se basan en la relación o asociación entre dos o más


variables, una llamada variable dependiente y la variable independiente la se
desarrolla a través de una fórmula matemática que relaciona las variables conocidas
con las variables desconocidas en la cual se da el efecto de relación o asociación.

28
RECOMENDACIONES

1. Analizar el fin y el campo que se utilizara la correlación para identificar la manera


más adecuada de utilizarla tomando en cuenta si se usara para medir una población
total o solo se realizara muestras, si se utilizara para estudios técnicos o de ingeniera,
de ciencias sociales o de comportamiento, también es importante identificar cual
método se adecua a nuestro proyecto realizando un comparativo con el de Spearman
o el de Kendall.

2. El Coeficiente de correlación no es una relación de causa y efecto, al representarlas


en el diagrama en los ejes X y Y, se analizan las variables y según el grado de
dependencia así se ubican en el plano cartesiano, en cierta manera una variable es
dependiente de la otra, por lo tanto, se debe de reconocer como asociación entre las
variables y no una relación de casualidad.

3. La regresión y correlación se pueden aplicar en las investigaciones sociales,


económicas entre otras. Este de tipo de análisis de datos se pueden aplicar en
investigaciones económicas ya que permiten hacer comparaciones y determinar las
semejanzas que tienen el objeto de estudio debiendo aplicar correctamente las
fórmulas para obtener el resultado deseado.

29
WEBGRAFÍA
CONSULTORIA, E. (13 de JUNIO de 2019). ESTAMÁTICA CONSULTORIA. Obtenido
de https://estamatica.net/regresion-multiple-jerarquica-con-spss/

estadística, P. d. (2023). Una introducción online gratuita a la estadística. Obtenido de


https://www.jmp.com/es_co/statistics-knowledge-portal/what-is-
correlation/correlation-coefficient.html#404f1893-ae56-43ed-b84c-f6c99f313eca

IBM. (03 de 01 de 2023). Error Estandar. Obtenido de Cognos Analytics:


https://www.ibm.com/docs/es/cognos-analytics/11.1.0?topic=terms-standard-error

Molina, M. (17 de 06 de 2020). Metodos Minimos Cuadrados. Obtenido de Matematica:


https://anestesiar.org/2020/la-distancia-mas-corta-el-metodo-de-los-minimos-
cuadrados/#:~:text=El%20m%C3%A9todo%20de%20los%20m%C3%ADnimos%2
0cuadrados%20se%20utiliza%20para%20calcular,de%20regresi%C3%B3n%20con
%20este%20m%C3%A9todo.

Ortega, C. (s.f.). questionpro. Recuperado el 31 de enero de 2023, de COEFICIENTE DE


CORRELACION DE PEARSON:
https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-pearson/

Pedagogia, G. L. (9 de 2022). Estadistica Descriptiva . Obtenido de Regresion y


Correlacion Lineal :
https://sites.google.com/site/estadisticadescriptivaenedu/home/unidad-1/6---regre

Profe, M. (1 de 2022). Mi Profe.com. Obtenido de Mi Profe.com:


https://miprofe.com/ecuacion-lineal/

Sandoval, L. I. (18 de 5 de 2020). Blog De Leo. Obtenido de Aprendiendo, creando y


compartiendo matemáticas:
https://www.google.com/search?q=determinacion+de+la+ecuacion+matematica&rl
z=1C1VDKB_esGT1012GT1012&sxsrf=AJOqlzXfrl0l22ZhisRf6ynG5Gep00NSfQ
%3A1675198836527&ei=dIHZY__nH7a4kvQPm9GBiAs&oq=determinacion+de+
la+ecuacion+matema&gs_lcp=Cgxnd3Mtd2l6LXNlcnAQAxgAMg

30
Software del Sol, S. (2 de 2020). por Software DELSOL. Obtenido de Analisis de
Regresion : https://www.sdelsol.com/glosario/analisis-de-regresion/

Vasquez, E. (5 de 2015). Modelos de Regresion . Obtenido de Departamento de Estadistica:


https://estdg.blogs.upv.es/files/2018/05/UD-05-4-Regresi%C3%B3n-GII-
ETSINF.pdf

31

También podría gustarte