Está en la página 1de 17

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación

entre variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el


análisis de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas
económicas hasta diferentes aspectos del comportamiento humano. En el contexto de la
investigación de mercados puede utilizarse para determinar en cual de diferentes medios de
comunicación puede resultar más eficaz invertir, o para predecir el numero de ventas de un
determinado producto. En física se utiliza para caracterizar la relación entre variables o para
calibrar medidas. Etc.

Tanto en el caso de dos variables (regresión simple) como en el de mas de dos variables
(regresión múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar
la relación entre una variable llamada dependiente o criterio (Y) y una o mas variables
llamadas independientes o predictorias (X1, X2,….., Xk), así como para desarrollar una
ecuación lineal con fines predictivos. Además, el análisis de regresión lleva asociados una
serie de procedimientos de diagnóstico (análisis de los residuos, puntos de influencia) que
informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre como
perfeccionarlo.

Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión, no haremos


hincapié en los aspectos más técnicos del análisis, sino que intentaremos fomentar la
comprensión de cuándo y cómo utilizar el análisis de regresión lineal, y como interpretar los
resultados. También presentaremos atención a otras cuestiones como el chequeo de los
supuestos del análisis de regresión y la forma de proceder cuando se incumplen.

Se considera que un diagrama de dispersión ofrece una idea bastante aproximada sobre el
tipo de relación que existe entre dos variables. Pero, además, un diagrama de dispersión
también puede utilizarse como una forma de cuantificar el grado de correlación lineal
existente entre dos variables; basta con observar el grado en que la nube de puntos se ajusta a
una línea recta.

Ahora bien, aunque un diagrama de dispersión permite formarse una primera impresión muy
rápida sobre el tipo de relación existente entre dos variables, utilizarlo como una forma de
cuantificar esa relación tiene un serio inconveniente; la relación entre dos variables no
siempre es perfecta o nula; de hecho, habitualmente no es ni lo uno ni lo otro.

Supongamos que disponemos de un pequeño conjunto de datos con información sobre 35


marcas de cerveza y que estamos interesados en estudiar la relación entre el grado de alcohol
de las cervezas y su contenido calórico. Un buen punto de partida para formarnos una buena
impresión de esa relación podría ser la representación de la nube de puntos, tal como se
muestra en el siguiente diagrama de dispersión.

Diagrama de dispersión de porcentaje de alcohol por No. De calorías

El eje vertical muestra el numero de calorías (por cada tercio de litro) y el horizontal el
contenido de alcohol (expresado en porcentaje). A simple vista, parece existir una relación
positiva entre ambas variables: conforme aumenta el porcentaje de alcohol, también aumenta
el numero de calorías. En esta muestra no hay cervezas que teniendo alto contenido de
alcohol tengan pocas calorías y tampoco hay cervezas que teniendo muchas calorías tengan
poco alcohol. La mayor parte de las cervezas de la muestra se agrupan entre el 4.5% y el 5%
de alcohol, siendo relativamente pocas las cervezas que tienen un contenido de alcohol
inferior a ese. Podríamos haber extendido el rango de la muestra incluyendo cervezas sin
alcohol, pero el rango de calorías y alcohol considerados parece bastante apropiado: no hay,
por ejemplo, cervezas con un contenido de alcohol del 50%, o cervezas sin calorías.

¿Cómo podríamos describir los datos que acabamos de proponer? Podríamos simplemente
que el aumento del porcentaje de alcohol va acompañado de un aumento en el número de
calorías; pero esto, aunque correcto, es poco especifico. ¿Cómo podríamos obtener una
descripción mas concreta de los resultados? Podríamos, por ejemplo, listar los datos
concretos de que disponemos; pero esto, aunque preciso, no resulta demasiado informativo.

Podríamos hacer algo mas interesante. Por ejemplo, describir la pauta observada en la nube
de puntos mediante una función matemática simple, tal como una línea recta. A primera vista,
una línea recta podría ser un buen punto de partida para describir resumidamente la nube de
puntos de la figura anterior.

Puesto que una línea recta posee un formula muy simple,

Yi = Bo + Bi Xi

Al describir grupos de diferentes observaciones, con


frecuencia es conveniente resumir la información con un solo
número. Este número que, para tal fin, suele situarse hacia el
centro de la distribución de datos se
denomina medida o parámetro de tendencia central o de
centralización. Cuando se hace referencia únicamente a la
posición de estos parámetros dentro de la distribución,
independientemente de que esté más o menos centrada, se
habla de estas medidas como medidas de posición. En este
caso se incluyen también los cuantiles entre estas medidas.

Entre las medidas de tendencia central tenemos:

• Media aritmética
• Media ponderada
• Mediana
• Moda

Entre las medidas de posición están:


• Media geométrica
• Cuantiles

- Cuartiles

- Deciles

- Percentiles

Utilice la media para describir un conjunto entero de


observaciones con un solo valor que representa el centro de
los datos. Muchos análisis estadísticos utilizan la media como
un punto de referencia estándar. Le media es la suma de todas
las observaciones dividida entre el número de observaciones.

a) Para series simples:

Ejemplo: el tiempo de espera (en minutos) de cinco clientes de


un banco es: 3, 2, 4, 1 y 2. El tiempo medio de espera es:

b) Para series agrupadas:


Cuando cada valor de la variable x es afectada por una
frecuencia o repetición. Se multiplica la variable por su
frecuencia y la suma de estos productos se divide entre la
suma de las frecuencias.

Ejemplos:

1. Se tiene la siguiente distribución de frecuencias

2. Si la serie esta agrupada en clases y frecuencias, la


formula presenta una variante
Otra medida de tendencia central es la mediana. La mediana es
un valor de la variable que separa el total de los datos en 2
partes iguales, es decir que es un valor de la variable, que por
debajo y por encima de el, esta el 50% de las observaciones.

a) Para series simples:


Ejemplos:
1. Cuando el número de observaciones es impar la mediana es
el dato central, en la muestra

7 9 10 12 13 14 17 18 19

Para estos datos ordenados, la mediana es 13. Es decir, el 50%


de los valores es menor o igual que 13 y el 50% de los valores
es mayor o igual a 13.
2. Si el número de observaciones es par, la mediana
correspondiente al promedio de los dos valores centrales, en
la muestra

3 9 11 15 la mediana es (9 + 11) / 2 = 10

b) Para series
agrupadas:
donde:

La fórmula a utilizar es la siguiente: fi: frecuencia absoluta

Md: mediana

Li: límite inferior de la clase


que contiene a la mediana.

Ls: límite superior de la clase


que contiene a la mediana.

Md = Li + i N / 2 - faa

Fi i: ancho de intervalo

Faa: frecuencia acumulada anterior


N / 2: total de datos observados dividido entre
dos

Ejemplo: tenemos las calificaciones recibidas en un examen


por los alumnos de una asignatura.

________________________________

Calificacio No. Alumbre fa__

0-2 2 2 N / 2 = 35/2 =
17.5

2-4 5 7 En las frecuencias


acumuladas buscar el valor mayor

4-6 14 21 a 17.5

6-8 8 29

8-10 6 35___

35

En este caso, el valor de la mediana esta entre la clase 4-6,


cuyo límite inferior es 4

Aplicando la fórmula.

Md = 4 + 2 ( 17.5 - 7) = 5.5

14
El valor de la mediana es 5.5

La moda de una distribución se define como el valor de la


variable que mas repite. En un polígono de frecuencia la moda
corresponde al valor de la variable que esta bajo el punto más
alto del grafico. Una muestra puede tener más de una moda. La
moda se puede utilizar con la media y la mediana para
proporcionar una caracterización general de la distribución de
datos. Mientras que la media y la mediana requieren de un
calculo, la moda se obtiene simplemente contando el número
de veces que cada valor ocurre en un conjunto de datos.

a) En series simples
Ejs: 1. En un concurso de belleza, en relación con la medida
de la cintura de las candidatas, se obtuvieron los resultados
siguientes:

________________________

No. De Tamaño de

Candidata la cintura__

18 20 La moda
en el concurso fue de 24 pulgadas

392 22 de
cintura, ya que habían 933 candidatas

933 24 que
tenían dicha medida.
564 26

159 28

41 30

19 32______

2. la moda en zapatos es un tamaño que más se vende o el


estilo que mas se usa.

3. En una empresa la moda de los sueldos es la que se paga al


mayor número de empleados.

4. La moda de los valores 1, 4, 8, 10, 10 (es 10)

5. En los datos 2, 2, 5, 7, 9, 9, 9, 10, 10, 12 La moda es


9 llamada unimodal

6. En los valores 1, 3, 3, 7, 7, 8 se tiene dos modas (bimodal


o multimodal)

7. En los valores 1, 2, 4 y 9 no hay moda

b) En series agrupadas
Existen tres métodos:
• Método crudo o simple inspección

_______________

Clases fi___

50-54 1

45-49 3 la clase modal es 25-29


puesto que tiene

40-44 4 la mas alta frecuencia


(13) el punto medio

35-39 7 de la clase modal


es Mo = 25+29 = 27

30-
34 11 2

25-29 13

20-24 9

15-19 6

10-14 4

5-9 2____

• Relación empírica de Pearson Tomando los


datos de la tabla anterior
Obtenemos que =
25.88 y Md = 27.3

Mo = 3Md – 2

Mo = 3(27.3) – 2(25.88)

Mo = 81 - 51.76

Mo = 29.24

• Método de diferencias

Ejemplo: Los salarios percibidos por un grupo de 25


empleados en una empresa en

Período dado, están dados en la siguiente tabla.

______________________

Salarios No. Empleados Mo = Li + i ( Δ1 +


Δ2 )

Clases fi_______ Δ1

1–3 1

4–6 4
7–9 9

10 – 12 6 Δ1 = 9 – 4 = 5

13 – 15 2 Δ2 = 9 – 6 = 3

16 – 18 3________

25

Mo = 7 + 2 ( 5 ) = 7 + 2(0.625) = 8.25

5+3

Lo que indica que de 25 empleados, 9 de ellos reciben un


salario de $8.25

Media Geométrica (Mg)

La media geométrica (Mg) de un conjunto de valores, es la


raíz n-esima del producto de los en el conjunto. Si hay 2 datos
o valores, la media geométrica será la raíz cuadrada del
producto de dichos datos. Si son 3, la raíz cubica, será la media
geométrica, y asi sucesivamente.

a) En series simples:

Cuando se tienen datos simples, basta con multiplicarlos entre


si, y obtener la raíz cuadrada, cubica, etc. Según sea el número
de datos que se tenga.
Ejemplo: Encontrar la media geométrica de 12, 3 y 6

Cuando los datos son considerados, resulta difícil obtener la


raíz del producto de dichos valores, por lo que se hace uso de
los logaritmos comunes. Transformando la formula de la
manera siguiente.

EJERCICIOS:

Hallar la media geométrica de los números:

a) 3, 5, 8, 3, 7, 2 R/ Mg = 4.14

b) 28.5, 73.6, 47.2, 31.5, 64.8 R/ Mg = 45.8

b) En series agrupadas:
Ejemplo: de los datos de la siguiente tabla encontrar la Mg

_____________________________

x fi Log x fi Log x__

50 3 1.698970 5.096910 Mg =
antilog 64.883466

75 6 1.875061 11.250366
32

100 5 2.000000 10.000000 Mg =


antilog 2.027608

125 8 2.096910 16.775280 Mg =


106.56

150 10 2.176091 21.760910 ojo: el


antilogaritmo se encuentra con la tecla 10-1 de la

32 64.883466 calculadora

Cuartiles (Q)

Los cuartiles son los valores que dividen a la masa de datos


observados en cuatro partes iguales, c/u de las partes
contendrá el 25% de los datos observados, el cuartil dos (Q2)
divide los datos en dos partes iguales, por lo que su valor será
exactamente igual al valor de la mediana.

____25%________|_____50%_______|_____75%_______|____100%______
_

Q1 Q2 Q3

Ejemplo: Dados los siguientes datos encontrar los cuartiles.


Deciles (D)

Dividen a los datos observados en 10 partes iguales

__10%_ |__20%_ |__30%_ |__40%_ |__50%_ |__60%_ |__70%_ |__


80%_ |__90%_ |__100%___

D1 D2 D3 D4 D5 D6 D7
D8 D9

Ejemplo: Calificaciones de 60 estudiantes, ¿encontrar D2 y D5?


Percentiles (P)

Dividen a los datos observados en 100 partes iguales

__1%__|__2%__|__3%__|__4%__|_..................................._|_100%_

P1 P2 P3 P4 …………………………….. P99

Ejemplo: Calificaciones de 60 estudiantes, ¿encontrar P3 y


P25?

También podría gustarte