Medidas de Disperción

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación
entre variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el

análisis de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas
económicas hasta diferentes aspectos del comportamiento humano. En el contexto de la
investigación de mercados puede utilizarse para determinar en cual de diferentes medios de
comunicación puede resultar más eficaz invertir, o para predecir el numero de ventas de un
determinado producto. En física se utiliza para caracterizar la relación entre variables o para
calibrar medidas. Etc.
Tanto en el caso de dos variables (regresión simple) como en el de mas de dos variables
(regresión múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar
la relación entre una variable llamada dependiente o criterio (Y) y una o mas variables
llamadas independientes o predictorias (X1, X2,….., Xk), así como para desarrollar una
ecuación lineal con fines predictivos. Además, el análisis de regresión lleva asociados una
serie de procedimientos de diagnóstico (análisis de los residuos, puntos de influencia) que
informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre como
perfeccionarlo.
Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión, no haremos

hincapié en los aspectos más técnicos del análisis, sino que intentaremos fomentar la
comprensión de cuándo y cómo utilizar el análisis de regresión lineal, y como interpretar los
resultados. También presentaremos atención a otras cuestiones como el chequeo de los
supuestos del análisis de regresión y la forma de proceder cuando se incumplen.
Se considera que un diagrama de dispersión ofrece una idea bastante aproximada sobre el
tipo de relación que existe entre dos variables. Pero, además, un diagrama de dispersión
también puede utilizarse como una forma de cuantificar el grado de correlación lineal
existente entre dos variables; basta con observar el grado en que la nube de puntos se ajusta a
una línea recta.
Ahora bien, aunque un diagrama de dispersión permite formarse una primera impresión muy
rápida sobre el tipo de relación existente entre dos variables, utilizarlo como una forma de
cuantificar esa relación tiene un serio inconveniente; la relación entre dos variables no
siempre es perfecta o nula; de hecho, habitualmente no es ni lo uno ni lo otro.
Supongamos que disponemos de un pequeño conjunto de datos con información sobre 35

marcas de cerveza y que estamos interesados en estudiar la relación entre el grado de alcohol
de las cervezas y su contenido calórico. Un buen punto de partida para formarnos una buena
impresión de esa relación podría ser la representación de la nube de puntos, tal como se
muestra en el siguiente diagrama de dispersión.
Diagrama de dispersión de porcentaje de alcohol por No. De calorías
El eje vertical muestra el numero de calorías (por cada tercio de litro) y el horizontal el
contenido de alcohol (expresado en porcentaje). A simple vista, parece existir una relación
positiva entre ambas variables: conforme aumenta el porcentaje de alcohol, también aumenta
el numero de calorías. En esta muestra no hay cervezas que teniendo alto contenido de
alcohol tengan pocas calorías y tampoco hay cervezas que teniendo muchas calorías tengan
poco alcohol. La mayor parte de las cervezas de la muestra se agrupan entre el 4.5% y el 5%
de alcohol, siendo relativamente pocas las cervezas que tienen un contenido de alcohol
inferior a ese. Podríamos haber extendido el rango de la muestra incluyendo cervezas sin
alcohol, pero el rango de calorías y alcohol considerados parece bastante apropiado: no hay,
por ejemplo, cervezas con un contenido de alcohol del 50%, o cervezas sin calorías.
¿Cómo podríamos describir los datos que acabamos de proponer? Podríamos simplemente
que el aumento del porcentaje de alcohol va acompañado de un aumento en el número de
calorías; pero esto, aunque correcto, es poco especifico. ¿Cómo podríamos obtener una
descripción mas concreta de los resultados? Podríamos, por ejemplo, listar los datos
concretos de que disponemos; pero esto, aunque preciso, no resulta demasiado informativo.
Podríamos hacer algo mas interesante. Por ejemplo, describir la pauta observada en la nube
de puntos mediante una función matemática simple, tal como una línea recta. A primera vista,
una línea recta podría ser un buen punto de partida para describir resumidamente la nube de
puntos de la figura anterior.
Puesto que una línea recta posee un formula muy simple,
Yi = Bo + Bi Xi
Al describir grupos de diferentes observaciones, con

frecuencia es conveniente resumir la información con un solo
número. Este número que, para tal fin, suele situarse hacia el
centro de la distribución de datos se
denomina medida o parámetro de tendencia central o de
centralización. Cuando se hace referencia únicamente a la
posición de estos parámetros dentro de la distribución,
independientemente de que esté más o menos centrada, se
habla de estas medidas como medidas de posición. En este
caso se incluyen también los cuantiles entre estas medidas.
Entre las medidas de tendencia central tenemos:
• Media aritmética
• Media ponderada
• Mediana
• Moda
Entre las medidas de posición están:

• Media geométrica
• Cuantiles
- Cuartiles
- Deciles
- Percentiles
Utilice la media para describir un conjunto entero de

observaciones con un solo valor que representa el centro de
los datos. Muchos análisis estadísticos utilizan la media como
un punto de referencia estándar. Le media es la suma de todas
las observaciones dividida entre el número de observaciones.
a) Para series simples:
Ejemplo: el tiempo de espera (en minutos) de cinco clientes de

un banco es: 3, 2, 4, 1 y 2. El tiempo medio de espera es:
b) Para series agrupadas:

Cuando cada valor de la variable x es afectada por una
frecuencia o repetición. Se multiplica la variable por su
frecuencia y la suma de estos productos se divide entre la
suma de las frecuencias.
Ejemplos:
1. Se tiene la siguiente distribución de frecuencias
2. Si la serie esta agrupada en clases y frecuencias, la

formula presenta una variante
Otra medida de tendencia central es la mediana. La mediana es
un valor de la variable que separa el total de los datos en 2
partes iguales, es decir que es un valor de la variable, que por
debajo y por encima de el, esta el 50% de las observaciones.
a) Para series simples:

Ejemplos:
1. Cuando el número de observaciones es impar la mediana es
el dato central, en la muestra
7 9 10 12 13 14 17 18 19
Para estos datos ordenados, la mediana es 13. Es decir, el 50%

de los valores es menor o igual que 13 y el 50% de los valores
es mayor o igual a 13.
2. Si el número de observaciones es par, la mediana
correspondiente al promedio de los dos valores centrales, en
la muestra
3 9 11 15 la mediana es (9 + 11) / 2 = 10
b) Para series
agrupadas:
donde:
La fórmula a utilizar es la siguiente: fi: frecuencia absoluta
Md: mediana
Li: límite inferior de la clase

que contiene a la mediana.
Ls: límite superior de la clase

que contiene a la mediana.
Md = Li + i N / 2 - faa
Fi i: ancho de intervalo
Faa: frecuencia acumulada anterior

N / 2: total de datos observados dividido entre
dos
Ejemplo: tenemos las calificaciones recibidas en un examen

por los alumnos de una asignatura.
________________________________
Calificacio No. Alumbre fa__
0-2 2 2 N / 2 = 35/2 =
17.5
2-4 5 7 En las frecuencias

acumuladas buscar el valor mayor
4-6 14 21 a 17.5
6-8 8 29
8-10 6 35___
35
En este caso, el valor de la mediana esta entre la clase 4-6,

cuyo límite inferior es 4
Aplicando la fórmula.
Md = 4 + 2 ( 17.5 - 7) = 5.5
14
El valor de la mediana es 5.5
La moda de una distribución se define como el valor de la

variable que mas repite. En un polígono de frecuencia la moda
corresponde al valor de la variable que esta bajo el punto más
alto del grafico. Una muestra puede tener más de una moda. La
moda se puede utilizar con la media y la mediana para
proporcionar una caracterización general de la distribución de
datos. Mientras que la media y la mediana requieren de un
calculo, la moda se obtiene simplemente contando el número
de veces que cada valor ocurre en un conjunto de datos.
a) En series simples
Ejs: 1. En un concurso de belleza, en relación con la medida
de la cintura de las candidatas, se obtuvieron los resultados
siguientes:
________________________
No. De Tamaño de
Candidata la cintura__
18 20 La moda
en el concurso fue de 24 pulgadas
392 22 de
cintura, ya que habían 933 candidatas
933 24 que
tenían dicha medida.
564 26
159 28
41 30
19 32______
2. la moda en zapatos es un tamaño que más se vende o el

estilo que mas se usa.
3. En una empresa la moda de los sueldos es la que se paga al

mayor número de empleados.
4. La moda de los valores 1, 4, 8, 10, 10 (es 10)
5. En los datos 2, 2, 5, 7, 9, 9, 9, 10, 10, 12 La moda es

9 llamada unimodal
6. En los valores 1, 3, 3, 7, 7, 8 se tiene dos modas (bimodal

o multimodal)
7. En los valores 1, 2, 4 y 9 no hay moda
b) En series agrupadas
Existen tres métodos:
• Método crudo o simple inspección
_______________
Clases fi___
50-54 1
45-49 3 la clase modal es 25-29

puesto que tiene
40-44 4 la mas alta frecuencia

(13) el punto medio
35-39 7 de la clase modal

es Mo = 25+29 = 27
30-
34 11 2
25-29 13
20-24 9
15-19 6
10-14 4
5-9 2____
• Relación empírica de Pearson Tomando los

datos de la tabla anterior
Obtenemos que =
25.88 y Md = 27.3
Mo = 3Md – 2
Mo = 3(27.3) – 2(25.88)
Mo = 81 - 51.76
Mo = 29.24
• Método de diferencias
Ejemplo: Los salarios percibidos por un grupo de 25

empleados en una empresa en
Período dado, están dados en la siguiente tabla.
______________________
Salarios No. Empleados Mo = Li + i ( Δ1 +

Δ2 )
Clases fi_______ Δ1
1–3 1
4–6 4
7–9 9
10 – 12 6 Δ1 = 9 – 4 = 5
13 – 15 2 Δ2 = 9 – 6 = 3
16 – 18 3________
25
Mo = 7 + 2 ( 5 ) = 7 + 2(0.625) = 8.25
5+3
Lo que indica que de 25 empleados, 9 de ellos reciben un

salario de $8.25
Media Geométrica (Mg)
La media geométrica (Mg) de un conjunto de valores, es la

raíz n-esima del producto de los en el conjunto. Si hay 2 datos
o valores, la media geométrica será la raíz cuadrada del
producto de dichos datos. Si son 3, la raíz cubica, será la media
geométrica, y asi sucesivamente.
a) En series simples:
Cuando se tienen datos simples, basta con multiplicarlos entre

si, y obtener la raíz cuadrada, cubica, etc. Según sea el número
de datos que se tenga.
Ejemplo: Encontrar la media geométrica de 12, 3 y 6
Cuando los datos son considerados, resulta difícil obtener la

raíz del producto de dichos valores, por lo que se hace uso de
los logaritmos comunes. Transformando la formula de la
manera siguiente.
EJERCICIOS:
Hallar la media geométrica de los números:
a) 3, 5, 8, 3, 7, 2 R/ Mg = 4.14
b) 28.5, 73.6, 47.2, 31.5, 64.8 R/ Mg = 45.8
b) En series agrupadas:
Ejemplo: de los datos de la siguiente tabla encontrar la Mg
_____________________________
x fi Log x fi Log x__
50 3 1.698970 5.096910 Mg =
antilog 64.883466
75 6 1.875061 11.250366
32
100 5 2.000000 10.000000 Mg =

antilog 2.027608
125 8 2.096910 16.775280 Mg =

106.56
150 10 2.176091 21.760910 ojo: el

antilogaritmo se encuentra con la tecla 10-1 de la
32 64.883466 calculadora
Cuartiles (Q)
Los cuartiles son los valores que dividen a la masa de datos

observados en cuatro partes iguales, c/u de las partes
contendrá el 25% de los datos observados, el cuartil dos (Q2)
divide los datos en dos partes iguales, por lo que su valor será
exactamente igual al valor de la mediana.
____25%________|_____50%_______|_____75%_______|____100%______
_
Q1 Q2 Q3
Ejemplo: Dados los siguientes datos encontrar los cuartiles.

Deciles (D)
Dividen a los datos observados en 10 partes iguales
__10%_ |__20%_ |__30%_ |__40%_ |__50%_ |__60%_ |__70%_ |__

80%_ |__90%_ |__100%___
D1 D2 D3 D4 D5 D6 D7
D8 D9
Ejemplo: Calificaciones de 60 estudiantes, ¿encontrar D2 y D5?

Percentiles (P)
Dividen a los datos observados en 100 partes iguales
__1%__|__2%__|__3%__|__4%__|_..................................._|_100%_
P1 P2 P3 P4 …………………………….. P99
Ejemplo: Calificaciones de 60 estudiantes, ¿encontrar P3 y

P25?

Medidas de Disperción

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Medidas de Disperción

Cargado por

Copyright:

Formatos disponibles

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación

entre variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el

Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión, no haremos

Supongamos que disponemos de un pequeño conjunto de datos con información sobre 35

Diagrama de dispersión de porcentaje de alcohol por No. De calorías

Puesto que una línea recta posee un formula muy simple,

Al describir grupos de diferentes observaciones, con

Entre las medidas de tendencia central tenemos:

Entre las medidas de posición están:

Utilice la media para describir un conjunto entero de

a) Para series simples:

Ejemplo: el tiempo de espera (en minutos) de cinco clientes de

b) Para series agrupadas:

1. Se tiene la siguiente distribución de frecuencias

2. Si la serie esta agrupada en clases y frecuencias, la

a) Para series simples:

Para estos datos ordenados, la mediana es 13. Es decir, el 50%

La fórmula a utilizar es la siguiente: fi: frecuencia absoluta

Li: límite inferior de la clase

Ls: límite superior de la clase

Faa: frecuencia acumulada anterior

Ejemplo: tenemos las calificaciones recibidas en un examen

Calificacio No. Alumbre fa__

2-4 5 7 En las frecuencias

En este caso, el valor de la mediana esta entre la clase 4-6,

La moda de una distribución se define como el valor de la

2. la moda en zapatos es un tamaño que más se vende o el

3. En una empresa la moda de los sueldos es la que se paga al

4. La moda de los valores 1, 4, 8, 10, 10 (es 10)

5. En los datos 2, 2, 5, 7, 9, 9, 9, 10, 10, 12 La moda es

6. En los valores 1, 3, 3, 7, 7, 8 se tiene dos modas (bimodal

7. En los valores 1, 2, 4 y 9 no hay moda

45-49 3 la clase modal es 25-29

40-44 4 la mas alta frecuencia

35-39 7 de la clase modal

• Relación empírica de Pearson Tomando los

Ejemplo: Los salarios percibidos por un grupo de 25

Período dado, están dados en la siguiente tabla.

Salarios No. Empleados Mo = Li + i ( Δ1 +

Lo que indica que de 25 empleados, 9 de ellos reciben un

Media Geométrica (Mg)

La media geométrica (Mg) de un conjunto de valores, es la

Cuando se tienen datos simples, basta con multiplicarlos entre

Cuando los datos son considerados, resulta difícil obtener la

Hallar la media geométrica de los números:

b) 28.5, 73.6, 47.2, 31.5, 64.8 R/ Mg = 45.8

x fi Log x fi Log x__

100 5 2.000000 10.000000 Mg =

125 8 2.096910 16.775280 Mg =

150 10 2.176091 21.760910 ojo: el

Los cuartiles son los valores que dividen a la masa de datos

Ejemplo: Dados los siguientes datos encontrar los cuartiles.

Dividen a los datos observados en 10 partes iguales

__10%_ |__20%_ |__30%_ |__40%_ |__50%_ |__60%_ |__70%_ |__

Ejemplo: Calificaciones de 60 estudiantes, ¿encontrar D2 y D5?

Dividen a los datos observados en 100 partes iguales

Ejemplo: Calificaciones de 60 estudiantes, ¿encontrar P3 y

También podría gustarte