Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Descriptiva 2014
Estadistica Descriptiva 2014
PROBABILIDAD Y ESTADISTICA
Introducción a la Estadística
Estadística: Arte de aprender a partir de datos
• Recolección de datos para aprender acerca de un tema de interés.
• Descripción de los datos recolectados
• Análisis de los datos para obtener conclusiones.
La Estadística es una ciencia que se ocupa del estudio de los métodos y procedimientos para recolectar,
clasificar, resumir y analizar datos y para hacer inferencias científicas sobre una característica o varias de
una población, partiendo de los datos observados sobre muestras representativas de dicha población
El objetivo de cualquier estudio estadístico es obtener información acerca de algunas características de
los individuos de cierto colectivo llamado población estadística.
Ejemplos:
• los alumnos de la escuela (población) y su edad, número de asignaturas en las que están
matriculados, número de créditos que poseen, etc.;
• conjunto de piezas producidas por una fábrica (población) y sus características de ductibilidad,
rugosidad, etc;
• el total de usuarios de una red telefónica (población) y su grado de satisfacción, el número de
llamadas efectuadas en un cierto año, etc.
La estadística interviene en múltiples campos:
‐ Encuesta de población activa.
‐ Estadísticas de aprobados de la Universidad en la Argentina.
‐ Tendencia de voto
Aplicaciones en Ingeniería:
‐ Estudio de materiales (duración, dureza, elasticidad, etc.).
‐ Control de calidad
‐ Control de proceso de fabricación en masa producción en masa (de envases, tornillos, lamparitas,
transistores, etc.)
‐ Medidas (calibración, métodos, etc.)
‐ Comparación de performances de maquinarias
‐ Optimización de la circulación en planta, de salida de trabajadores, etc.
‐ Estudios de mercado.
1
Estadística descriptiva 2014
Primer paso: Obtención de información de los individuos de la población
Recolección de datos
Origen de los datos:
• Conjunto de datos disponibles (ej.: publicaciones del gobierno sobre precipitaciones totales,
la tasa de desempleo, el PBI, etc.).
• Datos generados a partir del diseño de un experimento basado en la teoría estadística
Los datos pueden ser tomados de toda la población o utilizando un subconjunto o muestra. Se usa
esta última cuando la población es muy grande, por razones económicas y prácticas. Si la muestra es
representativa de la población se podrán inferir conclusiones acerca de la población.
Se pueden definir así, dos ramas de la Estadística:
Estadística Descriptiva
Rama de la Estadística dedicada a la recolección, recopilación y reducción de unos datos a unas
pocas medidas descriptivas, tablas y gráficos, permitiendo conocer las características existentes en la
población o de un subconjunto de ella. También se resumen los datos a través de cantidades numéricas
denominadas estadísticos que miden el promedio, dispersión, etc.
Inferencia Estadística
Se estudia una parte representativa de la población (muestra) y a partir de los datos observados se
hacen inferencias sobre la población.
Como unión entre ambas, aparece la probabilidad, que constituye la base teórica para poder hacer
inferencias a partir de lo observado y crear modelos para problemas concretos.
Método Estadístico
Pasos que se deben de seguir en todo estudio estadístico, (similares a los que se deben seguir en la
resolución de cualquier problema matemático, ingenieril, etc.)
Planteo del problema:
¿Qué queremos estudiar? (objetivo del estudio);
¿Dónde lo vamos a estudiar? (población);
¿Qué características o variables se deben tener en cuenta para cumplir con el objetivo del estudio?
Recolección, organización y depuración de los datos.
Los datos deben ser válidos, no tener errores o sesgos que puedan invalidar el estudio.
Construcción del modelo:
Con los datos observados se formula una hipótesis sobre el modelo que representa al problema
real. Algunos parámetros de este modelo pueden ser conocidos y otros tendrán que ser estimados (fase
de estimación).
2
Estadística descriptiva 2014
Análisis de resultados:
En esta última fase, los resultados obtenidos se comparan con la hipótesis inicial. Si se observan
discrepancias, podría ser necesario variar la hipótesis inicial, retornando a la etpa e construcción del
modelo.
Si no hay discrepancias, se obtienen las conclusiones, aclarando en qué contexto son válidas o
aplicables.
Ejemplo:
Una máquina produce ejes cuyo diámetro debe encontrarse entre 3 ± 0.05 mm. Todos los ejes cuyo
diámetro no pertenezcan al rango dado se consideran defectuosos.
Se trata de determinar cuál es la proporción (p) de ejes defectuosos que produce la máquina.
Recolección de los datos. Hay que establecer un procedimiento: número de datos que hay que
obtener, en qué condiciones y con qué intervalo de tiempo, etc.
• Depuración de esos datos. Eliminar los posibles datos erróneos, por errores en la recolección o
transcripción, etc.
• Estimación de p a partir de los datos o, si el valor de p estaba preestablecido (por exigencias
del comprador, por ejemplo) contrastar si ese valor queda suficientemente respaldado por los
datos, es decir, comparar la hipótesis inicial con los datos. En esta fase se determina el modelo.
• Análisis de resultados. Con los resultados obtenidos se determina si el modelo es o no válido y
Estadística descriptiva.
Definiciones
Población: Cualquier conjunto total de individuos cuyas características nos interesa estudiar
Individuos Característica
todos los caramelos producidos en una jornada en contenido de azúcar
una fábrica
todos los hogares del país número de aparatos de TV
todos los votantes partido político al que pertenecen.
Muestra: subconjunto de una población determinada. Interesan aquellas muestras que
representan fielmente a la población.
Variables
Se va a trabajar con conjuntos de datos asociados a una o más características de la población, que
se llama variable estadística, en general representada por una letra mayúscula (X,Y,Z,..). Se pueden definir
distintos tipos de variables:
Variables cualitativas: no se pueden medir numéricamente, por ej.: nacionalidad, bebida preferida,
candidato a votar.
Variables cuantitativas: tienen valor numérico, por ej.: edad, precio de un producto, ingresos
anuales.
Discretas: sólo pueden tomar valores espaciados, generalmente enteros. Ejemplos: número
de compras de un producto en un mes, el año de cosecha del vino, número de entradas de cine
3
Estadística descriptiva 2014
vendidas en un intervalo de tiempo, resultado de lanzar un dado, número de hijos, por ej.: número
de hijos en cada familia en una ciudad (1,2,3…, nunca 3.45);
Continuas: pueden tomar cualquier valor real dentro de un intervalo, por ej: velocidad de
un auto: [0, 300) en km/h , 0,3 km/h, 94,57 km/h...etc., intensidad de la corriente eléctrica;
intervalo de tiempo entre dos llamadas telefónicas.
A su vez cualquiera de estos tipos de variables pueden aparecer como:
Variables unidimensionales: sólo informan sobre una característica, por ej.: edad de los alumnos de
una clase;
Variables bidimensionales: informan sobre dos características, por ej.: edad y altura de los alumnos
de una clase,
Variables pluridimensionales: dan información sobre tres o más características, por ej.: edad, altura
y peso de los alumnos de una clase
Representatividad de las muestras
Al proceso de obtener muestras se lo denomina muestreo.Existen dos formas de muestreo;
aleatorio y no aleatorio.
En el muestreo aleatorio (al azar) cada individuo de la población tiene las mismas chances de
pertenecer a la muestra, por eso también se lo denomina muestreo representativo y es válido entonces
utilizar estos datos para obtener conclusiones acerca de la población.
El muestreo no aleatorio, no es válido para realizar análisis estadísticos porque está sesgado por el
juicio del que toma la muestra.
Ejemplo: Si queremos saber la distribución de edades de los residentes de una ciudad, y
recolectamos los datos correspondientes a las primeras 100 personas que entran a la biblioteca pública,
y se concluye que la edad promedio de estas personas es 42.6 años ¿es esta muestra representativa de la
edad promedio en esa ciudad?
Evidentemente no lo es. Ya que posiblemente la mayor parte de las personas que utilizan la
biblioteca sean jóvenes y ancianos.
Tratamiento de las muestras en la Estadística Descriptiva
Los datos de una muestra deben ser representados en forma concisa y clara, de tal manera que un
observador obtenga una impresión rápida de las características esenciales de los datos. Las tablas y
gráficos son recursos muy útiles en la representación de datos que revelan características importantes
como el rango, el grado de concentración y la simetría de los datos.
Tablas y gráficas de frecuencia
En el curso de un experimento estadístico se obtiene una sucesión de observaciones que se
escriben en el orden en que se presentan. Veremos cómo se puede representar esta información en
forma de tablas y gráficamente a través de un ejemplo:
Ejemplo:
4
Estadística descriptiva 2014
Durante dos semanas se estudió la productividad de los trabajadores de una fábrica, contando el
número de piezas aceptables producidas por 100 de estos trabajadores.
Tabla de valores de la muestra: contiene todos los datos en el orden en que fueron obtenidos
28 26 37 32 32 40 26 32 37 38
34 22 37 40 32 34 28 40 32 32
28 32 28 26 38 32 32 34 26 34
38 34 34 28 32 26 34 28 32 42
42 45 28 40 32 45 28 34 32 34
37 28 28 37 38 32 22 32 34 26
34 42 40 32 28 40 32 32 28 32
26 28 34 34 32 28 38 22 40 34
32 37 38 22 37 32 38 32 38 37
37 32 26 32 34 26 34 37 26 28
Tamaño de la muestra: n=100
Tabla de frecuencias:
m: cantidad de datos diferentes en la muestra
Columna 1: valores distintos de la muestra, de menor a mayor (xj,j=1,..m)
Columna 2: frecuencia absoluta puntual, fabs(xj), j=1,…m : cuántas veces se repitió cada dato
mostrado en la columna 1
Columna 3: frecuencia relativa puntual frel (xj), j=1,..m : proporción de veces que se repitió cada
dato mostrado en la columna 1
Columna 3: frecuencia absoluta acumulada Fabs(xj), j=1,…m : cuántas veces se repitieron los datos
menores o iguales que el mostrado en la misma fila en la columna 1
Columna 3: frecuencia relativa acumulada Frel(xj), j=1,…m : proporción de veces que se repitieron
los datos menores o iguales que el mostrado en la misma fila en la columna 1
5
Estadística descriptiva 2014
Gráfica o tabla de frecuencias de la muestra ( j=1,..10) , m=10
xj fabs(xj) frel(xj) Fabs(xj) Frel(xj)
22 4 0.04 4 0.04
26 10 0.10 14 0.14
28 15 0.15 29 0.29
32 25 0.25 54 0.54
34 16 0.16 70 0.70
37 10 0.10 80 0.80
38 8 0.08 88 0.88
40 7 0.07 95 0.95
42 3 0.03 98 0.98
45 2 0.02 100 1.00
La suma de frecuencias absolutas de una muestra debe ser igual al tamaño n de la muestra. En el
ejemplo, n=100:
f abs ( x1 ) + f abs ( x2 ) + f abs ( x3 ) + ... + f abs ( x10 ) =
4 + 10 + 15 + .... +2 = 100
Frecuencia relativa:
donde: n es el tamaño total de la muestra
La suma de todas las frecuencias relativas en una muestra es igual a 1. Por ejemplo para una
muestra en la cual se obtuvieron m valores diferentes de xi:
m
∑f
j =1
rel ( x j ) = f rel ( x1 ) + f rel ( x2 ) + f rel ( x3 ) + ................ + f rel ( xm ) = 1
En el ejemplo:
f abs ( x1 ) + f rel ( x2 ) + f rel ( x3 ) + ... + f rel ( x10 ) =
2 10 15 2
+ + + .... + =1
100 100 100 100
Frecuencia absoluta acumulada: suma de todas las frecuencias absolutas de los valores de la
muestra menores e igual al considerado.
Fabs ( x) = ∑f
∀x j ≤ x
abs ( x j ) = f abs ( x1 ) + f abs ( x2 )........... + f abs ( x)
Frecuencia relativa acumulada: suma de las frecuencias relativas de los valores menores o igual al
considerado. Esta frecuencia indica la proporción de valores que son menores o iguales que el valor
considerado
Frel ( x) = ∑f
∀x j ≤ x
rel ( x j ) = f rel ( x1 ) + f rel ( x2 )........... + f rel ( x)
6
Estadística descriptiva 2014
La frecuencia relativa es por lo menos igual a cero y a lo sumo igual a 1.
Cuando el número de valores diferentes de valores en una muestra es pequeño se presenta
adecuadamente en una tabla de frecuencias. La tabla nos provee información de cuál es el valor más
repetido, cuál es el máximo de los valores, el intervalo donde se han producido datos, etc. En el ejemplo:
4 trabajadores produjeron la mínima cantidad de piezas (22), 2 trabajadores produjeron la máxima
cantidad de piezas (45), 32 piezas fue el valor más repetido (25).
Función de frecuencia f(x) : dada una muestra dada de tamaño n que consiste de m valores
diferentes xj (x1, x2, x3,…………xm) con frecuencias relativas (frel(x1), frel(x2), frel(x3),…………frel(xm)
⎧ f rel ( x j ) para x = x j ( j = 1..m)
⎪
Se puede definir la función f(x) como: f ( x) = ⎨
⎪ 0 para x ≠ x
⎩ j
Frel ( x) = ∑ f (x j )
x j ≤x
Representación gráfica de muestras:
La representación puede realizarse utilizando las frecuencias relativas o las absolutas
indistintamente. Lo único que varía en cada caso es la escala del eje de las ordenadas..
Gráfico de barras frecuencia absoluta o relativa para un dado x vs. x. Si las barras se convierten en
líneas se tendría un gráfico de líneas.
7
Estadística descriptiva 2014
Diagrama de frecuencias de puntos:
Polígono de Frecuencias
Histogramas
Estos gráficos son similares a los diagramas de barras, donde el ancho de las barras es tal que se
tocan entre ellas cuando los datos están igualmente espaciados. En ese caso, la altura de las barras es
proporcional a la frecuencia absoluta o relativa puntual, según corresponda. En el caso en que los datos
no estén igualmente espaciados el área de las barras es propocional a alguna de las frecuencias
mencionadas, y en ese caso las barras pueden o no tocarse. Las herramientas estadísticas de programas
como Excel, realizan primero una agrupación de la muestra (ver sección siguiente), y luego muestran el
histograma de la muestra agrupada.
8
Estadística descriptiva 2014
Para el ejemplo dado, y tomando el área de la barra como proporcional a la frecuencia (f) por lo
tanto la altura será: h=f/Δx, donde Δx es el ancho elegido para cada barra, se obtiene el siguiente
histograma:
1 y además escalonada ya que tenemos datos discretos:
Torta de porcentajes: indica frecuencias relativas cuando los datos no son de naturaleza numérica.
Se construye un círculo y después se divide en diferentes sectores: uno para cada tipo distinto de valor de
los datos.
La frecuencia relativa del valor de un dato está indicada por el área de su sector. Se cumplen las
siguientes relaciones:
Área Sector= Área del Círculo * frel(dato)
Ángulo del Sector = 360° × frel(dato)
Ejemplo:
9
Estadística descriptiva 2014
TABLA 5: Ventas de una cadena de supermercados en el año 2005
Tipo de productos Ventas $miles Frecuencias relativas
Agrupación de muestras
Si una muestra contiene un elevado número de valores distintos, entonces su representación
tabular y gráfica resulta muy complicada. Una solución consiste en realizar un proceso de agrupación, de
la siguiente forma:
Se elige un intervalo I = {[xmin,xmax] que contenga todos los n valores de la muestra.
Se subdivide I en S subintervalos iguales, que se denominan intervalos de clase.
Longitud del intervalo de clase: (xmax ‐ xmin) /S
Límites de clase: extremos de cada intervalo se denominan.
Marcas de clase: valor medio de cada intervalo
Clase: valores de la muestra en cada uno de estos intervalos.
Frecuencia absoluta de clase: número de valores dentro de un intervalo de clase
Frecuencia relativa de clase: la frecuencia absoluta de clase dividida por el tamaño de la muestra o
número total de datos (n).
Cuanto menos clases o intervalos de clase se eligen más sencilla será la representación de la
muestra pero se pierde más información. Si se divide en demasiados intervalos de clase se pierde el
beneficio asociado a la agrupación.
Se debe agrupar de modo que sólo se pierdan detalles no esenciales. Para facilitar la
representación de la muestra, se deben cumplir las siguientes reglas en la agrupación:
10
Estadística descriptiva 2014
1. Todos los intervalos de clase deben tener la misma longitud
2. Los intervalos de clase deben elegirse de manera que las marcas de clase correspondan a
números sencillos
3. Si un valor xj coincide con un extremo de un intervalo se considera que pertenece al intervalo
de clase que se extiende de xj a la derecha. Esta convención corresponde a incluir el límite
izquierdo dentro del intervalo pero no el límite derecho
4. El límite derecho de un intervalo debe ser igual al límite izquierdo del siguiente intervalo
Ejemplo:
En una planta industrial se realizaron las siguientes 80 determinaciones de la emisión diaria de óxidos de
azufre (en toneladas)
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2
22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7
26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7
19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5
14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1
8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5
De la tabla se observan destacados los valores mínimos y máximos (6.2 y 31.8).
Se eligen: xmin=5, xmax= 35 y una cantidad de intervalos S= 6. La longitud de cada intervalo será
(35‐5)/6=5
Tabla de frecuencias agrupadas
Nro. de Intervalo Marcas fabs(xmj) frel(xmj) Fabs(xmj) Frel(xmj)
Intervalo (j) de clase de clase
xmj
1 5‐10 7.5 6 0,075 6 0,075
2 10‐15 12.5 14 0,175 20 0,250
3 15 – 20 17.5 25 0,3125 45 0,5625
4 20 – 25 22.5 24 0,3 69 0,8625
5 25 – 30 27.5 10 0,125 79 0,9875
6 30 – 35 32.5 1 0,0125 80 1
11
Estadística descriptiva 2014
Resumen de Conjuntos de Datos
En la actualidad, gran cantidad de experimentos manejan enormes conjuntos de datos. Para
obtener alguna conclusión resulta útil resumirlos mediante alguna medición adecuada.
Estas mediciones se denominan estadísticos.
Estadístico
Cantidad numérica cuyo valor queda determinado por los datos.
Por ejemplo, partir de la función de frecuencia se pueden calcular ciertas propiedades de la
muestra, tales como la magnitud promedio de los valores de la muestra, la dispersión, la asimetría, etc
Los estadísticos se agrupan como
• medidas de posición: pueden ser centrales (valores medios de la serie de datos) o
no centrales (miden la posición de otros valores de la serie de datos).
• medidas de dispersión: evalúan la distribución de los valores de la serie, si
éstos están concentrados o dispersos.
• medidas de forma: dan información acerca de la forma de la curva que
representa la serie de datos.
Media muestral o promedio de la muestra: Es una medida de posición central.
Dada una muestra con n valores que consisten en x1, x2,…………, xn, , la media muestral ( x ) es el
promedio aritmético de estos valores. La fórmula correspondiente es:
1 n x + x + x + ...............xn
x= ∑
n j =1
xj = 1 2 3
n
Ejercicio propuesto: Utilizando la definición dada para la media de una muestra, verificar que en el
ejemplo de la página 6 (cantidad de piezas fabricadas por cada trabajador) es: x = 32,82
Con frecuencia se simplifica el cálculo de la media si los datos se pueden escribir de esta forma:
xj =a yj +b j = 1,...n
Aplicando la definición de media muestral
1 n 1 n 1 n 1 n a n 1
x= ∑
n j =1
x j = ∑
n j =1
( a y j + b ) = ∑
n j =1
a y j + ∑
n j =1
b = ∑
n j =1
y j + nb = a y + b
n
12
Estadística descriptiva 2014
Ejemplo:
Para el siguiente conjunto de datos, calcular la media en forma directa y con la simplificación
284 280 277 282 279 285 281 283 278 277
Cálculo directo:
1
x = (284 + 280 + 277 + 282 + 279 + 285 + 281 + 283 + 278 + 277) = 280.6
10
Cálculo simplificado: los datos se pueden representar como xj =yj+280
6
Con yj = 4, 0, ‐3, 2, ‐1, 5, 1, 3, ‐2, ‐3, siendo su media y = = 0.6
10
Por lo tanto la media de los datos originales será:
x = a y + b = 1 × 0.6 + 280 = 280.6
Cálculo de la media de la muestra a partir de los datos de la tabla de frecuencias
En algunos casos queremos determinar la media muestral de un conjunto de n datos dados en una
tabla de frecuencias donde hay m valores distintos x1, x2,....xm con sus correspondientes frecuencias:
fabs( x1), fabs (x2),... fabs)(xm)
Es decir que el valor xi aparece fabs(xi) veces para cada i=1,2...m. En este caso la media muestral se
calcula como:
1 m
x= ∑ xi f abs ( xi )
n i =1
Reordenando la ecuación anterior, se obtiene la siguiente fórmula alternativa para el cálculo de la
media muestral en función de las frecuencias relativas:
1 m f (x ) f (x ) f (x ) m
x= ∑
n i =1
xi f abs ( xi ) = abs 1 x1 + abs 2 x2 + ......... + abs m xm = ∑ xi f rel ( xi )
n n n i =1
Eesta última fórmula se observa que la media muestral es un promedio ponderado de los
distintos valores, donde el peso dado al valor xi es igual a la proporción de los n valores de datos que son
iguales a xi (i=1,2..m), es decir que los factores de peso son cada una de las frecuencias relativas..
Ejercicio propuesto: Utilizando las dos definiciones dadas para la media de una muestra en función
de los datos de la tabla de frecuencia, verificar que en el ejemplo de la página 7 (cantidad de trabajadores
vs. cantidad de piezas fabricadas) es: x = 32,82
Media geométrica: También es otra medida de posición central, se calcula a través de cualquiera
de las siguientes fórmulas:
En función de todos los datos de la muestra:
n
xG = n
∏x i =1
i
En función de los datos de la tabla de frecuencias:
13
Estadística descriptiva 2014
m m
xG = n
∏x i =1
f abs ( xi )
j xG = n
∏x
i =1
i
/ n. f rel ( xi ))
donde:
n: cantidad total de valores de la muestra; m: cantidad de valores diferentes en la muestra;
x1, x2,…, xm : valores diferentes en la muestra; fabs(x1), fabs (x2),…, fabs (xm) : sus frecuencias absolutas
Ejercicio propuesto: Utilizando las definiciones dadas para la media geométrica, verificar que en el
ejemplo de las páginas 6 (cantidad de piezas por trabajador) y 7 (cantidad de trabajadores vs. cantidad de
piezas fabricadas) es: x G = 32,412
Según el tipo de datos es mejor utilizar una media u otra. La media aritmética es la más utilizada.
La media geométrica se utiliza en series de datos donde cada valor tiene efecto multiplicativo sobre el
anterior, por ej.: intereses anuales, inflación.
La utilización de las medias tiene la ventaja que en ellas se incluye toda la información. La
desventaja es que dejan de ser representativas cuando hay valores extremos muy alejados del resto.
Mediana muestral (m): Constituye otro estadístico para indicar el centro de un conjunto de datos.
Se toma como el valor de en medio del conjunto de datos ordenados de menor a mayor. Si el
tamaño de la muestra (n) es impar, la mediana muestral es el valor ubicado en la posición (n+1)/2; si n es
par, entonces es el promedio de los valores en las posiciones n/2 y n/2+1.
xn + xn
+1
Es decir, para n impar: m = x⎛ n +1 ⎞ y para n par: m = 2 2
⎜ ⎟ 2
⎝ 2 ⎠
Ejemplo: La siguiente tabla de frecuencias presenta las edades de los miembros de una orquesta
sinfónica juvenil
Edad Cantidad de
alumnos
15 2
16 5
17 11
18 9
19 14
20 13
Encuentre la media muestral y la mediana muestral.
En este caso n= 54
1
(a) x = (2 × 15 + 5 × 16 + 11 × 17 + 9 × 18 + 14 × 19 + 13 × 20 ) = 18.24
54
(b) La mediana muestral será el promedio de los valores ubicados en la posición 27 y 28:
x 27 + x 28 18 + 19
m= = = 18.5
2 2
14
Estadística descriptiva 2014
Ejercicio propuesto: Utilizando las definiciones dadas para la mediana, verificar que en el ejemplo
de las páginas 6 (cantidad de piezas por trabajador) y 7 (cantidad de trabajadores vs. cantidad de piezas
fabricadas) es: m =32
15
Estadística descriptiva 2014
Moda muestral
Es el valor que se presenta con más frecuencia (el correspondiente a la frecuencia más alta).
Si hay más de un valor con la frecuencia más alta entonces a ese conjunto de valores se les
denomina conjunto de valores modales
Ejemplo: La siguiente tabla de frecuencias presenta los resultados obtenidos al tirar un dado 40
veces.
9
Valor Frecuencia
1 9
2 8
3 5
4 5
5 6
6 7
Calcular: (a) La media muestral, (b) la mediana muestral y (c) la moda muestral
n= 40
1
(a) x = (9 × 1 + 8 × 2 + 5 × 3 + 5 × 4 + 6 × 5 + 7 × 6) = 3.05
40
(b) n =40 es par. La mediana será el promedio entre el valor ubicado en la posición 20 y el ubicado
en la posición 21
x 20 + x 21 3 + 3
m= = = 18.5 (3+3)/2= 3
2 2
(c) La moda muestral es 1 pues es el valor que ocurrió más veces.
Ejercicios propuestos:
1. Comprobar que en el ejemplo de las páginas 7 y 8 la moda muestral es 32
2. Encontrar la moda en el ejemplo de la página 14.
Medidas de posición no centrales: Son medidas de posición no central los percentilos, cuartilos y
decilos. Dividen a la muestras en tramos aproximadamente iguales.
• Percentilos 1 al 99: dividen a la serie de datos, ordenada de forma creciente en 100 tramos
iguales, cada uno de ellos concentra el 1% de los resultados.
• Decilos 1 al 9: dividen a la serie de datos, ordenada de forma creciente en 10 tramos iguales,
cada uno de ellos concentra el 10% de los resultados.
Percentilo 10 = Decilo 1; Percentilo 20= Decilo 2, etc., en general:
• Percentilo 10.j = Decilo j , j= 1..9
• 1°, 2° y 3° cuartilos: dividen a la muestra en cuatro tramos iguales, cada una conteniendo el 25%
de los datos
Percentilo 25 = 1° Cuartilo;
Percentilo 50= 2° Cuartilo= Mediana
16
Estadística descriptiva 2014
Percentilo 75 = 3° Cuartilo
Evidentemente, a través del cálculo de percentilos es posible obtener los cuartilos y los decilos.
Cálculo de Percentilos muestrales
Cuando nos referimos al Percentilo p, en general p está dado en % y vale 1,2,3….,99.
El Percentilo p de una muestra de n datos, es aquel valor tal que el p% de los datos son menores o
iguales
Si existen dos valores de los datos que satisfagan esta condición entonces el Percentilo p es el
promedio aritmético de estos dos valores. Esto se da cuando np/100 es un número entero, entonces los
números en las posiciones np/100 y np/100+1 deberán promediarse.
xnp /100 + xnp /100+1
Pp = x(int( np /100) +1) si np/100 no es entero Pp = si np/100 es entero:
2
Ejemplo:
Se midió el sonido en decibeles (dB) en una estación de trenes todos los días a la misma hora:
82 8 94 110 74 122 112 95 10 78 124 115
9 0
65 6 90 83 87 75 114 85 69 94 125 108
0
88 9 74 72 68 83 91 90 10 77 65 107
7 2
Determine los percentilos 10 y 90, y todos los cuartilos.
Conviene construir la tabla de frecuencias, para lo n= 36 datos:
17
Estadística descriptiva 2014
x33 = 115
2° cuartilo (p/100=0.50)
1° cuartilo (p/100=0.25) np/100= 36 x 0.50 = 18
np/100= 36 x 0.25 = 9 (x18+x19) / 2 = (89+90)/2= 89.5
(x9+x10) / 2 = (75+77)/2= 76 3° cuartilo (np=0.75)
np/100= 36 x 0.75 = 27
(x27+x28) / 2 = (102+107)/2= 104.5
Ejercicio propuesto:
Obtener los percentilos 8, 20 y 43, todos los cuartilos y los percentilos 30 y 60 del ejemplo de las
páginas 7 y 8.
Medidas de dispersión: Entre las medidas de dispersión se pueden mencionar el rango, la varianza,
la desviación estándar y el coeficiente Pearson.
Varianza muestral: Describe la distancia cuadrática promedio entre los valores de la muestra y la
media muestral.
La varianza muestral s2 de una muestra x1, x2,…………, xn, , se define por la fórmula:
s2 =
1
n −1
[
( x1 − x) 2 + ( x2 − x) 2 + .......... + .( x n − x) 2 ]
ó
1 n
s2 = ∑
(n − 1) j =1
( x j − x) 2
Es una cantidad positiva, excepto cuando todos los valores de la muestra son coincidentes con la
media muestral, en cuyo caso la varianza es cero.
Si la varianza es cercana a cero decimos que los datos están muy concentrados alrededor de la
media.
Las siguientes fórmulas permiten calcular la varianza cuando tenemos como datos la frecuencia
relativa o la acumulada.
1 m
s2 = ∑ f abs ( x j )( x j − x)
2
(n − 1) j =1
2 n m 2
s = ∑ f rel ( x j )( x j − x)
(n − 1) j =1
18
Estadística descriptiva 2014
donde: n: tamaño de la muestra; m: cantidad de valores diferentes de la muestra; x1, x2,…, xm: datos
diferentes de la muestra; fabs(x1), fabs (x2),…, fabs (xm) : sus frecuencias absolutas; frel(x1), frel (x2),…,
frel (xm) : sus frecuencias relativas.
Ejemplo: Encontrar la varianza muestral de los siguientes datos:
‐20, 5, 15, 24
24
x= =6
4
(−20 − 6) 2 + (5 − 6) 2 + (15 − 6) 2 + (24 − 6) 2
s2 = = 360.67
3
Ejemplo: Encontrar la varianza muestral de los siguientes datos:
3, 4, 6, 7,10
30
x= = 6
5
(3 − 6) 2 + (4 − 6) 2 + (6 − 6) 2 + (7 − 6) 2 + (10 − 6) 2
s2 = = 7.5
4
En ambos ejemplos se obtuvo la misma media. Sin embargo el dato de varianza indica que en el
primer ejemplo los datos están mucho más dispersos respecto de la media que en el segundo ejemplo.
Desviación estándar de la muestra (s): Es la raíz cuadrada positiva de la varianza
s = s2
Coeficiente de variación de Pearson: Es la desviación estándar dividida por la media de la muestra.
De esta forma se pueden comparar muestras diferentes.
s
cV =
x
Ejercicio propuesto:
Obtener la varianza con las tres fórmulas dadas, la desviación estándar y el coeficiente de variación
de Pearson para el ejemplo de las páginas 6 y 7.
Identidad algebraica: La siguiente identidad puede resultar útil para calcular la varianza muestral:
∑ (xi − x ) =∑ xi 2 − n x
n n
2 2
i =1 i =1
Prueba:
∑ (xi − x ) =∑ ⎛⎜⎝ xi 2 − 2 xi x + x
n n n n n
2 2 ⎞ = x 2 − 2x x + 2
⎟ ∑ i ∑ i ∑ x =
i =1 i =1 ⎠ i =1 i =1 i =1
n n
2 2
∑ xi 2 − 2 xn x + n x =∑ xi 2 − n x
i =1 i =1
19
Estadística descriptiva 2014
El cálculo de la varianza también se simplifica al observar que :
∑ (y i − y ) =∑ (a + bxi − (a + b x) ) = ∑ b 2 (xi − x )
n n n
2 2 2
i =1 i =1 i =1
2 2
s y = b2 sx
Por ejemplo si sólo se suma la misma constante a cada uno de los valores originales, la varianza no
se modifica.
Si se multiplica cada valor por la misma constante la nueva varianza muestral es igual a la anterior
multiplicada por el cuadrado de dicha constante
Ejemplo: Los datos siguientes muestran el número de accidentes fatales ocurridos en el mundo en
aerolíneas comerciales desde 1985 a 1993
Año 1985 1986 1987 1988 1989 1990 1991 1992 1993
Accidentes 22 22 26 28 27 25 30 29 24
Encuentre la varianza muestral y la desviación estándar muestral
Si le restamos 22 a todos los datos, la varianza no cambiará.
Nuevos datos: y = [0, 0, 4, 6, 5, 3, 8, 7, 2]
Calculamos la varianza utilizando la identidad algebraica dada:
2
⎛ 35 ⎞
s2 = ∑
n
(y − y )
i
2
n
=∑
2
yi − n y
=
203 − 9⎜ ⎟
2
⎝ 9 ⎠ = 8.361
i =1 n'−1 i =1 n −1 8
La desviación estándar es s=2.892
Rango: Mide la amplitud de una serie datos, como la diferencia entre el valor mayor y el valor
menor del conjunto de datos.
En el ejemplo anterior el rango es de 125‐60= 65
Desigualdad de Chevyshev: Sean x y s la media y desviación estándar de una muestra, donde
s >0. La desigualdad de Chevyshev establece que para cualquier valor k > 1 más del 100(1‐1/k2) % de los
datos están dentro del intervalo
⎡ x − ks, x + ks ⎤
⎣ ⎦
Esta desigualdad se cumple siempre, por lo tanto puede esperarse que un porcentaje mayor de
datos se encuentre dentro del intervalo.
20
Estadística descriptiva 2014
Ejemplo: Si k= 1.5, entonces 100(1‐1/k2)= 55.56. El 55.56% de los valores no diferirá más de 1.5s de
la media.
Conjunto de datos normales
Muchos de los grandes conjuntos de datos observados en la práctica tienen diagramas de barras
similares. Con frecuencia estos diagramas alcanzan su máximo en la mediana muestral y después
decrecen a ambos lados de ese punto, de manera simétrica en forma de campana. En este caso la media
muestral y la mediana muestral coinciden.
Conjunto de datos normal
Conjunto de datos aproximadamente normales:
Si el diagrama de barras de un conjunto de datos es muy parecido a uno normal entonces se dice
que es aproximadamente normal. En estos casos la media muestral y la mediana muestral son
aproximadamente iguales:
Conjunto de datos aproximadamente normales
Diagramas sesgados
Si la gráfica no se ve aproximadamente simétrica respecto de la mediana muestral entonces se dice
que el diagrama está sesgado, ya sea a la izquierda o la derecha
Sesgado a la izquierda Sesgado a la derecha
21
Estadística descriptiva 2014
22
Estadística descriptiva 2014
Reglas empíricas para datos aproximadamente normales
Si un conjunto de datos es aproximadamente normal con media muestral x y desviación estándar
s, entonces las siguientes proposiciones son verdaderas.
1. Aproximadamente 68% de las observaciones están a no más de
x ± s
2. Aproximadamente 95% de las observaciones están a no más de
x ± 2s
3. Aproximadamente 99.7% de las observaciones están a no más de
x ± 3s
Ejemplo: Sea el siguiente conjunto de datos
43 46 52 55 55 56 58 60 62 63
64 66 66 72 74 74 75 77 77
83 85 85 87 88 90 91 94 78
Un diagrama de barras mostraría que se trata de una distribución aproximadamente normal. Use
los datos para comprobar las reglas empíricas
La media y desviación estándar son: x = 70.571 s = 14.354
La regla empírica establece que el 68% de los datos están entre 56.2 y 84.9, contando los datos
obtenidos entre estos límites y dividiendo por la cantidad de datos totales da que en la realidad hubo un
53.6% de los datos entre dichos límites.
La regla empírica establece que el 95% de los datos están entre 41.86 y 99.28, que en la realidad el
100% de los datos se encontró entre dichos límites.
Medidas de forma: Permiten conocer qué forma tiene la curva que representa los datos de la
muestra. Se clasifican en medidas de concentración, de asimetría y Kurtosis.
Las medidas de grado concentración evalúan si los valores de la variable están más o menos
uniformemente repartidos a lo largo de la muestra. Por ejemplo:
Índice de GINI (0≤IG≤1)
⎛ k ⎞
⎜ ∑ x j f rel ( x j ) ⎟
A− B m −1 k m −1 j =1
IG = A = ∑∑ f rel ( x j ) B= ∑ ⎜ m ⎟
A k =1 j =1 k =1
⎜ ⎟
⎜ ∑ x j f rel ( x j ) ⎟
⎝ j =1 ⎠
IG = 0 indica concentración mínima, la muestra está uniformemente repartida a lo largo de todo su
rango.
IG = 1 la concentración es máxima, un solo valor de la muestra acumula el 100% de los resultados.
23
Estadística descriptiva 2014
Las medidas de asimetría estiman si la curva tiene una forma simétrica. Por ejemplo:
• Coeficiente de Asimetría de Fisher:
m
∑ (x
j =1
j − x) 3 f rel ( x j )
g1 = 3/ 2
⎡m ⎤
⎢∑ ( x j − x) f rel ( x j )⎥
2
⎣ j =1 ⎦
Este coeficiente puede tomar los siguientes valores:
g1 = 0, indica que la distribución es simétrica es decir que la concentración de valores a la derecha
y a la izquierda de la media es igual;.
g1 > 0 indica distribución asimétrica positiva (hay una mayor concentración de valores a la derecha
de la media que a su izquierda)
g1 < 0 indica una distribución asimétrica negativa (mayor concentración de valores a la izquierda
de la media que a su derecha)
La medida de Kurtosis nos dice si los valores de la distribución están más o menos concentrados
alrededor de los valores medios de la muestra.
m
∑ (x
j =1
j − x) 4 f rel ( x j )
g2 = 2
−3
⎡m ⎤
⎢∑ ( x j − x) f rel ( x j )⎥
2
⎣ j =1 ⎦
g2=0 Distribución es mesocúrtica: grado de concentración medio alrededor de los valores
centrales de la variable. Por ej: distribución normal
g2>0 Distribución leptocúrtica: elevado grado de concentración alrededor de los valores centrales
de la variable.
g2<0 Distribución platicúrtica, bajogrado de concentración alrededor de los valores centrales de
la variable.
Leptocúrtica
Mesocútica
Platicúrtica
24
Estadística descriptiva 2014
Conjunto de datos por parejas y coeficiente de correlación muestral
Con frecuencia nos encontramos con conjuntos de datos que consisten en parejas de valores que
tienen alguna relación entre sí.
n parejas de datos (xi, yi) i=1,2,...n.
La siguiente es la tabla de correlación entre los datos, donde los xi y los yj mostrados son los valores
diferentes observados para cada uno y fi,j indica la frecuencia absoluta de los pares (xi,yj)
Tabla de correlación
x / y y1 y2 ..... ym‐1 ym
x1 f1,1 f1,2 ..... f1,m‐1 f1,m
x2 f2,1 f2,2 ..... f2,m‐1 f2,m
..... ..... ..... ..... ..... .....
xn‐1 fn‐1,1 fn‐1,2 ..... fn‐1,m‐1 fn‐1,m
xn fn,1 fn,2 ..... fn,m‐1 fn,m
Ejemplo: En la siguiente tabla se observan las mediciones de altura y peso de los alumnos de un
curso y a continuación se muestra la tabla de correlación
Altura y Peso de los alumnos del curso
Estatura Peso Estatura Peso Estatura Peso
Alumno Alumno Alumno
(m) (kg) (m) (kg) (m) (kg)
Alumno 1 1,25 32 Alumno 11 1,25 31 Alumno 21 1,25 33
Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 32
Alumno 3 1,27 31 Alumno 13 1,27 34 Alumno 23 1,27 34
Alumno 4 1,21 34 Alumno 14 1,21 33 Alumno 24 1,21 34
Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 35
Alumno 6 1,29 31 Alumno 16 1,29 31 Alumno 26 1,29 31
Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34
Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 33
Alumno 9 1,27 32 Alumno 19 1,27 31 Alumno 29 1,27 35
Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34
Tabla de correlación entre la altura y el peso de los alumnos
Estatura / Peso 31 kg 32 kg 33 kg 34 kg 35 kg
121 cm 0 0 1 2 0
122 cm 0 1 1 0 1
123 cm 0 0 0 0 0
124 cm 0 2 1 0 0
125 cm 1 1 1 0 0
126 cm 0 0 0 0 0
127 cm 2 1 0 2 1
128 cm 0 1 1 0 1
129 cm 3 0 1 1 1
130 cm 0 0 0 2 1
25
Estadística descriptiva 2014
Diagramas de dispersión: Son gráficos de yi vs xi
El siguiente es el diagrama de dispersión de los datos del ejemplo de las alturas de los niños de un curso:
Ejemplo:
Concentración de hidrógeno durante una reacción, determinada con un método de cromatografía de
gases (X), y la concentración determinada con un nuevo método de sensor (Y), son las siguientes
X 47 62 65 70 70 78 95 100 114 118 124
Y 38 62 53 67 84 79 93 106 117 116 127
X 127 140 140 140 150 152 164 198 221
Y 114 134 139 142 170 149 154 200 215
El diagrama de dispersión nos dirá si los métodos son equivalentes o no.
Un hecho positivo es que cuando la medida de concentración de hidrógeno de un método
aumenta la otra también. También se observa que ambas medidas son similares en cada uno de los casos.
En general, el diagrama de dispersión nos da información útil, como por ejemplo: se puede
observar si valores grandes de y están siempre asociados a valores grandes de x y valores pequeños de y
están asociados a valores pequeños de x. También podría ser que valores grandes de una variable estén
asociados a valores pequeños de la otra.
26
Estadística descriptiva 2014
Para tener una medida cuantitativa de esta relación, se cuenta con un estadístico que trata de
medir el grado en el cual valores grandes de x se corresponden con valores grandes de y mientras que los
x pequeños se corresponden con los y pequeños.
Coeficiente de correlación muestral r
Consideremos el conjunto de datos xi,yi , i=1,...n, con medias x e y , respectivamente.
( ) ( )
Para una pareja de datos xi − x e yi − y son las desviaciones respecto de sus medias.
Si xi es un valor grande, será mayor que su media. Por lo tanto xi − x será positivo. De manera ( )
similar si xi es pequeño dicha diferencia será negativa. Lo mismo vale para las y.
Por lo tanto si valores grandes de x se relacionan con valores grandes de y y los pequeños con los
pequeños, en general ambas diferencias serán positivas o ambas serán negativas. Su
producto ( xi − x)( y i − y ) será en general positivo. La suma para todos los valores de i, de dicho
producto será un número grande positivo.
De manera similar cuando valores grandes de x se relacionan con valores pequeños de y y
viceversa, el producto ( xi − x)( y i − y ) será en general negativo y la suma para todos los valores de i
será un número grande negativo.
Para cuantificar los que significa “grande” se estandariza dicha suma dividiendo por n‐1 y por las
respectivas desviaciones estándar, tal como se explica a continuación.
Sean sx y sy las desviaciones estándar muestral de los valores x e y respectivamente. El coeficiente
de correlación muestral r, de las parejas de datos xi,yi , i=1,...n está definido por:
n
∑ (x i − x)( yi − y )
r= i =1
(n − 1) s x s y
n
∑ (x i − x)( yi − y )
= i =1
n n
∑ ( xi − x ) 2 ∑ ( y i − y ) 2
i =1 i =1
Propiedades de r:
• −1≤ r ≤1
• Sean a y b constantes, con b>0 , si y i = a + bxi r=1
• Sean a y b constantes, con b>0 , si y i = a − bxi r= ‐1
• Dados xi,yi i=1,..n, con un coeficiente de correlación muestral r el conjunto formado por
a+bxi, c+dyi i=1,...n, tendrá el mismo r, siempre que b y d sean ambos positivos o ambos
negativos.
27
Estadística descriptiva 2014
Valor absoluto de r y signo de r
El valor absoluto de r es una medida de cuán lineal es la relación entre los pares de datos.
• IrI= 1 relación lineal perfecta.
• IrI >0.8 relación lineal fuerte. Hay una recta que pasa cerca de todos los puntos.
• IrI < 0.3 no hay una relación cercana a la lineal entre los datos.
El signo de r indica la dirección de la relación.
• r >0 valores grandes de x se relacionan con valores grandes de y, los pequeños de x con los
pequeños de y.
• r <0 valores de x grandes se relacionan con y pequeños y viceversa
r=1 r=-0.5
r=0.85 r=0.15
Diagramas de dispersión y sus respectivos r
Ejemplo: Verificar que los datos del ejemplo de la página 24 presentan un coeficiente de
correlación de r= 0.985 indicando una correlación lineal fuerte entre los dos métodos de medición de la
concentración de hidrógeno.
28
Estadística descriptiva 2014
Distribuciones marginales: Se analiza el comportamiento de una variable independientemente de cómo
se comporta la otra.
De una distribución bidimensionales se pueden estudiar dos marginales, por ejemplo la
distribución de x y la distribución de y.
Para el ejemplo de la página 24:
Distribuciones marginales
Regresión lineal
Muchos problemas de ciencia e ingeniería se interesan en determinar una relación entre dos
conjuntos de variables. Por ejemplo, en un proceso químico, es importante la relación entre el resultado
del proceso, la temperatura a la que se lleva a cabo y la cantidad de catalizador empleado. El
conocimiento de tal relación permitirá predecir el resultado del experimento para diversos valores de
temperatura y cantidad de catalizador.
En muchos casos hay una sola variable de respuesta Y (variable dependiente), que depende de un
conjunto de variables de entrada x1,x2,...,xr (variables independientes).
El tipo más simple de relación entre dichas variables es el lineal:
Y = β 0 + β 1 x1 + β 2 x 2 + .... + β r x r
Si la relación se cumple para ciertos valores de βi (i=0,1,..r), entonces será posible predecir
exactamente Y a partir de la xi (i=0,1,..r)
Generalmente éste no es el caso y por lo tanto esta ecuación será válida sujeta a un error aleatorio.
Es decir:
Y = β 0 + β 1 x1 + β 2 x 2 + .... + β r x r + e ecuación de regresión lineal
donde se supone que e es una variable aleatoria con media 0.
A las cantidades βι (i=0,1,...r) se las denomina coeficientes de regresión. A dichos coeficientes se los
determina a partir de un conjunto de datos.
A una ecuación que describe Y en función de una sola variable independiente x se la llama ecuación
de regresión simple, mientras que aquella que contiene muchas variables independientes se denomina
ecuación de regresión múltiple.
29
Estadística descriptiva 2014
En un modelo de regresión lineal simple se supone que hay una relación lineal entre la respuesta
media y el valor de la única variable independiente. Es decir:
Y =α + β x +e
Ejemplo: Considere los siguientes 10 pares de datos (xi,yi), i=1,...,10, donde y es el rendimiento porcentual
de un experimento de laboratorio y x la temperatura a la cual se realizó el experimento.
Rendimiento porcentual vs. temperatura
i xi yi i xi yi
1 100 45 6 150 68
2 110 52 7 160 75
3 120 54 8 170 76
4 130 63 9 180 92
5 140 63 10 190 88
En la siguiente figura se muestran estos datos en forma de un diagrama de dispersión, que parece
reflejar una relación lineal entre y y x sujeta un error estándar, por lo tanto un modelo de regresión lineal
simple resultaría adecuado.
100
90
80
70
y
60
50
40
90 110 130 150 170 190
x
Diagrama de dispersión
Estimación de los coeficientes de regresión por cuadrados mínimos
Supongamos que vamos a observar las respuestas Yi que corresponden a valores de entrada xi ,
i=1,...,n y que se va a usar una función Y = A +Bxi para estimar los el valor de Yi.
Habrá una diferencia entre la verdadera respuesta Yi y su estimador A +Bxi, para determinar A y B
se trata de minimizar la suma de la diferencia cuadrática entre estas dos cantidades para i=1,..,n.
La suma de las diferencias cuadráticas está dada por
n 2
∑ (Y − A − Bx )
i i
SS = i =1
n−2
En un próximo curso, se explicarán las bases teóricas que permiten minimizar SS y encontrar A y B.
Las expresiones finales para A y B resultan:
30
Estadística descriptiva 2014
n
∑ xi Yi − n x Y
i =1
B= : A=Y −B x
n
2
∑ xi 2
− nx
i =1
A la recta A+Bx se la denomina línea de regresión estimada
Ejemplo: Calculemos ahora los parámetros A y B del ejemplo anterior. Para ello formamos la
siguiente tabla:
Cálculos de cuadrados mínimos
i xI yi xi yi xi2
1 100 45 4500 10000
2 110 52 5720 12100
3 120 54 6480 14400
4 130 63 8190 16900
5 140 63 8820 19600
6 150 68 10200 22500
7 160 75 12000 25600
8 170 76 12920 28900
9 180 92 16560 32400
10 190 88 16720 36100
n=10 10 10 10 10
∑ xi = 1450 ∑ y i = 676 ∑ xi y i = 102110 ∑ xi 2 = 218500
i =1 i =1 i =1 i =1
x = 145 y = 67.6
Reemplazando en las ecuaciones de los estimadores:
n
∑ xi Yi − n x Y 102110 − 10 × 145 × 67.6
i =1
B= = = 0.4958
n
2 218500 − 10 × (145)2
∑ xi 2
− nx
i =1
100
y = 0,4958x - 4,2848
90
80
70
y
60
50
40
90 110 130 150 170 190
x
Modelo lineal para los datos
31
Estadística descriptiva 2014
Relación entre Coeficiente de determinación y el coeficiente de correlación muestral
La medición de la variación en el conjunto de valores de respuesta Yi (i=1,…n) correspondiente al
conjunto de entradas xi (i=1,…, n) se mide en forma estadística como:
n
SSYY = ∑ (Yi − Y ) 2
i =1
La variación que queda en la respuesta después de descontar la contribución directa de las
variables de entrada a dicha variación se mide como:
n
SS R = ∑ (Yi − A − B xi ) 2
i =1
La diferencia entre estas dos expresiones (SSYY –SSR) mide la variación en los valores de respuesta
por los diferentes valores de entrada.
Se define así el coeficiente de determinación R2 como:
SSYY − SS R
R2 =
SSYY
0≤R2≤1
Cuando el modelo es una recta (modelo de regresión lineal simple), se puede demostrar que está
relacionado con el coeficiente de correlación muestral (r) así:
r = R2
Ejemplo: Si r=0.9, un modelo de regresión lineal simple explicaría el 81% (R2=0.92) de la variación en
los valores de respuesta.
Transformación a linealidad
En muchos casos la respuesta es obviamente una función no lineal de los niveles o variables de
entrada. Si es posible determinar la forma de la relación y se puede realizar una transformación de
variables para convertirla en una función lineal, entonces se puede aplicar el método de cuadrados
mínimos para realizar una regresión lineal.
Por ejemplo, en ciertas aplicaciones ese sabe que W(t), la amplitud de una señal en el tiempo t
después de haber sido originada, está relacionada con t, aproximadamente por la siguiente expresión:
W (t ) ≈ ae − bt
tomando logaritmos naturales de ambos miembros: ln(W (t )) ≈ ln(a ) − bt
llamando Y= ln(W(t)) α= ln(a) β=‐b, entonces se podrá tomar un modelo de la forma:
Y =α + β t + e
Los parámetros α y β se estimarían por el método común de cuadrados mínimos y finalmente se
llegaría a la relación funcional original: W (t ) ≈ ae − bt = eα e β t = eα + β t
32
Estadística descriptiva 2014
Regresión polinomial
Cuando la relación entre la respuesta Y y la variable independiente no puede describirse en forma
lineal, a veces es posible obtener un ajuste razonable mediante una relación polinomial. Es decir
Y = β 0 + β 1 x + β 2 x 2 + ...β r x r + e
donde βi (i=0,...,r) son coeficientes de regresión que deberán estimarse. Si se cuenta con n pares de
valores (xi,Yi), entonces los estimadores Bi (i=0,...,r) de los coeficientes de regresión serán aquellos que
minimizan la suma de diferencias cuadráticas
n
∑ (Y − ( B
i 0 + B1 x + B2 x 2 + ...Br x r )) 2
SS = i =1
n − (r + 1)
Al ajustar una función polinomial a un conjunto de pares de datos, con frecuencia es posible
determinar el grado necesario mediante un estudio del diagrama de dispersión. Siempre se debe usar el
menor grado posible que parezca describir los datos adecuadamente. Generalmente se comparan las SS
para distintos grados de polinomios, eligiendo el grado a partir de la cual SS no disminuye
significativamente.
Ejemplo:
x y
0 ‐2
1.5 4
2 6
4 9
6 10
15 12
y = 1.8853x + 0.3096
10
2
10 R = 0.8496 8
6
5 4 y = -0.4367x2 + 4.5715x - 1.8558
y
2 R2 = 0.9951
0 0
0 2 4 6 8 -2 0 2 4 6 8
-5 -4
x x
A simple vista se observa que el modelo cuadrático es mejor. Esto se colabora con el coeficiente
de determinación que en ese caso es más cercano a 1.
33