Está en la página 1de 33

Estadística descriptiva                                     2014 

PROBABILIDAD Y ESTADISTICA 
Introducción a la Estadística 
 
Estadística: Arte de aprender a partir de datos 
• Recolección de datos para aprender acerca de un tema de interés.  
• Descripción de los datos recolectados 
• Análisis de los datos para obtener conclusiones. 
 
La Estadística es una ciencia que se ocupa del estudio de los métodos y procedimientos para recolectar, 
clasificar, resumir y analizar datos y para hacer inferencias científicas sobre una característica o varias de 
una población, partiendo de los datos observados sobre muestras representativas de dicha población 

 
El objetivo de cualquier estudio estadístico es obtener información acerca de algunas características de 
los individuos de cierto colectivo llamado población estadística.  
Ejemplos: 
• los  alumnos  de  la  escuela  (población)  y  su  edad,  número  de  asignaturas  en  las  que  están 
matriculados, número de créditos que poseen, etc.;  
• conjunto  de  piezas  producidas  por  una  fábrica  (población)  y  sus  características  de  ductibilidad, 
rugosidad, etc;  
• el  total  de  usuarios  de  una  red  telefónica  (población)  y  su  grado  de  satisfacción,  el  número  de 
llamadas efectuadas en un cierto año, etc. 
 
La estadística interviene en múltiples campos:  
‐ Encuesta de población activa. 
‐ Estadísticas de aprobados de la Universidad en la Argentina. 
‐ Tendencia de voto 
 
Aplicaciones en Ingeniería: 
‐ Estudio de materiales (duración, dureza, elasticidad, etc.).  
‐ Control de calidad 
‐ Control de proceso de fabricación en masa producción en masa (de envases, tornillos, lamparitas, 
transistores, etc.) 
‐  Medidas (calibración, métodos, etc.) 
‐ Comparación de performances de maquinarias 
‐ Optimización de la circulación en planta, de salida de trabajadores, etc. 
‐ Estudios de mercado. 
 

1
Estadística descriptiva                                     2014 

Primer paso:  Obtención de información de los individuos de la población 
Recolección de datos  
Origen de los datos: 
• Conjunto de datos disponibles (ej.: publicaciones del gobierno sobre precipitaciones totales, 
la tasa de desempleo, el PBI, etc.).  
• Datos generados a partir del diseño de un experimento basado en la teoría estadística 
 
Los datos pueden ser tomados de toda la población o utilizando un subconjunto o muestra. Se usa 
esta  última  cuando  la  población  es  muy  grande,  por  razones  económicas  y  prácticas.  Si  la  muestra  es 
representativa de la población se podrán inferir conclusiones acerca de la población. 
Se pueden definir así, dos ramas de la Estadística: 
 
Estadística Descriptiva 
Rama  de  la  Estadística  dedicada  a  la  recolección,  recopilación  y  reducción  de  unos  datos  a  unas 
pocas  medidas  descriptivas,  tablas  y  gráficos,  permitiendo  conocer  las  características  existentes  en  la 
población o de un subconjunto de ella.  También se resumen los datos a través de cantidades numéricas 
denominadas estadísticos  que miden el promedio, dispersión, etc. 
 
Inferencia Estadística 
Se estudia una parte representativa de la población (muestra) y a partir de los datos observados se 
hacen inferencias sobre la población. 
 
Como  unión  entre  ambas,  aparece  la  probabilidad,  que  constituye  la  base  teórica  para  poder  hacer 
inferencias a partir de lo observado y crear modelos para problemas concretos. 
 
Método Estadístico 
Pasos que se deben de seguir en todo estudio estadístico,  (similares a los que se deben seguir en la 
resolución de cualquier problema matemático, ingenieril, etc.) 
 
Planteo del problema: 
¿Qué queremos estudiar? (objetivo del estudio); 
¿Dónde lo vamos a estudiar? (población); 
¿Qué características o variables se deben tener en cuenta para cumplir con el objetivo del estudio?  
 
Recolección, organización y depuración de los datos.  
Los datos deben ser válidos, no tener  errores o sesgos que puedan invalidar el estudio. 
 
Construcción del modelo: 
Con  los  datos  observados  se  formula  una  hipótesis  sobre  el  modelo  que  representa  al  problema 
real. Algunos parámetros de este modelo pueden ser conocidos y otros tendrán que ser estimados (fase 
de estimación). 
 
2
Estadística descriptiva                                     2014 

Análisis de resultados: 
En  esta  última  fase,  los resultados  obtenidos  se  comparan con  la  hipótesis  inicial. Si  se  observan 
discrepancias,  podría  ser  necesario  variar  la  hipótesis  inicial,  retornando  a  la  etpa  e  construcción  del 
modelo.  
Si  no  hay  discrepancias,  se  obtienen  las  conclusiones,  aclarando  en  qué  contexto  son  válidas  o 
aplicables. 
 
Ejemplo: 
Una máquina produce ejes cuyo diámetro debe encontrarse entre 3 ± 0.05 mm. Todos los ejes cuyo 
diámetro no pertenezcan al rango dado se consideran defectuosos. 
Se trata de determinar cuál es la proporción (p) de ejes defectuosos que produce la máquina. 
 
Recolección de los datos. Hay que establecer un procedimiento: número de datos que hay que 
obtener, en qué condiciones y con qué intervalo de tiempo, etc. 
• Depuración de esos datos. Eliminar los posibles datos erróneos, por errores en la recolección o 
transcripción, etc. 
• Estimación de p a partir de los datos o, si el valor de p estaba preestablecido (por exigencias 
del comprador, por ejemplo) contrastar si ese valor queda suficientemente respaldado por los 
datos, es decir, comparar la hipótesis inicial con los datos. En esta fase se determina el modelo. 
• Análisis de resultados. Con los resultados obtenidos se determina si el modelo es o no válido y 
 
Estadística descriptiva. 

Definiciones 
Población: Cualquier conjunto total de individuos cuyas características nos interesa estudiar  
Individuos  Característica 
todos los caramelos producidos en una jornada en  contenido de azúcar
una fábrica 
todos los hogares del país  número de aparatos de TV 
todos los votantes  partido político al que pertenecen. 

Muestra:  subconjunto  de  una  población  determinada.  Interesan  aquellas  muestras  que 
representan fielmente a la población. 
 
Variables   
Se va a trabajar con conjuntos de datos asociados a una o más características de la población, que 
se llama variable estadística, en general representada por una letra mayúscula (X,Y,Z,..). Se pueden definir 
distintos tipos de variables: 
Variables cualitativas: no se pueden medir numéricamente, por ej.: nacionalidad, bebida preferida, 
candidato a votar.  
Variables  cuantitativas:  tienen  valor  numérico,  por  ej.:  edad,  precio  de  un  producto,  ingresos 
anuales.  
Discretas: sólo pueden tomar valores espaciados, generalmente enteros. Ejemplos: número 
de compras de un producto en un mes, el año de cosecha del vino, número de entradas de cine 
3
Estadística descriptiva                                     2014 

vendidas en un intervalo de tiempo, resultado de lanzar un dado, número de hijos, por ej.: número 
de hijos en cada familia en una ciudad (1,2,3…, nunca 3.45);  
Continuas: pueden tomar cualquier valor real dentro de un intervalo, por ej: velocidad de 
un  auto:  [0,  300)  en  km/h  ,    0,3  km/h,  94,57  km/h...etc.,  intensidad  de  la  corriente  eléctrica; 
intervalo de tiempo entre dos llamadas telefónicas. 
 
A su vez cualquiera de estos tipos de variables pueden aparecer como:  
Variables unidimensionales: sólo informan sobre una característica, por ej.: edad de los alumnos de 
una clase;  
Variables bidimensionales: informan sobre dos características, por ej.: edad y altura de los alumnos 
de una clase,  
Variables pluridimensionales: dan información sobre tres o más características, por ej.: edad, altura 
y peso de los alumnos de una clase 

Representatividad de las muestras 
Al  proceso  de  obtener  muestras  se  lo  denomina  muestreo.Existen  dos  formas  de  muestreo; 
aleatorio y no aleatorio.  
En  el  muestreo  aleatorio  (al  azar)  cada  individuo  de  la  población  tiene  las  mismas  chances  de 
pertenecer a la muestra, por eso también se lo denomina muestreo representativo y es válido entonces 
utilizar estos datos para obtener conclusiones acerca de la población. 
El muestreo no aleatorio, no es válido para realizar análisis estadísticos porque está sesgado por el 
juicio del que toma la muestra. 
Ejemplo:  Si  queremos  saber  la  distribución  de  edades  de  los  residentes  de  una  ciudad,  y  
recolectamos los datos correspondientes a las primeras 100 personas que entran a la biblioteca pública,  
y se concluye que la edad promedio de estas personas es 42.6 años ¿es esta muestra representativa de la 
edad promedio en esa ciudad? 
Evidentemente  no  lo  es.  Ya  que  posiblemente  la  mayor  parte  de  las  personas  que  utilizan  la 
biblioteca sean jóvenes y ancianos. 
 
Tratamiento de las muestras en la  Estadística Descriptiva 

Los datos de una muestra deben ser representados en forma concisa y clara, de tal manera que un 
observador  obtenga  una  impresión  rápida  de  las  características  esenciales  de  los  datos.  Las  tablas  y 
gráficos  son  recursos  muy  útiles  en  la  representación  de  datos  que  revelan  características  importantes 
como el rango, el grado de concentración y la simetría de los datos. 
 
Tablas y gráficas de frecuencia 
 
En  el  curso  de  un  experimento  estadístico  se  obtiene  una  sucesión  de  observaciones  que  se 
escriben  en  el  orden  en  que  se  presentan.  Veremos  cómo  se  puede  representar  esta  información  en 
forma de tablas y gráficamente a través de un ejemplo: 

Ejemplo: 

4
Estadística descriptiva                                     2014 

Durante dos semanas se estudió la productividad de los trabajadores de una fábrica, contando el 
número  de piezas aceptables producidas por 100 de estos trabajadores. 
 
Tabla de valores de la muestra: contiene todos los datos en el orden en que fueron obtenidos 
28  26  37  32  32  40  26  32  37  38 
34  22  37  40  32  34  28  40  32  32 
28  32  28  26  38  32  32  34  26  34 
38  34  34  28 32 26 34 28  32  42
42  45  28  40  32  45  28  34  32  34 
37  28  28  37  38  32  22  32  34  26 
34  42  40  32 28 40 32 32  28  32
26  28  34  34  32  28  38  22  40  34 
32  37  38  22  37  32  38  32  38  37 
37  32  26  32  34  26  34  37  26  28 
 
Tamaño de la muestra:   n=100 

Tabla de frecuencias:  
m:  cantidad de datos diferentes en la muestra 
Columna 1: valores distintos de la muestra, de menor a mayor (xj,j=1,..m) 
Columna  2:  frecuencia  absoluta  puntual,  fabs(xj),  j=1,…m   :  cuántas  veces  se  repitió  cada  dato 
mostrado en la columna 1 
 Columna 3:  frecuencia relativa puntual  frel (xj), j=1,..m : proporción de veces que se repitió cada 
dato mostrado en la columna 1 
Columna 3: frecuencia absoluta acumulada  Fabs(xj), j=1,…m : cuántas veces se repitieron los datos 
menores o iguales que el mostrado en la misma fila en la columna 1 
 Columna 3: frecuencia relativa acumulada   Frel(xj), j=1,…m : proporción de veces que se repitieron 
los datos menores o iguales que el mostrado en la misma fila en la columna 1 

5
Estadística descriptiva                                     2014 

Gráfica o tabla de  frecuencias de la muestra ( j=1,..10)  , m=10 
xj  fabs(xj)  frel(xj)  Fabs(xj)  Frel(xj) 
22  4  0.04  4  0.04 
26  10  0.10  14  0.14 
28  15  0.15  29  0.29 
32  25  0.25  54  0.54 
34  16  0.16  70  0.70 
37  10  0.10  80  0.80 
38  8  0.08  88  0.88 
40  7  0.07 95 0.95 
42  3  0.03 98 0.98 
45  2  0.02 100 1.00 

La suma de frecuencias absolutas de una muestra debe ser igual al tamaño n de la muestra. En el 
ejemplo, n=100:   
f abs ( x1 ) + f abs ( x2 ) + f abs ( x3 ) + ... + f abs ( x10 ) =
4 + 10 + 15 + .... +2 = 100

Frecuencia relativa:

frel (x)= fabs (x) / n 0 ≤ frel (x) ≤ 1

donde: n es el tamaño total de la muestra 
 
La  suma  de  todas  las  frecuencias  relativas  en  una  muestra  es  igual  a  1.  Por  ejemplo  para  una 
muestra en la cual se obtuvieron m valores diferentes de xi: 
m

∑f
j =1
rel ( x j ) = f rel ( x1 ) + f rel ( x2 ) + f rel ( x3 ) + ................ + f rel ( xm ) = 1

En el ejemplo:  
f abs ( x1 ) + f rel ( x2 ) + f rel ( x3 ) + ... + f rel ( x10 ) =
2 10 15 2
+ + + .... + =1
100 100 100 100

Frecuencia  absoluta  acumulada:  suma  de  todas  las  frecuencias  absolutas  de  los  valores  de  la 
muestra menores e igual al considerado.  

Fabs ( x) = ∑f
∀x j ≤ x
abs ( x j ) = f abs ( x1 ) + f abs ( x2 )........... + f abs ( x)  

Frecuencia relativa acumulada: suma de las frecuencias relativas de los valores menores o igual al 
considerado.  Esta  frecuencia  indica  la  proporción  de  valores  que  son  menores  o  iguales  que  el  valor 
considerado 

Frel ( x) = ∑f
∀x j ≤ x
rel ( x j ) = f rel ( x1 ) + f rel ( x2 )........... + f rel ( x)

6
Estadística descriptiva                                     2014 

La frecuencia relativa es por lo menos igual a cero y a lo sumo igual a 1. 

Cuando  el  número  de  valores  diferentes  de  valores  en  una  muestra  es  pequeño  se  presenta 
adecuadamente  en  una  tabla  de  frecuencias.  La  tabla  nos  provee  información  de  cuál  es  el  valor  más 
repetido, cuál es el máximo de los valores, el intervalo donde se han producido datos, etc.  En el ejemplo: 
4  trabajadores  produjeron  la  mínima  cantidad  de  piezas  (22),  2  trabajadores  produjeron  la  máxima 
cantidad de piezas (45), 32 piezas fue el valor más repetido (25). 
 
Función  de  frecuencia  f(x) :  dada  una  muestra  dada  de  tamaño  n  que  consiste  de  m  valores 
diferentes xj (x1,  x2,  x3,…………xm) con frecuencias relativas (frel(x1),  frel(x2),  frel(x3),…………frel(xm) 
 
⎧ f rel ( x j ) para x = x j ( j = 1..m)

Se puede definir la función f(x) como: f ( x) = ⎨
⎪ 0 para x ≠ x
⎩ j

Función de distribución de la muestra, Frel(x) : suma de las frecuencia relativas de


todos los valores de la muestra que son menores o iguales a x

Frel ( x) = ∑ f (x j )
x j ≤x

Representación gráfica de muestras: 
 
La  representación  puede  realizarse  utilizando  las  frecuencias  relativas  o  las  absolutas 
indistintamente. Lo único que varía en cada caso es la escala del eje de las ordenadas.. 
  
Gráfico de barras frecuencia absoluta o relativa para un dado x vs. x. Si las barras se convierten en 
líneas se tendría un gráfico de líneas. 

7
Estadística descriptiva                                     2014 

Diagrama de frecuencias de puntos: 

 
 
 
 
Polígono de Frecuencias 
 

 
 
Histogramas 
Estos gráficos son similares a los diagramas de barras, donde el ancho de las barras es tal que se 
tocan  entre ellas  cuando  los  datos  están igualmente  espaciados. En  ese caso, la  altura de  las barras es 
proporcional a la frecuencia absoluta o relativa puntual, según corresponda. En el caso en que los datos 
no  estén  igualmente  espaciados  el  área  de  las  barras  es  propocional  a  alguna  de  las  frecuencias 
mencionadas, y en ese caso las barras pueden o no tocarse. Las herramientas estadísticas de programas 
como Excel, realizan primero una agrupación de la muestra (ver sección siguiente), y luego muestran el 
histograma de la muestra agrupada. 

8
Estadística descriptiva                                     2014 

Para el ejemplo dado, y tomando el área de la barra como proporcional a la frecuencia (f)  por lo 
tanto  la  altura  será:  h=f/Δx,  donde  Δx es  el  ancho  elegido  para  cada  barra,  se  obtiene  el  siguiente 
histograma: 

 
 

La frecuencia relativa acumulada  ( Frel ( x) = ∑ f ( x ) )se trata de una función creciente entre 0 y 


∀x j ≤ x
j

1 y además escalonada ya que tenemos datos discretos:  

Torta de porcentajes: indica frecuencias relativas cuando los datos no son de naturaleza numérica.  
Se construye un círculo y después se divide en diferentes sectores: uno para cada tipo distinto de valor de 
los datos.  
La frecuencia relativa del valor de un dato está indicada por el área de su sector. Se cumplen las 
siguientes relaciones: 
Área Sector= Área del Círculo * frel(dato) 
Ángulo del Sector = 360° × frel(dato) 
 
Ejemplo:  

9
Estadística descriptiva                                     2014 

 
TABLA 5: Ventas de una cadena de supermercados en el año 2005  
Tipo de productos  Ventas $miles  Frecuencias relativas 

Envasados  42  0.210 


Limpieza  50 0.250 
Carnicería  32 0.160 
Verdulería  55  0.275 
Perfumería  9  0.045 
Artículos Escolares  12  0.060 

Agrupación de muestras 
 
Si  una  muestra  contiene  un  elevado  número  de  valores  distintos,  entonces  su  representación 
tabular y gráfica resulta muy complicada. Una solución consiste en realizar un proceso de agrupación, de 
la siguiente forma: 
Se elige un intervalo I = {[xmin,xmax]   que contenga todos los n valores de la muestra. 
 Se subdivide I en S subintervalos iguales, que se denominan intervalos de clase. 
Longitud del intervalo de clase:  (xmax ‐ xmin) /S 
Límites de clase: extremos de cada intervalo se denominan.  
Marcas de clase: valor medio de cada intervalo 
Clase: valores de la muestra en cada uno de estos intervalos.  
Frecuencia absoluta de clase: número de valores dentro de un intervalo de clase 
Frecuencia relativa de clase: la frecuencia absoluta de clase dividida por el tamaño de la muestra o 
número total de datos (n).  
 
Cuanto  menos  clases  o  intervalos  de  clase  se  eligen  más  sencilla  será  la  representación  de  la 
muestra  pero  se  pierde  más  información.  Si  se  divide  en  demasiados  intervalos  de  clase  se  pierde  el 
beneficio asociado a la agrupación. 
 Se  debe  agrupar  de  modo  que  sólo  se  pierdan  detalles  no  esenciales.  Para  facilitar  la 
representación de la muestra, se deben cumplir las siguientes reglas en la agrupación: 

10
Estadística descriptiva                                     2014 

1. Todos los intervalos de clase deben tener la misma longitud 
2. Los  intervalos  de  clase  deben  elegirse  de  manera  que  las  marcas  de  clase  correspondan  a 
números sencillos  
3. Si un valor xj  coincide con un extremo de un intervalo se considera que pertenece al intervalo 
de  clase  que  se  extiende  de  xj  a  la  derecha.  Esta  convención  corresponde  a  incluir  el  límite 
izquierdo dentro del intervalo pero no el límite derecho 
4. El límite derecho de un intervalo debe ser igual al límite izquierdo del siguiente intervalo 
 
Ejemplo:  
En una planta industrial se realizaron las siguientes  80 determinaciones de la emisión diaria de óxidos de 
azufre (en toneladas) 
 
15.8  26.4  17.3  11.2 23.9 24.8 18.7 13.9 9.0  13.2
22.7  9.8  6.2  14.7  17.5  26.1  12.8  28.6  17.6  23.7 
26.8  22.7  18.0  20.5  11.0  20.9  15.5  19.4  16.7  10.7 
19.1  15.2  22.9  26.6  20.4  21.4  19.2  21.6  16.9  19.0 
18.5  23.0  24.6  20.1 16.2 18.0 7.7 13.5 23.5  14.5
14.4  29.6  19.4  17.0  20.8  24.3  22.5  24.6  18.4  18.1 
8.3  21.9  12.3  22.3  13.3  11.8  19.3  20.0  25.7  31.8 
25.9  10.5  15.9  27.5  18.1  17.9  9.4  24.1  20.1  28.5 
 
De la tabla se observan destacados los valores mínimos y máximos (6.2 y 31.8).  
Se  eligen:  xmin=5,  xmax=  35  y  una  cantidad  de  intervalos  S=  6.  La  longitud  de  cada  intervalo  será 
  (35‐5)/6=5 
 
Tabla de frecuencias agrupadas 
 
Nro. de  Intervalo  Marcas  fabs(xmj)  frel(xmj)  Fabs(xmj)  Frel(xmj) 
Intervalo (j)  de clase  de clase 
xmj 
1  5‐10  7.5  6  0,075 6  0,075 
2  10‐15  12.5  14  0,175 20  0,250 
3  15 – 20 17.5 25 0,3125 45  0,5625
4  20 – 25  22.5  24  0,3 69  0,8625 
5  25 – 30 27.5 10 0,125 79  0,9875
6  30 – 35  32.5  1  0,0125 80  1 

11
Estadística descriptiva                                     2014 

Resumen de Conjuntos de Datos 
En  la  actualidad,  gran  cantidad  de  experimentos  manejan  enormes  conjuntos  de  datos.  Para 
obtener alguna conclusión resulta útil resumirlos mediante alguna medición adecuada.  
Estas mediciones se denominan estadísticos.  
 
Estadístico 
Cantidad numérica cuyo valor queda determinado por los datos.  
 
Por  ejemplo,  partir  de  la  función  de  frecuencia  se  pueden  calcular  ciertas  propiedades  de  la 
muestra, tales como la magnitud promedio de los valores de la muestra, la dispersión, la asimetría, etc 
Los estadísticos se agrupan como 
• medidas de posición: pueden ser centrales (valores medios de la serie de datos) o  
no centrales (miden la posición de otros valores de la serie de datos). 
•  medidas  de    dispersión:    evalúan  la    distribución  de  los  valores  de  la  serie,  si 
éstos están concentrados o dispersos. 
• medidas  de  forma:  dan  información  acerca  de  la  forma  de  la  curva  que 
representa la serie de datos. 
 
Media muestral o promedio de la muestra: Es una medida de posición central. 
 Dada una muestra con n valores que consisten en x1, x2,…………, xn,  , la media muestral ( x ) es el 
promedio aritmético de estos valores. La fórmula correspondiente es:  
1 n x + x + x + ...............xn
x= ∑
n j =1
xj = 1 2 3
n
 

Ejercicio propuesto: Utilizando la definición dada para la media de una muestra, verificar que en el 
ejemplo de la página 6 (cantidad de piezas fabricadas por cada trabajador) es:  x = 32,82 
 
Con frecuencia se simplifica el cálculo de la media si los datos se pueden escribir de esta forma: 
xj =a yj +b j = 1,...n  
Aplicando la definición de media muestral  
 
1 n 1 n 1 n 1 n a n 1
x= ∑
n j =1
x j = ∑
n j =1
( a y j + b ) = ∑
n j =1
a y j + ∑
n j =1
b = ∑
n j =1
y j + nb = a y + b  
n

12
Estadística descriptiva                                     2014 

Ejemplo:  
Para el siguiente conjunto de datos, calcular la media en forma directa y con la simplificación  
284  280  277  282  279  285  281  283  278  277 
 
Cálculo directo: 
1
x = (284 + 280 + 277 + 282 + 279 + 285 + 281 + 283 + 278 + 277) = 280.6  
10
Cálculo simplificado: los datos se pueden representar como xj =yj+280 
6
Con yj = 4, 0, ‐3, 2, ‐1, 5, 1, 3, ‐2, ‐3, siendo su media  y = = 0.6  
10
  Por lo tanto la media de los datos originales será: 
x = a y + b = 1 × 0.6 + 280 = 280.6  
 
Cálculo de la media de la muestra a partir de los datos de la tabla de frecuencias 
En algunos casos queremos determinar la media muestral de un conjunto de n datos dados en una 
tabla  de  frecuencias  donde  hay  m  valores  distintos  x1,  x2,....xm  con  sus  correspondientes  frecuencias: 
fabs( x1), fabs (x2),... fabs)(xm) 
Es decir que el valor xi aparece fabs(xi) veces para cada i=1,2...m. En este caso la media muestral se 
calcula como: 
1 m
x= ∑ xi f abs ( xi )  
n i =1
 
Reordenando la ecuación anterior, se obtiene la siguiente fórmula alternativa para el cálculo de la 
media muestral en función de las frecuencias relativas: 
 
1 m f (x ) f (x ) f (x ) m
x= ∑
n i =1
xi f abs ( xi ) = abs 1 x1 + abs 2 x2 + ......... + abs m xm = ∑ xi f rel ( xi )  
n n n i =1
 
Eesta  última  fórmula  se  observa  que  la  media  muestral  es  un  promedio  ponderado  de  los 
distintos valores, donde el peso dado al valor xi  es igual a la proporción de los n valores de datos que son 
iguales a xi  (i=1,2..m), es decir que los factores de peso son cada una de las frecuencias relativas.. 
 
Ejercicio propuesto: Utilizando las dos definiciones dadas para la media de una muestra en función 
de los datos de la tabla de frecuencia, verificar que en el ejemplo de la página 7 (cantidad de trabajadores 
vs. cantidad de piezas fabricadas) es:  x = 32,82 
 
Media geométrica: También es otra medida de posición central, se calcula a través de cualquiera 
de las siguientes fórmulas: 

En función de todos los datos de la muestra: 
n
xG = n
∏x i =1
i  

En función de los datos de la tabla de frecuencias: 

13
Estadística descriptiva                                     2014 

m m
xG = n
∏x i =1
f abs ( xi )
j xG = n
∏x
i =1
i
/ n. f rel ( xi ))
 

 
donde:   
n: cantidad total de valores de la muestra;    m: cantidad de valores  diferentes en la muestra;      
  x1, x2,…, xm : valores diferentes en la muestra;     fabs(x1), fabs (x2),…, fabs (xm) :   sus frecuencias absolutas 
Ejercicio propuesto: Utilizando las definiciones dadas para la media geométrica, verificar que en el 
ejemplo de las páginas 6 (cantidad de piezas por trabajador) y 7 (cantidad de trabajadores vs. cantidad de 
piezas fabricadas) es:  x G = 32,412 
 
Según el tipo de datos  es mejor utilizar una media u otra. La media aritmética es la más utilizada. 
La  media  geométrica se utiliza en  series  de datos donde cada valor tiene efecto multiplicativo sobre el 
anterior, por ej.: intereses anuales, inflación. 
La utilización de las medias tiene la ventaja que en ellas se incluye toda la información. La 
desventaja es que dejan de ser representativas cuando hay valores extremos muy alejados del resto. 
 
Mediana muestral (m):  Constituye otro estadístico para indicar el centro de un conjunto de datos.  
 

Se  toma  como  el  valor  de  en  medio  del  conjunto  de  datos  ordenados  de  menor  a  mayor.  Si  el 
tamaño de la muestra (n) es impar, la mediana muestral es el valor ubicado en la posición (n+1)/2; si n es 
par, entonces es el promedio de los valores en las posiciones n/2 y n/2+1. 

xn + xn
+1
  Es decir, para n impar:  m = x⎛ n +1 ⎞  y para n par:  m = 2 2
 
⎜ ⎟ 2
⎝ 2 ⎠

Ejemplo: La siguiente tabla de frecuencias presenta las edades de los miembros de una orquesta 
sinfónica juvenil 
Edad  Cantidad de  
alumnos 
15 2
16  5 
17  11 
18 9
19  14 
20  13 
Encuentre la media muestral y la mediana muestral. 
En este caso n= 54 
1
(a)  x = (2 × 15 + 5 × 16 + 11 × 17 + 9 × 18 + 14 × 19 + 13 × 20 ) = 18.24  
54
(b) La mediana muestral será el promedio de los valores ubicados en la posición 27 y 28: 
x 27 + x 28 18 + 19
m= = = 18.5  
2 2

14
Estadística descriptiva                                     2014 

Ejercicio propuesto: Utilizando las definiciones dadas para la mediana, verificar que en el ejemplo 
de las páginas 6 (cantidad de piezas por trabajador) y 7 (cantidad de trabajadores vs. cantidad de piezas 
fabricadas) es: m =32 
 
 

15
Estadística descriptiva                                     2014 

Moda muestral 
 
 Es el valor que se presenta con más frecuencia (el correspondiente a la frecuencia más alta).  
Si  hay  más  de  un  valor  con  la  frecuencia  más  alta  entonces  a  ese  conjunto  de  valores  se  les 
denomina conjunto de valores modales 
 
Ejemplo:  La  siguiente  tabla  de  frecuencias  presenta  los  resultados  obtenidos  al  tirar  un  dado  40 
veces. 

Valor Frecuencia
1  9 
2  8 
3 5
4 5
5  6 
6 7
 
Calcular: (a) La media muestral, (b) la mediana muestral y (c) la moda muestral 
n= 40 
1
(a)  x = (9 × 1 + 8 × 2 + 5 × 3 + 5 × 4 + 6 × 5 + 7 × 6) = 3.05  
40
(b) n =40 es par. La mediana será el promedio entre el valor ubicado en la posición 20 y el ubicado 
en la posición 21 
x 20 + x 21 3 + 3
m= = = 18.5  (3+3)/2= 3 
2 2
(c) La moda muestral es 1 pues es el valor que ocurrió más veces. 

Ejercicios propuestos:   
1.  Comprobar que en el ejemplo de las páginas 7 y 8 la moda muestral es 32 
2.    Encontrar la moda  en el ejemplo de la página 14.

Medidas de posición no centrales:  Son medidas de posición no central los percentilos, cuartilos y 
decilos. Dividen a la muestras en tramos aproximadamente iguales. 
• Percentilos  1  al  99:  dividen  a  la  serie  de  datos,  ordenada  de  forma  creciente  en  100  tramos 
iguales, cada uno de ellos concentra el 1% de los resultados. 
• Decilos  1  al  9:  dividen  a  la  serie  de  datos,  ordenada  de  forma  creciente  en    10  tramos  iguales, 
cada uno de ellos concentra el 10% de los resultados. 
ƒ Percentilo 10 = Decilo 1; Percentilo 20= Decilo 2, etc., en general:
• Percentilo 10.j = Decilo j , j= 1..9
• 1°, 2° y 3°  cuartilos: dividen a la muestra en cuatro tramos iguales, cada una conteniendo el 25% 
de los datos 
ƒ Percentilo 25 = 1° Cuartilo;
ƒ Percentilo 50= 2° Cuartilo= Mediana
16
Estadística descriptiva                                     2014 

ƒ Percentilo 75 = 3° Cuartilo
 
Evidentemente, a través del cálculo de percentilos es posible obtener los cuartilos y los decilos. 
 
Cálculo de Percentilos muestrales  
Cuando nos referimos al Percentilo p, en general p está dado en % y vale 1,2,3….,99. 
El Percentilo p de una muestra de n datos, es aquel valor tal que el p% de los datos son menores o 
iguales  
Si  existen  dos  valores  de  los  datos  que  satisfagan  esta  condición  entonces  el  Percentilo  p  es  el 
promedio aritmético de estos dos valores. Esto se da cuando np/100 es un número entero, entonces los 
números en las posiciones np/100 y np/100+1 deberán promediarse. 
xnp /100 + xnp /100+1
Pp = x(int( np /100) +1)  si np/100 no es entero     Pp =  si np/100 es entero: 
2
Ejemplo: 
 Se midió el sonido en decibeles (dB) en una estación de trenes todos los días a la misma hora: 
82  8 94  110  74 122 112 95 10 78 124 115 
9  0 
65  6 90  83  87  75  114  85  69  94  125  108 

88  9 74  72  68  83  91  90  10 77  65  107 
7  2 
 
Determine los  percentilos 10 y 90, y todos los cuartilos. 
 
Conviene construir la tabla de frecuencias, para lo n= 36 datos: 

x  fabs    x  fabs  x  fabs  x  fabs 


60  1    82 1 95 1 115 1 
65  2    83 2 97 1 122 1 
68  1    85  1  100  1  124  1 
69  1    87  1  102  1  125  1 
72  1    88 1 107 1  
74  2    89  1  108  1     
75  1    90  2  110  1     
77  1    91  1  112  1     
78  1    94 2 114 1  
   
Percentilo 10  (p/100=0.10)   
                np/100= 36 x 0.10 = 3.6,              Percentilo 90 (p/100=0.90) 
                           x4 =  68                 np/100= 36 x 0.90 = 32.4 

17
Estadística descriptiva                                     2014 

                       x33 = 115   
  2° cuartilo  (p/100=0.50) 
1° cuartilo  (p/100=0.25)                    np/100= 36 x 0.50 = 18 
np/100= 36 x 0.25 = 9                (x18+x19) / 2 = (89+90)/2= 89.5 
              (x9+x10) / 2 = (75+77)/2= 76  3° cuartilo  (np=0.75) 

                 np/100= 36 x 0.75 = 27 

  (x27+x28) / 2 = (102+107)/2= 104.5 
   
   
Ejercicio propuesto:   
Obtener los percentilos 8, 20 y 43, todos los cuartilos y los percentilos 30 y 60 del ejemplo de las 
páginas 7 y 8. 
 
Medidas de dispersión: Entre las medidas de dispersión se pueden mencionar el rango, la varianza, 
la desviación estándar y el coeficiente Pearson. 
 
Varianza muestral: Describe la distancia cuadrática promedio entre los valores de la muestra y la 
media muestral.  
 
La varianza muestral  s2 de una muestra x1, x2,…………, xn, , se define por la fórmula: 

s2 =
1
n −1
[
( x1 − x) 2 + ( x2 − x) 2 + .......... + .( x n − x) 2 ]
 
ó 
1 n
s2 = ∑
(n − 1) j =1
( x j − x) 2  

 
Es una cantidad positiva, excepto cuando todos los valores de la muestra son coincidentes con la 
media muestral,  en cuyo caso la varianza es cero.  
Si  la  varianza  es  cercana  a  cero  decimos  que  los  datos  están  muy  concentrados  alrededor  de  la 
media.  
Las  siguientes  fórmulas  permiten  calcular  la  varianza  cuando  tenemos  como  datos  la  frecuencia 
relativa o la acumulada. 
1 m
s2 = ∑ f abs ( x j )( x j − x)
2
(n − 1) j =1
 
2 n m 2
s = ∑ f rel ( x j )( x j − x)
(n − 1) j =1

18
Estadística descriptiva                                     2014 

donde: n: tamaño de la muestra;  m: cantidad de valores diferentes de la muestra; x1, x2,…, xm: datos 
diferentes de la muestra; fabs(x1), fabs (x2),…, fabs (xm) :   sus frecuencias absolutas; frel(x1), frel (x2),…, 
frel (xm) :   sus frecuencias relativas. 

 
Ejemplo: Encontrar la varianza muestral de los siguientes datos: 
‐20, 5, 15, 24 
24
x= =6 
4
(−20 − 6) 2 + (5 − 6) 2 + (15 − 6) 2 + (24 − 6) 2
s2 = = 360.67  
3
Ejemplo: Encontrar la varianza muestral de los siguientes datos: 
3, 4, 6, 7,10 
30
x= = 6 
5
(3 − 6) 2 + (4 − 6) 2 + (6 − 6) 2 + (7 − 6) 2 + (10 − 6) 2
s2 = = 7.5  
4
En ambos ejemplos se obtuvo la misma media. Sin embargo el dato de varianza indica que en el 
primer ejemplo los datos están mucho más dispersos respecto de la media que en el segundo ejemplo. 
 
Desviación estándar de la muestra (s): Es la raíz cuadrada positiva de la varianza 

s = s2  
Coeficiente de variación de Pearson: Es la desviación estándar dividida por la media de la muestra. 
De esta forma se pueden comparar muestras diferentes. 
s
cV =  
x
Ejercicio propuesto:   
Obtener la varianza con las tres fórmulas dadas, la desviación estándar y el coeficiente de variación 
de Pearson para el ejemplo de las páginas 6 y 7. 
 
Identidad algebraica: La siguiente identidad puede resultar útil para calcular la varianza muestral: 

∑ (xi − x ) =∑ xi 2 − n x
n n
2 2
 
i =1 i =1

Prueba: 

∑ (xi − x ) =∑ ⎛⎜⎝ xi 2 − 2 xi x + x
n n n n n
2 2 ⎞ = x 2 − 2x x + 2
⎟ ∑ i ∑ i ∑ x =
i =1 i =1 ⎠ i =1 i =1 i =1
 
n n
2 2
∑ xi 2 − 2 xn x + n x =∑ xi 2 − n x
i =1 i =1

19
Estadística descriptiva                                     2014 

El cálculo de la varianza también se simplifica al observar que : 

y i = a + bxi   i=1,2..n  y recordando  y = a + b x , entonces 

∑ (y i − y ) =∑ (a + bxi − (a + b x) ) = ∑ b 2 (xi − x )  
n n n
2 2 2

i =1 i =1 i =1

2 2
s y = b2 sx  

Por ejemplo si sólo se suma la misma constante a cada uno de los valores originales, la varianza no 
se modifica.  
Si se multiplica cada valor por la misma constante la nueva varianza muestral es igual a la anterior 
multiplicada por el cuadrado de dicha constante 
 
Ejemplo: Los datos siguientes muestran el número de accidentes fatales ocurridos en el mundo en 
aerolíneas comerciales desde 1985 a 1993 
 
Año  1985 1986 1987 1988 1989 1990 1991  1992  1993
Accidentes  22  22  26  28  27  25  30  29  24 
 
Encuentre la varianza muestral y la desviación estándar muestral 
 
Si le restamos 22 a todos los datos, la varianza no cambiará. 
Nuevos datos: y = [0,  0,  4,  6,  5,  3,  8,  7,  2] 
Calculamos la varianza utilizando la identidad algebraica dada: 
2
⎛ 35 ⎞
s2 = ∑
n
(y − y )
i
2
n
=∑
2
yi − n y
=
203 − 9⎜ ⎟
2
⎝ 9 ⎠ = 8.361  
i =1 n'−1 i =1 n −1 8
 
La desviación estándar es s=2.892 
 
Rango:  Mide  la  amplitud  de  una  serie  datos,  como  la  diferencia  entre  el  valor  mayor  y  el  valor 
menor del conjunto de datos.  
En el ejemplo anterior el rango es de 125‐60= 65 
 
Desigualdad  de  Chevyshev:    Sean  x y  s  la  media  y  desviación  estándar  de  una  muestra,  donde 
 s >0. La desigualdad de Chevyshev establece que para cualquier valor k > 1 más del 100(1‐1/k2) % de los 
datos están dentro del intervalo  

⎡ x − ks, x + ks ⎤   
⎣ ⎦
Esta  desigualdad  se  cumple  siempre,  por  lo  tanto  puede  esperarse  que  un  porcentaje  mayor  de 
datos se encuentre dentro del intervalo. 

20
Estadística descriptiva                                     2014 

Ejemplo: Si k= 1.5, entonces  100(1‐1/k2)= 55.56. El 55.56% de los valores no diferirá más de 1.5s de 
la media. 
 
Conjunto de datos normales 
Muchos de los grandes conjuntos de datos observados en la práctica tienen diagramas de barras 
similares.  Con  frecuencia  estos  diagramas  alcanzan  su  máximo  en  la  mediana  muestral  y  después 
decrecen a ambos lados de ese punto, de manera simétrica en forma de campana. En este caso la media 
muestral y la mediana muestral coinciden. 

 
Conjunto de datos normal 
Conjunto de datos aproximadamente normales: 
Si el diagrama de barras de un conjunto de datos es muy parecido a uno normal entonces se dice 
que  es  aproximadamente  normal.  En  estos  casos  la  media  muestral  y  la  mediana  muestral  son 
aproximadamente iguales: 

 
Conjunto de datos aproximadamente normales 
 
Diagramas sesgados 
Si la gráfica no se ve aproximadamente simétrica respecto de la mediana muestral entonces se dice 
que el diagrama está sesgado, ya sea a la izquierda   o la derecha  

 
 
Sesgado a la izquierda          Sesgado a la derecha 
 
21
Estadística descriptiva                                     2014 

22
Estadística descriptiva                                     2014 

Reglas empíricas para datos aproximadamente normales 
Si un conjunto de datos es aproximadamente normal con media muestral  x  y desviación estándar 
s, entonces las siguientes proposiciones son verdaderas. 
 
1. Aproximadamente 68% de las observaciones están a no más de 
x ± s 
2. Aproximadamente 95% de las observaciones están a no más de 
x ± 2s  
3. Aproximadamente 99.7% de las observaciones están a no más de 
x ± 3s  
Ejemplo: Sea el siguiente conjunto de datos 
43  46  52  55  55  56  58  60  62  63 
64  66  66  72 74 74 75 77  77 
83  85  85  87  88  90  91  94  78 
 
Un diagrama de barras mostraría que se trata de una distribución aproximadamente normal. Use 
los datos para comprobar las reglas empíricas 
La media y desviación estándar son:  x = 70.571 s = 14.354  
La  regla  empírica  establece  que  el  68%  de  los  datos  están  entre  56.2  y  84.9,  contando  los  datos 
obtenidos entre estos límites y dividiendo por la cantidad de datos totales da que en la realidad hubo un 
53.6% de los datos entre dichos límites. 
La regla empírica establece que el 95% de los datos están entre 41.86 y 99.28, que en la realidad el 
100% de los datos se encontró entre dichos límites. 
 
Medidas  de  forma:  Permiten  conocer  qué  forma  tiene  la  curva  que  representa  los  datos  de  la 
muestra. Se clasifican en medidas de concentración, de asimetría y Kurtosis. 
 
Las  medidas  de  grado  concentración  evalúan  si  los  valores  de  la  variable  están  más  o  menos 
uniformemente repartidos a lo largo de la muestra. Por ejemplo: 
Índice de GINI (0≤IG≤1)  
⎛ k ⎞
⎜ ∑ x j f rel ( x j ) ⎟
A− B m −1 k m −1 j =1
IG =   A = ∑∑ f rel ( x j )   B= ∑ ⎜ m ⎟ 
A k =1 j =1 k =1
⎜ ⎟
⎜ ∑ x j f rel ( x j ) ⎟
⎝ j =1 ⎠
IG = 0  indica concentración mínima, la muestra está uniformemente repartida a lo largo de todo su 
rango. 
IG = 1 la  concentración es máxima, un solo valor de la muestra acumula el 100% de los resultados.  
 

23
Estadística descriptiva                                     2014 

Las medidas de asimetría  estiman si  la curva tiene una forma simétrica. Por ejemplo: 
• Coeficiente de Asimetría de Fisher:  
m

∑ (x
j =1
j − x) 3 f rel ( x j )
g1 = 3/ 2
 
⎡m ⎤
⎢∑ ( x j − x) f rel ( x j )⎥
2

⎣ j =1 ⎦
Este coeficiente puede tomar los siguientes valores: 
 g1 = 0, indica que la distribución es simétrica es decir que la  concentración de valores a la derecha 
y a la izquierda de la media es igual;.  
g1  > 0 indica distribución asimétrica positiva (hay una mayor concentración de valores a la derecha 
de la media que a su izquierda)  
 g1 < 0 indica una distribución asimétrica negativa (mayor concentración de valores a la izquierda 
de la media que a su derecha) 
 
La medida de Kurtosis   nos dice si los valores de la distribución están más o menos concentrados 
alrededor de los valores medios de la muestra. 
m

∑ (x
j =1
j − x) 4 f rel ( x j )
g2 = 2
−3 
⎡m ⎤
⎢∑ ( x j − x) f rel ( x j )⎥
2

⎣ j =1 ⎦
g2=0  Distribución  es  mesocúrtica:  grado  de  concentración  medio  alrededor  de  los  valores 
centrales de la variable. Por ej: distribución normal 
g2>0 Distribución leptocúrtica: elevado grado de concentración alrededor de los valores centrales 
de la variable. 
g2<0 Distribución platicúrtica, bajogrado de concentración alrededor de los valores centrales de 
la variable. 
Leptocúrtica

Mesocútica

Platicúrtica

 
 
 
24
Estadística descriptiva                                     2014 

Conjunto de datos por parejas y coeficiente de correlación muestral 
Con frecuencia nos encontramos con conjuntos de datos que consisten en parejas de valores que 
tienen alguna relación entre sí. 
n parejas de datos (xi, yi) i=1,2,...n. 
 
La siguiente es la tabla de correlación entre los datos, donde los xi y los yj mostrados son los valores 
diferentes observados para cada uno y fi,j  indica la frecuencia absoluta de los pares (xi,yj) 
Tabla de correlación 
x / y  y1  y2 .....  ym‐1 ym 
x1  f1,1  f1,2  .....  f1,m‐1  f1,m 
x2  f2,1  f2,2  .....  f2,m‐1  f2,m 
.....  .....  ..... ..... ..... ..... 
xn‐1  fn‐1,1  fn‐1,2  .....  fn‐1,m‐1  fn‐1,m 
xn  fn,1 fn,2 .....  fn,m‐1 fn,m 
 
Ejemplo: En la siguiente tabla se observan las mediciones de altura y peso de los alumnos de un 
curso y a continuación se muestra la tabla de correlación 
Altura y Peso de los alumnos del curso 
Estatura  Peso Estatura Peso Estatura  Peso 
Alumno  Alumno  Alumno 
(m)  (kg)  (m)  (kg)  (m)  (kg) 
Alumno 1  1,25  32  Alumno 11 1,25 31 Alumno 21 1,25  33
Alumno 2  1,28  33  Alumno 12 1,28  35  Alumno 22 1,28  32 
Alumno 3  1,27  31  Alumno 13 1,27  34  Alumno 23 1,27  34 
Alumno 4  1,21  34  Alumno 14 1,21 33 Alumno 24 1,21  34
Alumno 5  1,22  32  Alumno 15 1,22  33  Alumno 25 1,22  35 
Alumno 6  1,29  31  Alumno 16 1,29 31 Alumno 26 1,29  31
Alumno 7  1,30  34  Alumno 17 1,30  35  Alumno 27 1,30  34 
Alumno 8  1,24  32  Alumno 18 1,24  32  Alumno 28 1,24  33 
Alumno 9  1,27  32  Alumno 19 1,27 31 Alumno 29 1,27  35
Alumno 10  1,29  35  Alumno 20 1,29  33  Alumno 30 1,29  34 
 
Tabla de correlación entre la altura y el peso de los alumnos 
Estatura / Peso  31 kg 32 kg 33 kg 34 kg  35 kg 
121 cm  0  0  1  2  0 
122 cm  0 1 1 0  1 
123 cm  0  0  0  0  0 
124 cm  0  2  1  0  0 
125 cm  1 1 1 0  0 
126 cm  0  0  0  0  0 
127 cm  2 1 0 2  1 
128 cm  0  1  1  0  1 
129 cm  3  0  1  1  1 
130 cm  0 0 0 2  1 
 

25
Estadística descriptiva                                     2014 

  Diagramas de dispersión: Son  gráficos de yi vs xi   
El siguiente es el diagrama de dispersión de los datos del ejemplo de las alturas de los niños de un curso: 

 
 
Ejemplo: 
Concentración  de  hidrógeno  durante  una  reacción,  determinada  con  un  método  de  cromatografía  de 
gases (X), y la concentración determinada con un nuevo método de sensor (Y), son las siguientes 
X  47  62  65  70  70  78  95  100  114  118  124 
Y  38  62  53  67 84 79 93 106 117  116  127
X  127  140  140  140  150  152  164  198  221 
Y  114  134  139  142 170 149 154 200 215 
 
El diagrama de dispersión nos dirá si los métodos son equivalentes o no. 

 
 
  Un  hecho  positivo  es  que  cuando  la  medida  de  concentración  de  hidrógeno  de  un  método 
aumenta la otra también. También se observa que ambas medidas son similares en cada uno de los casos. 
 
En  general,  el  diagrama  de  dispersión  nos  da  información  útil,  como  por  ejemplo:  se  puede 
observar si valores grandes de y están siempre asociados a valores grandes de x y valores pequeños de y 
están asociados a valores pequeños de x. También podría ser que valores grandes de una variable estén 
asociados a valores pequeños de la otra. 
26
Estadística descriptiva                                     2014 

Para  tener  una  medida  cuantitativa  de  esta  relación,  se  cuenta  con  un  estadístico  que  trata  de 
medir el grado en el cual valores grandes de x se corresponden con valores grandes de y mientras que los 
x pequeños se corresponden con los y pequeños. 
 
Coeficiente de correlación muestral r 

Consideremos el conjunto de datos xi,yi , i=1,...n,  con medias  x  e y , respectivamente.  

( ) ( )
Para una pareja de datos  xi − x  e  yi − y  son las desviaciones respecto de sus medias.  

Si xi es un valor grande, será mayor que su media. Por lo tanto  xi − x  será positivo. De manera  ( )
similar si xi  es pequeño dicha diferencia será negativa. Lo mismo vale para las y. 
Por lo tanto si valores grandes de x se relacionan con valores grandes de y y los pequeños con los 
pequeños,  en  general  ambas  diferencias  serán  positivas  o  ambas  serán  negativas.  Su 
producto ( xi − x)( y i − y )   será  en  general  positivo.  La  suma  para  todos  los  valores  de  i,  de  dicho 
producto será un número grande positivo. 
De  manera  similar  cuando  valores  grandes  de  x  se  relacionan  con  valores  pequeños  de  y  y 
viceversa, el producto  ( xi − x)( y i − y )  será en general negativo y la suma para todos los valores de i 
será un número grande negativo. 
Para cuantificar los que significa “grande” se estandariza dicha suma dividiendo por n‐1 y por las 
respectivas desviaciones estándar, tal como se explica a continuación. 
Sean sx y sy  las desviaciones estándar muestral de los valores x e y respectivamente. El coeficiente 
de correlación muestral r, de las parejas de datos xi,yi , i=1,...n  está definido por: 
n

∑ (x i − x)( yi − y )
r= i =1

(n − 1) s x s y
n

∑ (x i − x)( yi − y )  

= i =1
n n

∑ ( xi − x ) 2 ∑ ( y i − y ) 2
i =1 i =1

Si  r >0  se dice que los datos están correlacionados positivamente.  

Si  r<0  los datos están correlacionados negativamente. 

Propiedades de r: 
• −1≤ r ≤1 
• Sean a y b constantes, con b>0 , si  y i = a + bxi   r=1 
• Sean a y b constantes, con b>0 , si  y i = a − bxi   r= ‐1 
• Dados  xi,yi    i=1,..n,  con  un  coeficiente  de  correlación  muestral  r    el  conjunto  formado  por  
a+bxi,  c+dyi      i=1,...n,    tendrá  el  mismo  r,  siempre  que  b  y  d  sean  ambos  positivos  o  ambos 
negativos. 

27
Estadística descriptiva                                     2014 

Valor absoluto de r  y signo de r 
El valor absoluto de r es una medida de cuán lineal es la relación entre los pares de datos.  
• IrI= 1   relación lineal perfecta.  
• IrI >0.8   relación lineal fuerte. Hay una recta que pasa cerca de todos los puntos.  
• IrI < 0.3  no hay una relación cercana a la lineal entre los datos. 
El signo de r indica la dirección de la relación.  
• r  >0    valores  grandes  de  x  se  relacionan  con  valores  grandes  de  y,    los  pequeños  de  x  con  los 
pequeños de y. 
• r <0  valores de x grandes se relacionan con y pequeños y viceversa 
 

r=1 r=-0.5

r=0.85 r=0.15

Diagramas de dispersión y sus respectivos r 
 
 
Ejemplo:  Verificar  que  los  datos  del  ejemplo  de  la  página  24  presentan  un  coeficiente  de 
correlación de r= 0.985 indicando una correlación lineal fuerte entre los dos métodos de medición de la 
concentración de hidrógeno. 
 

28
Estadística descriptiva                                     2014 

Distribuciones marginales: Se analiza el comportamiento de una variable independientemente de cómo 
se comporta la otra.  
De  una  distribución  bidimensionales  se  pueden  estudiar  dos  marginales,  por  ejemplo  la 
distribución de x y la distribución de y. 
 
Para el ejemplo de la página 24: 
 

 
Distribuciones marginales 
 
Regresión lineal 
Muchos  problemas  de  ciencia  e  ingeniería  se  interesan  en  determinar  una  relación  entre  dos 
conjuntos de variables. Por ejemplo, en un proceso químico, es importante la relación entre el resultado 
del  proceso,  la  temperatura  a  la  que  se  lleva  a  cabo  y  la  cantidad  de  catalizador  empleado.  El 
conocimiento  de  tal  relación  permitirá  predecir  el  resultado  del  experimento  para  diversos  valores  de 
temperatura y cantidad de catalizador. 
En muchos casos hay una sola variable de respuesta  Y (variable dependiente), que depende de un 
conjunto de variables de entrada x1,x2,...,xr (variables independientes). 
El tipo más simple de relación entre dichas variables es el lineal: 
Y = β 0 + β 1 x1 + β 2 x 2 + .... + β r x r  
Si  la  relación  se  cumple  para  ciertos  valores  de  βi  (i=0,1,..r),  entonces  será  posible  predecir 
exactamente Y a partir de la xi (i=0,1,..r) 
Generalmente éste no es el caso y por lo tanto esta ecuación será válida sujeta a un error aleatorio. 
Es decir: 

Y = β 0 + β 1 x1 + β 2 x 2 + .... + β r x r + e   ecuación de regresión lineal 

donde se supone que e es una variable aleatoria con media 0.  
A  las  cantidades  βι  (i=0,1,...r)  se  las  denomina  coeficientes  de  regresión.  A  dichos  coeficientes  se  los 
determina a partir de un conjunto de datos. 
A una ecuación que describe Y en función de una sola variable independiente x se la llama ecuación 
de regresión simple, mientras que aquella que contiene muchas  variables independientes se denomina 
ecuación de regresión múltiple. 

29
Estadística descriptiva                                     2014 

En un modelo de regresión lineal simple se supone que hay una relación lineal entre la respuesta 
media y el valor de la única variable independiente. Es decir: 
Y =α + β x +e 
 
Ejemplo: Considere los siguientes 10 pares de datos (xi,yi), i=1,...,10, donde y es el rendimiento porcentual 
de un experimento de laboratorio y x la temperatura a la cual se realizó el experimento. 
Rendimiento porcentual vs. temperatura 
i  xi  yi  i  xi  yi 
1  100  45 6 150 68 
2  110  52  7  160  75 
3  120  54 8 170 76 
4  130  63  9  180  92 
5  140  63  10  190  88 
 
En la siguiente figura se muestran estos datos en forma de un diagrama de dispersión, que parece 
reflejar una relación lineal entre y y x sujeta un error estándar, por lo tanto un modelo de regresión lineal 
simple resultaría adecuado. 

100
90
80
70
y

60
50
40
90 110 130 150 170 190
x
 
Diagrama de dispersión 
 
Estimación de los coeficientes de regresión por cuadrados mínimos 
Supongamos  que  vamos a observar las  respuestas  Yi   que corresponden a  valores de entrada xi , 
i=1,...,n y que se va a usar una función Y = A +Bxi  para estimar los el valor de Yi. 
Habrá una diferencia entre la verdadera respuesta Yi y su estimador A +Bxi, para determinar A y B 
se trata de minimizar la suma de la diferencia cuadrática entre estas dos cantidades para i=1,..,n. 
La suma de las diferencias cuadráticas está dada por 
n 2

∑ (Y − A − Bx )
i i
SS = i =1
 
n−2
En un próximo curso, se explicarán las bases teóricas que permiten minimizar SS y encontrar A y B. 
Las expresiones finales para A y B resultan: 

30
Estadística descriptiva                                     2014 

n
∑ xi Yi − n x Y
i =1
    B=    :   A=Y −B x 
n
2
∑ xi 2
− nx
i =1

A la recta A+Bx se la denomina línea de regresión estimada 
Ejemplo:  Calculemos  ahora  los  parámetros  A  y  B  del  ejemplo  anterior.  Para  ello  formamos  la 
siguiente tabla: 
Cálculos de cuadrados mínimos 
i  xI  yi   xi yi  xi2 
1  100  45 4500 10000 
2  110  52  5720  12100 
3  120  54  6480  14400 
4  130  63 8190 16900 
5  140  63  8820  19600 
6  150  68  10200  22500 
7  160  75 12000 25600 
8  170  76  12920  28900 
9  180  92  16560  32400 
10 190  88 16720 36100 
n=10  10 10 10 10
∑ xi = 1450 ∑ y i = 676 ∑ xi y i = 102110 ∑ xi 2 = 218500 
i =1 i =1 i =1 i =1
  x = 145  y = 67.6     
 
Reemplazando en las ecuaciones de los estimadores: 
n
∑ xi Yi − n x Y 102110 − 10 × 145 × 67.6
i =1
B= = = 0.4958  
n
2 218500 − 10 × (145)2
∑ xi 2
− nx
i =1

A = Y − B x = 67.6 − 0.496 × 145 = −4.2848  

100
y = 0,4958x - 4,2848
90
80
70
y

60
50
40
90 110 130 150 170 190
x
 
Modelo lineal para los datos 

31
Estadística descriptiva                                     2014 

 
Relación entre Coeficiente de determinación y el coeficiente de correlación muestral 
La medición de la variación  en el conjunto de valores de respuesta Yi  (i=1,…n)  correspondiente al 
conjunto de entradas xi (i=1,…, n) se mide en forma estadística como: 
n
SSYY = ∑ (Yi − Y ) 2  
i =1

La    variación  que  queda  en  la  respuesta  después  de  descontar  la  contribución  directa  de  las 
variables de entrada a  dicha variación se mide como: 
n
SS R = ∑ (Yi − A − B xi ) 2  
i =1

La diferencia entre estas dos expresiones (SSYY –SSR) mide la variación en los valores de respuesta 
por los diferentes valores de entrada. 
Se define así el coeficiente de determinación R2 como: 

SSYY − SS R
R2 =  
SSYY
0≤R2≤1
Cuando el modelo es una recta (modelo de regresión lineal simple), se puede demostrar que está 
relacionado con el coeficiente de correlación muestral  (r) así:  

r = R2  
Ejemplo: Si r=0.9, un modelo de regresión lineal simple explicaría el 81% (R2=0.92) de la variación en 
los valores de respuesta. 
 
Transformación a linealidad 
En  muchos  casos  la  respuesta  es  obviamente  una  función  no  lineal  de  los  niveles  o  variables  de 
entrada.  Si  es  posible  determinar  la  forma  de  la  relación  y  se  puede  realizar  una  transformación    de 
variables    para  convertirla  en  una  función  lineal,  entonces  se  puede  aplicar  el  método  de  cuadrados 
mínimos para realizar una regresión lineal. 
Por  ejemplo,  en  ciertas  aplicaciones  ese  sabe  que  W(t),  la  amplitud  de  una  señal  en  el  tiempo  t 
después de haber sido originada, está relacionada con t, aproximadamente por la siguiente expresión: 
  W (t ) ≈ ae − bt  
tomando logaritmos naturales de ambos miembros:      ln(W (t )) ≈ ln(a ) − bt  
llamando Y= ln(W(t))  α= ln(a)  β=‐b, entonces se podrá tomar un modelo de la forma: 
Y =α + β t + e  
Los parámetros  α y  β se estimarían por el método común de cuadrados mínimos y finalmente se 
llegaría a la relación funcional original:      W (t ) ≈ ae − bt = eα e β t = eα + β t  

32
Estadística descriptiva                                     2014 

Regresión polinomial 
Cuando la relación entre la respuesta Y y la variable independiente no puede describirse en forma 
lineal, a veces es posible obtener un ajuste razonable mediante una relación polinomial. Es decir 

Y = β 0 + β 1 x + β 2 x 2 + ...β r x r + e  

donde  βi  (i=0,...,r)  son  coeficientes  de  regresión  que  deberán  estimarse.  Si  se  cuenta  con  n  pares  de 
valores  (xi,Yi),  entonces  los  estimadores  Bi  (i=0,...,r) de los coeficientes  de regresión serán aquellos  que 
minimizan la suma de diferencias cuadráticas 
n

∑ (Y − ( B
i 0 + B1 x + B2 x 2 + ...Br x r )) 2
SS = i =1
 
n − (r + 1)
  Al  ajustar  una  función  polinomial  a  un  conjunto  de  pares  de  datos,  con  frecuencia  es  posible 
determinar el grado necesario mediante un estudio del diagrama de dispersión. Siempre se debe usar el 
menor grado posible que parezca describir los datos adecuadamente. Generalmente se comparan las SS 
para  distintos  grados  de  polinomios,  eligiendo  el  grado  a  partir  de  la  cual  SS  no  disminuye 
significativamente. 
Ejemplo: 
x  y 
0 ‐2
1.5  4 
2  6 
4 9
6  10 
15 12
y = 1.8853x + 0.3096
10
2
10 R = 0.8496 8
6
5 4 y = -0.4367x2 + 4.5715x - 1.8558
y

2 R2 = 0.9951
0 0
0 2 4 6 8 -2 0 2 4 6 8
-5 -4
x x
 
  A simple vista se observa que el modelo cuadrático es mejor. Esto se colabora con el coeficiente 
de determinación que en ese caso es más cercano a 1. 

33

También podría gustarte