Está en la página 1de 32

Estadstica hoy

En el tiempo actual, en que una gran mayora de los estudiantes tienen acceso a un
computador ya sea personal o en la institucin en donde estudia, tener acceso a procesar
datos es casi instantneo, no hay excusa para aprender estadstica. La existencia de
software de apoyo en anlisis estadstico es grande, por ejemplo algunos de mayor uso
son Excel, que no siendo un software estadstico es un gran apoyo, SPSS, Minitab, S-
Plus, Statgraphics, SAS, Statistical, Stata, Matlab, StatSoft, Infostat, Fathom entre otros,
que son software licenciado o R, Past, PSPP, GeoGebra, Gnumeric entre otros que son
software de libre distribucin.
Por qu aprender estadstica?
Primero debe entenderse que estadstica no es matemtica y por ende su enseanza y
forma de estudio no debe ser la misma.
Para dar respuesta a la pregunta enumero lo siguiente:
1. La estadstica aporta habilidades bsicas para que un ciudadano pueda
desenvolverse en la era de la informacin.
2. La estadstica es una poderosa herramienta de apoyo en la toma de decisiones.
3. Se est familiarizado con trminos de uso casi cotidianos como por ejemplo, la
media, la desviacin estndar, coeficiente de variacin, percentiles, variables,
probabilidad, modelos probabilsticos, inferir, etc.
4. Comprender noticias cuando vengan asociadas a datos.

Hoy no hay excusas para aprender estadstica

Veamos un ejemplo muy simple: Se encuentran dos amigos que estudian determinada
carrera y sostienen el siguiente dialogo:
A1: qu te pasa viejo, te ves cansado?
A2: El estudio viejo, el estudioooo
A1: cmo tanto?
A2: Si, es que se me vinieron todas las evaluaciones juntas, estoy estudiando de noche,
as que me fumo casi una cajetilla de cigarros por noche, harto caf y para el da me tomo
una energizante y listo.

Si A2 supiera realmente que podra est afectando seriamente su salud lo hara?


Obviamente estamos hablando de una persona consciente, que est estudiando para que
a futuro tener un mejor pasar, buenas vacaciones, etc. y que lo que hace es por falta de
CONOCIMIENTO E INFORMACIN.
Si el de acuerdo a los datos que tiene, fumar casi una cajetilla de cigarros, tomar harto
caf, dormir poco y tomar bebida energizante encuentra que est parado en una bomba
de tiempo y toma la decisin de reorganizarse y cambiar sus hbitos es un buen tomador
de decisin en cambio si decide justificar ambiguamente su accionar No es un buen
tomador de decisiones.

En el mundo laboral no tomar buenas decisiones puede implicar desde prdidas


econmicas hasta prdidas humanas.
Este apunte se desarrolla por unidades y encuentra organizado en dos partes, la primera
en que se desarrolla cada actividad directamente con el alumno y una segunda parte que
corresponde al anexo en que se entregarn las expresiones de clculos, sus propiedades
y otros detalles de los mismos.

Unidad 1: Estadstica Descriptiva Univariada.


La estadstica descriptiva univariada se aplica cuando estudiamos una nica caracterstica
sobre un conjunto de elementos. Los registros que efectuamos de este estudio son datos
brutos puesto que an no han sido procesados.

Actividad 1: Clasificacin de variables


Clasifique, de acuerdo a si las variables indicadas ms abajo son cualitativas o cuantitativas
y estas ltimas si son discretas o continuas, adems indique su escala de medicin:

i) Consumo de Agua en m3 de un hogar.


ii) Kilmetros recorridos diariamente desde la casa a la Universidad.
iii) Cantidad de veces que hace deporte en la semana.
iv) Tipo de deporte que practica de manera habitual.
v) Bebida preferida.
vi) Peso en gramos de una persona.
vii) Dimetro de un rodamiento de un eje.
viii) Diferencia de su nota en una evaluacin respecto del promedio del curso.
ix) Cantidad de colesterol de una persona
x) Religin que practica una persona.
xi) Nmero de veces que consume pescado en la semana.
xii) Consumo de gas de un hogar.
xiii) Grado de acuerdo con ley Emilia. (Totalmente de acuerdo, de acuerdo, no sabe,
en desacuerdo, totalmente en desacuerdo).

Actividad 2: Redes Sociales


Objetivo: Conocer cules son las redes sociales que ms utilizan los estudiantes de
nuestro curso.

1) Indique que puede ser la importancia de este objetivo.


2) Indiquen a su profesor que redes sociales usa frecuentemente para confeccionar
una lista.
3) Levanten su mano, para registrar el nmero de estudiantes que hacen uso de
cada una de ellas cada vez que el profesor lo solicite.
4) En grupos de cuatro comente lo observado en el listado hecho en la pizarra. qu
otra forma alternativa de presentar la informacin puede sugerir?
5) Aparte de conocer las redes sociales que ms utilizan los estudiantes de nuestro
curso, junto a su grupo indique Qu otros objetivos visualizan para este
problema?
6) Qu aplicaciones dara Ud. al uso de las redes sociales?
Actividad 3: En la plataforma EVA2 encontrar una base de datos Velocircula.xls, que
registra la velocidad a que circulaban los vehculos en una zona con restriccin de 60
km/hr al momento de ser medidos. El estudio se realiz de lunes a sbado en tres
horarios; de 7:00 a 9:00, 12:00 a 14:00 y de 17:30 a 19:30.
Con ayuda de Excel se obtuvieron los siguientes resultados:
Tabla 1: Estadsticas descriptiva para las variables Velocidad y nmero de
pasajeros del mvil.
Velocidad Numpasajero

Media 72.2 Media 2.21


Error tpico 0.7729 Error tpico 0.0604
Mediana 69 Mediana 2
Moda 62 Moda 1
Desviacin estndar 13.39 Desviacin estndar 1.05
Varianza de la muestra 179.21 Varianza de la muestra 1.10
Curtosis 0.33 Curtosis -0.65
Coeficiente de asimetra 0.92 Coeficiente de asimetra 0.43
Rango 60 Rango 4
Mnimo 50 Mnimo 1
Mximo 110 Mximo 5
Suma 21650 Suma 663
Cuenta 300 Cuenta 300
frecuencia Moda 18 frecuencia Moda 95
Coeficiente de variacin 18.6 Coeficiente de variacin 47.4
Rango Intercuartilico 17 Rango Intercuartilico 2
Algunos Cuantiles Algunos Cuantiles
Cuartil 1 (Q1) 62 Cuartil 1 (Q1) 1
Cuartil 3 (Q3) 79 Cuartil 3 (Q3) 3
Decil 1 (D1) 58 Decil 1 (D1) 1
Decil 3 (D2) 63 Decil 3 (D2) 1
Decil 7 (D7) 77 Decil 7 (D7) 3
Quintil 1 (K1) 61 Quintil 1 (K1) 1
Quintil 4 (K4) 82 Quintil 4 (K4) 3
Percentil 60 (P60) 74 Percentil 60 (P60) 2
Percentil 90 (P90) 91.2 Percentil 90 (P90) 4

Qu entiendo de cada valor de la tabla?


Tabla 2: Tabla de frecuencia para las variables Velocidad y nmero de pasajeros
del mvil.
Nmero de Nmero de Nmero de
Velocidad Vehculos Pasajeros vehculos
49.5 - 56.3 19 1 95
56.3 - 63.1 76 2 86
63.1 - 69.9 58 3 85
69.9 - 76.7 49 4 29
76.7 - 83.5 44 5 5
83.5 - 90.3 21 Total 300
90.3 - 97.1 13
97.1 - 103.9 8
103.9 - 110.7 12
Total 300

Qu puede comentar en relacin a cada tabla?

Tabla 3: Tabla de frecuencia para las variables Da de la semana, Tramo hora de la


medicin y Tipo de Vehculo.
Nmero de Nmero de Nmero de
Tipo Vehculo vehculos Da vehculos Tramo hora vehculos
Auto 86 Lu 95 7:00-9:00 135
Bus 80 Ma 56 12:00-14:00 91
Camin 5 Mi 25 17:30-19:30 74
Camioneta 29 Ju 16 Total 300
Furgn 20 Vi 68
Station Wagon 10 Sa 40
SUV 70 Total 300
Total 300

Qu puede comentar en relacin a cada tabla?


Grfico 1: Histograma y Polgono de frecuencia para la variable Velocidad en Km/hr
Distribucin de la Velocidad por nmero de Vehculos Distribucin de la Velocidad por Nmero de Vehculos
80 80

70 70

60 60
Nmero de Vehculos
Nmero de Vehculos

50 50

40 40

30 30

20 20

10 10

0 0
49.5 - 56.3 56.3 - 63.1 63.1 - 69.9 69.9 - 76.7 76.7 - 83.5 83.5 - 90.3 90.3 - 97.1 97.1 - 103.9 103.9 - 110.7 46.1 52.9 59.7 66.5 73.3 80.1 86.9 93.7 100.5 107.3 114.1
Velocidad (Km/hr) Velocidad (Km/hr)
Grafico 2: Ojiva para la variable Velocidad en Km/hr.

Ojiva de Frecuencia relativa Acumulada para la Velocidad


1.1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
49.5 56.3 63.1 69.9 76.7 83.5 90.3 97.1 103.9 110.7

Comente

Grfico 3: Distribucin del nmero de pasajeros por nmero de vehculo

Distribucin del nmero de Pasajeros por


Nmero de Vehculos
100
90
Nmero de Vehculos

80
70
60
50
40
30
20
10
0
1 2 3 4 5
Nmero de Pasajeros

Comente:

Grfico 4: Ojiva de frecuencia relativa para el nmero de pasajeros

Ojiva de frecuencia relativa para el nmero de pasajeros


1.2

0.8

0.6

0.4

0.2

0
0 1 2 3 4 5 6
Nmero de Pasajeros

Comente
Grfico 5: Grfico de barra para las variables Tipo de Vehculo, Da y Tramo Hora

Grfico para el tipo de Vehculo Grfico para el da de semana Grfico para el tramo de hora
100 100 160
90 90 140
Nmero de Vehculos

80

Nmero de Vehculos
80

Nmero de Vehculos
70 120
70
60 100
60
50
50 80
40
40 60
30
30
20 40
10 20
10 20
0
Auto Bus Camin Camioneta Furgn Station SUV 0 0
Wagon Lu Ma Mi Ju Vi Sa 7:00-9:00 12:00-14:00 17:30-19:30
Tipo de Vehculo Da Tramo de Hora de observacin

Comente:

Grafico 6: Grfico circular para las variables Tipo de Vehculo, Da y Tramo Hora
Tipo de vehculos Da de la semana Tramo de Hora

Auto Bus Camin Camioneta Furgn Station Wagon SUV Lu Ma Mi Ju Vi Sa 7:00-9:00 12:00-14:00 17:30-19:30

Comente:

Estudio Bivariado

Tabla 4: Tabla de contingencia para la Velocidad y Nmero de Pasajeros


Etiquetas de columna
Velocidad 1 2 3 4 5 Total
49.5-56.3 6 4 7 2 19
56.3-63.1 22 27 21 5 1 76
63.1-69.9 22 15 18 3 58
69.9-76.7 16 13 8 9 3 49
76.7-83.5 16 8 17 3 44
83.5-90.3 5 8 3 5 21
90.3-97.1 6 4 2 1 13
97.1-103.9 2 2 4 8
103.9-110.7 5 5 1 1 12
Total 95 86 85 29 5 300

Tabla 5: Tabla de contingencia para Tipo de Vehculo y Da de la Semana


Da de la semana
Tipo Vehculo Lu Ma Mi Ju Vi Sa Total
Auto 34 11 7 6 18 10 86
Bus 22 18 8 2 21 9 80
Camin 3 1 1 5
Camioneta 7 6 4 7 5 29
Furgn 6 5 2 1 4 2 20
Station Wagon 4 2 2 2 10
SUV 22 14 5 3 15 11 70
Total 95 56 25 16 68 40 300
Tabla 6: Tabla de contingencia para Tipo de Vehculo y Tramo de Hora

Tramo Hora
Tipo Vehculo 12:00-14:00 17:30-19:30 7:00-9:00 Total
Auto 22 25 39 86
Bus 22 16 42 80
Camin 5 5
Camioneta 12 7 10 29
Furgn 11 1 8 20
Station Wagon 2 4 4 10
SUV 22 21 27 70
Total 91 74 135 300

Tabla 7: Tabla de contingencia para Da y Tramo de Hora

Tramo Hora
Da de Semana 12:00-14:00 17:30-19:30 7:00-9:00 Total
Lu 21 35 39 95
Ma 19 9 28 56
Mi 6 2 17 25
Ju 5 5 6 16
Vi 10 20 38 68
Sa 30 3 7 40
Total 91 74 135 300

Grfico7: Grfico de dispersin para las variables Gastos e Ingresos familiares


Grfico 8: Grfico de dispersin para las variables Gastos e Ingresos familiares con lnea
de tendencia, ecuacin de regresin estimada y lnea de tendencia

Grfico de dispersin para el Gasto familiar por Ingresos


200
190
180 y = 0.6x + 17
170 R = 0.9052
160
Gastos familiares

150
140
130
120
110
100
90
80
70
60
50
60 80 100 120 140 160 180 200 220 240 260 280
Ingresos familiares
Anexos:
A1: Conceptos bsicos:
A1.1: Qu entiendo por dato?
Se conoce que la palabra Datos proviene del latn Dtum cuyo significado es lo que se
da. Los datos son la representacin simblica, bien sea mediante nmeros o letras, la cual
puede ser cuantitativa o cualitativa. Tambin se llama datos a aquellos smbolos numricos
obtenidos de algn tipo de estudio para poder realizar clculos matemticos que arrojen
informacin sobre un tema en especfico, pues abren un gran mundo de posibilidades en
el campo de investigaciones cientficas, y en cualquier mbito.
A1.2: Qu entiendo por informacin?
La informacin es un conjunto organizado de datos procesados, que constituyen
un mensaje que cambia el estado de conocimiento del sujeto o sistema que recibe dicho
mensaje. La informacin permite resolver problemas y tomar decisiones, ya que su
aprovechamiento racional es la base del conocimiento.
A1.3: Qu tipo de datos se pueden observar?
Los datos pueden proceder de caractersticas cuantitativas o cualitativas.
A1.4: Dnde observamos los datos?
Los datos son observados en elementos que corresponden a las unidades bsicas de
medicin en nuestro estudio, por ejemplo si estamos interesados en conocer si el valor
pagado en contribuciones por cada contribuyente es el correcto, entonces el dato que
debemos observar son los m2 construidos de su inmueble, por lo que el elemento ser la
casa.
Cuando observamos el todo quiere decir que estudiamos a la poblacin es decir realizar un
censo, en caso contrario, si estamos interesado en estudiar una parte del todo quiere decir
que observaremos una muestra.
A.2: Algunos trminos de uso cotidiano

Individuos o elementos: personas u objetos que contienen cierta informacin que se


desea estudiar. Ejemplo un auto, una batera, una buja, etc.

Poblacin: conjunto de individuos o elementos que cumplen ciertas propiedades comunes.


Ejemplo, dependiendo del alcance del estudio, una poblacin puede ser todos los autos city
car que existen en determinado mercado o todos los autos city car de la kia o todos los
autos city car de la kia del ao 2015, etc. Aqu se debe dejar en claro que en s la poblacin
en estadstica no est dirigida a los elementos sino a las medidas o conteos. En el caso de
todos los autos city car, si nuestro inters es el estudio de rendimiento, entonces la
poblacin estar constituida por todos los kilometrajes que cada auto recorrer por ejemplo
con un litro de bencina.

En relacin al tamao las poblaciones pueden ser: finita o infinita. El tamao poblacional se
denota por la letra mayscula N.
Muestra: subconjunto representativo de una poblacin. Est puede ser obtenida por un
proceso de azar o dirigida. El tamao muestral se denota por la letra minscula n
Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de
una poblacin. Por ejemplo la nota promedio que obtuvieron en clculo 1, todos los
estudiantes de ingeniera que la cursaron el semestre anterior.

Estadstico: funcin definida sobre los valores numricos de una muestra. Por ejemplo la
nota promedio que obtuvieron en clculo 1, los treinta estudiantes de ingeniera que fueron
seleccionados al azar desde los que la cursaron el semestre anterior.

Variables: propiedades, rasgos o cualidades con respecto a la cual difieren los elementos
de la poblacin. Estas a su vez pueden dividirse en cualitativas o cuantitativas. Las
variables se denotan por letras maysculas tales como X, Y, Z, X1, X2, . Los valores que
toma la variable en determinado elemento se denotan por letras minsculas, Por ejemplo
si la variable se denota con la letra X los valores que toma la variable en n elementos se
representan por x1, x2, ... xn. Ahora si la variable se denota por X1 los valores observados
en n elementos se representaran por x11, x12, , x1n.

Valores: diferentes situaciones posibles de una variable. Los valores deben ser a la vez
exhaustivos y mutuamente excluyentes (cada elemento posee uno y slo uno de los valores
posibles).

Clases o modalidad: conjunto de uno o ms valores en el que se verifica que cada valor
se clasifica en una y slo una de las clases. Las clases son intervalos de la recta real. En
esta unidad los consideraremos como ( a , b ] = { x / a < x b} .

A.3 Tipos de Variable

En funcin del tipo de dominio, las variables las clasificamos del siguiente modo:

Variables cualitativas o categricas, son las que tienen por valores cantidades no
numricas, por lo que no podemos hacer operaciones aritmticas con ellas.

Variables cuantitativas, son las que tienen por valores cantidades numricas con las que
podemos hacer operaciones aritmticas. De acuerdo a los valores estas se clasifican en
discretas o continuas.

Se dice que la variable es discreta si los valores que ella toma forman un conjunto finito.
Tambin podemos indicar que entre dos valores cualesquiera de esta variable o hay un
nmero finito de ellos o no existen valores. En general las variables discretas se asocian a
procesos de conteo.
Se dice que la variable es continua si los valores que ella toma forman un subconjunto de
la recta real. Tambin podemos indicar que entre dos valores cualesquiera de esta variable
hay un nmero infinito de ellos. En general las variables continuas se asocian a procesos
de medicin (usamos algn instrumento para ello).
A.4 Tipos de Escala de Medicin

Al medir una variable es de suma importancia tener claro la escala de medicin, entre
estas distinguimos cuatro: nominales, ordinales, de intervalo o de razn.

La escala nominal se aplica a aquellas variables en las que su variabilidad puede ser
distinguida, pero sin establecer grados diferenciales. A los nombres que definen las
diferencias se les denomina categoras o modalidades.
Por ejemplo el estado civil (soltero, casado, separado, viudo), la regin de residencia (I,
II,...,XII), etc.
Observemos que las variables medidas en escala nominal no admiten puntuaciones
numricas ordenadas significativamente, aunque para efectos principalmente de procesos
computacionales asignemos nmeros a estas categoras.

La escala ordinal se aplica a aquellas variables en las que su variabilidad puede ser
distinguida, y establecer grados dentro de ella. Por ejemplo el grado educacional (bsico,
medio, superior), factor de riesgo (bajo, medio, alto). Otras variables, por ejemplo la actitud
hacia el aborto legal podra ordenar el grado de acuerdo mediante el uso de categoras de
respuestas; totalmente de acuerdo, de acuerdo, no sabe, en desacuerdo, totalmente
en desacuerdo. Este conjunto de valores ampliamente utilizado se denomina escala de
Likert.
En esta clasificacin tambin se pueden utilizar nmeros por ejemplo en el factor de riesgo
se puede utilizar "1", "2" y "3" para riesgo bajo, medio y alto respectivamente, sin embargo
la diferencia aritmtica entre una categora u otra carece de sentido.
Las escalas de variables cuantitativas pueden ser de intervalos o de razn.
Una escala de intervalo posee las caracterstica de una nominal (diferentes valores
representan diferentes caractersticas de los objetos) y de la ordinal (mayor valor
representa mayor presencia de la caracterstica). Sin embargo, la escala de intervalo,
aade una nueva propiedad; la diferencia tambin tiene sentido.
Una de las caractersticas de las escalas de intervalo es que carecen de un cero absoluto
por lo que las operaciones como la multiplicacin y la divisin no son realizables. En esta
escala el valor cero no necesariamente significa ausencia de la propiedad que se intenta
medir En este tipo de escala se pueden realizar comparaciones de igualdad/desigualdad,
establecer un orden dentro de sus valores y medir la distancia existente entre cada valor.
En estas escalas no tienen sentido las razones, por ejemplo, si medimos la temperatura en
grados celsius y un objeto mide 20C y otro 10C podemos decir que uno tiene el doble de
temperatura que otro, pero si estas mismas temperaturas las medimos en grados
Fahrenheit no es cierto ya que 20C 68F y 10C 50F, en el que obviamente
68F no es doble de 50F.

Una escala de razn tiene las mismas propiedades de las escalas de intervalos pero,
adems, las razones si tienen sentido. Estas escalas tienen un valor base cero natural. Por
ejemplo la edad, los ingresos, densidad, etc.
A.5: Anlisis descriptivo para datos brutos
El anlisis descriptivo, constituye el primer nivel de anlisis, y sus funciones son las de
establecer cul es la forma de distribucin de una, o ms variables en el mbito global del
colectivo, cuntas unidades se distribuyen en categoras naturales o construidas de esas
variables, cul es la magnitud de ella expresada en forma de una sntesis de valores, cul
es la dispersin que se da entre las unidades del conjunto, etc.

La estadstica descriptiva se encarga de las muestras.

Las muestras provienen de poblaciones, sin embargo, el objetivo de la estadstica


descriptiva no son las poblaciones. La estadstica descriptiva no afirma ni niega nada en
relacin a las poblaciones de origen, ni sobre los fenmenos generales.

La estadstica descriptiva se encarga de cuantificar caractersticas de las variables


asociadas a las muestras.
A.5.1: Estadsticos descriptivos o Estadgrafos

Comenzaremos con algunas medidas que resumen la informacin en un nico valor, tales
medidas se clasifican en tres categoras: Las medidas de tendencia central, las de variacin
y las de posicin no central
Antes de dar las definiciones describiremos la notacin a ser usada.
Como indicamos anteriormente, un valor para la variable X es representada mediante la
notacin xi, mientras que un conjunto de n observaciones ser descrita por la notacin
x1,x2,...,xn. Las observaciones descritas por estas notaciones corresponden a datos brutos,
no siguen ningn orden sino que aparecen tal como han sido registradas. Si el conjunto de
datos anterior, procedemos a ordenarlo en forma ascendente entonces usaremos por
notacin x(1), x(2),...,x(n), donde se cumple que x(1) x(2) ... x(n). El nmero entre parntesis
indica la posicin del nmero dentro del conjunto de datos ordenados.
Es importante, para que nuestras interpretaciones sean acordes al problema que estamos
estudiando, identificar un primer elemento como es la variable de estudio, para ello nos
preguntamos Qu estamos midiendo?, y adems debemos tener clasificacin.
Un segundo elemento importante que debemos identificar cul es el elemento u objeto de
medicin, conocido tambin como unidad muestral o unidad de observacin. Para ello nos
preguntamos en qu objeto estamos efectuando la medicin de la variable de estudio?

A.5.1.1 Medidas de tendencia central

Son medidas que describen el centro de un conjunto de datos cuantitativos, es decir,


medidas de ubicacin que dan la informacin sobre el lugar hacia donde existe la tendencia
central dentro de un grupo de nmeros. Las tres medidas de tendencia central ms
comunes son la media o promedio, la mediana y la moda.
La media ( X ) Sea un conjunto de n observaciones x1 , x2 , , xn . Se define la media o
promedio, X mediante:
n
xi
X = i =1
n
La media utiliza todas las observaciones, y cada observacin afecta la media de igual
manera. Aunque la media es sensible a los valores extremos; es decir, los datos
extremadamente grandes o pequeos pueden causar que la media se ubique ms cerca
de uno de los datos extremos, sigue siendo la medida ms usada para medir la localizacin.
Esto se debe a que la media posee valiosas propiedades matemticas que la hacen
conveniente para el uso en el anlisis estadstico de inferencia o deductivo.
Nota: Esta medida, puede ser calculada directamente por una calculadora cientfica que
tenga modo estadstico (mode SD o mode Stat).
Si los datos tienen distinto peso, entonces la media recibe el nombre de media ponderada
y su clculo es
n n
X = wi xi con w i =1
i =1 i =1

Propiedades:

i) Si xi = c i, i = 1,..., n entonces X = c
ii) Si x1, ... , xn es un conjunto de datos con media X y si yi = a + bxi i , i = 1,..., n
con a y b constantes entonces Y = a + bX

La mediana (Me): Sea x(1), x(2),...,x(n), un conjunto de n observaciones ordenados en orden


creciente, la mediana se define como aquel valor que divide al conjunto de datos ordenados
en dos partes iguales. As, si n es impar, la mediana corresponde a la observacin ubicada
en la posicin j, siendo j = n + 1 .
2
Si n es par, la mediana corresponde al promedio de las observaciones ubicadas en la
posicin j y j+1, siendo j= n . De aqu:
2
n +1
X con j = si n es impar
(j) 2
Me =
X +X
( j) ( j + 1) n
con j = si n es par
2 2

La mediana no es sensible a valores extremos.


La moda (Mo): Sea un conjunto de datos de n observaciones x1 , x2 , , xn . Se define la
moda como aquel valor que ms se repite.
Observacin, cuando nos refiramos a la moda, lo haremos en ese contexto, en caso
contrario diremos que no es representativa para el conjunto de datos, para ello es
conveniente determinar cul es la frecuencia de este dato dentro del conjunto total.
A.5.1.2 Medidas de variacin o de dispersin.
Las medidas de tendencia central por s sola no dan una buena idea acerca del
comportamiento de los datos, por ejemplo, suponga que tenemos dos grupos de tres
alumnos cada uno y que en una evaluacin obtuvieron las notas siguientes:

Grupo 1: 5,0 4,0 y 6,0


Grupo 2: 7,0 3,0 y 5,0
Observe que en ambos grupos la media y la mediana son iguales e igual a 5,0 luego a partir
de estas medidas podemos decir que ambos grupos son iguales?.

Es obvio que no, puesto que las desviaciones respecto de la media xi X son
respectivamente
Grupo 1: 0 -1 y 1
Grupo 2: 2 -2 y 0
Es decir los alumnos del grupo 1 estn ms cerca de la media que el grupo 2, son ms
parecido entre si comparativamente con el grupo dos que tienen una mayor dispersin
respecto del promedio, luego necesitamos una medida que permita cuantificar dicha
n
desviacin. Observe que en ambos casos ( x X ) = 0
i =1
i

Las mediciones estadsticas de variacin son valores numricos que indican la variabilidad
inherente en un grupo de mediciones de datos. Observe que un valor pequeo para la
medida de dispersin indica que los datos estn concentrados alrededor de la media; por
lo tanto, la media es una buena representacin de los datos. Por otra parte, una medida
grande de dispersin indica que la media podra no ser una buena representacin de los
datos. Adicionalmente, las medidas de dispersin pueden ser utilizadas cuando deseamos
comparar las distribuciones de dos o ms conjuntos de datos. La calidad de un conjunto de
datos es medida por su variabilidad: variabilidad grande indica baja calidad. Esta es la razn
del porque gerentes se preocupan cuando encuentran grandes variaciones. El trabajo de
un estadstico, es medir la variacin, y si es demasiado alto e inaceptable, entonces es
trabajo del personal tcnico, tal como ingenieros, ajustar dicho proceso.
Las medidas de mayor uso para medir la variacin son el rango y la desviacin estndar.
El rango: El rango es la diferencia entre el valor mximo y el valor mnimo de un conjunto
de datos. Aunque es un clculo muy simple de realizar, el gran problema del rango es que
basa su informacin en slo dos valores y adems que es muy sensible a valores extremos.
La varianza: Sea un conjunto de n observaciones x1 , x2 , , xn . Se define la varianza, S2,
mediante la expresin:
n

2
(x X )
i =1
i
2

S =
n 1

Es decir es un promedio de las desviaciones al cuadrado de los datos respecto de su


media. Esta medida algunos autores la llaman cuasivarianza.
Observe que la varianza queda expresada en unidades al cuadrado lo que dificulta su
interpretacin. Una medida de la variabilidad del conjunto de datos es la desviacin
estndar o desviacin tpica, S, donde S=+ S 2 .

La desviacin estndar no tiene una interpretacin nica como otras medidas sino que se
interpreta en combinacin con la media. Una regla prctica se conoce como Regla emprica
y dice lo siguiente:
Si un conjunto de datos es aproximadamente simtrica respecto de la media entonces:
i.- Aproximadamente el 68% de las observaciones quedan dentro del intervalo
(x S ; x + S ) .
ii.- Aproximadamente el 95% de las observaciones quedan dentro del intervalo
(x 2S ; x + 2S ) .
iii.- Aproximadamente el 99,7% de las observaciones quedan dentro del intervalo
(x 3S ; x + 3S ) .
Cuando el conjunto de datos no presenta una distribucin simtrica, la relacin entre la
media y la desviacin estndar puede expresarse en trminos de la desigualdad de
Chebyshev que establece que dentro del intervalo (x kS ; x + kS ) , se encuentra a lo
1
menos el 100(1 )% de las observaciones, con k>1.
k2
Observe que la desigualdad de Chebyshev proporciona una cota inferior para la proporcin
de observaciones que caen dentro del intervalo (x kS ; x + kS ) .

Coeficiente de Variacin: En algunas ocasiones se necesita la comparacin de distintos


conjuntos de datos en trminos de su variabilidad, lo cual generalmente no es posible
porque pueden tener distintos tamaos, distintos promedios o porque tienen distintas
unidades, luego para su comparacin necesitamos de una medida de variabilidad relativa
adimensional. El coeficiente de variacin en este sentido es una medida adecuada.
Coeficiente de variacin de Pearson, CV, expresado porcentualmente es calculado como:

S
CV = x100 si X 0
X
El coeficiente de variacin tiene sentido cuando los valores observados son no negativos.
El coeficiente de variacin es usado entre otros como una medida de la representatividad
de la media. Si CV< 50% se dice que la media es representativa como medida de tendencia
central para ese conjunto de datos, en cambio si CV>100% entonces decimos que la media
no representa para nada al conjunto de datos. Si 50% CV 100% no hay criterio.
Tambin el coeficiente de variacin es usado como medida de la homogeneidad de los
datos:
Si CV 35% se dice que los datos forman un conjunto homogneo, si 35% < CV < 70% se
dice que los datos forman un conjunto medianamente heterogneo y si CV 70% se dice
que los datos forman un conjunto severamente heterogneo.
Afirmar que un mtodo de medida tiene un coeficiente de variacin de 10% significa que
por cada 100 unidades que mida, se comete un error, medido en desviaciones estndar de
10.
Cuantiles: Medidas de posicin no central
En el clculo de la mediana dividimos un conjunto de datos ordenados en orden creciente
en dos partes iguales, cada una representando el 50% de las observaciones. Hay ocasiones
que necesitamos medidas que subdividan al conjunto de datos ordenados en ms partes.
Por ejemplo, si subdividimos al conjunto en cuatro partes iguales, cada divisin contiene el
25% de las observaciones y las tres medidas que se generan de esta particin se llaman
cuartiles y se denotan por Q1, Q2 y Q3.

Min. Q1 Q2 Q3 Max.
25%
50%
75%

Q1:es llamado primer cuartil o cuartil inferior.


Q2 : segundo cuartil o mediana.
Q3 : tercer cuartil o cuartil superior.
A la diferencia entre el cuartil 3 y cuartil 1 se le llama rango intercuartilico, se denota por
IQR y mide el rango de la mitad central de los datos. IQR se considera como una medida
alternativa de la desviacin estndar de un conjunto de datos cuando queremos medir la
dispersin de los datos. Esta medida me indica el rango de unidades en que se recorre el
50% de los datos. Esta medida se calcula cuando los datos son continuos y numerosos.
Ahora, si dividimos nuestro conjunto de datos en cinco partes obtenemos los quintiles,
denotados por K1, K2, K3 y K4 respectivamente. Cada quintil contiene el 20% de los datos.
Si dividimos nuestro conjunto de datos ordenado en diez partes iguales obtenemos los
deciles, denotados por D1, D2, ..., D9.
En general, cuando dividimos un conjunto de datos en 100 partes iguales cada medida se
llama percentil y se denota por pk.
Definicin: El k-simo percentil pk de un conjunto de datos ordenados, es un valor situado
de modo que el k% de las observaciones son inferiores o iguales a pk y el (100-k)% son
mayores o iguales a pk.
Observe que tanto los cuartiles como los deciles u otras medidas obtenida por subdivisin
es equivalente a un percentil, asi, Q1 p25, D7 p70, D4 K2 p40, etc.

Existen muchas formas de calcular el percentil de un conjunto de datos y distintas formas


no necesariamente conducen al mismo resultado.
Aqu explicaremos dos formas:
a) Para calcular el k-simo percentil pk de un conjunto de datos se siguen los
siguientes pasos:
Sea x(1), x(2),...,x(n), el conjunto de n observaciones ordenados en orden creciente.

nk
i) Calcule el nmero ,
100
nk
ii) Pregunte si es o no entero.
100
nk
- Si es entero entonces obtenga la posicin j del percentil mediante j = y luego
100
obtenga pk de acuerdo a:
x ( j ) + x ( j +1)
pk =
2

nk
- Si no es entero obtenga la posicin j del percentil como el entero siguiente al
100
nk
nmero y pk = X ( j )
100
b) Excel calcula el el k-simo percentil pk de la forma siguiente: sea x(1), x(2),...,x(n), el
conjunto de n observaciones ordenados en orden creciente.

i) Calcula la posicin j del percentil como la parte entera de la expresin


k ( n 1)
j= +1
100
y hacer d como la parte decimal de la expresin

ii) Calcular el percentil pk mediante la siguiente interpolacin


pk = X ( j ) + d ( X ( j +1) X ( j ) )

A.6: Anlisis descriptivo para datos agrupados


Cuando observamos un conjunto de datos tratamos en si buscar algn comportamiento de
estos, es decir, tratamos de detectar algunas caractersticas importantes, tales como forma,
ubicacin, variabilidad, valores inusuales, etc. Caractersticas que son imposibles de
observar en el conjunto total de datos, de aqu la necesidad de agrupar los datos
construyendo la llamada tabla de distribucin de frecuencias que corresponde a una lista
de clases o modalidades junto con el nmero de valores que caen dentro de cada una.
A.6.1 Anlisis descriptivo para variables continuas:

Cuando observamos un conjunto de datos tratamos en si buscar algn comportamiento de


estos, es decir, tratamos de detectar algunas caractersticas importantes, tales como forma,
ubicacin, variabilidad, valores inusuales, etc. Caractersticas que son imposibles de
observar en el conjunto total de datos, de aqu la necesidad de agrupar los datos
construyendo una tabla llamada tabla de distribucin de frecuencias que corresponde a
una lista de clases o modalidades junto con el nmero de valores que caen dentro de cada
una.

No existe una regla fija para determinar el nmero apropiado k ( k + ) de clases para una
distribucin de frecuencias, pero en general estas deben estar entre 5 y 20. Dos reglas
bastante usadas para determinar el nmero aproximado de clases son:

i) Determinar el nmero k de clases tal que 2 k > n.


ii) Determinar el nmero k de clases tal que k 1+3,3log10n
(regla de Sturges)
donde n representa el total de observaciones.
El nmero k debe aproximarse de acuerdo a reglas de aproximacin.
Una vez fijado el nmero de clases se deben construir los intervalos de clases, de igual
amplitud para facilitar su interpretacin. Se debe tener en cuenta que los intervalos deben
ser inclusivos y mutuamente excluyentes, es decir, por una parte deben incluir todos los
valores del conjunto de datos y por otra, un dato debe pertenecer claramente a una y slo
una clase.
Clculo de la amplitud, A.
Rango
A=
k

donde Rango = valor mximo valor mnimo


k : nmero de clases
Como criterio y como una forma de facilitar la interpretacin, la amplitud debe presentarse
con la misma cantidad de decimales que los datos originales por lo tanto est debe
aproximarse hacia arriba de acuerdo al formato de los datos.

Cada clase corresponde a un intervalo de valores de la forma ( a, b ] = { x / a < x b} , en


que el extremo inferior a, se llama lmite inferior y el extremo superior b, lmite superior de
la clase y las denotaremos por lim.inf j y lim.sup j respectivamente.

Para escribir las clases, un criterio y que adoptaremos, es hacer el lmite inferior de la
primera clase igual al valor mnimo menos media unidad de paso, luego a este sumamos

Lim. Lim. Lim. Lim. Lim. Lim.


inf1 + A inf1 + 2A inf1 + 3A inf1 + 4A
...
inf1 supk
la amplitud y obtenemos el lmite superior de la clase y as, por sumas sucesivas de la
amplitud al valor obtenido vamos obteniendo los lmites de las clases siguientes,
grficamente se tiene:

La unidad de paso se considera 1 si los datos son enteros, 0.1 si los datos presentan un
decimal, 0.01 si los datos presentan dos decimales, y as sucesivamente.
Una vez escrita las k clases, llamados lmites reales o fronteras, procedemos a contar
cuntos datos pertenecen a cada clase, a estos los llamaremos frecuencia absoluta de
la clase y lo denotaremos por ni.
Trabajar con cifras absolutas no da una idea clara de la real dimensin de su magnitud, de
aqu, que se acostumbra a agregar a la tabla de distribucin de frecuencias una columna
con las frecuencias relativas fi. Adicionalmente, tambin se pueden agregar las columnas
con las frecuencias absolutas acumuladas Ni, frecuencias relativas acumuladas Fi y las
marcas de clases mi, donde:

ni i
Ni i lim. infi + lim. supi
fi = Ni = n j Fi = = f j mi =
n j =1 n j =1 2

Tratar de mostrar caractersticas o circunstancias relevantes de un conjunto de datos en


tablas de frecuencia es complejo por lo que en general se recurre a representaciones
grficas en la que adems de observar hechos relevantes tambin observamos su forma.
Entre las caractersticas importantes est la forma:

a) Sesgo Positivo b) simtrico c) Sesgo negativo


Las grficas (a), (b) y (c) presentan una distribucin unimodal ya que presentan una sola
joroba. Una distribucin bimodal sera como la que se presenta en el siguiente grfico

la que se presenta cuando estn mezclados datos de distinto origen, centrados en valores
distintos o datos de una misma naturaleza en que ocurren dos mximos.
A.6.2 Grficos para variables continuas
Los grficos ms utilizados en este tipo de variable son el histograma, el polgono de
frecuencias y la ojiva.
El histograma es un conjunto de rectngulos, de ancho igual a la amplitud y de altura igual
a la frecuencia absoluta o relativa.
Para dibujar el histograma en el eje de las abscisas ubicamos los lmites reales y en el eje
de las ordenadas la frecuencia absoluta o relativa.
Nota: Comentar un histograma se refiere como primer punto a la forma, simtrico, con sesgo
positivo o sesgo negativo, si es unimodal o bimodal. Adems se comentan hechos
relevantes ya sea refirindose a una clase o un rango de clases
El Polgono de frecuencias es un grfico que muestra un perfil ms suavizado de la forma
de la distribucin de la variable. Para dibujar el polgono de frecuencias ubicamos en el eje
de las abscisas las marcas de clases y en el eje de las ordenadas la frecuencia absoluta o
la frecuencia relativa, luego mediante trazos rectos se unen dichos puntos. Esta grfica se
muestra como una curva cerrada, para ello bajamos un trazo a ambos extremos de la curva.
El polgono de frecuencias se puede dibujar de manera independiente o junto al histograma.
Al comentar un polgono de frecuencia lo hacemos de la misma forma que lo indicado
para el histograma.
La Ojiva es una grfica en que se representan las frecuencias absolutas acumuladas o las
frecuencias relativa acumulada y se usa para determinar qu porcentaje de las
observaciones hay menores o iguales que un valor determinado en una distribucin. Para
dibujar la ojiva de una variable continua, en el eje de las abscisas se ubican los lmites
reales y en el eje de las ordenadas las frecuencias relativas acumuladas. Cada punto de la
grfica es unido mediante una curva suavizada.
De la ojiva podemos determinar directamente el porcentaje de elementos que tienen un
inferior o igual a un valor x1 o superior a un valor x2 o entre dos valores x1 y x2
Tambin podemos determinar el porcentaje de elementos que tienen un valor inferior o igual
a un valor x0 entre dos valores cualesquiera conocidos por simple interpolacin lineal,

y y0
La frmula de interpolacin lineal es: y = 1 ( x x0 ) + y 0
x1 x0
A.6.3 Tabla de distribucin de frecuencias para variables cualitativas.
Cuando se trate de variables cualitativas, las clases sern naturales, correspondiendo cada
modalidad de la variable a una clase.
A.6.4 Grficos para variables cualitativas
Los grficos ms utilizados en este tipo de variable son el grfico de barras y el grfico de
torta o pastel.
El grfico de barras es un conjunto de rectngulos de ancho arbitrario (pero nico) y de
altura igual a la frecuencia absoluta o relativa. En el eje de las abscisas ubicamos cada
categora de la variable y en el eje de las ordenadas la frecuencia.
Grfico de torta o de pastel, es una forma efectiva de desplegar los porcentajes en que
se dividen los datos. Este tipo de grfico es particularmente til cuando se quiere hacer
hincapi en los tamaos relativos de las componentes de los datos.
Para determinar la porcin del pastel que corresponde representar de una categora
determinada se usa la expresin:

ni
x 0 = 360 = 360 f i
n

A.6.5 Tabla de distribucin de frecuencias para variables discretas.


Para agrupar los datos de una variable discreta se recomienda hacer una lista de todos los
valores diferentes de la variable, si estos son pocos, cada valor diferente es una clase
natural. Si son muchos, mayor a 10, procedemos igual que en el caso de una variable
continua.
A.6.6 Grficos para variables discretas
Para representar las variables discretas en general empleamos un grfico de barra.
Para dibujar la ojiva de una variable discreta, en el eje de las abscisas se ubican los valores
de la variable y en el eje de las ordenadas las frecuencias relativas acumuladas.
A.7.- Estadsticos descriptivos para variables agrupadas en tablas de frecuencias
A.7.1 Medidas de tendencia central

La Media
Si la variables es continua y los datos se encuentran agrupados en k clases, entonces la
media es calculada de la siguiente forma :
k
ni mi
X = i=1
n
donde ni es la frecuencia absoluta
mi es la marca de clases.

Si la variable es discreta y los datos se encuentran agrupados en k clases, entonces


k
nixi
X = i =1
n
donde ni es la frecuencia absoluta
xi es cada valor diferente de la base de datos.

La Mediana
Si la variable es continua, la mediana es calculada mediante la expresin:

n
Nj 1
Me = lim inf + A
2
j n
j
donde:
j, es la clase de la mediana y se obtiene observando desde la primera clase hacia delante,
en que clase la frecuencia absoluta acumulada N j alcanza o supera el valor n
, es decir,
2
n
Nj .
2

lim infj, es el limite real inferior de la clase de la mediana.


nj, es la frecuencia absoluta de la clase de la mediana.
Nj-1, es la frecuencia absoluta acumulada de la clase anterior a la clase de la mediana.
A es la amplitud.

Si la variable es discreta entonces debemos considerar dos situaciones: cuando la


n
frecuencia absoluta acumulada N j alcanza el valor n
(50% de los datos), es decir N j =
2 2
n
y cuando la frecuencia absoluta acumulada N j supera el valor n
, es decir, N j > .
2 2
n
Cuando N j > , entonces Me = Xj siendo j la clase de la mediana.
2
n
Cuando N j = el 50% se alcanza en el intervalo ( x j , x j +1 as la mediana corresponde a
2
x j + x j +1
Me = (para entender esto dibuje la ojiva)
2
La Moda
Si los datos se encuentran agrupados en k clases, la moda puede ser calculada mediante
la expresin:

n j n j 1
M o = lim inf j + A
2n j n j 1 n j +1

O mediante la expresin:

n j +1
M o = lim inf j + A
n j +1 + n j 1

O tambin como el valor de la marca de clases del intervalo de mayor frecuencia, esta
ltima es bastante usada.
Con
j clase modal, obtenido como la clase en donde ocurre la mayor frecuencia

n j : frecuencia absoluta de la clase modal.

n j 1 : frecuencia absoluta de la clase anterior a la clase modal.

n j +1 : frecuencia absoluta de la clase posterior a la clase modal.

A : amplitud del intervalo


Las medidas de tendencia central tambin nos proporcionan una idea de la forma de la
distribucin:

Mo Mo
Me X Me
X Me X
Mo

A.7.2 Medidas de variacin o de dispersin


La Varianza y Desviacin Estndar
Si la variable es continua y el conjunto de datos se encuentra agrupado en k clases
entonces la varianza es calculada mediante:
k

n (m X )
i i
2

S2 = i =1

n 1
Si la variable es discreta y el conjunto de datos se encuentra agrupado en k clases entonces
la varianza es calculada mediante:
k

n (x X )
i i
2

S2 = i =1

n 1

Cualquiera sea el caso la desviacin estndar se calcula mediante S = + S 2 . Adems la


regla emprica, regla de Chebyshev y clculo del coeficiente de variacin no cambian por el
hecho de trabajar con datos agrupados.
A.7.3 Medidas de Posicin no Central
Percentiles
Si la variable es continua y los datos se encuentran agrupados en una tabla de distribucin
de frecuencias el k-esimo percentil es calculado como

kn
N
100 j 1 A
pk = lim inf +
j n
j
donde:
j, es la clase del percentil y se obtiene observando desde la primera clase hacia delante, en
kn
que clase la frecuencia absoluta acumulada N j alcanza o supera el valor , es decir,
100
kn
Nj .
100
lim infj, es el limite real inferior o frontera inferior de la clase del percentil.
nj, es la frecuencia absoluta de la clase de la mediana.
Nj-1, es la frecuencia absoluta acumulada de la clase anterior a la clase del percentil.
A es la amplitud.
Si la variable es discreta para calcular el k-esimo percentil pk, debemos considerar dos
nk
situaciones: cuando la frecuencia absoluta acumulada N j alcanza el valor , es decir
100
nk nk
Nj = y cuando la frecuencia absoluta acumulada N j supera el valor , es decir,
100 100
nk
Nj > .
100
nk
Cuando N j > , entonces pk = Xj siendo j la clase del percentil.
100
nk
Cuando N j = el percentil se alcanza en el intervalo ( x j , x j +1 as pk corresponde a
100
x j + x j +1
pk = (para comprender esto se recomienda dibujar la ojiva)
2
Recuerde que para el clculo de cuartiles, quintiles y deciles, debe determinar el percentil
equivalente.

?, Cul presenta una mayor variabilidad?, etc.

A.8 Variables Bidimensionales.


Anteriormente aprendimos cmo a partir de una gran cantidad de datos que describen una
nica variable X, estos pueden ser resumidos en una tabla de distribucin de frecuencias
para as entender la forma de su distribucin, tambin representamos grficamente los
mismos de modo que resulta ms intuitivo hacerse una idea de como se distribuyen las
observaciones.
Otros conceptos que hemos visto, que tambin nos ayudan en el anlisis, son los
estadsticos de tendencia central, que nos indican hacia donde tienden a agruparse los
datos (en el caso en que lo hagan), y los estadsticos de dispersin, que nos indican si las
diferentes modalidades que presenta la variable estn muy agrupadas alrededor de cierto
valor central, o si por el contrario las variaciones que presentan las modalidades con
respecto al valor central son grandes.
Tambin sabemos determinar si los datos se distribuyen de forma simtrica o presentan
algn sesgo.
En esta unidad estudiaremos una situacin muy general y por tanto de gran inters en la
prctica:
Sea Y otra variable definida sobre la misma poblacin que X, ser posible determinar
si existe alguna relacin entre las modalidades de X e Y?
Por ejemplo, sea X una variable que representa la cantidad de unidades vendidas e Y el
precio de un cierto producto.

La relacin ms simple que podemos encontrar entre X e Y es una relacin


determinstica del tipo Y=a+bX, sin embargo en casos reales este modelo no es realista y
por lo general el modelo es del tipo Y=a+bX+ , donde es un error.

Otra forma de estudiar la relacin entre las variables X e Y es registrando sus valores en
una tabla de doble entrada o tabla de contingencia.
Consideremos un conjunto de n objetos donde cada uno de ellos presenta dos
caractersticas de inters X e Y. Sean x1, x2, ..., xr los r valores o clases de una variable X
e y1, y2, ..., yc los c valores o clases de una variable Y.
La informacin conjunta puede ser resumida en una tabla con la siguiente estructura:

y1 y2 ... yj ... yc Total


\ Y fila
X
x1 n11 n12 n1j n1c n1.
x2 n21 n22 n2j n2c n2.


xi ni1 ni2 nij nic ni.


xr nr1 nr2 nrj nrc nr.
Total columna n.1 n.2 n.j n.c n..

Donde nij es la frecuencia absoluta para los individuos que presentan simultneamente
ambas modalidades xi de X e yj de Y.
ni. es la frecuencia absoluta marginal de la modalidad xi de X.
n.j es la frecuencia absoluta marginal de la modalidad yj de Y.

c r r c
As, ni. = nij
j =1
n.j = nij
i =1
n.. = n
i =1 j =1
ij

Adems las tablas:

X x1 x2 xr
ni. n1. n2. nr.

Y y1 y2 yc
n.j n.1 n.2 n.c

Se conocen con el nombre de frecuencia absoluta marginal de las variables X e Y


respectivamente.
Todo lo anterior puede tambin ser expresado como frecuencias relativas:
y1 y2 ... yj ... yc Total
\ Y fila
X
x1 f11 f12 f1j f1c f1.
x2 f21 f22 f2j f2c f2.


xi fi1 fi2 fij fic fi.


xr fr1 fr2 frj frc fr.
Total columna f.1 f.2 f.j f.c 1

Donde fij es la frecuencia relativa para los individuos que presentan la modalidad conjunta
xi de X e yj de Y.
fi. es la frecuencia relativa marginal de la modalidad xi de X.
f.j es la frecuencia relativa marginal de la modalidad yj de Y.

As,
c r r c
fi. = f
j =1
ij f.j = f
i =1
ij f
i =1 j =1
ij =1

Adems las tablas

x x1 x2 xi xr
fi. f1. f2. fi. fr.

y y1 y2 yj yc
f.j f.1 f.2 f.j f.c

Se conocen con el nombre de frecuencia relativa marginal de las variables X e Y


respectivamente.
Una vez obtenidas las frecuencias marginales, puede aplicarse para cada variable todas
las tcnicas de anlisis vistas para el caso de distribuciones unidimensionales, es decir el
clculo de medidas descriptivas y representaciones grficas.

De todos los elementos de la poblacin, podemos estar interesados en un conjunto ms


pequeo de Y, que est formado por aquellos elementos que han presentado la modalidad
y=yj para algn j=1,2,...,c. El nmero total de elementos de este nuevo conjunto sabemos
que es n.j La variable X definida sobre este conjunto se denomina variable condicionada
y se suele denotar mediante X/Y=yj, la que corresponde a la variable estadstica que toma
{ }
los valores xi con frecuencia absoluta nij. As X/Y=yj = (x i ,nij ) : i = 1,2,,r para cualquier
j=1, 2, , c
r
La frecuencia total de X/Y=yj es ni j = n
i=1
ij

Anlogamente se define la variable estadstica Y condicionada a que X= xi. Y/X= xi


Donde:

{ }
Y/X=xi = (y j ,nij ) : j = 1,2,,c para cualquier i=1, 2, , r

c
La frecuencia total de Y/X=xi es nii = n
j=1
ij

Las frecuencias relativas condicionadas de las variables X/Y=yj e Y/X=xi sern


respectivamente:

n ij nij
fi / j = y fj / i =
n. j ni .

Asociados a las distribuciones marginales podemos definir estadsticos de tendencia


central o dispersin. Las medias marginales de la variable X e Y se definen del siguiente
modo:

1 r r 1 c c
X= nii xi =
n.. i=1 i=1
fii x i Y= n.j y j =
n.. j=1 j=1
f.j y j

Las varianzas marginales respectivas son:


1 r 1 c
S = 2
x
n.. i=1
nii (x i X)2 2
S =
y
n.. j =1
n. j ( y j Y ) 2

Observe que las varianzas en la primera parte del curso las definimos con divisor n-1 en
vez de n. La razn principal de esto es que con fines inferenciales la varianza con divisor
n-1 representa mejor a la verdadera varianza poblacional. Algunos autores llaman a la
varianza con divisor n-1 como cuasi varianza.

Tambin podemos obtener una medida de la asociacin lineal entre las variables X e Y
llamada covarianza dada por Sxy, donde

1 r c
S xy = nij (xi X)(y j Y)
n.. i=1 j=1
Si esta ltima medida la definimos con divisor n-1 en vez de n, recibe el nombre de cuasi
covarianza.

Una formula alternativa de clculo para la covarianza es

1 r c r c
Sxy = nij xi y j XY =
n.. i =1 j =1 i =1 j =1
fij x i y j XY

Nota: La covarianza puede ser obtenida con una calculadora cientfica que tenga modo
estadstico.

Si Sxy > 0, indica que hay una asociacin lineal directa entre las variables X e Y.

Si Sxy < 0, indica que hay una asociacin lineal inversa entre las variables X e Y.

Si Sxy = 0, indica que no hay asociacin lineal entre las variables X e Y.


Un problema de la covarianza es que depende de las unidades de medida por lo que no
logramos cuantificar el grado de relacin lineal entre dos variables. Una medida
adimensional del grado de relacin lineal entre las variables X e Y lo da el coeficiente de
correlacin de Pearson dado por:

S xy
r =
Sx Sy

Observe que 1 r 1

El valor del coeficiente de correlacin es el mismo si trabajamos con divisor n-1 o n.

Empricamente, podemos indicar lo siguiente:

Valor de r Tipo Grado

1 Lineal directa perfecta


0.8 r < 1 Lineal directa fuerte
0.5 r < 0.8 Lineal directa moderada
0 < r < 0.5 Lineal directa dbil
r=0 No hay asociacin lineal
-0.5 < r < 0 Lineal inversa dbil
-0.8 < r -0.5 Lineal inversa moderada
- 1 < r - 0.8 Lineal inversa fuerte
-1 Lineal inversa perfecta

Mientras ms cercano a 1 o a 1 es el coeficiente de correlacin lineal mejor es la


dependencia lineal entre ambas variables.
Grficamente tenemos:
r>0 r<0 r 0

Ejercicio: Una empresa ha llevado a cabo un anlisis del costo salarial mensual (datos en
4
10 pesos) de sus 120 empleados en relacin con determinado indicador de
productividad, obteniendo la siguiente informacin:

intervalos de clases Intervalos de clase del indicador de productividad


del salario
24 46 68 8 - 10

20 - 25 30 5 0 0
25 - 30 5 33 7 0

30 - 35 0 5 15 4
35 - 40 0 0 0 16

a) Obtenga la media tanto para los salarios como para el indicador de productividad.
Interprete ambos resultados.
b) Determine la mediana tanto para los salarios como para el indicador de
productividad. Interprete ambos resultados.
c) Qu porcentaje de los empleados tienen un indicador de productividad de a lo
menos 6 puntos?
d) Cul es el salario medio de los empleados con indicador de productividad entre 4
y 6 puntos?.
e) Determine e interprete el coeficiente de correlacin entre los salarios y el indicador
de productividad.
f) Dibuje el polgono de frecuencias para la variable salario. Qu puede comentar?

A9: Modelos de regresin Lineal Simple


El propsito principal de los mtodos de regresin es obtener modelos con fines
predictivos. Se debe tener claro que existen mtodos de pronsticos intuitivos y
formales, cuya diferencia principal es la manera en que se obtienen los puntos de
referencia para la utilizacin de los pronsticos, tanto en la planeacin como en la
toma de decisiones.
Ahora bien, cualquiera sea el tipo de pronstico, el tema de la incertidumbre y el
riesgo en la planeacin y en la toma de decisiones, han motivado a utilizar estos
mtodos en forma regular con el convencimiento que aunque no se puede asegurar
la total exactitud de los modelos de prediccin, ni por muy sofisticado que ellos sean,
a trabajar la planeacin y tomar decisiones a un nivel de riesgo controlado.
La tcnica estadstica de regresin se considera como causal o explicatoria, esto
es, la prediccin se basa en la posibilidad de medir el efecto de diferentes e
importantes variables independientes sobre la variable dependiente a predecir.
Las variables independientes tambin se llaman variables predictoras o variables
regresoras o variables explicativas y se consideran fijas (estas se denotan como X), en
cambio la variable dependiente tambin se conoce con el nombre de variable respuesta o
variable observada o variable explicada o variable predicha (se denota por Y).
El modelo de regresin lineal estimado a partir de los datos se representa por:
Y= A + B x
Donde A representa el coeficiente de posicin
B representa la pendiente del modelo
Como medida de la bondad del ajuste se tiene el coeficiente de determinacin R2, cuya
interpretacin indica el porcentaje de la variabilidad de la variable respuesta que queda
explicada por la variable proporciona independiente en el modelo.
0 R2 1
Mientras ms se acerca a 1 se entiende que el modelo tiene mejor capacidad predictiva.

También podría gustarte