Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En el tiempo actual, en que una gran mayora de los estudiantes tienen acceso a un
computador ya sea personal o en la institucin en donde estudia, tener acceso a procesar
datos es casi instantneo, no hay excusa para aprender estadstica. La existencia de
software de apoyo en anlisis estadstico es grande, por ejemplo algunos de mayor uso
son Excel, que no siendo un software estadstico es un gran apoyo, SPSS, Minitab, S-
Plus, Statgraphics, SAS, Statistical, Stata, Matlab, StatSoft, Infostat, Fathom entre otros,
que son software licenciado o R, Past, PSPP, GeoGebra, Gnumeric entre otros que son
software de libre distribucin.
Por qu aprender estadstica?
Primero debe entenderse que estadstica no es matemtica y por ende su enseanza y
forma de estudio no debe ser la misma.
Para dar respuesta a la pregunta enumero lo siguiente:
1. La estadstica aporta habilidades bsicas para que un ciudadano pueda
desenvolverse en la era de la informacin.
2. La estadstica es una poderosa herramienta de apoyo en la toma de decisiones.
3. Se est familiarizado con trminos de uso casi cotidianos como por ejemplo, la
media, la desviacin estndar, coeficiente de variacin, percentiles, variables,
probabilidad, modelos probabilsticos, inferir, etc.
4. Comprender noticias cuando vengan asociadas a datos.
Veamos un ejemplo muy simple: Se encuentran dos amigos que estudian determinada
carrera y sostienen el siguiente dialogo:
A1: qu te pasa viejo, te ves cansado?
A2: El estudio viejo, el estudioooo
A1: cmo tanto?
A2: Si, es que se me vinieron todas las evaluaciones juntas, estoy estudiando de noche,
as que me fumo casi una cajetilla de cigarros por noche, harto caf y para el da me tomo
una energizante y listo.
70 70
60 60
Nmero de Vehculos
Nmero de Vehculos
50 50
40 40
30 30
20 20
10 10
0 0
49.5 - 56.3 56.3 - 63.1 63.1 - 69.9 69.9 - 76.7 76.7 - 83.5 83.5 - 90.3 90.3 - 97.1 97.1 - 103.9 103.9 - 110.7 46.1 52.9 59.7 66.5 73.3 80.1 86.9 93.7 100.5 107.3 114.1
Velocidad (Km/hr) Velocidad (Km/hr)
Grafico 2: Ojiva para la variable Velocidad en Km/hr.
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
49.5 56.3 63.1 69.9 76.7 83.5 90.3 97.1 103.9 110.7
Comente
80
70
60
50
40
30
20
10
0
1 2 3 4 5
Nmero de Pasajeros
Comente:
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6
Nmero de Pasajeros
Comente
Grfico 5: Grfico de barra para las variables Tipo de Vehculo, Da y Tramo Hora
Grfico para el tipo de Vehculo Grfico para el da de semana Grfico para el tramo de hora
100 100 160
90 90 140
Nmero de Vehculos
80
Nmero de Vehculos
80
Nmero de Vehculos
70 120
70
60 100
60
50
50 80
40
40 60
30
30
20 40
10 20
10 20
0
Auto Bus Camin Camioneta Furgn Station SUV 0 0
Wagon Lu Ma Mi Ju Vi Sa 7:00-9:00 12:00-14:00 17:30-19:30
Tipo de Vehculo Da Tramo de Hora de observacin
Comente:
Grafico 6: Grfico circular para las variables Tipo de Vehculo, Da y Tramo Hora
Tipo de vehculos Da de la semana Tramo de Hora
Auto Bus Camin Camioneta Furgn Station Wagon SUV Lu Ma Mi Ju Vi Sa 7:00-9:00 12:00-14:00 17:30-19:30
Comente:
Estudio Bivariado
Tramo Hora
Tipo Vehculo 12:00-14:00 17:30-19:30 7:00-9:00 Total
Auto 22 25 39 86
Bus 22 16 42 80
Camin 5 5
Camioneta 12 7 10 29
Furgn 11 1 8 20
Station Wagon 2 4 4 10
SUV 22 21 27 70
Total 91 74 135 300
Tramo Hora
Da de Semana 12:00-14:00 17:30-19:30 7:00-9:00 Total
Lu 21 35 39 95
Ma 19 9 28 56
Mi 6 2 17 25
Ju 5 5 6 16
Vi 10 20 38 68
Sa 30 3 7 40
Total 91 74 135 300
150
140
130
120
110
100
90
80
70
60
50
60 80 100 120 140 160 180 200 220 240 260 280
Ingresos familiares
Anexos:
A1: Conceptos bsicos:
A1.1: Qu entiendo por dato?
Se conoce que la palabra Datos proviene del latn Dtum cuyo significado es lo que se
da. Los datos son la representacin simblica, bien sea mediante nmeros o letras, la cual
puede ser cuantitativa o cualitativa. Tambin se llama datos a aquellos smbolos numricos
obtenidos de algn tipo de estudio para poder realizar clculos matemticos que arrojen
informacin sobre un tema en especfico, pues abren un gran mundo de posibilidades en
el campo de investigaciones cientficas, y en cualquier mbito.
A1.2: Qu entiendo por informacin?
La informacin es un conjunto organizado de datos procesados, que constituyen
un mensaje que cambia el estado de conocimiento del sujeto o sistema que recibe dicho
mensaje. La informacin permite resolver problemas y tomar decisiones, ya que su
aprovechamiento racional es la base del conocimiento.
A1.3: Qu tipo de datos se pueden observar?
Los datos pueden proceder de caractersticas cuantitativas o cualitativas.
A1.4: Dnde observamos los datos?
Los datos son observados en elementos que corresponden a las unidades bsicas de
medicin en nuestro estudio, por ejemplo si estamos interesados en conocer si el valor
pagado en contribuciones por cada contribuyente es el correcto, entonces el dato que
debemos observar son los m2 construidos de su inmueble, por lo que el elemento ser la
casa.
Cuando observamos el todo quiere decir que estudiamos a la poblacin es decir realizar un
censo, en caso contrario, si estamos interesado en estudiar una parte del todo quiere decir
que observaremos una muestra.
A.2: Algunos trminos de uso cotidiano
En relacin al tamao las poblaciones pueden ser: finita o infinita. El tamao poblacional se
denota por la letra mayscula N.
Muestra: subconjunto representativo de una poblacin. Est puede ser obtenida por un
proceso de azar o dirigida. El tamao muestral se denota por la letra minscula n
Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de
una poblacin. Por ejemplo la nota promedio que obtuvieron en clculo 1, todos los
estudiantes de ingeniera que la cursaron el semestre anterior.
Estadstico: funcin definida sobre los valores numricos de una muestra. Por ejemplo la
nota promedio que obtuvieron en clculo 1, los treinta estudiantes de ingeniera que fueron
seleccionados al azar desde los que la cursaron el semestre anterior.
Variables: propiedades, rasgos o cualidades con respecto a la cual difieren los elementos
de la poblacin. Estas a su vez pueden dividirse en cualitativas o cuantitativas. Las
variables se denotan por letras maysculas tales como X, Y, Z, X1, X2, . Los valores que
toma la variable en determinado elemento se denotan por letras minsculas, Por ejemplo
si la variable se denota con la letra X los valores que toma la variable en n elementos se
representan por x1, x2, ... xn. Ahora si la variable se denota por X1 los valores observados
en n elementos se representaran por x11, x12, , x1n.
Valores: diferentes situaciones posibles de una variable. Los valores deben ser a la vez
exhaustivos y mutuamente excluyentes (cada elemento posee uno y slo uno de los valores
posibles).
Clases o modalidad: conjunto de uno o ms valores en el que se verifica que cada valor
se clasifica en una y slo una de las clases. Las clases son intervalos de la recta real. En
esta unidad los consideraremos como ( a , b ] = { x / a < x b} .
En funcin del tipo de dominio, las variables las clasificamos del siguiente modo:
Variables cualitativas o categricas, son las que tienen por valores cantidades no
numricas, por lo que no podemos hacer operaciones aritmticas con ellas.
Variables cuantitativas, son las que tienen por valores cantidades numricas con las que
podemos hacer operaciones aritmticas. De acuerdo a los valores estas se clasifican en
discretas o continuas.
Se dice que la variable es discreta si los valores que ella toma forman un conjunto finito.
Tambin podemos indicar que entre dos valores cualesquiera de esta variable o hay un
nmero finito de ellos o no existen valores. En general las variables discretas se asocian a
procesos de conteo.
Se dice que la variable es continua si los valores que ella toma forman un subconjunto de
la recta real. Tambin podemos indicar que entre dos valores cualesquiera de esta variable
hay un nmero infinito de ellos. En general las variables continuas se asocian a procesos
de medicin (usamos algn instrumento para ello).
A.4 Tipos de Escala de Medicin
Al medir una variable es de suma importancia tener claro la escala de medicin, entre
estas distinguimos cuatro: nominales, ordinales, de intervalo o de razn.
La escala nominal se aplica a aquellas variables en las que su variabilidad puede ser
distinguida, pero sin establecer grados diferenciales. A los nombres que definen las
diferencias se les denomina categoras o modalidades.
Por ejemplo el estado civil (soltero, casado, separado, viudo), la regin de residencia (I,
II,...,XII), etc.
Observemos que las variables medidas en escala nominal no admiten puntuaciones
numricas ordenadas significativamente, aunque para efectos principalmente de procesos
computacionales asignemos nmeros a estas categoras.
La escala ordinal se aplica a aquellas variables en las que su variabilidad puede ser
distinguida, y establecer grados dentro de ella. Por ejemplo el grado educacional (bsico,
medio, superior), factor de riesgo (bajo, medio, alto). Otras variables, por ejemplo la actitud
hacia el aborto legal podra ordenar el grado de acuerdo mediante el uso de categoras de
respuestas; totalmente de acuerdo, de acuerdo, no sabe, en desacuerdo, totalmente
en desacuerdo. Este conjunto de valores ampliamente utilizado se denomina escala de
Likert.
En esta clasificacin tambin se pueden utilizar nmeros por ejemplo en el factor de riesgo
se puede utilizar "1", "2" y "3" para riesgo bajo, medio y alto respectivamente, sin embargo
la diferencia aritmtica entre una categora u otra carece de sentido.
Las escalas de variables cuantitativas pueden ser de intervalos o de razn.
Una escala de intervalo posee las caracterstica de una nominal (diferentes valores
representan diferentes caractersticas de los objetos) y de la ordinal (mayor valor
representa mayor presencia de la caracterstica). Sin embargo, la escala de intervalo,
aade una nueva propiedad; la diferencia tambin tiene sentido.
Una de las caractersticas de las escalas de intervalo es que carecen de un cero absoluto
por lo que las operaciones como la multiplicacin y la divisin no son realizables. En esta
escala el valor cero no necesariamente significa ausencia de la propiedad que se intenta
medir En este tipo de escala se pueden realizar comparaciones de igualdad/desigualdad,
establecer un orden dentro de sus valores y medir la distancia existente entre cada valor.
En estas escalas no tienen sentido las razones, por ejemplo, si medimos la temperatura en
grados celsius y un objeto mide 20C y otro 10C podemos decir que uno tiene el doble de
temperatura que otro, pero si estas mismas temperaturas las medimos en grados
Fahrenheit no es cierto ya que 20C 68F y 10C 50F, en el que obviamente
68F no es doble de 50F.
Una escala de razn tiene las mismas propiedades de las escalas de intervalos pero,
adems, las razones si tienen sentido. Estas escalas tienen un valor base cero natural. Por
ejemplo la edad, los ingresos, densidad, etc.
A.5: Anlisis descriptivo para datos brutos
El anlisis descriptivo, constituye el primer nivel de anlisis, y sus funciones son las de
establecer cul es la forma de distribucin de una, o ms variables en el mbito global del
colectivo, cuntas unidades se distribuyen en categoras naturales o construidas de esas
variables, cul es la magnitud de ella expresada en forma de una sntesis de valores, cul
es la dispersin que se da entre las unidades del conjunto, etc.
Comenzaremos con algunas medidas que resumen la informacin en un nico valor, tales
medidas se clasifican en tres categoras: Las medidas de tendencia central, las de variacin
y las de posicin no central
Antes de dar las definiciones describiremos la notacin a ser usada.
Como indicamos anteriormente, un valor para la variable X es representada mediante la
notacin xi, mientras que un conjunto de n observaciones ser descrita por la notacin
x1,x2,...,xn. Las observaciones descritas por estas notaciones corresponden a datos brutos,
no siguen ningn orden sino que aparecen tal como han sido registradas. Si el conjunto de
datos anterior, procedemos a ordenarlo en forma ascendente entonces usaremos por
notacin x(1), x(2),...,x(n), donde se cumple que x(1) x(2) ... x(n). El nmero entre parntesis
indica la posicin del nmero dentro del conjunto de datos ordenados.
Es importante, para que nuestras interpretaciones sean acordes al problema que estamos
estudiando, identificar un primer elemento como es la variable de estudio, para ello nos
preguntamos Qu estamos midiendo?, y adems debemos tener clasificacin.
Un segundo elemento importante que debemos identificar cul es el elemento u objeto de
medicin, conocido tambin como unidad muestral o unidad de observacin. Para ello nos
preguntamos en qu objeto estamos efectuando la medicin de la variable de estudio?
Propiedades:
i) Si xi = c i, i = 1,..., n entonces X = c
ii) Si x1, ... , xn es un conjunto de datos con media X y si yi = a + bxi i , i = 1,..., n
con a y b constantes entonces Y = a + bX
Es obvio que no, puesto que las desviaciones respecto de la media xi X son
respectivamente
Grupo 1: 0 -1 y 1
Grupo 2: 2 -2 y 0
Es decir los alumnos del grupo 1 estn ms cerca de la media que el grupo 2, son ms
parecido entre si comparativamente con el grupo dos que tienen una mayor dispersin
respecto del promedio, luego necesitamos una medida que permita cuantificar dicha
n
desviacin. Observe que en ambos casos ( x X ) = 0
i =1
i
Las mediciones estadsticas de variacin son valores numricos que indican la variabilidad
inherente en un grupo de mediciones de datos. Observe que un valor pequeo para la
medida de dispersin indica que los datos estn concentrados alrededor de la media; por
lo tanto, la media es una buena representacin de los datos. Por otra parte, una medida
grande de dispersin indica que la media podra no ser una buena representacin de los
datos. Adicionalmente, las medidas de dispersin pueden ser utilizadas cuando deseamos
comparar las distribuciones de dos o ms conjuntos de datos. La calidad de un conjunto de
datos es medida por su variabilidad: variabilidad grande indica baja calidad. Esta es la razn
del porque gerentes se preocupan cuando encuentran grandes variaciones. El trabajo de
un estadstico, es medir la variacin, y si es demasiado alto e inaceptable, entonces es
trabajo del personal tcnico, tal como ingenieros, ajustar dicho proceso.
Las medidas de mayor uso para medir la variacin son el rango y la desviacin estndar.
El rango: El rango es la diferencia entre el valor mximo y el valor mnimo de un conjunto
de datos. Aunque es un clculo muy simple de realizar, el gran problema del rango es que
basa su informacin en slo dos valores y adems que es muy sensible a valores extremos.
La varianza: Sea un conjunto de n observaciones x1 , x2 , , xn . Se define la varianza, S2,
mediante la expresin:
n
2
(x X )
i =1
i
2
S =
n 1
La desviacin estndar no tiene una interpretacin nica como otras medidas sino que se
interpreta en combinacin con la media. Una regla prctica se conoce como Regla emprica
y dice lo siguiente:
Si un conjunto de datos es aproximadamente simtrica respecto de la media entonces:
i.- Aproximadamente el 68% de las observaciones quedan dentro del intervalo
(x S ; x + S ) .
ii.- Aproximadamente el 95% de las observaciones quedan dentro del intervalo
(x 2S ; x + 2S ) .
iii.- Aproximadamente el 99,7% de las observaciones quedan dentro del intervalo
(x 3S ; x + 3S ) .
Cuando el conjunto de datos no presenta una distribucin simtrica, la relacin entre la
media y la desviacin estndar puede expresarse en trminos de la desigualdad de
Chebyshev que establece que dentro del intervalo (x kS ; x + kS ) , se encuentra a lo
1
menos el 100(1 )% de las observaciones, con k>1.
k2
Observe que la desigualdad de Chebyshev proporciona una cota inferior para la proporcin
de observaciones que caen dentro del intervalo (x kS ; x + kS ) .
S
CV = x100 si X 0
X
El coeficiente de variacin tiene sentido cuando los valores observados son no negativos.
El coeficiente de variacin es usado entre otros como una medida de la representatividad
de la media. Si CV< 50% se dice que la media es representativa como medida de tendencia
central para ese conjunto de datos, en cambio si CV>100% entonces decimos que la media
no representa para nada al conjunto de datos. Si 50% CV 100% no hay criterio.
Tambin el coeficiente de variacin es usado como medida de la homogeneidad de los
datos:
Si CV 35% se dice que los datos forman un conjunto homogneo, si 35% < CV < 70% se
dice que los datos forman un conjunto medianamente heterogneo y si CV 70% se dice
que los datos forman un conjunto severamente heterogneo.
Afirmar que un mtodo de medida tiene un coeficiente de variacin de 10% significa que
por cada 100 unidades que mida, se comete un error, medido en desviaciones estndar de
10.
Cuantiles: Medidas de posicin no central
En el clculo de la mediana dividimos un conjunto de datos ordenados en orden creciente
en dos partes iguales, cada una representando el 50% de las observaciones. Hay ocasiones
que necesitamos medidas que subdividan al conjunto de datos ordenados en ms partes.
Por ejemplo, si subdividimos al conjunto en cuatro partes iguales, cada divisin contiene el
25% de las observaciones y las tres medidas que se generan de esta particin se llaman
cuartiles y se denotan por Q1, Q2 y Q3.
Min. Q1 Q2 Q3 Max.
25%
50%
75%
nk
i) Calcule el nmero ,
100
nk
ii) Pregunte si es o no entero.
100
nk
- Si es entero entonces obtenga la posicin j del percentil mediante j = y luego
100
obtenga pk de acuerdo a:
x ( j ) + x ( j +1)
pk =
2
nk
- Si no es entero obtenga la posicin j del percentil como el entero siguiente al
100
nk
nmero y pk = X ( j )
100
b) Excel calcula el el k-simo percentil pk de la forma siguiente: sea x(1), x(2),...,x(n), el
conjunto de n observaciones ordenados en orden creciente.
No existe una regla fija para determinar el nmero apropiado k ( k + ) de clases para una
distribucin de frecuencias, pero en general estas deben estar entre 5 y 20. Dos reglas
bastante usadas para determinar el nmero aproximado de clases son:
Para escribir las clases, un criterio y que adoptaremos, es hacer el lmite inferior de la
primera clase igual al valor mnimo menos media unidad de paso, luego a este sumamos
La unidad de paso se considera 1 si los datos son enteros, 0.1 si los datos presentan un
decimal, 0.01 si los datos presentan dos decimales, y as sucesivamente.
Una vez escrita las k clases, llamados lmites reales o fronteras, procedemos a contar
cuntos datos pertenecen a cada clase, a estos los llamaremos frecuencia absoluta de
la clase y lo denotaremos por ni.
Trabajar con cifras absolutas no da una idea clara de la real dimensin de su magnitud, de
aqu, que se acostumbra a agregar a la tabla de distribucin de frecuencias una columna
con las frecuencias relativas fi. Adicionalmente, tambin se pueden agregar las columnas
con las frecuencias absolutas acumuladas Ni, frecuencias relativas acumuladas Fi y las
marcas de clases mi, donde:
ni i
Ni i lim. infi + lim. supi
fi = Ni = n j Fi = = f j mi =
n j =1 n j =1 2
la que se presenta cuando estn mezclados datos de distinto origen, centrados en valores
distintos o datos de una misma naturaleza en que ocurren dos mximos.
A.6.2 Grficos para variables continuas
Los grficos ms utilizados en este tipo de variable son el histograma, el polgono de
frecuencias y la ojiva.
El histograma es un conjunto de rectngulos, de ancho igual a la amplitud y de altura igual
a la frecuencia absoluta o relativa.
Para dibujar el histograma en el eje de las abscisas ubicamos los lmites reales y en el eje
de las ordenadas la frecuencia absoluta o relativa.
Nota: Comentar un histograma se refiere como primer punto a la forma, simtrico, con sesgo
positivo o sesgo negativo, si es unimodal o bimodal. Adems se comentan hechos
relevantes ya sea refirindose a una clase o un rango de clases
El Polgono de frecuencias es un grfico que muestra un perfil ms suavizado de la forma
de la distribucin de la variable. Para dibujar el polgono de frecuencias ubicamos en el eje
de las abscisas las marcas de clases y en el eje de las ordenadas la frecuencia absoluta o
la frecuencia relativa, luego mediante trazos rectos se unen dichos puntos. Esta grfica se
muestra como una curva cerrada, para ello bajamos un trazo a ambos extremos de la curva.
El polgono de frecuencias se puede dibujar de manera independiente o junto al histograma.
Al comentar un polgono de frecuencia lo hacemos de la misma forma que lo indicado
para el histograma.
La Ojiva es una grfica en que se representan las frecuencias absolutas acumuladas o las
frecuencias relativa acumulada y se usa para determinar qu porcentaje de las
observaciones hay menores o iguales que un valor determinado en una distribucin. Para
dibujar la ojiva de una variable continua, en el eje de las abscisas se ubican los lmites
reales y en el eje de las ordenadas las frecuencias relativas acumuladas. Cada punto de la
grfica es unido mediante una curva suavizada.
De la ojiva podemos determinar directamente el porcentaje de elementos que tienen un
inferior o igual a un valor x1 o superior a un valor x2 o entre dos valores x1 y x2
Tambin podemos determinar el porcentaje de elementos que tienen un valor inferior o igual
a un valor x0 entre dos valores cualesquiera conocidos por simple interpolacin lineal,
y y0
La frmula de interpolacin lineal es: y = 1 ( x x0 ) + y 0
x1 x0
A.6.3 Tabla de distribucin de frecuencias para variables cualitativas.
Cuando se trate de variables cualitativas, las clases sern naturales, correspondiendo cada
modalidad de la variable a una clase.
A.6.4 Grficos para variables cualitativas
Los grficos ms utilizados en este tipo de variable son el grfico de barras y el grfico de
torta o pastel.
El grfico de barras es un conjunto de rectngulos de ancho arbitrario (pero nico) y de
altura igual a la frecuencia absoluta o relativa. En el eje de las abscisas ubicamos cada
categora de la variable y en el eje de las ordenadas la frecuencia.
Grfico de torta o de pastel, es una forma efectiva de desplegar los porcentajes en que
se dividen los datos. Este tipo de grfico es particularmente til cuando se quiere hacer
hincapi en los tamaos relativos de las componentes de los datos.
Para determinar la porcin del pastel que corresponde representar de una categora
determinada se usa la expresin:
ni
x 0 = 360 = 360 f i
n
La Media
Si la variables es continua y los datos se encuentran agrupados en k clases, entonces la
media es calculada de la siguiente forma :
k
ni mi
X = i=1
n
donde ni es la frecuencia absoluta
mi es la marca de clases.
La Mediana
Si la variable es continua, la mediana es calculada mediante la expresin:
n
Nj 1
Me = lim inf + A
2
j n
j
donde:
j, es la clase de la mediana y se obtiene observando desde la primera clase hacia delante,
en que clase la frecuencia absoluta acumulada N j alcanza o supera el valor n
, es decir,
2
n
Nj .
2
n j n j 1
M o = lim inf j + A
2n j n j 1 n j +1
O mediante la expresin:
n j +1
M o = lim inf j + A
n j +1 + n j 1
O tambin como el valor de la marca de clases del intervalo de mayor frecuencia, esta
ltima es bastante usada.
Con
j clase modal, obtenido como la clase en donde ocurre la mayor frecuencia
Mo Mo
Me X Me
X Me X
Mo
n (m X )
i i
2
S2 = i =1
n 1
Si la variable es discreta y el conjunto de datos se encuentra agrupado en k clases entonces
la varianza es calculada mediante:
k
n (x X )
i i
2
S2 = i =1
n 1
kn
N
100 j 1 A
pk = lim inf +
j n
j
donde:
j, es la clase del percentil y se obtiene observando desde la primera clase hacia delante, en
kn
que clase la frecuencia absoluta acumulada N j alcanza o supera el valor , es decir,
100
kn
Nj .
100
lim infj, es el limite real inferior o frontera inferior de la clase del percentil.
nj, es la frecuencia absoluta de la clase de la mediana.
Nj-1, es la frecuencia absoluta acumulada de la clase anterior a la clase del percentil.
A es la amplitud.
Si la variable es discreta para calcular el k-esimo percentil pk, debemos considerar dos
nk
situaciones: cuando la frecuencia absoluta acumulada N j alcanza el valor , es decir
100
nk nk
Nj = y cuando la frecuencia absoluta acumulada N j supera el valor , es decir,
100 100
nk
Nj > .
100
nk
Cuando N j > , entonces pk = Xj siendo j la clase del percentil.
100
nk
Cuando N j = el percentil se alcanza en el intervalo ( x j , x j +1 as pk corresponde a
100
x j + x j +1
pk = (para comprender esto se recomienda dibujar la ojiva)
2
Recuerde que para el clculo de cuartiles, quintiles y deciles, debe determinar el percentil
equivalente.
Otra forma de estudiar la relacin entre las variables X e Y es registrando sus valores en
una tabla de doble entrada o tabla de contingencia.
Consideremos un conjunto de n objetos donde cada uno de ellos presenta dos
caractersticas de inters X e Y. Sean x1, x2, ..., xr los r valores o clases de una variable X
e y1, y2, ..., yc los c valores o clases de una variable Y.
La informacin conjunta puede ser resumida en una tabla con la siguiente estructura:
xi ni1 ni2 nij nic ni.
xr nr1 nr2 nrj nrc nr.
Total columna n.1 n.2 n.j n.c n..
Donde nij es la frecuencia absoluta para los individuos que presentan simultneamente
ambas modalidades xi de X e yj de Y.
ni. es la frecuencia absoluta marginal de la modalidad xi de X.
n.j es la frecuencia absoluta marginal de la modalidad yj de Y.
c r r c
As, ni. = nij
j =1
n.j = nij
i =1
n.. = n
i =1 j =1
ij
X x1 x2 xr
ni. n1. n2. nr.
Y y1 y2 yc
n.j n.1 n.2 n.c
xi fi1 fi2 fij fic fi.
xr fr1 fr2 frj frc fr.
Total columna f.1 f.2 f.j f.c 1
Donde fij es la frecuencia relativa para los individuos que presentan la modalidad conjunta
xi de X e yj de Y.
fi. es la frecuencia relativa marginal de la modalidad xi de X.
f.j es la frecuencia relativa marginal de la modalidad yj de Y.
As,
c r r c
fi. = f
j =1
ij f.j = f
i =1
ij f
i =1 j =1
ij =1
x x1 x2 xi xr
fi. f1. f2. fi. fr.
y y1 y2 yj yc
f.j f.1 f.2 f.j f.c
{ }
Y/X=xi = (y j ,nij ) : j = 1,2,,c para cualquier i=1, 2, , r
c
La frecuencia total de Y/X=xi es nii = n
j=1
ij
n ij nij
fi / j = y fj / i =
n. j ni .
1 r r 1 c c
X= nii xi =
n.. i=1 i=1
fii x i Y= n.j y j =
n.. j=1 j=1
f.j y j
Observe que las varianzas en la primera parte del curso las definimos con divisor n-1 en
vez de n. La razn principal de esto es que con fines inferenciales la varianza con divisor
n-1 representa mejor a la verdadera varianza poblacional. Algunos autores llaman a la
varianza con divisor n-1 como cuasi varianza.
Tambin podemos obtener una medida de la asociacin lineal entre las variables X e Y
llamada covarianza dada por Sxy, donde
1 r c
S xy = nij (xi X)(y j Y)
n.. i=1 j=1
Si esta ltima medida la definimos con divisor n-1 en vez de n, recibe el nombre de cuasi
covarianza.
1 r c r c
Sxy = nij xi y j XY =
n.. i =1 j =1 i =1 j =1
fij x i y j XY
Nota: La covarianza puede ser obtenida con una calculadora cientfica que tenga modo
estadstico.
Si Sxy > 0, indica que hay una asociacin lineal directa entre las variables X e Y.
Si Sxy < 0, indica que hay una asociacin lineal inversa entre las variables X e Y.
S xy
r =
Sx Sy
Observe que 1 r 1
Ejercicio: Una empresa ha llevado a cabo un anlisis del costo salarial mensual (datos en
4
10 pesos) de sus 120 empleados en relacin con determinado indicador de
productividad, obteniendo la siguiente informacin:
20 - 25 30 5 0 0
25 - 30 5 33 7 0
30 - 35 0 5 15 4
35 - 40 0 0 0 16
a) Obtenga la media tanto para los salarios como para el indicador de productividad.
Interprete ambos resultados.
b) Determine la mediana tanto para los salarios como para el indicador de
productividad. Interprete ambos resultados.
c) Qu porcentaje de los empleados tienen un indicador de productividad de a lo
menos 6 puntos?
d) Cul es el salario medio de los empleados con indicador de productividad entre 4
y 6 puntos?.
e) Determine e interprete el coeficiente de correlacin entre los salarios y el indicador
de productividad.
f) Dibuje el polgono de frecuencias para la variable salario. Qu puede comentar?