Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(Teoria) Notas de Estadistica
(Teoria) Notas de Estadistica
de
ESTADÍSTICA
Mario Enrique Borgna
Indice
Capítulo Página
I Introducción 1
Título 2: PROBABILIDAD
VIII Probabilidad 64
IX Variable aleatoria discreta 79
X Variable aleatoria continua 90
XI Teoría del muestreo 97
2014
NOTAS DE ESTADÍSTICA 1
Cap. I - INTRODUCCIÓN
El sujeto de lo que hoy entendemos por estadística, su corpus, se construyó a lo largo de los años
y de los siglos desde bien variadas ramas del conocimiento como la astronomía, la geodesia y las
ciencias de la tierra en general (censos de tierras, ajuste de las observaciones celestes y terrestres,
geoestadística), las ciencias políticas y sociales (censos de población, demografía, mortalidad,
sistemas electorales, seguros), la matemática (álgebra de las probabilidades), la biología
(biometría, genética), la física (nuclear, mecánica estadística) y la mecánica de fluidos
(turbulencia), la economía (econometría), la climatografía (mecánica aleatoria de la atmósfera) y
hasta desde los juegos de azar.
1
Hampel F.R. et al. Robust Statistics. E. John Wiley & Sons. 1986
2
El INDEC y las Direcciones Provinciales de Estadística (DPE) integran el Sistema Estadístico Nacional, que entre fines
de 2004 y Octubre de 2005 realizó, mediante barrido territorial, el Censo Nacional Económico 2004/2005.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 2
El siguiente cuadro numérico muestra una primera organización de los datos relevados sobre 32
viviendas del barrio, y se lo llama matriz de datos:
Algunos de los atributos incluidos en la matriz de datos de nuestro ejemplo, más otros diseñados
especialmente, son usados por el INDEC en su Encuesta Permanente de Hogares (EPH)3.
Elementos de METODOLOGÍA ESTADÍSTICA en el diseño de encuestas.
- El diseño de la encuesta, con preguntas tales como: ¿cuántas personas viven aquí?, etc., etc., está
supeditado rigurosamente a la unidad de observación o unidad de análisis elegida. Si por ejemplo
en lugar de viviendas, se hubiere elegido a las personas del barrio como unidades de observación,
cabrían preguntas como: fecha de nacimiento (para luego tratar la variable edad), sexo, oficio o
profesión, ¿es ateo, agnóstico o profesa alguna religión?, ¿tiene alguna adicción?, ¿cuál?, etc., etc..
3
La EPH se realiza sobre los 31 mayores conglomerados urbanos del país.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 3
- Las preguntas diseñadas para la encuesta pueden prever opciones de respuesta: Sí-No (para ¿hay
niños que trabajan?), dueño-inquilino-comodatario-usufructuario-ocupante (para Tipo de
posesión) o Malo-Regular-Bueno-Muy bueno-Excelente (para estado de mantenimiento). También
pueden ser preguntas abiertas, como las relacionadas con las variables: cantidad de ambientes,
cantidad de personas ocupantes, gasto medio mensual y cantidad de personas mayores con trabajo.
- La preguntas ¿hay niños que trabajan? posiblemente produzca algún grado fuerte de hermetismo,
la gente se cierra y no responde o si lo hacen la respuesta puede estar muy viciada. Esta es otra
forma de inaccesibilidad de la población y posiblemente sea imposible de sortear en muchos
casos. Pero una manera de intentarlo es, en vez de la pregunta directa, diseñar un conjunto de
preguntas que indirectamente puedan llevar a la información que buscamos.
- La pregunta debe apuntar a que las respuestas sean lo más primarias que se pueda. Un ejemplo de
respuesta primaria está en la columna: gasto medio mensual (del grupo que habita cada vivienda
encuestada), de nuestra matriz de datos. Si las respuestas previstas hubieran sido: bajo-medio-alto,
es decir no primarias, la información obtenible a partir de ellas sería menos rica. Como contra-
parte, y atendiendo al ítem anterior, preguntas no tan primarias pueden ser una solución al
problema del hermetismo o al de las respuestas viciadas. Justamente, en nuestra simulación de
trabajo en el barrio elegimos ¿hay niños que trabajan? en lugar de ¿cuántos niños trabajan?.
- Mediante pequeños trabajos de campo previos, si se pudiera, o con métodos de simulación, es
conveniente realizar un monitoreo de las posibles respuestas a las preguntas bosquejadas. El
objetivo es poner a prueba las preguntas formuladas, para eventualmente retocar alguna,
reformular radicalmente otras y eliminar las que no tienen entrada en la población. También para
incorporar preguntas que no se hayan previsto y que surjan a raíz del monitoreo o la simulación.
Matriz de datos.
Es el primer paso en la organización de los datos recolectados mediante la encuesta o alguna
variante de ella. Usualmente, en la matriz se destina una fila para cada unidad observada y una
columna para cada atributo.
Cada columna no necesariamente se origina en una y sólo una pregunta del trabajo de campo. El
atributo ¿hay niños que trabajan? podría ser el resultado de la combinación de varias preguntas
contenidas en la encuesta y no tan directas como aquella.
A la inversa, una pregunta abierta que produzca respuestas con mucho contenido, podría generar más
de un atributo –más de una columna–. Por supuesto que para ello, debe haber un trabajo de
elaboración e interpretación “en gabinete” post-encuesta y antes del armado definitivo de la matriz.
En la matriz definitiva no tienen razón de ser columnas –atributos– que sean el resultado de procesar
de alguna manera otra columna. Por ejemplo, si se hubiere elegido a cada persona del barrio como
unidad de observación, la pregunta “fecha de nacimiento” debe llevar a crear a una columna del
mismo nombre en la matriz y sería redundante agregar otra destinada a la “edad”.
Al igual que en la etapa de diseño de la encuesta, en la etapa de elaboración de la matriz de datos
definitiva, debe prevalecer el concepto de preservar el dato primario.
Variables estadísticas.
Por afuera de la matriz de datos y para un riguroso tratamiento estadístico, los atributos devienen en
lo que llamamos variables estadísticas. En el proceso de diseño de las variables estadísticas, algunos
atributos permanecen inalterados (cantidad de ambientes, estado de mantenimiento, etc. se
transforman en variables del mismo nombre y con los mismos valores o categorías relevados), pero
otros son reducidos a variables con distinto nombre y a las cuales se les asignan otros valores o
categorías (vbgr. el atributo fecha de nacimiento se convierte en la variable edad civil).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 4
Los valores que toman los datos según las distintas variables, son numéricos en algunos casos y no
numéricos en otros. A las variables del tipo numérico las llamaremos variables cuantitativas y a las
del tipo no numérico variables cualitativas –o categóricas– porque sus valores son, en rigor,
categorías o cualidades.
Entre las primeras distinguimos dos subtipos: cuantitativas discretas –cuando los valores son números
enteros– y cuantitativas continuas –cuando esos valores son números reales (es decir que se expresan
naturalmente con decimales)–. De nuestra matriz corresponde calificar como cuantitativa continua a
la variable gasto medio mensual (aunque se redondearan todos los valores a la unidad la variable es de
naturaleza continua). Las numéricas restantes de nuestra matriz son cuantitativas discretas (los
valores que toman son naturalmente números enteros).
Las cualitativas admiten también dos subtipos: las cualitativas ordenables, en las cuales hay un orden
natural entre las categorías relevadas –hay una escala ordinal para ellas–, y las cualitativas no
ordenables, cuyas categorías no admiten orden y se ubican en una escala nominal. De nuestra matriz,
la variable Estado de mantenimiento entra en la calificación de cualitativa ordenable (porque entre las
respuestas de Malo a Excelente, hay un orden natural entre ellas). Las otras dos (Hay niños que
trabajan y Tipo de posesión) son no ordenables.
Indicadores estadísticos
La principal tarea que se realiza sobre las variables estadísticas –diseñadas a partir de los atributos
consignados en una matriz de datos– es la determinación de medidas estadísticas. Ellas describen las
características sobresalientes del conjunto de datos y constituyen lo que popularmente se entienden
como indicadores estadísticos. Ejemplo: “entre las 32 viviendas de la muestra del barrio, predominan
las que tienen un buen mantenimiento, en promedio hay 3,5 ocupantes por vivienda y la mitad de
todas ellas tienen hasta 3 ambientes”.
En la frase anterior están involucradas tres variables distintas (estado de mantenimiento, cantidad de
ocupantes y cantidad de ambientes) y de cada una de ellas se rescató un indicador (entre todos los que
pueden elaborarse para una misma variable).
Hay que señalar que las variables cuantitativas (tanto continuas como discretas) son las que mayor
cantidad de indicadores permiten elaborar y las cualitativas no ordenables son las que menos.
A partir del tercer cuaderno de este curso se verá cómo se elaboran –se determinan– los indicadores.
Estructura del curso.
Los procedimientos concernientes al procesamiento estadístico de un grupo de datos empíricos,
determinar sus indicadores estadísticos y confeccionar gráficos, corresponden a la primera parte del
curso llamada ESTADÍSTICA DESCRIPTIVA.
Como las viviendas relevadas solo son una parte de la totalidad de las viviendas del barrio, el grupo
constituye una muestra. Y en este caso: ¿podríamos extender las conclusiones anteriores referentes a
la muestra (por ejemplo el promedio de ocupantes, etc.) hacia toda la población del barrio?. Es decir:
¿qué podemos inferir acerca de todas las viviendas del barrio a partir de la muestra?. Este otro
enfoque, ya no meramente descriptivo, será abordado en la tercera y última parte de este curso
llamada ESTADÍSTICA INFERENCIAL.
Con sentido común podemos percibir que es muy delicado extender hacia la población, las
conclusiones obtenidas para la muestra por lo que, en principio, ésta debe estar muy bien recolectada,
debe ser una muestra representativa de la población. Todos los métodos de muestreo (simple,
estratificado, sistemático o secuencial, por conglomerados, etc.)4 tienen en cuenta que, para obtener
4
Ver: Babbie, Earl R., Métodos de Investigación por encuesta, Biblioteca de la Salud, Fondo de cultura económica (1988):
págs. 121-126.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 5
ESTADISTICA DESCRIPTIVA
PROBABILIDAD
ESTADISTICA INFERENCIAL
Glosario
Unidad de observación: es el objeto sobre el cual se realiza la observación. Implica la elección del grado de
detalle con que se planifica un estudio estadístico.
Población objetivo: Es el universo de todas las unidades de observación involucradas en el fenómeno
estudiado. Es la colección de todos los miembros concebibles en el fenómeno que se desea estudiar.
Muestra representativa: es un subconjunto de la población y representativo de ella.
Variable estadística: cualquier aspecto variable que se desee estudiar en la población y que se desprende
directa o indirectamente de algún/os atributo/s relevado/s por la encuesta.
Matriz de datos: arreglo que incluye conjuntamente los atributos relevados y las unidades observadas.
5
A lo largo de los sucesivos capítulos de estas notas, esta sección de ERRATAS estará destinada a discutir sobre errores
de concepto, sesgos interpretativos usuales, ciertos usos y costumbres que se contraponen a los principios de metodología
estadística, etc., detectables todos ellos tanto en los ambientes de enseñanza de la estadística como en la práctica
profesional, cualquiera sea la profesión, donde un buen aprovechamiento de la estadística sea primordial.
6
En el sentido con que el sociólogo francés Pierre Bourdieu (1930-2002) definió el espíritu de ciertas disciplinas.
7
Conjunto de personas con poder que defienden sus privilegios y procuran mantener el orden conservador.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 6
ADENDA al capítulo I
Tres ejemplos de matrices de datos con distintas unidades de observación
– Comparadas con las grandes empresas, las PyMEs son las que generan más empleo y dentro de
ellas, las empresas gestionadas por sus trabajadores fueron casi las únicas que en períodos críticos
(por ejemplo 2001-2003) incrementaron los puestos de trabajo. Estas conclusiones se apoyan en el
censo nacional económico 2004/2005.
La siguiente matriz de datos corresponde a una muestra de 24 empresas extraídas al azar entre
todas las PyMEs relevadas por el Censo Nacional Económico 2004/2005:
1 P S 1 M 128 M
2 P I 6 M 150 D
3 R A 8 N 19 A
4 R C 4 M 170 M
5 P I 8 MA 112 M
6 P A 3 A 140 D
7 R I 10 B 20 A
8 P S 8 MA 23 D
9 P C 4 M 114 M
10 P A 0 MA 148 A
11 R A 2 M 154 A
12 P I 4 B 100 D
13 P C 5 MA 250 D
14 R I 6 A 142 A
15 P A 7 MA 105 M
16 R I 2 A 160 M
17 p C 9 M 22 M
18 R I 17 B 5 M
19 P S 11 M 120 D
20 R I 6 N 137 A
21 P I 7 M 80 D
22 P A 4 A 109 M
23 P C 25 MA 110 A
24 R S 11 B 144 A
REFERENCIAS:
Tipo de PyME: Recuperada, Privada.
Rubro: Agrícola, Comercial, Industrial, Servicios.
Antigüedad, en años, al momento del Censo Económico 2004/2005.
Nivel de endeudamiento: Ninguno, Bajo, Medio, Alto, Muy Alto.
Puestos de trabajo durante 2001-2003: Disminuyó, Mantuvo, Aumentó.
En esta muestra, las unidades de observación son Pymes tomadas una población objetivo que
comprende a todas las Pymes del Censo económico 2004/2005.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 7
– Una PyMe cooperativa que fabrica piezas plásticas especiales, regularmente coloca su producción
en el mercado local. Con el fin de incrementar sus fuerzas productivas, sobre todo en lo que atañe a
su fuerza de trabajo, programaron salir al mercado internacional y para ello fueron haciendo stock
de uno de sus productos con los sobrantes de la colocación local.
La siguientes matriz de datos corresponde a 20 piezas seleccionadas al azar de ese stock por el sector
de control de calidad:
Longitud tiempode detallesde Peso Alguna
mat. fabric. termi- caract.
[cm] prima nación [gr] señalable
1 5,59 N 261 R 71,1 N
2 5,53 I 145 E 71,9 N
3 5,59 N 137 B 72,0 N
4 5,49 N 168 MB 70,5 S
5 5,50 I 150 MB 70,1 N
6 5,47 N 140 R 71,4 N
7 5,15 I 139 R 70,7 S
8 5,51 N 194 MB 71,5 N
9 5,54 N 93 B 71,7 S
10 5,49 I 39 MB 71,2 N
11 5,56 N 59 E 71,3 S
12 5,49 N 65 B 69,5 N
13 5,64 I 110 R 72,5 S
14 5,59 N 128 E 71,7 N
15 5,57 N 13 E 71,9 S
16 5,45 I 22 MB 70,9 N
17 5,30 N 113 R 64,1 S
18 5,46 I 81 B 70,3 S
19 5,55 N 79 E 67,1 N
20 5,61 N 11 B 72,1 N
REFERENCIAS:
Aquí las unidades de observación son piezas tomadas durante el proceso de fabricación por muestreo
secuencial8 entre la población de todas las piezas plásticas especiales fabricadas por la cooperativa.
8
Ver: Babbie, Earl R., Métodos de Investigación por encuesta, Biblioteca de la Salud, Fondo de cultura económica (1988):
pág.122 V.5.2 (muestreo sistemático o secuencial).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 8
- En esa misma PyMe cooperativa se tomó también una muestra de trabajadores, esta vez mediante
el método de muestreo simple9 .
1 34 M 1 B C 345
2 36 F 5 A M 950
3 51 M 7 M P 670
4 21 F 4 M C 810
5 37 F 0 M M 800
6 38 M 0 B P 500
7 39 F 9 B C 690
8 25 F 4 M M 840
9 36 M 3 M P 835
10 40 F 3 M P 735
11 63 F 5 A M 1550
12 40 M 5 A M 850
13 39 F 0 B C 505
14 37 M 8 A M 1135
15 57 F 13 A M 1280
16 30 F 2 M M 820
17 28 M 3 B C 480
18 48 F 1 M M 830
19 42 M 7 A P 1145
20 37 F 1 M M 775
REFERENCIAS:
Nivel de especialización: B: bajo, M: mediano, A: alto
Conformidad con el funcionamiento de la empresa cooperativa: P: poco conforme, C: conforme, : M: muy
conforme
Quincena: participación quincenal en las ganancias de la cooperativa.
9
Ver: Babbie, Earl R., Métodos de Investigación por encuesta, Biblioteca de la Salud, Fondo de cultura económica (1988):
pág.121 V.5.1 (muestreo irrestricto aleatorio o muestreo simple).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 9
10
Puede ser también una matriz columna.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 10
11 ---
10 ---
9 ---
8 ---
7 ---
6 ---
5 ---
4 ---
3 ---
2 ---
1 ---
1 2 3 4 5 6 cant. de ambientes
Si hubiésemos usado f% o fr los rasgos de la distribución mostrados por el gráfico serían exactamente
iguales, salvo la escala de las frecuencias.
Y, con cualquiera de las frecuencias acumuladas F, F% o Fr, podemos hacer un gráfico de escalones:
11
La distribución de frecuencias se construyó mediante los siguientes cálculos:
f f% fr F F% Fr
1 amb. 3 3/32x100 3/32 3 3/32x100 3/32
2 amb. 5 5/32x100 5/32 3+5 (3+5)/32x100 (3+5)/32
3 amb. 8 8/32x100 8/32 3+5+8 (3+5+8)/32x100 (3+5+8)/32
4 amb. 11 11/32x100 11/32 3+5+8+11 (3+5+8+11)/32x100 (3+5+8+11)/32
5 amb. 4 4/32x100 4/32 3+5+8+11+4 (3+5+8+11+4)/32x100 (3+5+8+11+4)/32
6 amb. 1 1/32x100 1/32 3+5+8+11+4+1 100 1
12
A partir de tal distribución podemos leer que el 25% de las viviendas encuestadas tienen 3 ambientes o que el 50% de
ellas tienen hasta 3 ambientes. También: el 16% tienen 2 ambientes y el 25% hasta 2 ambientes. Si bien los cálculos de las
f% se hicieron con dos decimales, para leer la información debe tenerse en cuenta la resolución porcentual del dato que,
en el caso de un grupo de 32 datos es de alrededor del 3% (1/32x100, por ello se leyó 16% y no 15,62 (15,62
16%). Sobre este concepto, se volverá con más detalles en el cap.III pág.24.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 11
F%
100--
90---
80---
70---
60---
50---
40---
30---
20---
10---
| | | | | |
1 2 3 4 5 6 cant. de ambientes
Las construcciones que acabamos de realizar involucran cuatro espacios –abstractos y bien
diferenciables– como lo son: el espacio de los valores (primera columna de la tabla de
frecuencias), el espacio de las frecuencias (las columnas de frecuencias de la distribución),
el espacio de los datos ordenados (el arreglo de datos ordenados) y el espacio de los
números reales (el eje horizontal numérico de cualquiera de los gráficos hechos para las
variables cuantitativas).
La conceptualización de estos espacios –innovación que aportan estas Notas a la
literatura estadística– contribuye a clarificar el diseño, sin ambigüedades, de los
indicadores estadísticos.
Agrupamiento en intervalos
Los coeficientes de inteligencia de 60 estudiantes tomados al azar entre todos los que asisten a una
institución educativa son:
120 101 118 116 108 96 110 102 115 103 91 88 107 94 104 97 95 101 103 105
100 94 120 90 106 107 106 98 96 100 87 112 95 106 103 89 119 96 90 104
105 128 110 98 102 108 98 131 85 104 93 93 94 87 97 100 92 89 100 96
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 12
C.I. f f% fr F F% Fr
[84.9 - 91.5) 9 15,00 0,1500 9 15,00 0,15
[91.5 - 98.1) 17 28,34 0,2834 26 43,34 0,4334
[98.1 - 104.7) 14 23,33 0,2333 40 66,67 0,6667
[104.7 - 111.3) 11 18,33 0,1833 51 85,00 0,8500
[111.3 - 117.9) 3 5,00 0,0500 54 90,00 0,9000
[117.9 - 124.5) 4 6,67 0,0667 58 96,67 0,9667
[124.5 - 131.1) 2 3,33 0,0333 60 1 100
n=60 100 1
Como resultado de un proceso iterativo donde se prueban distintas amplitudes y sus efectos
sobre las frecuencias, se eligió agrupar los datos en intervalos de clase 13 de una amplitud de 6,6. Para
el conteo de la frecuencia, los intervalos se hicieron cerrados[ a izquierda y abiertos) a derecha,
aunque también se pudo haber hecho al revés, es decir abiertos( a izquierda y cerrados] a derecha,
pero una vez elegida una forma de intervalo, debe mantenérsela en toda la distribución.
El gráfico resultante para cualquiera de las frecuencias simples (f, f% o fr) es un gráfico de barras
adyacentes que se debe al biómetra inglés Karl Pearson14 y se llama histograma.
f
17
16
15
14
13
12
11
10
9
8
7
6
4
3
2
1
| | | | | | | | | | | | | |
75 80 85 90 95 100 105 110 115 120 125 130 135 140 C.I.
13
Hay que destacar que esta forma de construir una distribución de frecuencias sacrifica la individualidad de los datos, lo
que implica bajar la calidad de la información obtenible, por lo que su empleo en la determinación de algún indicador
estadístico deberá acotarse sólo a los casos necesarios.
14
Desde la Biometría las contribuciones de Karl Pearson a la teoría estadística son importantes y numerosas. Además fue
cofundador en 1901 de la revista Biometrika que se convirtió en el receptáculo de todos los aportes a la estadística
provenientes de distintas ciencias y que se sigue publicando hasta hoy.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 13
Si se lo hace con cualquiera de las otras dos frecuencias simples (f% o fr), los rasgos del histograma
serán los mismos y la única diferencia será la escala –porcentual o relativa– del eje de frecuencias.
El gráfico correspondiente a las frecuencias acumuladas, se llama ojiva15:
F%
100
90
80
70
60
50
40
30
20
10
| | | | | | | | | | | | | |
75 80 85 90 95 100 105 110 115 120 125 130 135 C.I.
Organicemos ahora la variable continua Gasto medio mensual de la matriz de 32 viviendas.
Arreglo de datos ordenados:
750 760 770 778 781,8 789,5 790 820 880 890 895 900 920 950 986 986,5 1100 1150
1155 1200 1280 1298 1312,8 1452 1500 1501,5 1510,6 1810 2005 2113 2500 3449
Distribución de frecuencias. La gran variedad de valores en relación con la cantidad de datos
(característica de las continuas), hace que convenga agrupar en intervalos:
Gasto medio
mensual f f% fr F F% Fr
[750 – 1050) 16 50 0,50 16 50 0,50
[1050 – 1350) 7 21,88 0,2188 23 71,88 0,7188
[1350 – 1650) 4 12,50 0,1250 27 84,38 0,8438
[1650 – 1950) 1 3,12 0,0312 28 87,50 0,8750
[1950 – 2250) 2 6,25 0,0625 30 93,75 0,9375
[2250 – 2550) 1 3,12 0,0312 31 96,88 0,9688
[2550 – 2850) 0 0 0 31 96,88 0,9688
[2850 – 3150) 0 0 0 31 96,88 0,9688
[3150 – 3450) 1 3,12 0,0312 32 100 1
15
Se debe a Francis Galton (1822-1911), antropólogo, geógrafo y psicólogo, también biómetra y maestro de K.Pearson;
cofundador con él de Biometrika. Trabajó en teorías de la herencia particularmente en la especie humana. Algunas de sus
obras son: “El genio hereditario: sus leyes y consecuencias” y “Herencia natural”.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 14
Son tres los espacios involucrados en el tratamiento de una variable cualitativa ordenable, a
saber:
– Espacio de los valores: es la primer columna de la distribución de frecuencias, es el eje sobre el
cual se dibujaron las barras y es la torta misma.
– Espacio de las frecuencias: comprende tanto las columnas de las frecuencias simples como las
columnas de las frecuencias acumuladas.
– Espacio de los datos ordenados: es el arreglo de datos ordenados.
16
Utilizado por Florence Nightingale (1820-1910), inglesa, a quien algunas enciclopedias la definen como enfermera y
estadística. Pionera en estadísticas médicas, tuvo influencia en figuras como Francis Galton y Karl Pearson.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 15
Distribuciones bivariadas
En este enfoque intervienen dos variables a la vez, conjuntamente, simultáneamente. Cada una de esas
variables que se cruzan, puede ser indistintamente cualitativa o cuantitativa.
Caso de dos variables cualitativas.
Problema: por decreto Menem-Cavallo del 20 de Octubre de 1992 se disolvió la Junta Nacional de
Granos y a partir de allí son los grupos económicos transnacionales como Cargill, Dreyfus, etc. los
que regulan el mercado interno de granos17.
La siguiente tabla de doble entrada, denominada distribución de frecuencias conjuntas18, consigna
una muestra de 40 tipos distintos de aceites comestibles, según el aumento de sus precios y según si
están regulados (girasol, maíz, soja, etc) o no (oliva, etc.) por las transnacionales.
modo de regulación regulado por las Escapa a la regulación
nivel de aumento transnacionales de las transnacionales
mucho 27 2
poco 3 8
A partir de ella haremos un gráfico que, un mismo plano19, contenga conjuntamente a las dos
variables. Puede llamársele gráfico de barras combinadas20:
30
20 mucho
10 poco
0
regulado no regulado
17
En un ambiente de corrupción estructural y sobornos en los que estaban involucrados como actores principales junto con
los directivos de las empresas, Menem y Cavallo transfirieron la regulación del mercado interno de granos a las compañías
transnacionales, usando la falacia de la “desregulación” como cortina de humo.
18
Operativamente el conteo de las frecuencias debe ser conjunto: por ejemplo, se contaron 27 tipos de aceite que estaban
regulados por las multinacionales y aumentaron mucho su precio.
19
Las representaciones volumétricas o en 3D, son menos eficientes al momento de explotar la información gráfica.
20
Esta gráfico combina la representación en barras separadas de una de las variables, con barras adyacentes de la otra.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 16
En este caso se eligió organizar el eje de las variables, primero en barras separadas según las causas
(modo de regulación) y luego en barras adyacentes según los efectos (nivel de aumento del precio).
No habiendo un orden de causalidad entre dos variables cualesquiera que se observen conjuntamente,
la elección de cuál es primera y cuál segunda será arbitraria.
Caso de una variable cualitativa y una cuantitativa.
Distribución de frecuencias conjuntas, en un grupo de 1000 personas, de las variables sexo y edad.
Sexo
F M
Edad
[ 0 – 10) 120 90
[10 – 20) 100 90
[20 – 30) 90 70
[30 – 40) 80 50
[40 – 50) 70 30
[50 – 60) 50 30
[60 – 70) 40 20
[70 – 80) 20 10
[80 – 90) 20 7
[90 – 100) 10 3
Si bien es aplicable el gráfico de barras combinadas, cuando las variables son sexo y edad (esta última
organizada generalmente en intervalos) hay un gráfico específicamente diseñado para ellas que se
denomina Pirámide de población.
EDAD
_100
_
_ 90
_
_80
_
_70
_
_60
_
_50
_
_40
_
_30
_
_20
_
_10
_
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
| | 110
120 | 100 90 80 70 60 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90
f mujeres hombres
f
En este grupo hay predominio de población joven, y eso queda reflejado en la ancha base de la
pirámide. En las poblaciones (de, por ejemplo, muchos países europeos) donde hay predominio de las
edades mayores, la pirámide se invierte.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 17
Esta tabla puede representarse gráficamente mediante un gráfico de puntos, como se verá en el
capítulo VI.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 18
Glosario
Datos crudos: datos colectados en un relevamiento y no organizados de forma alguna.
Arreglo de datos ordenados: son los datos colectados ordenados en forma ascendente o descendente
según sus valores numéricos o también según sus categorías ordenables.
Frecuencia simple: cantidad o porcentaje de veces con que aparece un valor o categoría.
Frecuencia acumulada: cantidad o porcentaje de datos que se acumulan hasta un cierto valor o
categoría de la variable.
Distribución de frecuencias: tabla donde se listan todos los valores o categorías de la variable y sus
respectivas frecuencias simples y acumuladas.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 19
ADENDA al cap. II
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 20
MEDIA ARITMÉTICA
Si para la variable cantidad de ambientes por vivienda tomamos los datos tal cual los extraemos de
la matriz, los sumamos, y al resultado lo dividimos por 32, estamos calculando la media aritmética, o
promedio, de ambientes por vivienda en la muestra de nuestro barrio.
Media por vivienda: = 3,34 ambientes
Este es nuestro primer indicador o característica que podemos señalar para la muestra de 32
viviendas del barrio. Es decir: la viviendas de la muestra tienen en promedio 3,34 ambientes.
Esta medida, también podría calcularse más organizadamente usando la tabla de frecuencias:
Cantidad de ambientes
por vivienda f
1 amb. 3
2 amb. 5
3 amb. 8
4 amb. 11
5 amb. 4
6 amb. 1
n = 32
Ahora, aprovechando la tabla de frecuencias, el cálculo de la media puede hacerse así:
(1x3 + 2x5 +3x8 + 4x11 +5x4 + 6x1) / 32 = 3,34 ambientes
lo que induce a formalizarla de la siguiente manera: = xi .fi
n
Aunque la variable tratada en este caso es discreta, su media es un número real porque ella representa
un punto de equilibrio 21 entre todos los datos volcados, si bien como enteros, sobre el eje real.
= xi .f% = xi .fr
100
Obviamente, este indicador sólo puede elaborarse para variables cuantitativas.
21
Postulado de la media aritmética enunciado por K. F. Gauss en Theoría motus corporum cælestium, Hamgurgo (1809).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 21
En el caso de los C.I. de 60 estudiantes presentado en el capítulo II, el coeficiente intelectual promedio
es de 101.70 puntos ( = 101.70).
Calculo de la media en base a intervalos
Si no disponemos de los datos de campo pero contamos con su agrupamiento en intervalos de clase,
puede calcularse una media alternativa, aunque de menor calidad, usando los puntos medios (o
marcas de clase) de cada intervalo en lugar de los valores de la variable propiamente dichos.
Tomemos por ejemplo la información sobre las edades de los 30.000 desaparecidos durante el
genocidio y terrorismo de estado instaurado en la última dictadura cívico-militar, vertida en la
publicación universitaria El Túnel y que se anexó al final del capítulo II. Allí, por una razón práctica,
las edades se consignan por franja etaria y en consecuencia no disponemos de los datos originales.
Adaptando dichas franjas etarias (0-5, 6-10, 11-20, ….., más de 70) a intervalos adyacentes (0-5, 5-
10, 10-15, ... , 65-70, 70-75), y usando 2.5, 7.5, 12.5, .... ,72.5, en el cálculo, resulta
= 28,09 años
Interpretación: la edad promedio de las personas desaparecidas durante la última dictadura militar
es de 28,09 años al momento de su desaparición.
MEDIANA Y FRACTILES
Trabajando sobre el arreglo de datos ordenados de la variable cuantitativa cantidad de ambientes
(Capítulo II, pág. 9 y sgtes.) se nos ocurre fraccionarlo en dos partes iguales:
1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3 |4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 6
La marca realizada, llamada la Mediana, es el lugar geométrico del espacio de los datos ordenados
que lo divide en dos partes iguales.
Como se ve, la mediana establece un tope máximo para la primera mitad y un mínimo para la segunda
mitad. Y las lecturas de ese máximo y ese mínimo alrededor de la mediana, completan la información
sobre de ambas mitades, a saber: la mitad (con menos ambientes) de las viviendas tienen hasta 3
ambientes y la otra mitad tienen como mínimo 4 ambientes.
Esta medida es de naturaleza esencialmente geométrica: la marca (|) misma es la Mediana.
Queda claro que al interpretar este indicador, debemos leer los valores de los datos que quedan a uno
y/u otro lado de la Me, tal como ya lo hicimos:
1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 3|4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 6
e
Como extensión de la idea de mediana, podríamos seguir “marcando” el espacio de los datos
ordenados volviendo a partir por la mitad cada una de las dos partes que nos devolvió la mediana, de
tal forma que ahora contamos con un conjunto de tres marcas que lo dividen en cuatro partes iguales
(en nuestro ejemplo, cada una de ellas tienen 8 datos):
1 1 1 2 2 2 2 2 |3 3 3 3 3 3 3 3 |4 4 4 4 4 4 4 4 |4 4 4 5 5 5 5 6
Estas marcas se llaman cuartiles, y se simbolizan como Q1, Q2 y Q3. El 2° cuartil es la mediana.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 22
El Q1 nos informa que la cuarta parte de las viviendas encuestadas, tiene como máximo 2 ambientes:
1 1 1 2 2 2 2 2 | 3 3 3 3 3 3 3 3 |4 4 4 4 4 4 4 4 | 4 4 4 5 5 5 5 6
Q1 Q2e Q3
y que las tres cuartas partes restantes tienen como mínimo 3 ambientes:
1 1 1 2 2 2 2 2|3 3 3 3 3 3 3 3 |4 4 4 4 4 4 4 4 |4 4 4 5 5 5 5 6
Q1 Q2e Q3
pero también expresa que las tres cuartas partes restantes tienen como máximo 4 ambientes (aquí se
lee el 4 que está a la izquierda del Q3):
1 1 1 2 2 2 2 2 |3 3 3 3 3 3 3 3 | 4 4 4 4 4 4 4 4 |4 4 4 5 5 5 5 6
Q1 Q2e Q3
Si la variable fuera cualitativa ordenable, el procedimiento es el mismo. Los cuartiles marcados sobre
el espacio de los datos ordenados de la variable Estado de mantenimiento (capítulo II, pág.14) son:
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 23
O también que:
M M M M M |R R R R R R R R R R R B B B B B B B B B B B B B E E E
5 de las 32 avas. partes de la muestra son viviendas con un estado de mantenimiento Malo y el resto
tienen como mínimo un mantenimiento Regular.
Simplificando y repasando: la mediana deja hacia atrás la mitad nominal1 de los datos, el
cuartil 1 deja hacia atrás la cuarta parte nominal1 de los datos y el cuartil 3 deja hacia atrás
las tres cuartas partes nominales de los datos. También, nominalmente el decil 1 deja hacia
atrás una décima parte, el decil 2 dos décimas partes, …, el decil 9 nueve décimas partes, el
quintil 1 una quinta parte, el quintil 2 dos quintas partes, etc. etc., y el fractil 5/8 deja hacia
atrás 5 de las octavas partes del espacio de datos ordenados.
En base al arreglo de datos ordenados de los C.I. de 60 estudiantes (capítulo II, pág.11), leemos
algunas características:
- La mitad de ellos tiene un coeficiente intelectual de hasta 100 y la otra mitad tiene como mínimo
un C.I. de 101.
- La cuarta parte tiene hasta 94 de C.I. y el resto, un C.I. de 95 como mínimo. Las tres cuartas partes
de ellos tienen hasta 106 de C.I. y el resto como mínimo 107.
Percentiles
Si bien todas las lecturas de fractiles (incluyendo en esa denominación a la mediana, los cuartiles,
quintiles, deciles y fractiles libres) hechas en los párrafos precedentes son rigurosamente estadísticas,
se puede apreciar que en las correspondientes a los fractiles libres de las variables Cantidad de
ambientes (fractil 27/32) y Estado de mantenimiento (fractil 5/32), resulta dificultoso expresar la
información (y posiblemente entenderla, por parte de algún interlocutor sin entrenamiento). En este
caso, y para facilitar la comprensión de su lectura, puede optarse por expresar en porcentajes las
partes que quedan hacia atrás y hacia adelante del fractil, deviniendo éste en lo que se llama un
percentil.
Entonces podemos decir que el 84,38% de las viviendas de la muestra tienen hasta 4 ambientes o que
el 15,62% tiene como máximo un mantenimiento Malo.
Puede extenderse esa opción al resto de los fractiles. Es decir, como la mediana deja hacia atrás
nominalmente el 50% de los dato,s puede entenderse como el percentil 50. El cuartil 1, percentil 25,
deja hacia atrás el 25% nominal de los datos y el cuartil 3 (percentil 75) deja hacia atrás el 75%
nominal de los datos. De forma similar, nominalmente el decil 1 (percentil 10) deja hacia atrás el 10%
de los datos, el decil 2 (percentil 20) el 20%, ....y el decil 9 (percentil 90) deja hacia atrás el 90% de
los datos.
P10=D1 P20=D2=q1 P25=Q1 P30=D3 P40=D4=q2 P50=D5=Q2=Me
P60=D6=q3 P70=D7 P75=Q3 P80=D8=q4 P90=D9.
O también, el percentil 47 (P47) deja hacia atrás el 47% de los datos y el percentil 68,24 (P68,24) deja
hacia atrás el 68,24% de los datos.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 24
MODA
Un repaso por sobre la columna de los valores en la tabla de frecuencias de la variable Cantidad de
ambientes, nos permite leer otra característica: en la muestra predominan las viviendas con 4
ambientes.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 25
La Moda es el valor de la variable que más se repite, es el valor predominante. En este caso:
Mo: 4 ambientes
Esta medida “señala” el valor de la variable que aparece más veces (4 ambientes es el valor que más
veces aparece).
En la columna de los valores de la tabla de frecuencias de la variable cualitativa Estado de
mantenimiento (capítulo II) determinamos la moda:
Estado de
Mantenimiento frecuencia
M 5
R 11
Mo: B 13
E 3
n = 32 viv.
Interpretación: en la muestra de 32 viviendas del barrio predominan las que tienen un Buen
mantenimiento.
En el caso de la variable Cantidad de ambientes, podemos volcar la moda en el eje real, pero
intrínsecamente no está definida en el espacio de los números reales (como la media). Su espacio de
definición es más abstracto aún que el de los números reales: es el espacio de los valores mismos.
El espacio de definición de la moda, es el espacio de los valores que toma la variable tratada
- Las medidas estadísticas calculadas con intervalos22 son de menor calidad que las determinadas con
los datos. En el caso de la media aritmética, la baja en la calidad de la información se debe
exclusivamente a no emplear los datos en su determinación, porque en lo referente a su espacio de
definición no hay ninguna alteración. Pero mayor es el deterioro de la mediana y los fractiles, porque
además de la falta de datos deben determinarse en un espacio (el de los números reales) que no es el
propio (el de los datos ordenados).
3.
- El nivel de resolución porcentual del dato debe tenerse en cuenta ya desde el momento de elaborar
las tablas de frecuencias para decidir, rigurosamente, el redondeo de las porcentuales y de allí en más,
cada vez que se las use en algún cálculo.
- Ninguna medida estadística es per se más representativa que otra. En todo caso, una medida puede
ser mejor indicador que otra, pero en relación con el fenómeno que se esté estudiando. Por ejemplo, al
estudiar la equidad (basada en un principio de igualdad) en la distribución de los recursos
22
Mientras que hoy en día tener los intervalos y no disponer de los datos es sólo una contingencia, hace un siglo atrás para
la época de Galton y Pearson mantener un volumen grande de datos sin un soporte como el que hoy disponemos gracias a
la ciencia informática, era prácticamente imposible. Y entonces lo rutinario era volcar los datos en intervalos y luego
calcular los indicadores a partir de esos intervalos.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 27
23
Con el siguiente marco teórico: las fuerzas productivas que intervienen en una determinada actividad y producen la
riqueza son: los trabajadores (conocimiento + fuerza de trabajo) y los medios de producción (materias primas +
herramientas/instrumentos). En rigor, ni el capital ni sus dueños intervienen como actores en la creación de riqueza.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 28
los empresarios vinculados a los agronegocios es imprescindible contar con los indicadores
estadísticos relativos a:
- la situación laboral de los trabajadores rurales (concepto que incluye tanto al asalariado rural como
al campesino y su familia y también a los técnicos y profesionales, todos los cuales viven de su
conocimiento y de su fuerza de trabajo) que son los que realmente generan la riqueza;
- la tasas de ganancias de los pequeños y medianos empresarios rurales, que sólo parcialmente suman
alguna fuerza productiva a la de sus trabajadores asalariados (en blanco o en negro); y
- la renta diferencial de los grandes empresarios rurales y grupos exportadores que en realidad no
aportan fuerzas productivas ni participan en la creación de la riqueza, pero que tienen altas tasas de
ganancia (en blanco o en negro).
Un ejemplo de lo dicho, se desprende del artículo periodístico “Peones Rurales”(incorporado en la
Adenda de este capítulo) donde se analiza someramente la precariedad laboral de los trabajadores
rurales, y donde se consigna que de los que tienen salarios en blanco (sólo alrededor de 325 mil sobre
un total de 1.300.000) el promedio salarial de ese pequeño grupo no llega a los 1500 pesos mensuales.
En lenguaje estadístico: el salario promedio mensual de los trabajadores rurales que están en blanco es
de aproximadamente 1.500$. Este indicador sirve sólo para la población (objetivo) de trabajadores
rurales que están en blanco. Habida cuenta de que sólo un pequeño núcleo de peones calificados
percibe ingresos relativamente dignos, y de que esos salarios que pudieren ser altos influyen
sensiblemente en la construcción del promedio (media aritmética), ese indicador es muy insuficiente
para analizar si es justa o no la distribución de los salarios de todos los trabajadores en blanco. En todo
caso, habría que acompañarlo con la franja salarial modal y con información obtenida de la mediana y,
mejor aún, de algunos percentiles claves (como los deciles y los cuartiles).
Glosario:
Moda: es el valor de la variable que tiene mayor frecuencia.
Mediana: es el lugar geométrico del espacio de los datos ordenados que lo divide en dos partes
iguales.
Cuartil 1: es el lugar geométrico del espacio de los datos ordenados, que deja hacia atrás ¼ parte de
los datos.
Cuartil 3: es el lugar geométrico del espacio de los datos ordenados, que deja hacia atrás ¾ parte de
los datos.
Fractil k/n: es el lugar geométrico del espacio de los datos ordenados, que deja hacia atrás la k/n ava.
parte de los datos.
Percentil k%: es el lugar geométrico del espacio de los datos ordenados, que nominalmente deja
hacia atrás el k% de los datos.
Datos centrales: son el 50% nominal del total de los datos y ocupan la zona central (caja del box-
plot) de una distribución.
Datos adyacentes: son los que se encuentran por afuera de la caja del box-plot, en sus inmediaciones
a ambos lados de ella, hasta una distancia de 1.5x(Q3-Q1).
Datos externos: son los que se localizan a un distancia de entre 1.5x(Q3-Q1) y 3x(Q3-Q1) a ambos
lados de la caja del box-plot.
Datos lejanos: son los que se encuentran más allá de 3x(Q3-Q1) de los bordes de la caja.
Límite inferior de un intervalo de clase: es el valor numérico nominal más bajo del intervalo.
Límite superior: es el valor numérico nominal más alto de un intervalo de clase.
Marca de clase: punto medio del intervalo de clase.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 29
ADENDA al cap.III
Peones rurales
Por Alfredo Zaiat (2008)
El Registro Nacional de Trabajadores Rurales y Empleadores contabiliza cerca de 1,3 millón de personas ocupadas en el
campo. Los últimos datos reflejan que apenas un cuarto de ese total, alrededor de 325 mil, tiene salarios en blanco. El
promedio salarial de ese pequeño grupo de trabajadores no llega a los 1500 pesos mensuales. Como en antiguos vínculos
laborales de servidumbre, también se les paga con comida y viviendas precarias en el área de la producción. Existen
también 350 mil golondrinas, que desplazan su fuerza de trabajo según los períodos de cosecha. La mano de obra rural es
la peor paga, la que enfrenta pésimas condiciones laborales y la más explotada. Sólo los desocupados están en peor
situación. Del universo de trabajadores, constituyen el sector más castigado. Sólo un pequeño núcleo de peones
calificados, como los que manejan esas maravillas mecánicas de tractores y cosechadoras que recorren el área sembrada
percibe ingresos relativamente dignos. Ese vergonzoso panorama laboral se desarrolla en uno de los mejores períodos
históricos de la actividad agropecuaria. Sólo la existencia de una bien arraigada hipocresía patricia, con un
acompañamiento para nada ingenuo de la mayoría de los medios de comunicación, permite a las entidades empresarias del
sector denominar paro del campo a una protesta política e ideológica de raíz conservadora. El campo no está en huelga: sus
patrones siguen haciendo trabajar a sus peones, las vacas siguen siendo ordeñadas, el trigo sigue creciendo y los cerdos
siguen alimentándose.
La precariedad laboral de los trabajadores del campo ha sido una constante a lo largo de la historia. En Peones Rurales,
una crónica histórica y visual desde sus orígenes a la actualidad, de Roberto García Lerena, se destaca que entre 1910 y
1930 se contabilizaron más de 3000 peones rurales muertos, miles de heridos y presos por reclamar por sus derechos. Esas
sí eran huelgas y protestas del campo. La más dramática fue la que se denominó La Patagonia Trágica. Recién con el
Estatuto del Peón, durante el primer gobierno de Perón, se definieron legalmente derechos del trabajador rural, salarios
dignos, mejores condiciones laborales y otras medidas de corte social. Fue un notable avance normativo pero con relativo
efecto en la práctica. La situación, como la reflejan las estadísticas oficiales, no ha mejorado mucho en décadas. En los
últimos años se ha consolidado una creciente expansión del empleo en negro, en un marco que combina resabios de
relaciones cuasi-feudales con prácticas laborales tercerizadas tendientes a reducir el vínculo entre patrón y empleado a
través de la figura del “contratista”. Susana Aparicio, especialista en empleo rural del Conicet, explicó en una
investigación publicada el año pasado en el suplemento de Economía de Página/12, Cash, que “a los capataces se los
indemniza y ahora trabajan como contratistas de cosechadores para las mismas empresas, las cuales evitan mantener una
relación laboral directa con los trabajadores”.
También fue un avance legal la Libreta del Trabajador Rural, aprobada en diciembre de 2002. Pese a esa norma, los
niveles de empleo en negro continuaron en el 75 por ciento. Los peones están excluidos de la Ley de Contrato de Trabajo
porque se rigen por una ley específica de 1980 que, en términos generales, ofrece un nivel de protección menor. Esa norma
no contempla la jornada laboral de ocho horas y a quienes trabajan por temporada no se les reconoce un vínculo
permanente con el empleador. Con el crecimiento y la modernización de la producción agropecuaria, se esperaría una
consolidación de una fuerza de trabajo estable, como pasaría en cualquier otra actividad. Sin embargo, en lugar de avanzar
hacia una mayor formalización, ocurrió lo contrario. La falta de inspecciones laborales llevaron a los grandes grupos
agroindustriales a blanquear sólo a los trabajadores que manejan máquinas complejas y costosas, como las cosechadoras
de tecnología avanzada. El resto continúa al margen de cualquier tipo de derecho laboral. En ese mismo informe especial
de Cash, la investigadora Norma Giarracca señalaba que el trabajador rural “es un sector de bastante invisibilidad por la
falta de compromiso de sus organizaciones gremiales. No hay fiscalizaciones para controlar el empleo en negro. Lo que
me llamó la atención en los últimos años es la naturalización de esta situación por parte de los trabajadores”.
En el campo se genera un escenario muy particular en relación con otros sectores dinámicos y muy rentables de la actual
bonanza económica. En la minería o en el automotor, por ejemplo, el trabajador también es sobreexplotado en función de
la riqueza que genera, pero cobra los salarios más altos de la pirámide de ingresos. En cambio, en la producción
agropecuaria, con ganancias también extraordinarias, los peones son los peor pagos. Frente a esto, no deja de ser una
peculiar postal de la Argentina esa mesa de indignados representantes de cuatro entidades tradicionales que dicen
representar los intereses del campo. “Confiscación” y “despojo” definieron al mecanismo de retenciones móviles, en una
respuesta desconcertante porque muestran ignorancia o mezquinos intereses para comprender ese sistema, que en el actual
escenario internacional de las materias primas resulta más racional y técnicamente más eficiente que las retenciones fijas:
por caso, si el precio internacional baja, también lo hace el tributo, lo que brinda previsibilidad de precios, al definir uno
neto de aquí en más, para la producción doméstica. O, en realidad, la maratón de declaraciones altisonantes fue un acto de
simulación para la defensa de una hiperrentabilidad obtenida por fabulosas condiciones de los mercados externos, pero
también por la extraordinaria explotación de los peones rurales.
Como se sabe, el empleo en negro refleja también el nivel de evasión impositiva de la actividad. A más trabajo informal,
más evasión en el pago de impuestos, porque el circuito productivo tiene que funcionar en negro para mantener en
equilibrio el balance ante el fisco, como explican los tributaristas. Por lo tanto, si el campo reúne el privilegio de ser uno
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 30
de los sectores más negreros, también lo debería ser en sus obligaciones impositivas. Y así parece según se desprende de
informes de los organismos de recaudación de la provincia de Buenos Aires (Arba), ….y de la Nación (AFIP),… Sobre
8000 propiedades rurales fiscalizadas por imágenes satelitales en el núcleo sojero de Buenos Aires, las dos terceras partes
no declararon actividad ni pagaron Ingresos Brutos. … estimó que la evasión anual agrícola bonaerense alcanza los 1000
millones de pesos. Otra vía de evasión impositiva se da en la venta de granos a través de sociedades fantasma. Existen
compañías que simulan una venta que no existió y hacen de intermediarios entre el productor y el acopiador/exportador
para que a éste le llegue la mercadería en blanco. Después, cuando la AFIP investiga, resulta que esas sociedades no
aparecen y no pagaron IVA ni nada. Con el resultado del Operativo Granos 2007 de la AFIP, ….excluyó del sistema, por
negociar en negro, a 4573 operadores de granos, hizo embargos a morosos por 10 millones de pesos y, por la interrupción
de esas transacciones en granos, evitó una evasión en el IVA de unos 80 millones de pesos, y en Ganancias, de 320
millones de pesos. De alguna manera, las retenciones vienen a recuperar para el fisco una parte de la millonaria evasión en
el pago de impuestos del campo.
La actividad agropecuaria es muy compleja, con muchísimas particularidades, incluso en el empleo rural, que requiere de
bastante cuidado y pericia en las políticas públicas por las diferentes realidades que existen. A veces intervienen con éxito,
otras tantas en forma incompleta y en otras con torpeza, casilleros que han sido ocupados a lo largo de todo el período del
kirchnerismo. Eso hace a una mejor o peor gestión en las estrategias sectoriales, y aún es prematuro concluir sobre su saldo
final. En tanto, del otro lado del mostrador, además de sostener un discurso que atrasa al no dar cuenta de la extraordinaria
transformación en la forma de producción y de los nuevos actores de los últimos años, las entidades que dicen representar
al campo ocultan detrás de su ofuscación las indignantes condiciones laborales de los trabajadores rurales y la irritante
evasión impositiva del privilegiado mundo agropecuario.
azaiat@pagina12.com.ar
2008
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 31
Las medidas estadísticas de intensidad son los indicadores que comunmente se entienden
por TASAS (de nacimientos, de mortalidad, de desocupación, de interés, de ganancia, de
crecimiento, etc.) y se determinan mediante alguna de las tres modalidades que se verán en
este cuaderno. Los cálculos necesarios para determinarlas, se hacen en el espacio de las
frecuencias, por lo que son aplicables a cualquier tipo de variables.
Antes de desarrollar el tema, debe leerse el artículo extraído del diario Página 12 del Sábado 4 de
Junio de 2005 “NO CEDE EL DESEMPLEO DEL CONURBANO” que continuación se transcribe y que puede
encontarse en www.pagina12.com.ar/diario/economia/2-51932-2005-06-04.html
04 de Junio de 2005
NO CEDE EL DESEMPLEO DEL CONURBANO
Cordones sin reacción
Del artículo, leemos casi textualmente algunas cifras referidas al primer trimestre de 2005:
- la tasa de desocupación en el Gran Rosario24 fue del 14%;
24
Gran Rosario es la Ciudad de Rosario y su conurbano. Igualmente la denominación Gran Buenos Aires comprende a la
Ciudad de Buenos Aires y su conurbano y también Gran Tucumán es la Ciudad de Tucumán y su conurbano. Esto es así, a
pesar de la tergiversación semántica, sobre todo por parte del periodismo, que iguala erróneamente Gran Buenos Aires con
el Conurbano de la Ciudad de Buenos Aires. A tal punto se consolidó tal deformación, que el INDEC se ve obligado a
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 32
p(a) = f(a) / n
r(a/b) = f(a) / f(b)
I (a) = f(a) / f(a) Donde y representan las distintas situaciones (en el tiempo o
en el espacio) en que se observa un valor. La situación es la
base del índice.
Es decir que con estas tres medidas se cubren todos los frentes contra los cuales puede compararse un
valor (contra el total, contra otro valor y contra sí mismo) y al referirse justamente a un solo valor,
como las vistas hasta ahora, son tasas simples. Como se ve:
El espacio de definición de las medidas de intensidad es el espacio de las frecuencias
aclarar explícitamente en sus publicaciones que la región Gran Buenos Aires comprende la Ciudad de Buenos Aires y su
conurbano.
25
Esa cuenta se hizo dividiendo: 1.369.000 desocupados / 948.000 subocupados demandantes = 1,444.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 33
Las tres medidas de intensidad se expresan indistintamente como coeficientes o como porcentajes. Si
bien calculamos la proporción como un coeficiente (entre 0 y 1), convenientemente se interpreta
como porcentaje. Es aconsejable interpretar la razón tal como se la calculó (preferentemente bajo la
forma de un coeficiente mayor que 1, como lo hicimos en los ejemplos vistos) y no tanto en términos
de porcentaje. Y en el caso del índice lo usual es calcularlo y expresarlo en porcentajes, salvo para
algunas aplicaciones específicas donde conviene usarlo como coeficiente.
Volviendo a la información del artículo periodístico y haciendo por nuestra cuenta algunos cálculos
más, vemos que: el 49,45% de los desocupados en los 28 centros urbanos encuestados por el Sistema
Nacional de Estadística (aunque el artículo sólo mencione al Indec) están localizados en el conurbano
de la Ciudad de Buenos Aires.
Es una proporción y se calculó así: 677.000 / 1.369.000 x 100 = 49,45%.
En la transcripción del resto del artículo, ahora se subrayan los párrafos que implican proporción y en
bastardilla los que involucran directa o indirectamente un índice:
“...Las zonas urbanas del país más afectadas por el problema global de desocupación y subocupación
demandante resultaron, en el primer trimestre, el conurbano bonaerense y el núcleo Gran Tucumán
(ciudad capital y sus alrededores)-Tafí Viejo. El primero sumaba 15,5 por ciento de desocupados más
10,4 por ciento de subocupados demandantes; el segundo, 14,2, más 16,5 por ciento. La desocupación,
en los partidos del Gran Buenos Aires fue superior a la del cuarto trimestre de 2004 en siete décimas
e idéntica a la registrada en el primer trimestre de ese mismo año. Es decir que la región muestra un
estancamiento en la recuperación del empleo. En tanto, en el Gran Tucumán-Tafí Viejo el dato más
preocupante es el aumento de la subocupación demandante, del 15,5 por ciento en el primer trimestre,
con un salto de 1,4 punto en la última medición con respecto a la inmediata anterior y 2,3 puntos
cuando se la compara con la de un año antes.
Los otros grandes distritos urbanos (con más de 500 mil habitantes) que registraron tasas de desocu-
pación por encima del promedio del país fueron el Gran Rosario, 14 por ciento, y el Gran La Plata,
con el 13,5 por ciento. Entre los grandes aglomerados, la tasa más baja de desocupación correspon- de
al Gran Mendoza, con el 8 por ciento, y entre las regiones a la Patagonia, con el 7,6 por ciento.
Además, en esta última región, la tasa de subocupación demandante reflejada por el Indec es
prácticamente insignificante, del 3,4 por ciento, en tanto en el Noroeste se eleva al 11,2 por ciento...”
Otra variable: Coeficiente Intelectual de 60 estudiantes (capítulo II):
- Los que tienen un CI entre 100 y 104 representan el 23,33% de los estudiantes de la muestra
(proporción= 14/60=0,2333);
- por cada 1 estudiante con un CI de entre 118 y 120, hay 2,8 estudiantes con un CI de entre 105 y
110 (razón=11/4=2,75).
- Supongamos que además se cuente con los datos de otro grupo de estudiantes, y que en él haya 22
con un CI de entre 105 y 110. Puede decirse que en el segundo grupo hay un 100% más de
estudiantes con un CI de entre 105 y 110 que en el primer grupo ( índice = 22/11x100=200%). O
también, que por cada estudiante del primer grupo con un CI de 105-110, en el segundo grupo hay
2 de ellos.
Estas últimas tasas calculadas son compuestas porque involucran grupos de valores.
_________________________________________
Volvamos nuevamente a algunas de las variables que se originan en la matriz de datos de la muestra
de 32 viviendas tomada en el barrio. Las frases que siguen involucran proporciones y razones.
Estado de mantenimiento (capítulo II):
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 34
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 35
INDICES DE PRECIOS
Dedicaremos dos secciones a ver con más detalles los índices de precios, en particular los índices
compuestos. La primera sección versará sobre cómo se construyen y la segunda sobre cómo usarlos.
Construcción de índices de precios
Para facilitar las cuentas, achicándolas, supongamos que todos los productos de la canasta familiar se
puedan reducir a, digamos, tres (productos A, B y C)26 y que en dos años distintos se relevaron sus
precios.
Producto Precio 2003 Precio 2004
A 13$ 15$
B 25$ 21$
C 5$ 6$
Si deseamos ver simplemente cómo evolucionó el precio de cada uno de los productos, hacemos tres
índices simples de precios, uno para cada producto:
I 2004 (A) = 15 / 13 x 100 = 115,38% : el precio del producto A subió un 15,38% entre el 2003 y el
2003 2004.
I 2004 (B) = 21 / 25 x 100 = 84,00% : el precio del producto B bajó un 16,00% entre el 2003 y el
2003 2004.
I 2004 (C) = 6 / 5 x 100 = 120,00% : el precio del producto A subió un 20,00% entre el 2003 y el
2003 2004.
Veamos para ese mismo grupo de productos, algunos índices compuestos de precios:
Media de relativos simples (o media de índices simples): es la media aritmética de todos los
índices simples que calculamos anteriormente. Para el ejemplo que estamos viendo, el cálculo es
así:
I 2004 (A,B,C) = [ I 2004 (A) + I 2004 (B) + I 2004 (C) ] / 3 = (115,38 + 84 + 120)/3 = 106,46%
2003 2003 2003 2003
En base a este criterio, los precios de los productos A,B,C subieron en conjunto un 6,46% entre
los años 2003 y 2004.
Relativo de agregados no ponderados (o índice de agregados no ponderados): se construye como
cociente entre la sumatoria (agregación) de los precios para el año 2004 y la sumatoria
(agregación) de los precios para el año base 2003.
I 2004 (A,B,C) = 15 + 21 + 6 = 97, 67%
2003 13 + 25 + 5
En base a este criterio, los precios de los productos A,B,C bajaron en conjunto un 2,33% entre
los años 2003 y 2004.
Relativo de agregados ponderados (o índice de agregados ponderados): en su construcción se
emplean, además de los precios, las cantidades consumidas de cada producto. Esto incorpora al
índice un elemento de poderación, al cuantificar la incidencia relativa de los distintos productos.
26
La división más general que hace el Indec de estos productos es: Alimentos y bebidas, Indumentaria, Vivienda y
servicios básicos, Equipamiento y mantenimiento del hogar, Atención médica y gastos para la salud, Transporte y
comunicaciones, Esparcimiento, Educación, Otros bienes y servicios. Luego subdivide cada uno de estos capítulos con
mayores detalles.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 36
La cuestión que aparece a continuación es decidir con qué cantidades ponderar: las del año tomado
como base (año base), las del año para el que queremos hacer el estudio (año dado) o las de cualquier
otro año que presente características favorables (año típico).
- El criterio de Laspeyres27 toma, para ponderar, las cantidades consumidas en el año base y es el
criterio que utilizan los institutos de estadística de la mayoría de los estados (en particular el Indec de
Argentina) para la elaboración de los índices generales de precios como el IPC (índice de precios al
consumidor), SIPIM (sistema de indices de precios mayoristas) e ICC (índice de costos de la
construcción.
En el ejemplo que estamos desarrollando, el cálculo del índice de precios según el criterio de
Laspeyres para el conjunto de los productos A, B, C es:
L 2004 (A,B,C) = ( 15x500 + 21x280 + 6x990 ) / ( 13x500 + 25x280 + 5x990 ) x 100 = 104,72%
2003
Y se lee así: los precios de los productos A,B,C subieron en conjunto un 4,72% entre los años 2003 y
2004. Es decir que en 2004 esos productos fueron en conjunto un 4,72 % más caros respecto del año
2003.
Como en la práctica, las cantidades consumidas relevadas están en unidades de medida distintas (kg,
litro, etc.), ello obliga a estandarizarlas antes de su intervención en el índice. Luego de esa
estandarización, debe establecerse el “peso” con el que cada producto incidirá en el índice, y el
conjunto de todos los “pesos” –expresados ahora en porcentajes– describen lo que se denomina
estructura de ponderación28.
L 2004 (A,B,C)=(15x28,25+21x15,82+6x55,93)/(13x28,25+25x15,82+5x55,93)x100 = 104,72%
2003
- El criterio de Paasche29 usa las cantidades del año dado para ponderar. En el caso de los tres
productos y en el mismo período, su cálculo es:
P 2004 (A,B,C) = ( 15x550 + 21x250 + 6x1200 ) / ( 13x550 + 25x250 + 5x1200 ) x 100 = 106,70%
2003
Como se mencionó anteriormente, en este caso hay que contar con la información de las cantidades
consumidas en el año dado y para la elaboración de índices generales eso implica un serio problema
operativo.
- El criterio de Fisher combina las virtudes de los índices de Laspeyres y de Paasche, mediante el
cálculo de su media geométrica30, aunque termina cargando con las mismas limitaciones operativas de
P. _________
Se expresa: F=LxP
27
Publicado en 1870 por el economista y estadístico alemán Ernst Louis Etienne Laspeyres.
28
La estructura de ponderación del IPC nacional establecida para el año base 2003 y que tiene una vigencia nominal de
diez años es: Alimentos y bebidas, 35,3%; Indumentaria, 6,6%; Vivienda y servicios básicos, 10,2%; Equipamiento y
mantenimiento del hogar, 6,6%; Atención médica y gastos para la salud, 8,8%; Transporte y comunicaciones, 16,4%;
Esparcimiento, 8,7%; Educación, 2,8%; Otros bienes y servicios, 4,6%.
29
1873
30
La media geométrica es menos sensible, más robusta o más estable, que la media aritmética ante nuevos valores que se
incorporen a la distribución y que se encuentren alejados de su zona central (característica también tiene la mediana).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 37
___________________
Para los tres productos del ejemplo es: F = 104,72 x 106,7 = 105,70%
De acuerdo a pautas metodológicas acordadas a nivel internacional, los años base se establecen
nominalmente cada 10 años. El trabajo operativo en cada año base implica el relevamiento de
todas las cantidades consumidas ese año, es decir que hay que relevar todo el universo de
productos consumidos en todo el territorio (en realidad se relevan los conglomerados urbanos
más numerosos y luego se extrapola hacia el resto del país).
Los años base de los distintos Indices generales de Precios fueron:
IPC: 1933, 1943, 1960, 1974, 1988, 1999, 2003.
SIPM: 1913 (Banco Nación), 1939 (Banco Central), 1953 (Banco Central), 1956 (Dirección
Nacional de Estadística y Censos), 1981 (Indec), 1993 (Indec)…
ICC: 1943, 1956, 1980, 1993, 2003.
¿Qué le sucedió al salario real de un empleado representativo en cada una de las tres industrias
seleccionadas, entre el año 1988 y el año 1991?
Multiplicando el salario por hora del sector Servicios del año 1988 (7,17$) por el índice IPC del año
1991 (como coeficiente es 1,171) resulta: 8,40 $. Este es el valor del salario del año 1988 corregido
por el costo de la vida en el lapso 1988-1991. Si lo comparamos con el que recibe (9,49$) en 1991,
vemos que su salario real aumentó un 12,98 % (=9,49/8,40x100).
La función que cumplió en el problema el IPC, fue la de mover en el tiempo un salario, y poder
compararlo con él mismo pero en otro momento. Así usado, se lo llama índice deflactor.
Un índice de precios usado como Indice deflactor sirve para corregir el valor de una magnitud
económica, en este caso los salarios, lo que permite efectuar comparaciones a lo largo del tiempo.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 38
Glosario
Proporción: mide cuánto incide un valor o grupo de valores de la variable en el total.
Razón: compara un valor o grupo de valores, contra otro valor o grupo de valores.
Indice: compara un valor o grupo de valores consigo mismo, pero en dos situaciones distintas
en el tiempo o en el espacio.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 39
Cap.V – DISPERSIÓN
El principal rasgo de un fenómeno social, físico, etc. que habilita a estudiarlo estadísticamente,
es la variabilidad interna de sus atributos. El concepto mismo de variable estadística surge a
partir de la variabilidad de los valores o de las categorías que ella toma.
Si en todos los temas desarrollados anteriormente hemos explotado esa dispersión, en este lo
que haremos es explorarla para elaborar indicadores que directa o indirectamente reflejan el
grado de dispersión de los datos.
Las medidas de dispersión se definen en el espacio de los números reales, por lo que se aplican
sólo a las variables cuantitativas.
MEDIDAS DE DISPERSIÓN
Rango
Es la forma más gruesa de observar la dispersión de los datos de una distribución:
Rango = Xmáx – Xmín
En la variable “Cantidad de personas ocupantes” (tomada de la matriz de datos correspondientes a una
muestra de 32 vivendas del barrio, cuaderno I) el rango es:
5-2 = 3.
Quiere decir que en una franja o amplitud de 3 ocupantes se encuentra toda la “diversidad” –en cuanto
a cantidad de ocupantes– de las viviendas del barrio.
El déficit de esta medida es que no tiene en cuenta todos los valores intermedios entre Xmáx y Xmín
Rango intercuartílico
Es: RI = Q3 – Q1
Expresa algo parecido a lo que dice el rango de toda la distribución, pero se refiere únicamente a los
datos centrales. Como aquél, también es deficitario al no tener en cuenta a todos los datos centrales.
Varianza
Fue propuesta por el astrónomo, geodesta y matemático K.F. Gauss31 y recorre, ahora sí, todos los
valores de los datos de la distribución. Para su construcción, se elige la media aritmética como
referencia para contabilizar los desvíos del valor de cada uno de los datos respecto de ella:
desvío = Xi – Media
Gráficamente, estos desvíos pueden verse alrededor de la media así:
(–) (+)
R1
Media
31
Karl Friedrich Gauss (1777-1855 ). Geodesta, astrónomo y matemático alemán. Obras: Disquisitiones arithmeticae
(Leipzig, 1801), Theoría motus corporum cælestium (Hamburgo, 1809), Teoría combinationis observationum.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 40
En el diagrama anterior, los datos se volcaron como puntos en el espacio R1 de los números reales y
las fechas representan los desvíos (aunque no se dibujaron todos) de cada uno de los datos.
La construcción que estamos haciendo apunta a conseguir una suerte de “fecha promedio” es decir
un desvío promedio. Como algunos desvíos son positivos –los ubicados a la derecha de la media– y
otros negativos –los ubicados a la izquierda–, un simple promedio de todos daría siempre cero32. Para
anular los signos una opción es tratar con los valores absolutos |Xi – Media| de los desvíos y otra, con
los llamados desvíos cuadráticos (Xi – Media)². La primera opción lleva al desvío medio de Laplace33
y la segunda a la varianza de Gauss.
A continuación se suman todos los desvíos cuadráticos: (Xi – Media)²
Cuando el grupo de datos es la población, esa sumatoria se divide por la cantidad N (tamaño de la
población) y tendremos la varianza poblacional:
² = (Xi – )² / N
designada con la letra griega (sigma) elevada al cuadrado.
Si el grupo de datos es una muestra, aquella sumatoria se divide por la cantidad n-1 llamada grados
de libertad 34, y tendremos entonces la varianza muestral:
s² = (Xi – )² / n-1
La media y la varianza muestrales de la variable “Gasto mensual del grupo” extraída de la matriz de
datos de la muestra de 32 viviendas del barrio (cuaderno I), son:
= 1.227,25 $ y s² = 195.607,537 $²
Se puede apreciar que la magnitud de la varianza es el cuadrado de la magnitud de la variable. Eso
aparentemente complica las cosas, porque por ejemplo el Rango –que es una medida más tosca, ya lo
dijimos antes– dice claramente que en una franja de 1.425$ (2.205 – 780 = 1.425) se encuentran todos
los gastos mensuales de los 32 hogares encuestados.
Desvío estándar
Para poder compatibilizar la magnitud de la dispersión con la magnitud de la variable, simplemente le
sacamos la raíz cuadrada a la varianza, resultando una medida llamada desvío estándar.
Hay entonces un desvío estándar poblacional y un desvío estándar muestral, que se obtienen de sus
respectivas varianzas:
______________________ _________________________
32
Recordar que la Media es el punto de equilibrio de toda la distribución y si sumamos todos los desvíos con su signo,
para luego promediarlos, el resultado siempre daría cero.
33
Pierre Simón de Laplace (1749-1827). Astrónomo y matemático francés. Obras: Mecánica Celeste, El sistema del
mundo y otras.
34
La media poblacional es una sola, como también lo es la varianza poblacional . En cambio hay tantas medias muestrales
como muestras distintas se puedan hacer en esa población; y también hay tantas varianzas muestrales como medias
muestrales puedan obtenerse. Por lo que una varianza muestral está atada a una determinada media, tiene un (1)
condicionamiento que no tenía la poblacional. Ese condicionamiento le resta (1) un grado de libertad.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 41
S = 422,28 $
En rigor, un desvío estándar no es interpretable aisladamente en la distribución para la que fue
calculado35, y sí es muy útil para comparar la dispersión de dos o más distribuciones bajo la misma
variable.
Por ejemplo, podemos comparar la dispersión de la variable Gasto Mensual entre las 32 viviendas y
otro grupo de hogares que tiene un S = 550 $ (y además un gasto promedio parecido). Como el desvío
422,28$ es menor que el desvío 550$, decimos que, respecto de la variable Gasto Mensual, el primer
grupo es más compacto, menos disperso, más homogéneo que el segundo.
También podemos decir que el 2° grupo es más heterogéneo, más disperso, que el 1°, en relación con
la variable Gasto Mensual.
En el caso de las Pymes integrantes de la muestra hecha a partir del Censo Económico 2004/2005
(cuya matriz de datos se encuentra en la adenda del capítulo I), el grupo es más homogéneo según la
variable Cantidad de personal (con un CV de 0,53 menor que el 0,77 de la variable antigüedad).
35
Aunque, en algunas distribuciones simétricas el desvío estándar describe un entorno alrededor de la media que contiene
aproximadamente a las 2/3 partes ( 68%) de los datos.
36
Ver nota al pie en el capítulo II, pág.12.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 42
Bajo circunstancias especiales, también puede aplicarse el C.V. a una misma variable pero en dos
grupos (dos matrices) significativamente diferentes. Supongamos que una tercera muestra de hogares
tiene un desvío estándar S = 1.000$, pero que la media mensual de gastos es = 4.000 $.
Usando los desvíos estándar para comparar la variabilidad de los gastos del primer grupo con los
gastos de este tercer grupo de hogares, se diría que el primero es más compacto que el tercero. Pero
resulta que sus medias nos están indicando que los dos grupos de hogares son significativamente
diferentes en cuanto al nivel económico, por lo que se puede convenir en que prácticamente se trata de
dos variables distintas, si bien ambas expresan en $ los gastos mensuales, por lo que es viable aplicar
el C.V.. Entonces
CVPRIMER GRUPO = 422,28 / 1.227,25 = 0,34
CVTERCER GRUPO = 1.000 / 4.000 = 0,25
Ahora sí puede apreciarse que, en realidad, el tercer grupo es más homogéneo que el primero en
cuanto a los gastos mensuales.
Otro ejemplo37:
En una empresa se estudiaron los ingresos anuales de los ejecutivos y el de los empleados no
calificados. Los resultados indicaron que el ingreso anual medio de los ejecutivos es de 86.000$con un
desvío estándar de 5.000$ y el ingreso anual medio de los empleados no calificados es de 7.200$ con
un desvío estándar de 800$. ¿Cuál de los dos grupos de sueldos es más consistente (más homogéneo,
menos disperso)?.
Una primer comparación usando los desvíos, nos dice que los sueldos de los empleados no
calificados se parecen más entre ellos, están menos dispersos, que los sueldos de los ejecutivos:
EMPL = 800$ contra EJEC = 5000$
La circunstancia especial que mencionábamos antes es que, si bien la variable es una sola (sueldos en
$) los dos grupos de sueldos son marcadamente distintos (eso se aprecia observando sus medias), son
de distinta naturaleza, como si fueran distintas variables.
Calculamos los C.V. para cada grupo:
C.V. EMPL = 800$ = 0,11 C.V. EJEC = 5.000$ = 0,06
7.200$ 86.000$
Y vemos que, en cuanto a sus sueldos, es más homogéneo el grupo de los ejecutivos que el grupo de
los trabajadores no calificados. Es decir que en relación con su media, los sueldos de los ejecutivos
tienen una dispersión menos significativa que la de los sueldos de los empleados no calificados en
relación con su respectiva media.
37
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
38
“Box-and-whisker plots”. Tukey J., Exploratory data analysis,. Addison Wesley. 1977.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 43
Como los tres cuartiles son en realidad “marcas” geométricas sobre el espacio de los datos ordenados,
para trasladarlos al eje real habrá que asignarles un número real a cada uno, estableciendo alguna
convención. Cuando el cuartil cae entre dos datos lo usual es tomar su valor medio39 y cuando pasa
por sobre un dato, tomar el valor del dato mismo.
En el caso de la variable cantidad de ambientes los números sumarios son:
X mín. = 1 Q1 = 2,5 Q2 = Me = 3,5 Q3 = 4 X máx. = 6
y el “box-plot” inicial (todavía en borrador) es:
1 2 3 4 5 6 Cantidad de ambientes
Xmín Q1 Me Q3 Xmáx
El gráfico queda “flotante” por sobre el eje real donde se vuelcan los 5 elementos. La caja central
tiene una amplitud total igual al rango intercuartílico RI = Q3 – Q1 y es definitiva tal como se la
dibujó. En principio los bigotes son provisorios y luego de aplicado el criterio de Tukey40, que se verá
a continuación, pueden se retocados o no para su versión definitiva.
El criterio de Tukey se basa en el Rango intercuartílico (RI) y en base a él se califica a los datos en
cuatro tipos: centrales, adyacentes, raros externos y raros lejanos.
Los datos centrales son los que se encuentran dentro del rango intercuartílico es decir dentro de
la caja (entre Q1 y Q3) y nominalmente representan el 50% del total.
Los adyacentes se encuentran por fuera de la caja, en las inmediaciones de ella hasta una distancia
de: 1,5 x RI, que designaremos de aquí en adelante como distancia de Tukey: dT=1,5xRI.
Todos los datos que caen más allá de una distancia de Tukey son datos raros.
Haciendo las cuentas correspondientes: Q1–1,5xRI y Q3+1,5xRI y volcando los resultados como
marcas o vallas41 provisorias en el gráfico
1 2 3 4 5 6 cantidad de ambientes
Xmín Q1 Me Q3 Xmáx
se puede comprobar que la variable Cantidad de ambientes no tiene ningún dato raro, es decir ningún
dato que caiga más allá de una distancia de Tukey desde los bordes de la caja. Los bigotes definitivos
quedan, en este caso, iguales a los provisorios:
1 2 3 4 5 6 cantidad de ambientes
Xmín Q1 Me Q3 Xmáx
39
En rigor, cualquier número real comprendido entre los dos valores, sirve para representar el cuartil en R1
40
Tukey J. Exploratory data analysis. Addison Wesley. 1977
41
En la denominación original de Tukey se llaman “fences” lo que se traduce como: cercos, vallas.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 44
Los bigotes representan a los datos adyacentes y la caja contiene a los datos centrales. Los valores se
leen sobre el arreglo de datos ordenados (hecho en el capítulo III). 3 y 4 ambientes son los valores de
los datos centrales y 1, 2, 4, 5 y 6 ambientes son los valores de los datos adyacentes. No hay viviendas
que tengan, para la muestra, alguna cantidad rara o atípica de ambientes.
En el caso de los C.I. de 60 estudiantes, sobre el arreglo de datos ordenados (ver cap.II, pág.11)
determinamos los cuartiles:
85 87 87 88 89 89 90 90 91 92 93 93 94 94 94|95 95 96 96 96 96 97 97
98 98 98 100 100 100 100|101 101 102 102 103 103 103 104 104 104 105 105
106 106 106|107 107 108 108 110 110 112 115 116 118 119 120 120 128 131
50 60 70 80 90 100 110 120 130 140 150
Xmín Q1 Me Q3 Xmáx
raros adyacentes centrales adyacentes raros
Más allá de la valla provisoria 124.5 hay datos raros que, leídos en el arreglo de datos ordenados, son
los coeficientes 128 y 131. Es decir que en el grupo de 60 estudiantes son raros, o atípicos para el
grupo, los CI de 128 y 131.
Tukey considera además dos tipos de datos raros: los externos y los lejanos. La línea divisoria entre
ambos se traza poniendo nuevas marcas o vallas provisorias a dos distancias de Tukey (2xdT = 3xRI) a
ambos lados de la caja. Es decir:
Q3+2xdT= Q3+2x1,5(Q3-Q1)=Q3+3(Q3-Q1)= 106.5 + 3 x (106.5 – 94.5) = 142.5
Q1–3(Q3-Q1)= 94.5 – 3 x (106.5 – 94.5) = 58.5
50 60 70 80 90 100 110 120 130 140 150
Xmín Q1 Me Q3 Xmáx
lejanos externos adyacentes centrales adyacentes externos lejanos
Evidentemente no hay datos raros lejanos. Los valores 128 y 131 corresponden a datos raros externos
y los representamos con el símbolo :
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 45
128 131
50 60 70 80 90 100 110 120 130 140 150
Y los bigotes definitivos llegan hasta los valores adyacentes más alejados de la caja: 85 hacia atrás y
120 hacia delante. Para leer esos valores hay que interactuar con el arreglo de datos ordenados.
Supongamos que en vez de 131, el Xmáx hubiere sido 148. Este valor se categoriza como lejano, su
símbolo es * y el box-plot hubiera quedado así:
*
128 148
50 60 70 80 90 100 110 120 130 140 150
Si contamos con dos o más distribuciones o grupo de datos, todos referidos a una misma variable
cuantitativa, los correspondientes box-plot pueden integrarse en un mismo gráfico tal como ve:
Grupo A
128 131
* * Grupo B
Grupo C
50 60 70 80 90 100 110 120 130 140 150
El gráfico muestra que en el grupo C todos los datos son centrales o adyacentes y no hay C.I. raros.
Observando a escala, se ve que los C.I. 68 y 125 son datos adyacentes en el grupo C, mientras que
en el grupo B ellos representan valores raros y se califican como externo y lejano respectivamente.
Análisis de asimetría
Este análisis se desarrolla en el espacio de los números reales, por lo que puede aplicarse solamente
a las variables cuantitativas. En este curso nos remitiremos a realizarlo en su manera más elemental
como lo es comparar simplemente tres medidas de posición: Moda, Mediana y Media.
Si una distribución es simétrica, en su zona central coinciden la Moda, la Mediana y la Media. Es
decir:
Mo Me
Por este motivo, dichas medidas de posición también se llaman medidas de tendencia central.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 46
Si una distribución es asimétrica, las medidas de tendencia central se separan. La más afectada por la
asimetría, es decir por los valores alejados del centro de la distribución es la Media . En
consecuencia, cuando las tres medidas quedan ubicadas sobre el eje real de la siguiente forma:
Mo < Me <
la asimetría es hacia la derecha porque los valores más alejados hacia la derecha “tiran” a la media
más que a las otras dos.
Si la ubicación de esas medidas en el eje real es:
< Me < Mo
la asimetría es hacia la izquierda.
Como esas tres medidas se determinan en espacios distintos y sólo la media se calcula en el mismo
espacio donde se hace este análisis, a las otras dos habrá que sacarlas de su espacio natural
asignándole un número real mediante alguna convención razonable. Por ejemplo, para la variable
cantidad de ambientes de la muestra de 32 viviendas del barrio que hemos tratando anteriormente
cualquier número real que se encuentre entre 3 y 4 (sin ser ninguno de esos dos) puede representar a la
mediana en el espacio R1. Mantendremos la convención de asignarle un número real a la mediana (a
quien queremos volcar en R1 a pesar de no ser un número real) adoptando el punto medio entre los
valores de los datos que la rodean, es decir:
Me = 3,5 ambientes
La Moda, para este caso, es fácilmente reducible a un n° real: Mo = 4
Entonces si: 3,34 < 3,5 < 4 : la asimetría es hacia la izquierda
En los casos en que la moda no esté muy clara, ubicándose entre las otras dos medidas (por ejemplo
< Mo < Me ) conviene desecharla y realizar el análisis de asimetría solamente con y Me.
Si aplicamos a la distribución de los C.I. de 60 estudiantes las nociones de asimetría vistas, usamos el
valor ya calculado de la media (101,7), convenir en un n° real para la mediana (Me = 100.5, dado que
la marca está entre 100 y 101) y también convenir en algún valor puntual para la moda tomado desde
el intervalo modal, por ejemplo el punto medio de ese intervalo, con lo queda Mo = 94,8. Comparando
las tres medidas de tendencia central vemos que: Mo < Me <
porque: 94,8 < 100,5 < 101,7
entonces la distribución es asimétrica hacia la derecha. Esta medición puede corroborarse
visualmente observando el histograma.
Glosario:
Rango: diferencia entre el valor máximo y el valor mínimo de una variable cuantitativa. Mide la
dispersión de la distribución sin tomar en cuenta los valores intermedios.
Rango intercuartílico: diferencia entre el cuartil 3 y el cuartil 1. Mide la dispersión de la parte central
de la distribución sin tomar en cuenta los valores de los datos que caen dentro de la caja.
Desvío: diferencia entre el valor de un dato y la media de toda la distribución.
Varianza o desvío medio cuadrático: es el promedio de los cuadrados de los desvíos. Mide la dispersión
de una distribución teniendo en cuenta todos los datos. Su magnitud es el cuadrado de la magnitud de la
variable.
Desvío estándar: es la raíz cuadrada de la varianza. Su magnitud es igual a la de la variable. En algunas
distribuciones simétricas describe un entorno alrededor de la media que encierra aproximadamente las
2/3 partes de todos los datos.
Coeficiente de variación: es la relación entre el desvío estándar y la media. Mide dispersión relativa. Es
un coeficiente adimensional y sirve sobre todo para comparar, dentro de un mismo grupo de unidades de
observación, la dispersión de variables que tienen distinta magnitud.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 47
ADENDA
42 –½((x – )/)²
La expresión funcional de la envolvente gaussiana es: f(x) = 1/(2) x e y se obtiene mediante un
procedimiento deductivo como se describirá sucintamente en el capítulo X de estas Notas.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 48
ANALISIS DE REGRESIÓN
Se debe al biómetra inglés Sir Francis Galton44, uno de los principal constructores de la moderna
teoría de la estadística, en su búsqueda de las leyes de la herencia.
Basándose en algunas leyes estudiadas por L.A.J.Quetelet45 (a la sazón astrónomo real de Bélgica y
“máxima autoridad en estadística social y de población” en las palabras del mismo Galton46), trató de
encontrar leyes particulares que describieran la relación original – de ahí la palabra regresión – entre
las alturas de padres e hijos, por ejemplo.
Este análisis tiene por objeto determinar “como” se relacionan las variables en estudio47.
Si el modelo elegido para explicar la relación entre las variables estudiadas es el lineal, la primera
etapa del cálculo consiste en encontrar los coeficientes a y b de la ecuación de regresión lineal.
El método usado por Galton para calcular dichos coeficientes había sido usado por Gauss desde 1795
y publicado por él en 1809: el método de los cuadrados mínimos.48
43
Tomado y adaptado de: Estadística y Econometría. Alfonso Novales. McGraw Hill/Interamericana. 1998.
44
A quien ya presentamos en estas notas cuando vimos la OJIVA de Galton en el capítulo II .
45
Quetelet (1796-1874) astrónomo y sociólogo belga. Fundador de la Antropometría (1871). Además, realizó interesantes
estudios sobre geometría, física y meteorología.
46
En: “Clasificación de los hombres según sus dotes naturales”, capítulo del Genio Hereditario (1869).
47
Una describe las causas y la otra describe los efectos. Igualmente este análisis puede aplicarse a variables que no
necesariamente tengan una vinculación causa-efecto.
48
”Theoria motus corporum coelestium”. K.F.Gauss, 1809
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 49
A partir de las observaciones de campo, se cuenta con un listado de n datos bivariados, cada uno
expresado mediante un par de valores portantes de información bivariada.
X Y
x1 y1
x2 y2
x3 y3
. .
. .
xn yn
Cada par de valores, cada dato bivariado, se representa como un punto en un gráfico de puntos o
diagrama de dispersión.
La recta promedio de todos esos puntos cumple un rol similar al que cumple la media aritmética de
varios puntos ubicados sobre el eje real (1). La única diferencia es que la recta se ubica en un plano
real (2). Es decir que ella cumple también, pero en 2, con el postulado de la media aritmética de
Gauss: es un recta de equilibrio entre todos los puntos y es una y sólo una. Su ecuación
es:
Y=a+b.X
Elegimos el símbolo “ ” para representar la media en el plano. Las medias de cada una de las
variables X,Y tomadas individualmente sobre sus respectivos ejes son: e .
Definida así, la recta de regresión hace mínimos los desvíos o residuos restantes entre los puntos y
ella misma. Llamamos desvío o residuo a la diferencia:
Yi – Yi
donde Yi es el valor observado conjuntamente con un cierto Xi, e Yi es el valor estimado que se
calcula con la ecuación de la recta para el mismo Xi.
En rigor, lo que propone el criterio de cuadrados mínimos es que la recta debe ser tal que haga mínima
la suma de los cuadrados de los desvíos49:
( Yi – Yi )² = mínimo
Insertando la expresión de la recta, la condición de cuadrados mínimos queda:
( Yi – a – b . Xi )² = mínimo
Esa expresión se deriva respecto de a y el resultado se iguala a cero (dado que la primera derivada de
un mínimo es cero). Aparte, la expresión original se deriva nuevamente pero ahora respecto de b y
nuevamente se iguala cero (por el mismo motivo anterior). Es decir:
( Yi – a – b . Xi )² = 0
a
( Yi – a – b . Xi )² = 0
b
Queda un sistema de dos ecuaciones con dos incógnitas (a y b)50. Resolviéndolo, resultan las
expresiones:
49
El criterio de cuadrados mínimos aplicado en 1 a una sola variable propone que la media aritmética (el punto medio, el
promedio) debe ser tal que haga mínima la suma de los cuadrados de los desvíos Xi – , es decir: ( Xi – )² = mín. Es
decir que hay uno y sólo un número real, al que llamamos media aritmética, que hace mínima esa suma.
48
En 2 hay uno y sólo un par de números reales a,b que hacen mínima la suma de los cuadrados de los desvíos Yi – Y
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 50
Problema51
Las ventas (efecto) anuales de cierto artículo parecen dependen mucho del nivel de publicidad (causa).
Para estudiar la relación entre estas dos variables económicas se registraron los montos de ventas en
cuatro momentos distintos y en cada oportunidad se anotó las cantidades invertidas en publicidad:
ANÁLISIS DE CORRELACIÓN
Se debe al biómetra inglés Karl Pearson52, y tiene por objeto medir “cuánto” se relacionan las dos
variables. El “cómo“ se relacionan lo vimos en el análisis de regresión.
El instrumento que nos permitirá medir la fuerza de esa relación es el coeficiente r de correlación de
Pearson. En valor absoluto este coeficiente toma valores entre 0 y 1: es 0 cuando no hay ninguna
relación entre las variables y 1 cuando la relación es perfecta, máxima.
El r tiene algo en común con el coeficiente de regresión b: el signo.
Es decir que si la recta de regresión asciende (pendiente positiva) el coeficiente de correlación tomará
un valor positivo entre 0 y 1 y diremos que la correlación es directa. Si la recta de regresión
desciende (pendiente negativa) el coeficiente de correlación tomará un valor negativo entre 0 y –1 y
entonces la correlación es inversa.
Por lo tanto el recorrido de este coeficiente es: – 1 < r < 1. Si r es (+) positivo, la correlación es
directa. Si r es (–) negativo, la correlación es inversa.
Para calcular dicho coeficiente usaremos la expresión:
51
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003.
52
En estas notas nos habíamos referido a Pearson en las oportunidades de ver el histograma y el coeficiente de variación.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 51
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 52
En los capítulos anteriores, al observar los valores de una variable estadística, presuponíamos o
acordábamos implícitamente que las observaciones se realizaban en un mismo momento (sin
enunciarlo, en realidad estamos "congelando" el tiempo).
Por eso, la repetición de apariciones de un mismo valor (una misma clase, una misma categoría) daba
lugar al concepto primario de frecuencia (frecuencia absoluta).
Con este enfoque, hasta aquí, hemos organizado los conjuntos de datos en distribuciones que
llamamos SERIES DE FRECUENCIAS.
Si hay razones para suponer que los valores están influidos por los momentos de tiempo en que
se los observa y eso caracteriza ahora al fenómeno estudiado estadísticamente, el enfoque debe
cambiar. Esto significa que debemos observar cada valor de la variable anotando el transcurso del
tiempo (ya no su frecuencia).
Esta nueva serie será distinta que la anterior, y con esta modalidad los datos quedan organizados en lo
que llamamos SERIES DE TIEMPO.
Se resalta que estamos hablando de la misma variable, pero son dos los enfoques para describir la
distribución de sus valores.
Serie de frecuencias: Serie de tiempo:
Las segundas columnas de las distribuciones marcan la diferencia de enfoques: una distribución es
una serie de frecuencias y la otra una serie de tiempo.
Mientras que en las series de frecuencias la variable estadística observada es independiente y
puede verse a la frecuencia como una variable matemática dependiente, en las series de tiempo
nuestra variable estadística es dependiente de la variable matemática tiempo.
Serie de frecuencias: Serie de tiempo:
frecuencia variable
variable tiempo
Por este motivo, la forma usual de organizar los datos en una serie de tiempo es:
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 53
tiempo variable
t1 x1
t2 x2
. .
. .
tn xn
Modelo matemático
Al estudiar estadísticamente cierto fenómeno en el marco de una serie de tiempo, debemos considerar
que cada dato relevado es la resultante, para un momento, de los efectos producidos por distintas
causas, que actúan sobre la variable (X) en distintos lapsos de tiempo y con comportamientos
diferentes.
Al modelar matemáticamente el fenómeno observado, los efectos participan en el modelo como
componentes. De éstas, interesan sobre todo las que suministran información, describiendo primero
una tendencia (T) general y luego las distintas variaciones cíclicas (C) alrededor de ella. Finalmente
también participan del modelo las componentes que no suministran información, a las que llamamos
ruido (R) estadístico.
En cierto tipo de fenómenos (vbgr. algunos de los estudiados en astrometría) los efectos no interactúan
entre sí y en consecuencia cada una de las componentes mencionadas mantiene su escala a lo largo del
tiempo. La resultante es la agregación de todas ellas y el modelo matemático es:
X = T + C + R.
En los fenómenos económicos, en general, los efectos interactúan entre sí –se magnifican unos a otros
al interactuar– y por lo tanto las componentes cambian de escala a lo largo del tiempo. El modelo
matemático es en estos casos:
X=T.C.R
Este es el modelo matemático básico que seguiremos en estas notas.
Algunas variaciones cíclicas pueden ser periódicas (Cp) y otras no periódicas (Cnp):
X = T . Cp. Cnp . R
Mientras que T representa una única componente, Cp y Cnp representan familias de componentes con
ciclos de distinta longitud.
En las series de tiempo económicas, una componente cíclica periódica importante es la llamada
variación estacional (E), para la cual el ciclo dura un año.
Dado que en la práctica se hace muy difícil distinguir entre los ciclos no periódicos y el ruido,
trataremos a ambos (Cnp y R) como si fueran una sola componente, a la que llamamos variación
irregular (I). Es decir: I = Cnp . R
Por lo que, sin perder generalidad, el modelo básico deviene en:
X = T . Cp . I (A-1)
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 54
Como estrategia general de cálculo para series de tiempo de variables económicas, se modelarán
funciones, contínuas o discretas, para describir cada componente por separado. Ello permitirá no solo
aislar cada componente e interpretarla individualmente, sino también “limpiar” o “filtrar” a la serie de
esa componente. Las funciones se obtendrán operando sobre la serie de datos mediante algoritmos que
llamamos operadores matemáticos.
53
Esta exigencia, llamada frecuencia de Nyquist, se entiende porque una función cíclica pasa dos veces por cero.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 55
54
”Theoria motus corporum coelestium”K.F.Gauss, 1809. Ya comentado en el capítulo anterior.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 56
(X / T ) . 100
El resultado es una nueva serie de datos filtrados por tendencia y expresados como porcentajes de
la tendencia.
El procedimiento de los residuos relativos puede aplicarse a cualquier otra serie aunque no
sea la original, es decir que sus datos puedan estar ya filtrados e inclusive expresados como relativos,
y usando un nuevo filtro correspondiente a cualquier otra componente.
– promedio móvil.
Este operador recorre toda la serie entregando la media de los datos incluidos en intervalos
consecutivos del tamaño de un ciclo. Esos intervalos son superpuestos (es decir que tienen datos
comunes) y sesgados (cada promedio pierde un dato del intervalo anterior y gana un dato del
posterior). Por ejemplo: si el ancho del ciclo es 1 año y está fraccionado en 5 datos por año (fracciones
de ciclo: I, II, III, IV y V) el tamaño de este filtro es 5 (se promedian 5 datos en forma móvil).
Al calcularlo sobre una serie (A-3) ya filtrada por tendencia, la interpretación del operador puede
llevar a distinguir alguna componente periódica C>L de mayor longitud que L ó a reconocer el ruido
I>L creado al usar una línea de tendencia inapropiada.
Usándolo para filtrar la serie anterior, mediante el procedimiento de los residuos relativos aplicado a
este caso, se la estaría “limpiando” de (C>L . I>L), obteniéndose la (A-4) que es una serie libre de
tendencia y de variaciones de mayor longitud que L. La información que contiene la serie (A-4) es
precisamente una mezcla de ciclos periódicos de longitudes igual a L y menores que L, con
variaciones irregulares de longitudes igual y menores que L: (CL . IL).
Entonces este operador describe (C>L . I>L) en realidad, y al aplicarse como filtro a una serie deja
pasar (CL . IL). Este efecto se debe a su naturaleza discreta.
Desarrollo de un ejemplo55
t X__
Los datos corresponden a los ingresos
1 1134 (1991) trimestrales (en millones de pesos) de un
2 1354 grupo de empresas de transporte aéreo en
3 1673 concepto de operaciones internacionales,
4 1414 desde 1991 a 1994.
5 1449 (1992)
55
Los datos están tomados de: Estadística, ejercicios resueltos. Editorial C&C. 1995.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 57
6 1603
7 1992
8 1574
9 1329 (1993)
10 1627
11 1932
12 1501 a) Graficar la serie.
13 1366 (1994)
Calcular la recta de tendencia: T = 1418,45 + 16,028 . t
14 1601
Trazarla sobre el gráfico.
15 1912
16 1494
Interpretar la pendiente: los ingresos del grupo de empresas fueron, en promedio y en ese período, a
razón de 16 millones 28.000 $ por trimestre.
b) Calcular un valor por tendencia para cada dato relevado:
serie tendencia serie
datos b) c)
t X T (A-3)
1 1134 1434 79,08
2 1354 1450 93,38 c)- Dividir la serie original por la tendencia.
3 1673 1466 114,12 Resulta así una nueva serie filtrada por
4 1414 1482 95,41 tendencia, cuyos datos se expresan en
5 1449 1499 96,66 porcentajes de ella.
6 1603 1515 105,81
7 1992 1531 130,11
8 1574 1547 101,74
9 1329 1563 85,03
10 1627 1579 103,04
11 1932 1595 121,13
12 1501 1611 93,17 d) Graficar la serie c).
13 1366 1627 83,96
14 1601 1643 97,44
15 1912 1659 115,25
16 1494 1675 84,42
e)- A partir del análisis de los residuos observados en el gráfico d), reconocer alguna componente
cíclica periódica.
f)- Definir la longitud L del ciclo periódico identificado y numerar (con números romanos) las
fracciones de ciclo en relación con la cantidad de datos dentro de él.
56
Si en la etapa g) al volcar los promedios móviles en el gráfico d), apareciera una componente periódica de mayor
longitud es conveniente suspender lo calculado para la componente de longitud L y realizar la rutina para la nueva
componente desde f) en adelante. Posteriormente, al retomar el cálculo para la componente suspendida, se lo hará a partir
de la serie resultante en k) para la componente más larga, no a partir de la obtenida en c) como la primera vez que se la
trató.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 59
j)- Calcular un índice cíclico para cada fracción de ciclo, a partir de la serie obtenida en h), y volcarlos
en el gráfico i). El conjunto de índices cíclicos describe la componente periódica CL.
k)- Dividir la serie h) por los índices calculados en j), resultando una serie final con los últimos
residuos, donde cada uno de ellos está expresado como porcentaje del índice cíclico que le
corresponda, y que representan las variaciones irregulares de corto período.
l)- Graficar la serie k).
m) Si al interpretar el gráfico l) se visualizara alguna componente periódica de menor longitud que la
ya analizada, a partir de la serie resultante en k) aplicar a la nueva componente la rutina desde el
punto f) en adelante.
_______________________________________
Para una obtención rápida de los índices cíclicos j) y en lugar del algoritmo de los promedios móviles,
puede optarse por calcular cada índice como la media aritmética de las fracciones correspondientes.
Es decir, de la columna c) se extraen todos los valores que corresponden a la fracción I y se los
promedia; lo mismo para los valores correspondientes a la fracción II y así para el resto. Resulta así:
serie tendencia serie índice cíclic. serie
datos b) c) f) j) k)
t X T (A-3) L=4 (C4 . I4) (A-7)
1 1134 1434 79,08 I 86,18 91,76
2 1354 1450 93,38 II 99,92 93,45
3 1673 1466 114,12 III 120,15 94,98
4 1414 1482 95,41 IV 93,68 101,85
5 1449 1499 96,66 I 86,18 112,16|
6 1603 1515 105,81 II 99,92 105,89
7 1992 1531 130,11 III 120,15 108,29
8 1574 1547 101,74 IV 93,68 108,60
9 1329 1563 85,03 I 86,18 98,66
10 1627 1579 103,04 II 99,92 103,12
11 1932 1595 121,13 III 120,15 100,82
12 1501 1611 93,17 IV 93,68 99,45
13 1366 1627 83,96 I 86,18 97,42
14 1601 1643 97,44 II 99,92 97,52
15 1912 1659 115,25 III 120,15 95,92
16 1494 1675 84,42 IV 93,68 90,11
Por un lado nótese que los índices calculados mediante este algoritmo rápido y por lo tanto más
operativo, casi no difieren de los calculados anteriormente. Pero por otro lado y con rigor conceptual
hay que aclarar que la componente y/o el ruido mayores que L, como consecuencia de este algoritmo
rápido, van a mezclase en la última columna con las componentes y/o ruidos menores que L:
X = (C<L . I<L). .(C>L . I>L ) (A-7)
T. (CL . IL)
que contiene entonces información y ruido de menor longitud que L, pero también de mayor longitud
que L. Lo que queda de manifiesto si se comparan los residuos de la columna k) de ambos cálculos.
Interpretación de los índices cíclicos: en promedio, en los primeros trimestres de cada año de ese
período estudiado, los ingresos estuvieron un 14% por debajo de la tendencia; en los segundos
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 60
trimestres, se correspondieron con ella; en los terceros estuvieron un 20% por arriba y en los
cuartos trimestres fueron un 6% inferior a la tendencia.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 61
PROBLEMA57 .-
La siguiente información , elaborada en base a datos del INDEC, fue extraída del Anuario Estadístico
de la República Argentina 2000, sección Economía, de un diario de tirada nacional.
BALANZA COMERCIAL
ARGENTINA
Millones de dólares 35
Año Exportaciones Importaciones Saldo
1984 8.107 4.585 3.522 30
1985 8.396 3.814 4.582
1986 6.852 4.724 2.128 25
1987 6.360 5.818 542
1988 9.135 5.322 3.813 20
1989 9.579 4.203 5.376
1990 12.353 4.077 8.276 15
1991 11.978 8.275 3.703
Exportaciones
1992 12.235 14.672 -2.637 10
1993 13.118 16.784 -3.666
1994 15.839 21.590 -5.751 5
1995 20.963 20.122 841 Importaciones
1996 23.811 23.762 49 0
1997 26.431 30.450 -4.019 '84 '85 '86 '87 '88 '89 '90 '91 '92 '93 '94 '95 '96 '97 '98 '99
1998 26.441 31.404 -4.963
1999 23.333 25.508 -2.175
EVOLUCIÓN DEL COMERCIO
En millones de dólares
O también:
57
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 62
Millones de u$s
Año Importaciones 35
1984 4.585
1985 30
3.814
1986 4.724 25
1987 5.818
1988 5.322 20
1989 4.203
15
1990 4.077
1991 8.275 10
1992 14.672
1993 16.784 5
Importaciones
1994 21.590
0
1995 20.122 '84 '85 '86 '87 '88 '89 '90 '91 '92 '93 '94 '95 '96 '97 '98 '99
1996 23.762
1997 30.450
1998 31.404
1999 25.508
En cada análisis hay una sola variable económica (variable estadística, variable aleatoria) en juego y
se analiza su evolución a lo largo del tiempo (que es una variable matemática, no es una variable
estadística). Si bien es un caso de estadística univariada se pueden usar perfectamente los recursos de
la matemática de dos variables como lo hicimos anteriormente.
El rol del tiempo como variable independiente X es indiscutible.
Los puntos que representan los datos recolectados a lo largo del tiempo se unen, precisamente para
expresar la cronología (a diferencia del diagrama de dispersión aplicado en el capítulo XIII del caso
anterior donde no hay cronología que señalar).
Para procesar más cómodamente las observaciones, conviene codificar el tiempo. Por ejemplo
asignarle 1 al momento de tiempo en que se tomó el primer dato, 2 al del segundo dato, etc., etc. Pero
también se podría ponerle 0 al tiempo de toma del primer dato, 1 al del segundo, etc.etc. Eso es
convencional, porque es una codificación (pero ¡ojo!, cuando ya se decidió una codificación hay que
mantenerla así hasta el final).
Elegimos la codificación más natural que es: x=1 p/1984, x=2 p/1985 y así correlativamente:
Millones de u$s Millones de u$s
Año Exportaciones Año Importaciones
1 8.107 1 4.585
2 8.396 2 3.814
3 6.852 3 4.724
O también:
4 6.360 4 5.818
5 9.135 5 5.322
6 9.579 6 4.203
7 12.353 7 4.077
8 11.978 8 8.275
9 12.235 9 14.672
10 13.118 10 16.784
11 15.839 11 21.590
12 20.963 12 20.122
13 23.811 13 23.762
14 26.431 14 30.450
15 26.441 15 31.404
16 23.333 16 25.508
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 63
Vamos a procesar la variable Exportaciones y señalemos que la recta de ajuste, que en el primer caso
llamábamos recta de regresión, aquí se llama tendencia de la serie de tiempo o serie temporal.
a =2.782,55 b = +1.400,075
Interpretación de la pendiente b de la tendencia: por cada año transcurrido (en el período tomado), las
exportaciones aumentaron en promedio 1.400, 075 millones de dólares por año.
Pronósticos.
Usando sólo la recta de tendencia calculada, pronosticar las exportaciones para:
- el año 2000
Cálculo: +2782,55 + 1400,075 x 17 = 26.583,825 (17 es el código para el año 2000)
Interpretación: se estima que en el año 2000 las exportaciones fueron del orden de los 26.583,825
millones de u$s.
- el año 1982
Cálculo: +2782,55 + 1400,075 x (-1) = 1.382,475 (-1 es el código para el año 1980)
Interpretación: se estima que en el año 1982 las exportaciones fueron del orden de los 1.382,475
millones de u$s.
- el año 2020
Cálculo: +2782,55 + 1400,075 x 37 = 54.585,325 (37 es el código para el año 2020)
Interpretación: el año para el que se quiere pronosticar, está muy alejado del rango observado; no es
conveniente usar el valor calculado como pronóstico o estimación
- el año 2007
Cálculo: +2782,55 + 1400,075 x 24 = 36.384,350 (24 es el código para el año 2007)
Interpretación: se estima que en el año 2000 las exportaciones fueron del orden de los 36.384,350
millones de u$s.
______________________________________
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 64
El objetivo de esta parte del curso es desarrollar una herramienta –la probabilidad– necesaria
para trabajar con muestras representativas de una población y para estudiar la relación
entre variables, todo lo cual nos permitirá abordar con fundamentos los problemas de la
Estadística Inferencial.
“... Las salas de juego estaban repletas de público. ¡Cuánta insolencia y cuánta avidez! Me
abrí paso entre la muchedumbre y me coloqué frente al propio croupier. Empecé a jugar
tímidamente, arriesgando cada vez dos, tres monedas. Entretanto, observaba. Tengo la
impresión de que el cálculo previo vale para poco y, desde luego no tiene la importancia que le
atribuyen muchos jugadores: llevan papel rayado, anotan las jugadas, hacen cuentas, deducen
las probabilidades, calculan; por fin, apuestan y pierden. Igual que nosotros simples mortales,
que jugamos sin cálculo alguno. He llegado, sin embargo, a una conclusión, al parecer, justa:
existe, en efecto, si no un sistema, por lo menos cierto orden en la sucesión de probabilidades
casuales, lo cual es muy extraño. Suele ocurrir, por ejemplo, que tras las doce cifras centrales
salgan las doce últimas. Cae, por ejemplo, dos veces en las doce últimas y pasa a las doce
primeras. De las doce primeras, vuelve a las centrales: sale tres o cuatro veces seguidas y de
nuevo pasa a las doce últimas. Tras dos vueltas, cae sobre las primeras, que no salen más de
una vez, y las cifras centrales salen sucesivamente tres veces. Esto se repite durante hora y
media o dos horas. Uno, tres y dos; uno, tres y dos. Resulta muy divertido. Hay días, mañanas,
en que el negro alterna con el rojo, casi en constante desorden, de modo que ni el rojo ni el
negro salen más de dos o tres veces seguidas. Al día siguiente, o a la misma tarde, sale el rojo
hasta veinticinco veces sucesivas, y continúa así durante algún tiempo, a veces, durante todo el
día...”. Párrafo del capítulo IV de El jugador (1866), una de las más célebres y populares
novelas de Fedor Dostoyevski, en gran parte un relato autobiográfico.
La búsqueda de las leyes que supuestamente gobernarían el azar, no solo atrae la concentración de algún
jugador empedernido, sino que domina permanentemente los cálculos de los actuarios de seguros y recorre
casi todo el espectro científico desde –cronológicamente– la astronomía hasta la economía.
Lo que aparece claramente en el párrafo seleccionado anteriormente es la observación del fenómeno que
interesa estudiar –la ruleta para el caso– mediante series de frecuencias (inclusive se observa algún atisbo
de elaborar una serie de tiempo). Todas las observaciones previas quedan finalmente al servicio de una
jugada que llamaremos de aquí en más experimento aleatorio y cuyo resultado está en manos del azar.
EXPERIMENTOS ALEATORIOS
Para especular con el resultado de un experimento aleatorio podríamos hacer una lista de valores
posibles –valores aleatorios– cuyas respectivas ocurrencias tendràn una probabilidad asociada 58.
Si en vez de jugador nuestro protagonista fuera un actuario de seguros, el esquema no cambiaría
demasiado. Él observaría previamente la frecuencia de ocurrencia de, supongamos, robos de autos, y como
probabilidad –frecuencia relativa– la tendría en cuenta al momento de asegurar un nuevo vehículo tomado
al azar.
Llamaremos espacio muestral (E) al espacio de los valores que resulten del experimento aleatorio:
E = {todos los números de la ruleta} = {0, 1, 2, 3, ......... , 34, 35, 36} o E = { robo , no robo}
Es el espacio de donde se extraen las muestras, de ahí su nombre, e involucra a toda la población. Es el
espacio de los valores visto en Estadística descriptiva, instalado ahora en un experimento aleatorio.
58
Esta probabilidad tiene que ver con la frecuencia –relativa– con que ocurrió cada valor anteriormente.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 65
Tanto la jugada única del jugador como el aseguramiento de un auto tomado al azar, son experimentos
aleatorios simples porque involucran un solo elemento tomado al azar en una población59.
Dentro del espacio muestral algunos sucesos o eventos –sucesos aleatorios– son:
S1 = {que salga par} = {2, 4, 6, 8, 10, 12, 14, 16, 18 , 20, 22, 24, 26, 28, 30, 32, 34, 36}
S2 = {que no roben el auto asegurado} = { no robo }
S3 = {que salga dos} = { 2 }
S4 = {que salga 49} = { } =
S5 = {que salga un número entre 0 y 36} = E
S6 = {que sea rojo} = {1, 3, 5, 7, 8, 9, 12, 14, 16, 18, 19, 21, 23, 25, 27, 30, 32, 34, 36}
S7 = {que salga cero} = { 0 }
En particular, los sucesos aleatorios S2, S3 y S7 son sucesos elementales porque contienen un solo elemento
del espacio muestral, el S4 es un suceso imposible y el suceso S5 es un suceso cierto porque va a ocurrir sí
o sí al realizar el experimento. El espacio muestral y los sucesos aleatorios pueden representarse mediante
el siguiente diagrama de Venn60:
E
11 S6
S1 1 13
15 2 3 5
4 6 12 8 7 17
28 20 14 9
10 16 18 19
22 30 21
24 32 23 29
34
26 36 25
31 0
59
Tanto la avidez del jugador como la de la compañía de seguros, llevan a los experimentos aleatorios compuestos –tomar
más de un elemento al azar– donde el jugador haría varias jugadas o la compañía aseguraría varios autos
60
Juan Venn (1834-1923). Filósofo e historiador inglés. Su obra de lógica más original es la Lógica del azar.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 66
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 67
ALGEBRA DE SUCESOS
Consiste en un conjunto de cuatro operaciones que aplicadas a dos o más sucesos aleatorios nos devuelven
nuevos sucesos aleatorios. Ellas son las tres operaciones de Boole61 (unión, intersección y complemento)
más la operación diferencia.
Unión: S1 S6 = {1,2,3,4,5,6,7,8,9,10,12,14,16,18,19,20,21,22,23,24,25,26,27,28,30,32,34,36}
El nuevo suceso (S1 S6) es que el elemento tomado al azar sea indistintamente Par o Rojo.
Intersección: S1 S6 = {8,12,14,16,18,30,32,34,36}
El nuevo suceso (S1 S6) consiste en que el elemento tomado al azar sea simultáneamente (conjunta-
mente) Par y Rojo.
Complemento: S1 = {no par} = {0,1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35}
El nuevo suceso es que el elemento tomado al azar no sea Par.
Diferencia: S1 S6 = {2,4,6,10,20,22,24,26,28}
El suceso (S1 S6) consiste en que el elemento tomado al azar sólo sea Par.
DEFINICIONES DE PROBABILIDAD
Definición Clásica
Se debe a Pierre Simón de Laplace62 para quien “... La teoría del azar consiste en... determinar el
número de casos favorables al acontecimiento cuya probabilidad se indaga. La razón de este número con
la de todos los casos posibles es la medida de la probabilidad, que no es más que una fracción cuyo
numerador es el número de casos favorables y cuyo denominador es el número total de casos posibles...”
63
. Es decir:
p casos favorables
casos posibles
Se tiene por implícito que todos y cada uno de los resultados del experimento deben ser, en las palabras de
Laplace, “...igualmente posibles...”(sic). Este concepto, que llamamos equiprobabilidad, implica que
cuando vayamos a tomar –al azar– algún elemento de la población, todos tengan la misma posibilidad de
ser seleccionados. Es decir que al confeccionar una muestra con n elementos, debemos asegurarnos que
todos los elementos de la población tengan la misma oportunidad de integrarla.
Apliquemos esta definición a todos los sucesos tratados anteriormente:
P(S1) = 18 / 37 = 0,4865
P(S3) = 1 /37 = 0,0270
P(S4) = 0 / 37 = 0
P(S5) = 37 /37 = 1
P(S6) = 19 / 37 = 0,5135
P(S7) = 1/ 37 = 0,0270
P(S1 S6) = 28 / 37 = 0,7568
P(S1 S6) = 9 /37 = 0,2432
61
Estudiadas sistemáticamente por el lógico irlandés J.Boole (1815-1864) y aplicadas al diseño de circuitos electrónicos a
partir de 1939 y a la telefonía, control automático y computadoras en general hasta hoy.
62
Pierre Simón de Laplace (1749-1827). Astrónomo y matemático francés. Obras: Mecánica Celeste, El sistema del
mundo.
63
Essai philosophique sur les probabilités (1814).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 68
__
P( S1 ) = 19 / 37 = 0,5135
P(S1 S6) = 9 / 37 = 0,2432
Siguiendo el mismo proceder, el actuario podría querer calcular la probabilidad del suceso S 2, y haría:
P(S2) = 1 / 2 = 0,50
El razonamiento más elemental y nuestro instinto nos dicen a coro que este cálculo está fallando en algo,
quedando en evidencia las limitaciones de la definición clásica. La lógica nos avisa que en realidad
deberíamos observar previamente el fenómeno –es decir observar con qué frecuencia no roban autos– y
con ello contar con la probabilidad para un caso nuevo. Ese proceder podemos extenderlo también al caso
de la ruleta obligándonos a observarla previamente –es decir observar con qué frecuencia ocurre cada uno
de los 37 números– y con ello disponer rigurosamente de un mapa de probabilidades para una nueva
jugada.
Definición Frecuencial.
Aparece como la solución a nuestro problema anterior y consiste en observar un número grande de
veces los resultados numéricos de la ruleta y anotar la frecuencia de aparición de cada número, o tomar en
cuenta muchos casos anteriores de autos asegurados y contar cuántos fueron robados.
Richard E. von Mises64 –quien propuso esta definición en 1919– se refiere a la probabilidad como “...el
Valor Límite de la Frecuencia Relativa... Esta es la razón del número de casos en que el atributo a sido
hallado al número total de observaciones...”65
Es decir: p = fr
Habiendo observado el comportamiento de la ruleta –de una ruleta en particular– supongamos 1000 veces,
podría ser que el número 2 saliera 32 veces. En ese caso la probabilidad del suceso S 3 sería:
P(S3) = 32 /1000 = 0,0320
Supongamos también que el actuario pueda recabar información sobre una cantidad grande de autos
asegurados, y que de ellos el 15% sufrió algún robo.
La probabilidad ahora del suceso S2 es: P(S2) = 0,85
64
Matemático y Filósofo austríaco (1883-1953).
65
Tomado de su libro Probabilidad, Estadística y Verdad (1928).
66
Kolmogoroff, Cantelli, Borel y otros.
67
Los axiomas son proposiciones intuitivas aceptadas sin demostración y que a partir de ellos pueden deducirse las
propiedades (teoremas).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 69
Propiedades (teoremas) 68
a) 0 P 1 (esta propiedad se deduce de los axiomas 1 y 2 y nos dice que la probabilidad
es un número positivo entre cero y uno)
b) P() = 0 (probabilidad del suceso imposible; se deduce de los axiomas 3 y 2)
__
c) P( A ) = 1 – P(A) (probabilidad del suceso complementario; se deduce de los axiomas 2 y 3)
d) si dos sucesos A y B no son excluyentes: P(AB) = P (A) + P(B) – P(AB)
Esta última propiedad puede comprobarse con apoyo del diagrama del segundo caso (página 3 de estas
notas), donde se vería que la simple suma P (A) + P(B) haría que la zona de intersección se sume dos
veces, por lo que hay que restarla una vez para que integre “sin preferencias” la unión.
TIPOS DE PROBABILIDAD
Probabilidad Total. En líneas generales, es la probabilidad del suceso resultante de aplicar la
operación unión a los sucesos A y B. Se representa:
P(AB)
y expresa la probabilidad de que ocurra uno u otro suceso indistintamente.
En particular, la probabilidad total más simple es la que resulta de contar los casos a favor de un
suceso y dividir por la cantidad de casos posibles. De las probabilidades calculadas en la página 4 de
estas notas, además de P(S1 S6) entran en el concepto de probabilidad total P(S1), P(S3), P(S4),
P(S5), P(S6) y P(S7). El tercer axioma se refiere al cálculo de la probabilidad total de la unión de
sucesos mutuamente excluyentes, y la cuarta propiedad del álgebra de las probabilidades, implica el
cálculo de la probabilidad total de la unión de sucesos no excluyentes.
Probabilidad Condicional. Mide la ocurrencia de un suceso B pero anotando que está condicionado por la
ocurrencia de otro A. Se la representa de la siguiente manera:
P(B / A)
donde la barra inclinada no es una operación, es una notación –notación de Keynes69– y donde el suceso A
representa la condición.
Expresa la probabilidad de que ocurra B, pero condicionado por la ocurrencia de A.
Para el ejemplo de la ruleta (ver el diagrama de Venn de la página 2 de estas notas) la probabilidad de que
la próxima jugada salga un rojo si (tal que, a condición de que) el resultado fuera par, es una condicional:
P(S6 / S1 ) = 9 casos favorables
18 casos posibles
Hay nueve casos favorables: que salga 8 o 12 o 14 o 16 o 18 o 30 o 32 o 34 o 36.
Y dieciocho casos posibles: los 18 elementos del suceso condición S1.
Probabilidad Compuesta. Es la probabilidad del suceso resultante de aplicar la operación intersección a
los sucesos A y B. Se representa:
P(AB)
Y expresa la probabilidad de que ocurran ambos sucesos a la vez, conjuntamente, simultáneamente.
Es una probabilidad conjunta o compuesta el caso P(S1 S6) de la página 4 de estas notas.
Si los sucesos A y B involucrados son independientes: P(AB) = P(A) . P(B)
Si los sucesos A y B involucrados no son independientes (supongamos que B depende de A):
P(AB) = P(A) . P(B/A)
donde P(A) es la probabilidad total del suceso condición.
Despejando la última expresión, se obtiene otra forma de calcular la probabilidad condicional:
68
Entre todas las propiedades deducibles a partir de los 3 axiomas, seleccionamos aquí las 4 más importantes.
69
J.M.Keynes (1883-1946). Economista inglés. Tratado sobre las probabilidades(~1933).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 70
P(B/A) = P(AB)
P(A)
Glosario
Experimento aleatorio o probabilístico o estocástico: es aquel experimento cuyos
resultados son aleatorios, es decir que pueden ocurrir o no.
Espacio muestral: espacio de los valores que pueden resultar del experimento aleatorios. Es
el espacio donde quedan representadas todas las muestras posibles de hacer en la población.
Suceso aleatorio: cualquier subconjunto del espacio muestral.
Probabilidad: es la medida de la ocurrencia de un suceso y se basa en su frecuencia relativa.
Equiprobabilidad: es la igualdad de oportunidad que tiene cualquier elemento de una
población, respecto de los otros elementos, de ser seleccionado para integrar una muestra.
CÁLCULO DE PROBABILIDADES
70
Tomado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 71
Tenemos, entonces, dos tipos de experimentos compuestos por repetición de uno simple: uno con
independencia entre repeticiones (que es el que realmente interesa en los trabajos de campo) y otro con
dependencia. Para cada uno de los dos casos, haremos un desarrollo por separado.
En la población de inscriptos en esa materia (655 alumnos) haremos una muestra de tamaño n=2. Para
describir el espacio muestral podemos ayudarnos con un diagrama de árbol, donde cada una de las ramas
representa a cada uno de los elemento compuestos del espacio muestral:
M T
T T
N T
El espacio muestral es: E = { MM, MT, MN, TM, TT, TN, NM, NT, NN }
En primera instancia trabajaremos con el modelo que más nos interesa, el de independencia entre las n
extracciones y para conseguirlo aquí recurrimos al recurso de reponer la unidad de observación tomada al
azar devolviéndola a la población. En el ejemplo, se repone al grupo el alumno seleccionado la primera
vez, y el árbol con probabilidades incluidas queda:
120 / 655 M
375 / 655 N
120 / 655 M
375 / 655 N
120 / 655 M
375 / 655 N
Como se ve, las probabilidades en la segunda extracción no cambiaron con respecto a las probabilidades
de la primera y por lo tanto hay independencia de la 2ª respecto de la 1ª. No perdamos de vista, que
reponer es sólo el recurso que tenemos aquí para trabajar sobre un modelo de independencia, porque en el
armado de muestras reales no se repone (no se le da la oportunidad a una misma persona de ser
entrevistada dos veces, si por azar vuelve a salir).
Las probabilidades que acompañan a la primera selección son probabilidades totales:
P(M1)=120/655=0,1832 P(T1)=160/655=0,2443 P(N1)=375/655=0,5725
También son totales, las probabilidades que acompañan la 2ª extracción, porque no hubo cambios.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 72
Las probabilidades de cada uno de los elementos del espacio muestral, son compuestas y se calculan así:
P(M1M2) = P( M1 M2 ) = P (M1) . P(M2) = 0,1832 x 0,1832 = 0,0336
P(M1T2) = P( M1 T2 ) = P (M1) . P(T2) = 0,1832 x 0, 2443 = 0,0448
P(M1N2) = P( M1 N2 ) = P (M1) . P(N2) = 0,1832 x 0, 5725 = 0,1049
375 / 654 N2
120 / 654 M2
375 / 654 N2
120 / 654 M2
374 / 654 N2
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 73
Las probabilidades que acompañan a la segunda selección son ahora probabilidades condicionales.
P(M2/M1) = 119/654 = 0,1820 P(T2/M1) = 160/654 = 0,2446 P(N2/M1) = 375/654 = 0,5734
P(M2/T1) = 120/654 = 0,1835 P(T2/T1) = 159/654 = 0,2431 P(N2/T1) = 375/654 = 0,5734
P(M2/N1) = 120/654 = 0,1835 P(T2/N1) = 160/654 = 0,2446 P(N2/N1) = 374/654 = 0,5719
El conjunto de todas las probabilidades compuestas que se calculan por afuera del árbol son:
P (M1M2) = P( M1 M2 ) = P (M1) . P(M2 / M1) = 0,1832 x 0,1820 = 0,0333
P (M1T2) = P( M1 T2 ) = P (M1) . P(T2 / M1) = 0,1832 x 0,2446 = 0,0448
P (M1N2) = P( M1 N2 ) = P (M1) . P(N2 / M1) = 0,1832 x 0,5734 = 0,1050
P (T1M2) = P( T1 M2 ) = P (T1) . P(M2 / T1) = 0,2443 x 0,1835 = 0,0448
P (T1T2) = P( T1 T2 ) = P (T1) . P(T2 / T1) = 0,2443 x 0,2431 = 0,0594
P (T1N2) = P( T1 N2 ) = P (T1) . P(N2 / T1) = 0,2443 x 0,5734 = 0,1401
P (N1M2) = P( N1 M2 ) = P (N1) . P(M2 / N1) = 0,5725 x 0,1835 = 0,1051
P (N1T2) = P( N1 T2 ) = P (N1) . P(T2 / N1) = 0,5725 x 0,2446 = 0,1400
P (N1N2) = P( N1 N2 ) = P (N1) . P(N2 / N1) = 0,5725 x 0,5719 = 0,3274
La siguiente tabla contiene el espacio muestral (1ª columna) y las probabilidades de sus elementos (2ª
columna):
MM 0,0333
MT 0,0448
MN 0,1050
TM 0,0448
TT 0,0594
TN 0,1401
NM 0,1051
NT 0,1400
NN 0,3274
Y las mismas preguntas anteriores, ahora concluyen así.
P (TT) = 0,0594
P (MM o MN o NM o NN) = P (MM MN NM NN) = P(MM) + P(MN) + P(NM) + P(NN) =
= 0,0333 +0,1050 +0,1051 + 0,3274 = 0,5708
Por su ubicación en la tabla, a las probabilidades totales se las llama también probabilidades marginales.
Además de preguntas que involucren probabilidades compuestas, con la tabla de contingencias podemos
ahora responder directamente las relativas a probabilidades totales:
- Si se toma un tipo de aceite al azar, ¿cuál es la probabilidad de que esté regulado por las
transnacionales?. Respuesta: P(Reg.) = 0,7500
- Si se toma un tipo de aceite al azar , ¿cuál es la probabilidad de que haya aumentado mucho?.
Respuesta: P(Mucho) = 0,7250
Por afuera de la tabla de contingencias, calculamos las probabilidades condicionales que se originan a
partir de preguntas tales como:
- Si tomamos un tipo de aceite al azar entre los regulados por las transnacionales, ¿cuál es la
probabilidad de que él haya aumentado mucho?. Respuesta:
P(Mucho / Reg.) = P ( Mucho Reg.) = 0,6750 = 0,9000
P(Reg.) 0,7500
- Si tomamos al azar un tipo de aceite y resultara que aumentó mucho, ¿cuál es la probabilidad de que él
esté regulado por las transnacionales?. Respuesta:
P(Reg./ Mucho) = P ( Mucho Reg.) = 0,6750 = 0,9310
P(Mucho) 0,7250
Si tenemos en cuenta que la variable Modo de Regulación puede ser considerada como la causa y la
variable Aumento como el efecto, se ve que la primera de las dos condicionales explora la probabilidad
del efecto (Mucho) a partir de una determinada causa (Regulado). A este enfoque de la probabilidad
condicional se lo considera clásico:
P ( efecto / causa) la condición es la causa
La segunda de las dos probabilidades condicionales, explora la causa (Reg.) a partir de la supuesta y previa
ocurrencia del efecto (mucho). Este enfoque se debe Thomas Bayes71 (1702-1761) y se llama precisamente
enfoque bayesiano o de la probabilidad condicional de las causas72:
P ( causa / efecto) la condición es el efecto
Problema73:
Se ha observado las frecuencias relativas –probabilidad– con que se producen accidentes en una autopista
71
Reverendo Thomas Bayes (1702-1761).
72
An Essay Towars Solving a Problem in the Doctrine of Chances (publicado póstumamente en1763, por R.Price).
73
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 75
–podemos suponer que en el relevamiento previo las unidades de observación fueron días y en una
determinada franja horaria– y sobre esa base también las frecuencias de los embotellamientos, tal como se
indica en el siguiente diagrama:
P(Embotellamiento) = 0,95
P(Accidente) = 0,2
P(No embotellamiento) = 0,05
P(Embotellamiento) = 0,15
P(No accidente)= 0,8
P(No embotellamiento) = 0,85
Cabe aclarar que la información del árbol podría haber sido dada en prosa, como sigue:
“Se ha observado frecuencialmente la probabilidad de que en un día cualquiera se produzca un accidente
en una autopista –podemos suponer que la unidad de observación fue el día– es del 20%. También se
observó frecuencialmente que en el 95% de los días con accidente hubo embotellamientos y que estos se
produjeron sólo en el 5% los días sin accidente”.
Nótese que a diferencia del ejemplo anteriormente desarrollado, en este problema la información con que
contamos y que está en el árbol consiste en probabilidades totales de las causas:
P(Accidente) = 0,20 P(No accidente) = 0,80
y probabilidades condicionales clásicas:
P(Embotellamiento / Accidente) = 0,95
P(No embotellamiento / Accidente) = 0,05
P(Embotellamiento / No accidente) = 0,15
P(No embotellamiento / No accidente) = 0,85
Hay que resaltar que ambas probabilidades se basan en observaciones de campo: fueron medidas. Y las
frecuencias relativas de campo se transformaron en probabilidades.
Leyéndolas simplemente, podemos decir que si tomamos un día cualquiera al azar (en esa franja horaria),
la probabilidad de que en él ocurra un accidente es de 0,20. O también que si en ese día ocurriera un
accidente, la probabilidad de que en consecuencia se produzca un embotellamiento es de 0,95.
¿Qué pasa si nos preguntamos por la probabilidad total de algún efecto?. Por ejemplo, para un día tomado
al azar, ¿cuál es la probabilidad de que haya embotellamiento?:
P(embotellamiento)
Como ella, las probabilidades totales de los efectos no son observaciones de campo. No están en el árbol.
Hay que calcularlas.
¿Y si nos preguntamos por una probabilidad condicional bayesiana?. Por ejemplo, si en un día tomado al
azar se detectara embotellamiento, ¿cuál es la probabilidad de que él haya sido causado por un accidente?.
Para nuestro caso, las probabilidades condicionales bayesianas no se desprenden de las observaciones de
campo. Hay que calcularlas.
A continuación vamos a construir una tabla de contingencias, calculando las probabilidades compuestas a
partir de las probabilidades totales de las causas y las probabilidades condicionales clásicas que están,
ambas, en el árbol.
Accidente
Accidente no accidente Total
Embotellamiento
embotellamiento 0,1900 0,1200
no embotellamiento 0,0100 0,6800
Total 0,2000 0,8000 1
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 76
Aquí las probabilidades totales de las causas 0,20 y 0,80 son transcriptas desde el árbol, y las conjuntas
fueron calculadas de la siguiente manera:
P(accidenteembotellamiento) = P(accidente) x P(embotellamiento/accidente) = 0,2 x 0,95 = 0,19
P(accidenteno embotellam.) = P(accidente) x P(no embotellam./accidente) = 0,2 x 0,05 = 0,01
P(no accidenteembotellam.) = P(no accidente) x P(embotellam./no accidente) = 0,8 x 0,15 = 0,12
P(no accidenteno embotell.) = P(no accidente) x P(no embotell./no accidente) = 0,8 x 0,85 = 0,68
Lo que primero podemos hacer con ellas es calcular las probabilidades totales de los efectos:
Accidente
accidente no accidente Total
Embotellamiento
embotellamiento 0,1900 0,1200 0,3100
No embotellamiento 0,0100 0,6800 0,6900
Total 0,2000 0,8000 1
Es decir:
P(embotellamiento) = P(accidenteembotellamiento) + P(no accidenteembotellamiento)
P(no embotellamiento) = P(accidenteno embotellamiento) + P(no accidenteno embotellamiento)
Repasando todo el camino realizado para llegar al 0,3100 por ejemplo, nos queda una expresión general
para calcular la probabilidad total de un efecto, a partir de las probabilidades totales de sus causas y de las
probabilidades condicionales de los efectos dadas las causas (clásicas):
P(embotell.) = P(accidente) x P(embotell./accidente) + P(no accidente) x P(embotell./no accidente)
Generalizando:
P(efecto) = P (causa i) x P(efecto / causa i) + P (causa j) x P (efecto / causa j) + P(causa k) x P(efecto / causa k)
Expresión del llamado Teorema de Bayes o Teorema de la probabilidad condicional de las causas74. Que
no es más que el cálculo que hicimos anteriormente, pero totalmente desagregado..
74
Bayes es el primero en expresar en forma cuantitativa uno de los modos de la inferencia inductiva. Es decir que el
enfoque bayesiano introduce el razonamiento inductivo dentro de la teoría de las probabilidades.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 77
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 78
ADENDA al cap.VIII
Cuadro resumen de probabilidades
E
los
B sucesos P(A B) = P(A B) =
A son DEPENDENCIA P(A / B) = 0
MUTUAMEN- FUERTE = P(A) + P(B) = P() = 0
TE
EXCLUYEN-
TES
E P(A B) =
INDEPENDEN- P(A / B) =
son CIA = P(A) . P(B) P(A)
A B NO P(A B) =
EXCLUYEN-
TES = P(A) + P(B)
P(A B) P(A B) = P(A / B) =
DEPENDENCIA = P(B).P(A / B) P(A B)
P(B)
E
uno
A incluye DEPENDENCIA P(A B) = P(A B) = P(A / B) = 1
B al FUERTE P(A) P(B)
otro
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 79
Una variable estadística cuantitativa puede transformarse en una aleatoria sin más trámite que
situarla dentro de un experimento aleatorio75. En cambio a una cualitativa deberá aplicársele algún
procedimiento o mecanismo que convierta sus categorías en valores numéricos. Por ejemplo, si
entre las 32 viviendas del barrio (consideradas en esta instancia como una población en sí misma y
cuyos datos están en el cuaderno I) tomamos una al azar, la variable cantidad de ambientes por
vivienda se transforma sin más en la v.a. X cuyo recorrido –todos los valores aleatorios que pueden
llegar a salir al tomar una vivienda al azar– es r(X): 1, 2, 3, 4, 5, 6 ambientes. Sus correspondientes
probabilidades no son más que las frecuencias relativas observadas anteriormente76 para cada uno de
los valores, que ahora son aleatorios. También adoptaremos las frecuencias acumuladas relativas
como probabilidades acumuladas.
Entonces: v.a.X: cuenta cantidad de ambientes para una vivienda tomada al azar en el barrio.
Calculamos y respondemos:
1) P(X=3) = h(3) = 0,25 (es una probabilidad puntual, es decir la probabilidad para un valor entero)
La probabilidad de que esa vivienda tomada al azar entre las 32 tenga 3 ambientes es del 25%.
2) P(X 3) = F(3) = 0,50 (es una probabilidad acumulada)
o también: P(X 3) = h(1) + h(2) + h(3) = 0,0938+0,1562+0,2500 = 0,50
La probabilidad de que esa vivienda tomada al azar entre las 32 tenga hasta 3 ambientes es del 50%.
3) P(X 3) = h(4)+h(5)+h(6) = 0,3438+0,1250+0,0312 = 0,50
o también: P(X 3) = 1 – P(X 3) = 1 – F(3) = 1 – 0,50 = 0,50
La probabilidad de que esa vivienda tomada al azar tenga más de 3 ambientes es del 50%.
4) P(2 < X 5) = F(5) – F(2) = 0,9688 – 0,25 = 0,7188
o también: P(2 < X 5) = h(3) + h(4) + h(5) = 0,25+0,3438+0,1250 = 0,7188
La probabilidad de que esa vivienda tenga más de 2 y hasta 5 ambientes es del 71,88%
Entonces:77
También podemos calcular algunas medidas tal cual lo hicimos en estadística descriptiva, por ejemplo
la media y el desvío estándar o la varianza.
La Media de la v.a. X ya no es un valor observado sino que es un valor esperado. En el “juego” de
los valores que pueden llegar a salir y sus correspondientes probabilidades “se espera” que la
vivienda seleccionada tenga 3,34 ambientes.
A la media esperada de una variable aleatoria se la llama ESPERANZA: E(X)
El concepto de “esperanza matemática” se debe a Christian Huygens (1629-1695), astrónomo y gran
físico teórico holandés. Fue él quien publicó el primer libro sobre probabilidades78.
Para representar cómo se la calcula, recordemos una de las formas de calcular la media observada de
una variable estadística (capitulo III), en particular: = Xi . fr
Reemplazando la variable por el recorrido y la frecuencia relativa por la función de probabilidad:
E(X) = r(X) . h(r)
Para el ejemplo que estamos viendo es:
E(X) = 1 . 0,0938 + 2 . 0,1562 +3 . 0,2500 + 4 . 0,3438 + 5 . 0,1250 + 6 . 0,0312 = 3,34 ambientes
Es decir: si tomamos una vivienda al azar entre las 32 relevadas, se espera que ella tenga 3,34 amb.
77
Las propiedades que se enuncian son válidas en cualquier experimento aleatorio, sea simple o compuesto.
78
“De ratiociniis in ludo aleae”(1657). Se le debe además, entre otros trabajos, el descubrimiento del anillo de Saturno y
su primer satélite (“Systema saturnium”, 1659) y la aplicación del péndulo en los relojes, cuya teoría desarrolla en el
“Horologium oscillatorium”(1673).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 81
Aunque la variable es discreta, es correcto tomar a la esperanza como un número real porque es un
indicador definido en el espacio de los números reales (este concepto ya se vio anteriormente).
En realidad en la práctica, con una calculadora de mano o con un programa utilitario como Excel, el
cálculo de la esperanza no difiere del que hacemos para la media observada. Simplemente hay que
usar las probabilidades, o las frecuencias relativas, en vez de las frecuencias absolutas. Ídem para el
desvío estándar DS(X), que al utilitario o a la calculadora debe pedírselo como poblacional.
El cálculo de la varianza es: V(X) = E(X²) – [E(X)]²
O también, si ya se cuenta con DS(X), puede calcularse así: V(X) = DS²(X)
El gráfico para la función de probabilidad h(r) de esta variable aleatoria es el mismo gráfico de
bastones que se hizo en el capítulo II para una variable estadística discreta. Difiere nada más en que
se debe consignar h(r) con su correspondiente escala, en lugar de la frecuencia f o f% o fr.
El gráfico para la función de distribución F(r) es un gráfico de escalones construido tal cual se lo
hizo en el capítulo II, usando ahora exclusivamente las frecuencias acumuladas relativas, es decir, las
probabilidades acumuladas.
__________________________________
Veamos ahora una variable estadística cualitativa inserta en un experimento aleatorio, para cual
deberíamos diseñar ahora una variable aleatoria. Ejemplo: turnos de inscripción en la materia
Estadística (ver capítulo VIII).
Las categorías observadas anteriormente (M, T, N) no son números. Mediante un simple mecanismo
–contar– convertiremos categorías cualitativas en valores cuantitativos. La variable aleatoria que
diseñamos para ese fin contará cantidad de alumnos inscriptos a la tarde (T), por ejemplo, para un
alumno seleccionado al azar:
x : cuenta cantidad de “T” para un alumno tomado al azar
El recorrido de esta variable es: r(x) : 0 , 1
porque la variable contará cero si el alumno seleccionado al azar estuviera inscripto de mañana o
de noche, y contará uno si estuviera inscripto a la tarde.
Y los valores correspondientes de la función de probabilidad son:
h(0) = P(x=0) = P(M o N) = P(M N) = P(M) + P(N) = 120/655 + 375 / 655 = 495 / 655 = 0,7557
Esta cuenta se hace aplicando el 3er axioma del
álgebra de las probabilidades, porque los sucesos M y N son mutuamente excluyentes.
h(1) = P(x=1) = P(T) = 160 / 655 = 0,2443
El experimento que se hizo se llama ensayo de Bernoulli 79. Es un experimento simple y tiene sola-
mente dos resultados llamados éxito uno y fracaso el otro. En el caso desarrollado, se eligió como
éxito a Tarde –y por lo tanto fracaso es No Tarde– y la variable x es una variable de Bernoulli.
La variable aleatoria de Bernoulli cuenta cantidad de éxitos al seleccionar al azar un solo elemento
de la población.
79
Santiago Jacobo Bernouilli o Bernoulli (1654-1705), matemático suizo de origen belga. Entre otras cosas fue quien usó
por primera vez la palabra “integral” y escribió el “Ars conjectandi” sobre el cálculo de probabilidades.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 82
80
Comparando esta esperanza con la del experimento simple anterior, puede verificarse que:
E(X) = n.E(x) = 2x0,2443 = 0,4886. Ésta, entre otras, es una propiedad de la Esperanza.
80
Estas propiedades son válidas también para las v.a.continuas que se tratarán en el capitulo X.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 83
Problema81: Con el propósito de verificar la exactitud de sus estados financieros, las compañías tienen
auditores permanentes para verificar los asientos contables. Suponiendo que los empleados de una
compañía efectúan asientos erróneos en el 6% de las veces. Si un auditor verifica dos asientos al azar:
a) Describir el espacio muestral correspondiente al experimento.
Si los resultados de las verificaciones son independientes entre sí:
b) Calcular los valores de la función de probabilidad, fundamentando cada cálculo en los axiomas y
teoremas del álgebra de probabilidades y las propiedades de las probabilidades compuestas.
c) ¿Cuántos errores se espera encontrar en esas dos verificaciones?.
d) ¿Cuál es la probabilidad de que el auditor encuentre como mínimo un error?
a)
0,06 e
0,06 e
0,94 n
E = ee,en,ne,nn
0,06 e
0,94 n
0,94 n
81
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 84
de que ambas representan “inconvenientes” para el funcionamiento normal del tránsito por la
autopista.
En esas condiciones podemos diseñar una variable aleatoria X que “cuente” cantidad de
inconvenientes que pueden presentarse un día cualquiera tomado al azar en la misma franja horaria
(prescindiendo, como si no existieran, otros tipos de inconvenientes distintos de esos dos), y cuyo
recorrido r(X) sería: 0, 1, 2.
Rescatando la tabla de contingencias que se elaboró en el capítulo VIII para estas dos variables:
Accidente ___
h(0)=P(X=0)=P(AE ) = 0,68
___ ___
Inspect.A Inspect.B
0,07 b
0,02 a _
0,93 b
_ 0,07 b
0,98 a _
0,93 b
82
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 85
___
Inspector B No Aprueba ( b )
Aprueba ( b ) Total
Inspector A
Aprueba ( a ) 0,0014 0,0186 0,02
___
h(1)=P(X=1)= P(a b , a b) = P(a b) + P(a b) = 0,02 x 0,93 + 0,98 x 0,07 = 0,0186 + 0,0686 = 0,0872
h(2)=P(X=2)= P(a b) = 0,0014
Respuestas:
P(X 1) = 1 – h(0) = 0,08860,09
E(X) = 0 x 0,9114 + 1 x 0,0872 + 2 x 0,0014 = 0,09 aprobaciones 0,1 aprobaciones
Se espera que un restaurante que esté violando el código sanitario tenga 0,1 aprobaciones en dos
inspecciones independientes y hay una probabilidad de 9% de que por lo menos una inspección lo
apruebe .
___________________________________________
Problema83: Se toma al azar un estudiante entre los 300 que cursan el primer año de la Licenciatura en
Administración. Los inscriptos en Contabilidad son 200 en total, en Matemática totalizan un número
de 100 estudiantes y se constató que hay 30 que están inscriptos en ambas materias.
X: cuenta la cantidad de inscripciones, en las materias nombradas, que pudiere tener un estudiante
tomado al azar entre los 300 que cursan el primer año de la Licenciatura en Administración.
#C = 200 E
#M = 100 C
#(CM) = 30 M
170
30 30 70
#(CM) = #C + #M – #(CM) = 270
#(CM) = 30
h(0) = 30/300 = 0,10
h(1) = 170+70 = 0,80
300
h(2) = 30/300 = 0,10
E(X) = 1 materias
Se espera que un estudiante tomado al azar esté inscripto en 1 de esas materias y hay una
probabilidad del 90% de que esté inscripto en por lo menos una de las dos.
__________________________________
Todas las distribuciones de probabilidades vistas hasta aquí, deben ser consideradas distribuciones
empíricas, lo que indica que tenemos que contar siempre con la lista completa de los valores que toma
la función de distribución para cada uno de los valores de la v.a..
83
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 86
En lo que sigue, trataremos con modelos de distribución de probabilidades, que son la resultante de
identificar primero las características que tienen en común fenómenos en apariencia distintos, y luego
formular un paquete de fórmulas que, entre otras cosas, permitan calcular directamente el valor de la
función de probabilidad que nos interese, prescindiendo del listado completo como ocurría con las
distribuciones empíricas.
Un modelo probabilístico tiene dos componentes:
La componente conceptual: interpreta y describe las características comunes a fenómenos en
apariencia distintos, y
La componente matemática: comprende un grupo de fórmulas (función de probabilidad, cálculo
directo de la esperanza y la varianza sin depender del listado de todos los valores de la función de
probabilidad, etc.), que abrevian los largos cálculos ligados a las distribuciones empíricas.
DISTRIBUCIÓN BINOMIAL
Repitiendo 2 o más veces –con independencia– un ensayo de Bernoulli (ver pág.81) estamos en
presencia de un experimento compuesto llamado experimento Binomial 84.
Dentro de un experimento binomial pueden definirse más de una variable aleatoria, con sus
correspondientes distribuciones de probabilidad, cumpliendo distintos roles dentro del mismo
experimento. Ellas son las v.a. binomial, v.a. geométrica y v.a. de Pascal (o binomial negativa).
La variable aleatoria binomial cuenta “éxitos” en n repeticiones independientes de un ensayo de
Bernoulli.
Los problemas desarrollados anteriormente: dos alumnos tomados al azar y verificación de dos
asientos contables, son experimentos binomiales:
fracaso: T
probabilidad de éxito: P = 0,2443 probabilidad de éxito: P = 0,06
probabilidad de fracaso: 1-P= 0,7557 probabilidad de fracaso: 1-P = 0,94
cantidad de verificaciones: n = 2 cantidad de verificaciones: n = 2
Llamando r a un valor puntual del recorrido, cada una de las probabilidades puntuales dadas por la
función de probabilidad pueden calcularse separadamente mediante la siguiente fórmula binomial:
r n–r
P(X=r) = h(r) = nCr . P . (1 – P)
Donde el número combinatorio nCr calcula la cantidad de combinaciones de n elementos tomados de
a r, es decir que cuenta la cantidad de subgrupos de tamaño r que pueden armarse a partir de n
elementos.
Para calcular alguna probabilidad necesitamos, sí o sí, conocer la probabilidad de éxito en cada ensayo
simple y la cantidad de repeticiones independientes de ese ensayo.
La esperanza y la varianza –y en consecuencia el desvío estándar– de una variable aleatoria binomial
son respectivamente:
84
O esquema de Bernoulli o esquema de las pruebas dicotómicas repetidas con probabilidad constante (es decir con
independencia entre las repeticiones). Estudiado sistemáticamente por Santiago Jacobo Bernoulli.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 87
_________________
E(X) = n . P V(X) = n . P . (1-p) DS(X) = n . P . (1-P)
Con la fórmula binomial y la expresión de la esperanza de una v.a. binomial, puede verificarse
rápidamente lo calculado anteriormente. Y además calcular el desvío estándar. Por ejemplo, para el
caso de los de asientos:
__________________________
DISTRIBUCIÓN DE POISSON
Proceso aleatorio poissoniano o proceso de Poisson.- Es un proceso aleatorio de naturaleza binomial
donde los “éxitos” ocurren en el transcurso del continuo y “fracaso” es la no ocurrencia de éxito85.
Lo que caracteriza a un determinado proceso de Poisson es la intensidad media () de ocurrencias de
éxito en la unidad del continuo. Tal intensidad media fue observada con anterioridad y debe
considerársela como la cantidad esperada de éxitos por unidad del continuo. Ello, mientras dicho
proceso sea ergódico86,.
Diferentes sólo indicarían procesos poissonianos distintos.
En un proceso aleatorio poissoniano puede definirse una variable aleatoria discreta (que se analizará a
continuación) y más de una variable aleatoria continua (una de las cuales se verá en el capítulo X).
85
En un experimento binomial propiamente dicho, los fracasos sí pueden ocurrir.
86
Que un proceso aleatorio sea ergódico significa que las frecuencias relativas observadas con anterioridad pueden usarse
como probabilidades. Ver nota al pie en la primer página de este capítulo.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 88
Variable aleatoria de Poisson. Es una variable discreta y cuenta la cantidad de “éxitos” que podrían
ocurrir en un cierto intervalo continuo, durante un proceso de Poisson.
La probabilidad P(X=r) de que sucedan r éxitos en un intervalo t dado:
.t
P(X=r) (.t) . e
r
- depende únicamente de la longitud (t) del intervalo considerado:
r!
- no depende de la ocurrencia de éxitos en alguno de los intervalos precedentes87,
- ni del lugar del continuo donde se ubique dicho intervalo88;
.t es la cantidad esperada E(X) de éxitos en el intervalo de longitud t y constituye el parámetro ()
de la distribución de Poisson:
E(X) =.t
Para intervalos de diferente longitud t habrá distintas distribuciones de probabilidad, cada una con su
propio todas dentro de un mismo proceso caracterizado por
h(r) = P(X=r) . e
r
La función de probabilidad se expresa, entonces, así:
r!
Lo particular de esta v.a. es que su varianza también es: V(X)
_____________________________________________________
Problema: Una distribuidora mayorista metal–mecánica comprobó que para cierta maquinaria recibe,
3 pedidos de embarque cada 5 días hábiles en promedio (= 3/5 = 0,6 pedidos/día).
A lo largo de los días, pueden pasar dos cosas: que haya pedidos (éxito) o que no haya (fracaso). El
proceso es de naturaleza binomial y se desarrolla a lo largo del tiempo (el continuo). Es un proceso
de Poisson caracterizado por un = 0,6 pedidos/día.
a) ¿Cuál es la probabilidad de que en los próximos 10 días hábiles , se reciban 5 pedidos?.
= . t = 0,6 pedidos/día . 10 días = 6 pedidos
h(5) = P(X=5) = 65 . e– 6 / 5! = 0,1606
b) ¿Cuántos pedidos se espera que haya en esos próximos 10 días?.
E(x) = 0,6 pedidos/día . 10días = 6 pedidos
Se esperan 6 pedidos para los próximos 10 días hábiles.
c) En esos 10 próximos días hábiles, ¿con qué probabilidad habrá como mínimo 3 pedidos?.
P(X3) = 1–P(X<3) = 1–[ h(0) + h(1) + h(2)] = 1–[0,0025 + 0,0149 + 0,0446] = 0,9380
87
Así se manifiesta aquí la independencia estadística presente en todo experimento de naturaleza binomial, e implica que
cualquier suceso en el presente intervalo tampoco condiciona a los sucesos que puedan ocurrir en intervalos sucesivos.
88
Esto define para un proceso aleatorio, su calidad de estacionario.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 89
Glosario:
Variable aleatoria o estocástica: es aquella que en un experimento aleatorio asigna un
número a cada resultado del mismo.
Variable aleatoria discreta: asigna un número entero a cada resultado aleatorio.
Función de probabilidad: asigna una probabilidad a cada valor de una v.a. discreta.
Función de distribución: asigna una probabilidad acumulada a cada valor de una v.a.
Variable aleatoria continua: asigna un número real a cada resultado aleatorio.
Experimento de Bernoulli: experimento aleatorio simple que tiene solo dos resultados y
donde se conviene en llamar éxito a uno y fracaso al otro.
Experimento binomial: es un experimento compuesto por repetición de un experimento
simple de Bernoulli y donde las n repeticiones son independientes.
Variable aleatoria binomial: cuenta éxitos en n repeticiones independientes de un
experimento de Bernoulli.
Proceso aleatorio de Poisson: es un proceso de naturaleza binomial donde los éxitos
ocurren a lo largo del continuo y fracaso es la no ocurrencia de éxito.
Variable aleatoria de Poisson: cuenta éxitos en intervalos continuos.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 90
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 91
La función de densidad puede verse, en principio, como la envolvente del histograma poblacional
tanto en distribuciones empíricas como en distribuciones que responden a modelos poblacionales.
La expresión de la Función de distribución acumulativa de una v.a. continua es:
a
F(a) = P(X<a) = P(Xa) = ∫ x.f(x).dx
-∞
Que puede razonarse como una transcripción de la F(X) de una v.a.discreta, adaptada al “ambiente” de
una v.a. continua. El símbolo de suma discreta es reemplazado por la notación ideada por
G.W.Leibniz 89 para la suma continua ( ∫ )90. La función de probabilidad discreta es reemplazada por
una superficie infinitesimal de probabilidad expresada por el cálculo: f(x).dx.
Esperanza y varianza de una v.a. continua.
A partir de la expresión de la esperanza de una v.a. discreta (ver capítulo anterior), vamos a transcribir
los elementos que participaron en aquella, pero adaptándolos.
+∞
E(X)= ∫ x.f(x).dx
-∞
-∞ -∞
Las propiedades de la E(x) y la V(x) son las enunciadas en el capítulo anterior para las v.a.discretas.
____________________________________
En el segundo caso, distribución exponencial, la función de densidad no está respaldada por una
distribución poblacional (porque no hay población exponencial) por lo que la estrategia del cálculo de
probabilidades cambia respecto del modelo anterior.
89
Leibniz Gottfried Wilhelm (1647-1716) es considerado, desde una visión eurocéntrica, el último sabio universal de la
historia de la humanidad. Sus contribuciones abarcaron todas las ramas del saber, desde la lógica, la filología y el derecho,
hasta la teología y el diseño de un submarino y una calculadora mecánica.
90
En 1675, Leibniz utilizó por primera vez el símbolo ∫ que hoy empleamos para denotar la integral y que constituye una
estilización de la notación S que inicialmente usó para denotar la suma continua, diferenciándola de la suma discreta .
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 92
DISTRIBUCIÓN NORMAL
Se debe a K.F.Gauss quien la desarrolló en el marco de ciertos estudios astronómicos y geodésicos.
Puede llegarse a la expresión analítica de la función de densidad normal por un procedimiento
deductivo que consiste en tomar la función de probabilidad binomial –siendo P 1-P, es decir
probabilidad de éxito aproximadamente igual a la probabilidad de fracaso– y llevándola al límite para
n (es decir para un número muy grande de repeticiones):
Lím. [función de probabilidad binomial h(r)] = función de densidad normal f(X)
n
P=1-P
Gráficamente esa ida al límite91 puede verse así:
n=8 n = 16 n=
La simetría de los dos gráficos de bastones se debe a que P = 1-P = 0,5092.
Detrás de cualquier curva normal hay que imaginarse una población normal con media y desvío
estándar .
Las preguntas que ahora nos hacemos son del tipo:
P(X < k) = (área debajo de la curva normal desde – hasta el punto k) = F(k)
Y como el punto k no aporta probabilidad (k es un número real), también es:
P(X k) = P(X k) = F(k)
Problema 93:
El tiempo de servicio que requiere un determinado trámite por persona en una caja bancaria tiene una
media de =130 segundos y un desvío estándar de = 43 segundos. Como, idealmente, toda la
población de personas que realizan ese trámite deberían tardar lo mismo y por supuesto que en la
realidad no va a ser así, es razonable considerar que los tiempos tengan distribución Normal
a) ¿Cuál es la probabilidad de que una persona elegida al azar requiera menos de 100 seg. para hacer
ese trámite?: P(X<100 seg.) = 0,2427
Si se usa la tabla de la función acumulativa de la variable normal estándar Z, se debe estandarizar
primero. El cálculo es en ese caso: P(X<100) = P(Z < 100 – 130 ) = P(Z < - 0,70) = 0,2420
43
b) ¿Cuál es la probabilidad de que una persona elegida al azar tarde entre 2 y 3 minutos?:
P(120seg.<X<180seg.) = P(120 – 130 < Z < 180 – 130) = P(-0,23<Z<1,16) = F(1,16) – F(-0,23) =
43 43
= 0,8770 – 0, 4090 = 0,4680
c) Si llega a la caja una persona que dispone de como máximo 3 minutos para hacer el trámite, ¿cuál
es la probabilidad de que tarde más de 2 minutos?.
91
En rigor, en la h(r) binomial se reemplaza la variable X por la variable X/n, y es con ésta con la que se va al límite.
92
Si P≠1-P≠0,50 los primeros gráficos de bastones serán más asimétricos pero inexorablemente, aunque más lentamente y
para n>100, el proceso de ida al límite nos devolverá una curva Normal, como puede apreciarse en:
http://www.youtube.com/watch?v=PUydiGzSPTE&feature=fvwrel
93
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 93
El suceso que interesa estudiar es que tarde más de 2 min. para ese trámite, pero con la condición de
no pasarse del tiempo de que se dispone (condición: tardar menos de 3minutos).
P(X>120 seg. / X < 180 seg.) P(X>120 seg. X < 180 seg.) P(120 seg. < X < 180 seg.)
P( X < 180 seg.) P( X < 180 seg.)
Aquí se convierte un suceso
compuesto (X>120 seg. X < 180 seg.) en uno simple (120 seg. < X < 180 seg.), a partir de la
relación de identidad entre ambos sucesos.
94
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 94
P(X>577,74 puntos / X > 485 puntos) P(X>577,74 X > 485) P(X>577,74)
P( X > 485 ) P( X > 485 )
Explotando nuevamente
la relación de identidad entre sucesos, el suceso compuesto (X>577,74 X > 485) se reduce al
suceso simple (X>577,74), siendo que éste está incluido en aquél.
P(X>577,74) 0,06 0,06 0,0971
1–P(X<485 puntos) 1 – 0,3820 0,6180
Los que calificaron para un puesto de responsabilidad, representan el 9,71% de los que entran a
trabajar en la empresa.
DISTRIBUCIÓN EXPONENCIAL
Dentro de un proceso de Poisson –caracterizado por un cierto – es posible diseñar una variable
aleatoria continua, que mida el intervalo transcurrido entre dos éxitos, es decir desde que suceda uno
hasta que ocurra, aleatoriamente, el siguiente. Desde un valor cero inicial en coincidencia con el
primer éxito, ella recorrerá valores reales aleatorios que miden el continuo hasta el siguiente éxito,
punto en el cual el experimento terminará. La idea puede extenderse a experimentos que no
comiencen con un éxito, pero que sí concluyan con uno. En estos casos el cero corresponde al inicio
del experimento, y él finaliza cuando ocurra éxito
El experimento así definido y la nueva variable que él genera, llevan el nombre de exponencial.
Particularidades del experimento exponencial.
Repasando la forma en que se definió el experimento exponencial vemos que todo ocurre entre dos
éxitos ó entre el inicio del experimento y el éxito. En ninguna instancia aparece una colección de
medidas con la cual elaborar un polígono de frecuencias relativas y cuya curva límite pueda ser,
definición frecuencial de probabilidad mediante, una función de densidad de probabilidad.
Es decir que no hay población exponencial que respalde la función de densidad exponencial, a
diferencia de la función de densidad normal, por ejemplo, que sí tiene detrás la distribución de una
población normal.
En el espacio muestral hay sólo dos sucesos aleatorios: X<t (que éxito ocurra antes que t) y X>t (que
éxito ocurra luego de transcurrido t) y son mutuamente excluyentes. Dentro del mismo experimento
cualquier otro suceso, distinto de los dos señalados, es imposible.
En consecuencia no hay sucesos compuestos y por lo tanto no hay probabilidades conjuntas95.
Tampoco puede existir un suceso como condición previa de otro96. La ocurrencia de un suceso elegido
forzadamente como condición implicaría el fin del experimento y, en todo caso, el estudio del otro
suceso correspondería a un nuevo experimento exponencial. Por lo tanto no hay probabilidades
condicionales97.
Función de distribución y función de densidad.
Conceptualmente, entonces, no podríamos buscar la función de densidad exponencial a partir de
encerrar con una curva una población exponencial que no existe. El camino que haremos para
conseguir una función de densidad será indirecto –aunque sin salir del proceso poissoniano– a través
de la distribución discreta de Poisson.
95
Lo que puede formalizarse matemáticamente como: P(X<t X>t) = 0 ó P(X<t ) = 0 ó P(X>t ) = 0.
96
Cuando se interpreta una probabilidad condicional en términos frecuenciales, el suceso condición es en realidad un
subconjunto de la población; como ésta no existe en el experimento exponencial tampoco hay tal subconjunto de ella, es
un suceso imposible.
97
Lo que puede formalizarse matemáticamente como: P(X<t / X>t) = 0 ó P(X<t /) = ó P(X>t /) =
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 95
f(x)
0 X
= éxitos .
unidad del continuo
Operando sobre él: . = / éxitos = 1 éxito .
1 / unidades del continuo 1/ unidades del continuo
El denominador de la última expresión puede leerse como un valor esperado: se espera medir 1/ del
continuo hasta la ocurrencia del éxito. Como la v.a. exponencial mide el continuo hasta que ocurra
éxito, entonces 1/ es su valor esperado. Es decir:
E(x) = 1/
donde E(x) se expresa en unidades del continuo.
Veamos ahora un par de aplicaciones distintas con sus respectivas soluciones.
_____________________________________________________________________________________________
Como distribución de los tiempos de espera, la exponencial puede aplicarse a problemas de rotación
de inventario donde el experimento comienza a partir de un pedido (éxito) y luego la variable recorre
los valores aleatorios del tiempo en que puede ocurrir el siguiente (éxito) pedido.
Problema 1. Una distribuidora mayorista comprobó que cada 5 días hábiles recibe en promedio 3
pedidos de embarque de cierto artículo (= 3 pedidos/5 días = 0,6 pedidos/día).
a): teniendo en cuenta que el tiempo para reponer un embarque en depósito es de 1 día, despachado un
pedido ¿con qué probabilidad el siguiente llegará después de ese lapso?
Solución: P(X>1día) = e– 0,6 x 1 = 0,5488
b): siendo el tiempo medio esperado entre pedidos: E(X) = 1/= 1,67 días, ¿con qué probabilidad el
siguiente pedido será antes de lo esperado?.
Solución: P(X<1,67 días) = 1 – e– 0,6 x 1,67 = 0,6328
c): con una probabilidad de 0,90 ¿de cuánto tiempo se dispone entre dos pedidos?
Solución: P(X>t) = e– 0,6 x t = 0,90 t = ln 0,90 / –0,6 = 0,18 días
d): Habiendo despachado un pedido, ¿con qué probabilidad el siguiente llegará entre 1 y 2 días
después?.
Solución: P(1día<X<2días) = F(2) – F(1) = (1– e–0,6 x 2) – (1– e– 0,6 x 1) = e– 0,6 x 1 – e–0,6 x 2 = 0,2476
_______________________________________________________________________________________
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 97
Media:
Varianza: s² ²
La teoría del muestreo es precisamente el estudio de las relaciones existentes entre los parámetros
poblacionales y sus estimadores (los estadísticos muestrales).
98
La reposición será sólo un recurso “de laboratorio” para asegurarnos la independencia. En general, las muestras tomadas
“en la calle” son sin reposición, pero está presente la independencia entre extracciones: en una encuesta nos aseguramos
que la respuesta que nos da una persona tomada al azar no esté influenciada por la respuesta de otra que entrevistamos
anteriormente ni que influya sobre la próxima que vamos a entrevistar, pero por otro lado no le preguntamos dos o más
veces a la misma persona, aunque el azar la haya elegido así. Es decir que el mecanismo es estrictamente sin reposición y
con independencia.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 98
Es el conjunto de todas las muestras posibles de tamaño 2 que pueden extraerse de esa población y se
refiere a todo lo que puede pasar cuando, experimento aleatorio compuesto mediante, se obtenga una
muestra de 2 elementos de la población original. Esto lo hacemos pensando en que si la población (de
cuatro números: 3, 4, 5 y 6) fuera desconocida y de ella extrajéramos aleatoriamente una muestra de
tamaño 2, esta sería indefectiblemente una de las contenidas en el espacio muestral.
Dentro del experimento compuesto, podemos definir más de una variable aleatoria. La primera que
se nos ocurre es una, a la sazón binomial, que X: “cuenta” pares entre los resultados del espacio
muestral. Esta v.a. mantiene la estructura constructiva que empleamos anteriormente (ver capítulo IX),
pero también podemos pensar otras variables aleatorias que siguen otros diseños, por ejemplo:
v.a.p (pares):”calcula la proporción de pares” entre los resultados del espacio muestral.
v.a.: “calcula la media” de los resultados del espacio muestral.
v.a.s²: “calcula la varianza” de los resultados del espacio muestral.
E X p (pares) s²
3 3 0 0 3 0
3 4 1 0.50 3.5 0,50
3 5 0 0 4 2
3 6 1 0.50 4.5 4.50
4 3 1 0.50 3.5 0,50
4 4 2 1 4 0
4 5 1 0.50 4.5 0.50
4 6 2 1 5 2
5 3 0 0 4 2
5 4 1 0.50 4.5 0.50
5 5 0 0 5 0
5 6 1 0.50 5.5 0.50
6 3 1 0.50 4.5 4.50
6 4 2 1 5 2
6 5 1 0.50 5.5 0.50
6 6 2 1 6 0
En la muestra {5 4}, por ejemplo, mientras la v.a. binomial X cuenta 1 par, la v.a. proporción
muestral calcula 0.50 (o 50%), la v.a. media muestral calcula 4.5 y la v.a. varianza muestral calcula
0.50.
Cada una de estas nuevas variables aleatorias tiene su distribución y sus respectivos parámetros
(esperanza y desvío estándar). Así tendremos:
r(p) f h(r)
0 4 0.25 p = E(p) = 0.50
0.5 8 0.50 p = D.S.(p) = 0.3536
1 4 0.25
n = 16 1
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 99
r() f h(r)
3 1 0.0625
3.5 2 0.1250 = E() = 4.50
4 3 0.1875 = D.S.() = 0.79
4.5 4 0.2500
5 3 0.1875
5.5 2 0.1250
6 1 0.0625
n = 16 1
r( s²) f h(r)
0 4 0.250
0.5 6 0.375 s² = E(s²) = 1.25
2 4 0.250
4.5 2 0.125
n = 16 1
Podemos hacernos preguntas similares a las que nos hacíamos en los capítulos IX y X en relación con
las variables aleatorias tratadas en esa oportunidad, pero ahora referidas a estas nuevas v.a., por
ejemplo:
- ¿cuál es la probabilidad de que la media de la muestra sea menor que 4.3?:
P( < 4.3) = 0.0625 + 0.1250 + 0.1875 = 0.3750
- ¿cuál es la probabilidad de que la proporción de pares en la muestra sea menor que 0.6?:
P(p < 0.6) = 0.25 + 0.50 = 0.75
Propiedades.- A continuación verificaremos algunas propiedades que relacionan los parámetros de
las nuevas variables aleatorias p, y s² con los parámetros P, y ² de la población original.
*
__________
p = E(p) = P p = D.S.(p) = P (1-P) / n
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 100
_ ________________ ____________________
Nuevamente traemos: P = 0.50 y P (1-P) / n = 0.50 x 0.50 / 2 = 0.3536, y los cotejamos con los
parámetros p = 0.50 y p = 0.3536 obtenidos al procesar la v.a. p.
*
s² = E(s²) = ²
________________ ____________________
Ídem, traemos ²= 1.25 de la primera página y lo cotejamos con s² = E(s²) = 1.25 obtenido en el
procesamiento de la v.a. s².
A los desvíos estándar de estas nuevas variables aleatorias se los llama también error estándar.
Las propiedades anteriores fueron verificadas para una población muy chica y muestras chicas, pero
se cumplen también para grandes poblaciones y muestras grandes.
¿Qué pasa si contamos con grandes poblaciones y por lo tanto podríamos hacer muestras también
grandes?.
A continuación veremos un importante teorema, que nos permitirá extender hacia escalas más grandes
las verificaciones y las preguntas sobre probabilidades que nos hicimos en una escala pequeña.
Teorema central del límite.-
En el gráfico que sigue superpondremos las distribuciones de la v.a. X de la población original y la
v.a. de nuestro ejemplo:
f
4 _
3 _
_
2
1 _
| | | | | | | | |
3 4 5 6 X
Si bien las variables son aleatorias y el eje vertical debería tener h(r), se usaron las frecuencias
absolutas para resaltar el efecto gráfico que está a la vista.
Lo que se aprecia muy fácilmente es como se “levanta” la distribución de la v.a. respecto de la v.a.
X, lo que se vería en forma mucho más contundente si las muestras fueran grandes (por supuesto
tomadas de una población grande).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 101
Ese efecto es un primer paso hacia un “acampanamiento” gaussiano de la distribución de las , el cual
es descrito por un teorema llamado teorema central del límite99 que dice lo siguiente:
Cualquiera sea la distribución de la población original, para muestras grandes (n>30) la distri-
bución de la v.a. media muestral tiende a una distribución normal con parámetrosy
n
X
Como se ve, la población original X es una población con una distribución empírica no normal, y sin
embargo es normal la distribución de las medias de todas las muestras (n>30) que potencialmente
se pueden hacer. Y lo que queda a la vista, es la versión gráfica del teorema central del límite.100
Si la población original fuera normal, el teorema central del límite se vería gráficamente así:
X
Esta última versión, grafica de una forma mejor que la anterior, la propiedades verificadas en la
página 98, es decir que las dos curvas están centradas y que la dispersión de las es menor que la
dispersión de las X.
Problema101:
Se hará una muestra entre las 1.000 cuentas de una entidad bancaria, tomando aleatoriamente 36 de
ellas. Si el valor promedio depositado de todas las cuentas es de $2200 con un desvío de $360.
¿Cuál es la probabilidad de que la media muestral:
a) sea inferior a $2150?
b) se encuentre entre $2100 y $2300.
Por las propiedades que se verificaron anteriormente, la media de la v.a. es y su desvío estándar
es: = 360 = 60 $
n 36
a) P( < 2150$) = P(Z < 2150 – 2200) = P(Z < – 0.83) = 0.2033
60
99
Se presenta aquí la versión clásica o canónica –esencialmente inductiva– de este teorema. Ver también:
http://www.youtube.com/watch?v=xZmFqLHIFJk
100
Una formalización deductiva de este teorema, fue hecha por el físico y matemático ruso A. Liapunov (1857-1918).
101
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 102
________
P (1-P) / n
P p
Problema102:
Una inmobiliaria de Santa Fé ha cambiado su política de alquileres introduciendo una opción de
alquiler a sola firma –sin garante– y actualmente el 55% de los departamentos que ofrece tienen esa
modalidad. Del archivo de alquileres de la inmobiliaria se tomó una muestra aleatoria de 180 fichas.
¿Cuál es la probabilidad de que la proporción de inquilinos sin garante esté comprendida entre el 48%
y el 60% ?.
P(0,48 < p < 0,60) = P( 0,48 – 0,55 < Z < 0,60 – 0,55 ) = P( – 1.88 < Z < + 1.35) =
0,55x0,45/180 0,55x0,45/180
102
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 103
0 s² ²
Esta distribución se llama Chi-cuadrado ² y fue descubierta en 1876103 por el geodesta y astrónomo
alemán Friedrich R. HELMERT (1843-1917) en el marco de sus investigaciones sobre las variaciones
del campo geopotencial terrestre. A posteriori (1900) Karl Pearson introdujo la notación que se usa
hasta hoy, hizo importantes aplicaciones a la biometría y desde su revista Biometrika, a partir de 1901,
la difundió entre las demás ciencias.
Su parámetro son los grados de libertad Trabajando con una sola variable (estadística univariada)
los grados de libertad (g.l) son = n-1, así que para distintos tamaño de muestra, tendremos distintos
grados de libertad y distintas curvas. Hay una familia de curvas ², que se aplican a distintos tamaño
de muestra, en rigor distintos grados de libertad. Todas comienzan en cero (porque obviamente no hay
varianzas negativas) y terminan en infinito. Con bajos grados de libertad las curvas son muy
asimétricas y a medida que se agrandan los grados de libertad se van haciendo más simétricas,
tendiendo a una forma normal.
Las preguntas respecto de la s² de la muestra que a futuro extraigamos de la población (normal) serán
del tipo: P(s² < a) o P(s² > b) o P(a < s² < b). Para responder estas preguntas disponemos de tablas
pre-calculadas.
La conversión a ² de un valor de la s² se hace mediante la expresión: ² = (n-1) x s²
²
Como la estructura de entrada/salida de estas tablas es muy distinta que la de una normal estándar,
dejaremos su abordaje para los capítulos siguientes cuando empecemos a usarla en inferencias.
Glosario
Estadístico: medida muestral
Parámetro: medida poblacional
Error estándar : desvío estándar de la distribución de un estadístico alrededor del parámetro
correspondiente.
103
Die Mathematischen und Physikalischen Theorieen der höheren GeodäsieDie. Leipzig 1880 (vol.1), 1884 (vol.2).
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 104
ADENDA al capítulo XI
Obtención de estimadores.
Si bien aceptamos que, por ejemplo, la media muestral es el mejor estimador con que contamos para
estimar la media poblacional, hay que reconocer que esa expresión, así como está dicha, se basa sobre
todo en el sentido común, sin un riguroso planteo metodológico que justifique esa elección.
Entonces caben formularse las siguientes cuestiones metodológicas: ¿qué propiedades debería cumplir
un estadístico para ser el estimador de un parámetro? y ¿con qué procedimiento general obtenemos
ese estimador?.
Brevemente comentaremos a continuación algunas de las propiedades que debe cumplir un estadístico
para ser considerado el estimador de un parámetro y también comentaremos, muy someramente, los
procedimientos aceptados en la literatura estadística para obtener estimadores.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 105
ESTADÍSTICA INFERENCIAL
La estimación nos dirá –con una cierta probabilidad asociada– entre qué valores se
encontraría ese parámetro desconocido.
Esos dos valores describen un intervalo, y la probabilidad asociada representa el grado de confianza
que tenemos respecto de que él contenga a ese parámetro desconocido.
Por ello a esa probabilidad se la llama nivel de confianza o confianza a secas y al intervalo: intervalo
de confianza.
Este aspecto de la inferencia será cubierto a lo largo del capítulo XII.
Si se contara con alguna suposición respecto del parámetro o si se especulara con un valor que
él podría tener o debería tener (en cuestiones de control de calidad, por ejemplo), ese valor constituye
lo que llamaremos un parámetro hipotético del parámetro, o parámetro de referencia.
El verdadero parámetro poblacional, que en rigor nunca vamos a conocer puntualmente, podría
corresponderse aceptablemente con el hipotético o no.
Decir, por un lado, que el verdadero parámetro podría diferir significativamente del parámetro
hipotético o, por otro lado, decir que la diferencia entre ambos podría no ser significativa, constituyen
dos hipótesis que deberán competir sometiéndose a una prueba de hipótesis.
Esta será la temática del capítulo XIII.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 106
Esta curva de color es la distribución de la v.a. alrededor de su propia media la cual coincide con
la media poblacional (páginas 89 y 90, capítulo X). Y recordemos que los parámetros de esa
distribución son y que, en virtud de las propiedades vistas en Teoría del muestreo, son:
n
Recordemos que debajo de esta curva están todas las que podrían obtenerse a partir de
todas las muestras de tamaño n que esa población puede dar.
Cuando seleccionemos una muestra y le calculemos su media, podemos imaginar que en ese momento
estamos extrayendo al azar una de la población de ´s que está debajo de la curva de color.
Y nos podemos hacer preguntas tales como: P(a < < b) = 1 – (ver Teoría del muestreo)
a b
Convenimos en llamar 1– a la probabilidad de que la de la muestra que vamos a hacer caiga
dentro del intervalo [a,b] simétrico alrededor de la conocida.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 107
Si 1– es la probabilidad que está por arriba del intervalo [a,b], será la probabilidad que queda
fuera de él, y como a propósito vamos a considerar un intervalo simétrico alrededor de , queda
dividida en dos partes iguales con /2 de probabilidad cada una. Entre todas las preguntas que
pudimos hacernos respecto del resultado de la muestra por hacer (por ejemplo la pregunta b- del
problema de página 90).
Y a propósito también plantearemos la respuesta estandarizando según Z, lo que puede resumirse
gráficamente así:
1–
/2 a b
Z 0 Z1– Z
2 2
Los subíndices de ada uno de los dos Z están puestos en relación con la forma de acumulación usual.
Como el punto a acumula /2 de probabilidad, su estandarizado Z será Z/2 y como el punto b
acumula 1–/2 de probabilidad (= /2 + 1–), su estandarizado será Z1–/2.
En rigor Z/2 y Z1–/2 son iguales en valor absoluto pero tienen signo contrario (observar que son
simétricos alrededor del 0). Por lo que conociendo 1–/2 se obtiene el Z1–/2, e inmediatamente el
Z/2 = – Z1–/2. El planteo general es entonces:
P(a < < b) = P (a – < – < b – ) = P ( Z/2 < Z < Z1–/2) = P (– Z1–/2 < Z < Z1–/2) = 1–
n n n
A propósito se detallaron todas las estandarizaciones porque ahora, combinando el segundo miembro
con el tercero, rescataremos la siguiente expresión:
P ( –Z1–/2 < – < Z1–/2) = 1 –
n
Y despejando: P (–Z1–/2 . < – < Z1–/2 . ) = 1 –
n n
Dado que todavía estamos en el caso donde conocemos , – es la diferencia que podría haber
entre la media de la muestra que vamos a hacer y la media conocida de la población. Y eso puede
considerarse como error:
El máximo valor que puede tomar esa diferencia –ese error– en valor absoluto es:
máx = | Z1-/2 | .
n
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 108
Si se presta atención se verá que el intervalo alrededor de , resaltado en el último de los gráficos
anteriores, es dos veces el error máximo máx .
Entonces tendremos: P ( – máx < – < + máx ) = 1 –
__________________________________________________________
Pasemos ahora a la realidad “de la calle” donde, para el caso, concretamente: se desconoce el
parámetro de la población (por el momento consideraremos conocido) y la muestra ya se hizo
(y se calculó ).
Despejamos la última expresión, dejando en el medio la incógnita que ahora es :
P ( – máx < < +máx ) = 1 –
Y podemos decir que con 1– de probabilidad confiamos en que el verdadero de la población
esté contenido por el intervalo:
I[ – máx ; +máx ]
O también: I = máx
Cualquiera de las tres formas expresa un intervalo de confianza para estimar intervalo que, en el
eje real y alrededor del valor de , puede representarse así:
El mismo intervalo (con una probabilidad 1–asociada) que anteriormente se ubicaba alrededor del
, ahora se ubica alrededor del para poder estimar (con una confianza 1 – ) el desconocido.
Nótese además que, en rigor, lo único que se trajo del estudio previo es el “segmento” que se colocó
sobre y su probabilidad asociada, nada más. No hay una distribución sobre él (la distribución de
la muestra, en todo caso, no forma parte de la construcción que hicimos).
Problema resuelto.-104
Con el fin de controlar el proceso de llenado de paquetes de galletitas de medio kilo, se seleccionaron
al azar 16 de esos paquetes y el peso en gramos de cada uno de ellos fue el siguiente:
505; 510; 495; 508; 504; 512; 496; 512; 514; 505; 493; 496; 506; 502; 509; 497.
La precisión de la máquina al envasar está dada por un desvío estándar de = 5 gramos.
Se puede razonar (ver comentario 1) que la distribución de los pesos de todos los paquetes fabricados
por la máquina es normal.
Comentario 1: los procesos de medición (medir longitudes, pesar, etc.) de una misma magnitud
aleatoria, entregan naturalmente poblaciones normales.
104
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 109
- = 504 gr
- s = 6,80 gr
- n = 16 paquetes
a) En base a la media de la muestra hecha y con el = 5 gramos, estimar el peso medio de todos
los paquetes envasados por esa máquina, mediante un intervalo de confianza del 95%.
1 – = 0,95 = 0,05 /2 = 0,025 1 – /2 = 0,975 Z1-/2 = Z0,975= + 1,96
máx = | Z1-/2| x = 1.96 x 5 gr = 2.45 gr
n16
I[ – máx ; +máx ] = [ 504 gr – 2,45 gr ; 504 gr + 2,45 gr ] = [ 501,55 gr ; 506,45 gr ]
Conclusión: En base a una muestra de 16 paquetes y con una confianza del 95%, se estima que el peso
medio de todos los paquetes fabricados se encuentra entre 501.55 gr y 506. 45 gr.
Comentario 2: siendo la población normal, aunque las muestras fueran chicas (como es nuestro
caso) la distribución de las medias muestrales es normal. Si la población no fuera normal (o no
se supiera si es normal) deberán hacerse muestras grandes para que en virtud del teorema
central del límite la curva de color usada para respaldar la estimación sea una curva normal.
b) Supongamos que el error máximo nos parece grande. Para mejorar la estimación habrá que
achicar esa indeterminación, es decir achicar el error máximo.
Si se observa detalladamente la fórmula del error máximo se verá que, manteniendo la misma
confianza, lo que cabe es agrandar la muestra.
¿De qué tamaño deberá ser la nueva muestra para que, con el mismo nivel de confianza, el error
máximo asociado de la futura estimación sea, por ejemplo, la mitad del obtenido en a)?.
De la misma fórmula del error máximo, despejando, puede obtenerse la fórmula para calcular el
tamaño de la muestra:
máx = | Z1-/2 | x n = ( Z1-/2 x máx ) ²
n
Para nuestro problema tendremos: n = ( Z1-/2 . máx ) ² = (1,96 x 5/ 1,225)² = 64 paquetes
Conclusión: Para poder estimar con un error máximo de 1.225 gr y con una confianza del 95%, la
media de todos los paquetes envasados por esa máquina, deberá hacerse una muestra de 64 paquetes
como mínimo.
Cuanto más grande sea la muestra, mejor será la estimación, por lo que 64 paquetes es un mínimo.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 110
INTERVALO DE CONFIANZA PARA ESTIMAR
Si la población de la que se tomó una muestra tiene distribución normal, le estimación de la varianza
poblacional se realiza utilizando la distribución ² de Helmert dado que es la curva de distribución
del estimador s2 (ver págs. 102 y 103 del capítulo XI).
Como la curva ² es asimétrica, para estimar mediante un intervalo de confianza no podría
aplicarse la estrategia que se empleó para estimar (construcción en la que se hacía pivotear el máx
alrededor del aprovechando la simetría de la curva normal) y habrá que calcular por separado los
límites del intervalo de confianza.
Para una confianza de 1- y n-1 grados de libertad, el intervalo de estimación se calcula así:
105
Tomado y adaptado de: Estadística y Econometría. Alfonso Novales. McGraw Hill/Interamericana. 1998.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 111
I = [ 3,88 $ ; 6,70 $ ]
Interpretación:
En base a una muestra de 20 personas se estima que el desvío estándar (la variación) de los gastos
diarios en viáticos de toda la población de oficinistas se encuentra, con una confianza del 90%, entre
3,88 $ y 6,70 $.
g.l.chico (<30)
0
106
William Sealy Gosset (1876-1937). A partir de 1908 publicó ésta y otras investigaciones en la revista Biometrika de
Karl Pearson.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 112
P p
A la curva de color hay que verla como la curva límite para n de una distribución binomial con P
como probabilidad de éxito y (1-P) como probabilidad de fracaso, tal como se graficó en el cap.X.
Debajo de esta curva están todas las p que podrían obtenerse a partir de todas las muestras que pueden
extraerse de la población y, en virtud del teorema central del límite, es una curva normal centrada en P
y con una dispersión (desvío estándar) P.(1-P)/n (releer pág.4 al medio y pág.6 al medio, de las notas
sobre Teoría del muestreo).
Cuando seleccionemos una muestra y le calculemos su proporción, podemos imaginar en ese
momento que estamos extrayendo al azar una p de la población virtual de p´s que está debajo de la
curva de color.
107
Injustamente se la sigue difundiendo hasta hoy en la literatura estadística como t de Student, cuando éste fue sólo un
pseudónimo que tuvo que usar Gosset para poder publicar sus trabajos científicos en la revista Biometrika, a raíz de la
prohibición de hacerlo con su nombre y apellido por parte de las destilerías Guinness en donde trabajó como químico
desde que se graduó en Oxford a los 22 años hasta su muerte en 1937. Para honrar las investigaciones de un científico
como Gosset, la literatura estadística debería dejar de llamar “t de Student” a la t de Gosset, y esto es lo que haremos en
estas Notas de Estadística.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 113
Y nos podemos hacer preguntas tales como: P(a < p < b) = 1–
a P b p
Aquí también 1– es la probabilidad de que la p de la muestra que vamos a hacer caiga dentro del
intervalo [a,b] alrededor de la P conocida y por lo tanto será la probabilidad que p caiga fuera de él.
1–
/2 a P b p
Z 0 Z1– Z
2 2
Recordemos que Z/2 y Z1–/2 son iguales en valor absoluto pero tienen signo contrario, por lo que
obteniendo Z1–/2 inmediatamente: Z/2 = – Z1–/2.
El planteo es entonces:
P(a < p < b) = P ( a–P < p– P < b–P ) = P (– Z1–/2 < Z < Z1–/2) = 1 –
P(1-P)/n P(1-P)/n P(1-P)/n
Combinando:
P(a < p < b) = P ( – Z1–/2 < p– P < Z1–/2) = 1 –
P(1-P)/n
Y despejando: _______ __ __ _
P (– Z1–/2 . P(1-P)/n < p–P < Z1–/2 . P(1-P)/n = 1 –
Dado que todavía estamos en el caso donde conocemos P, p–P es la diferencia que podría haber entre
la proporción de la muestra que vamos a hacer y la proporción conocida de la población. Esa
diferencia puede entenderse como un error:
= p–P es el error de la proporción muestral respecto de la proporción poblacional y 1–es su
probabilidad.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 114
El máximo valor que puede tomar esa diferencia –ese error– en valor absoluto es:
________
máx = | Z1–/2 | . P(1-P)/n
Entonces tendremos: P ( – máx < p – P < + máx ) = 1 –
________________________________
Pasemos a considerar ahora desconocido el parámetro P de la población.
Despejamos la última expresión, dejando en el medio la incógnita que ahora es P:
P ( p – máx < P < p + máx ) = 1 –
Lo que equivale a decir que con 1– de probabilidad confiamos en que el verdadero P de la población
esté contenido en el intervalo:
IP[ p – máx ; p +máx ]
O también: IP = p máx
Cualquiera de las tres formas expresa un intervalo de confianza para estimar Pque en el eje real y
alrededor del valor de p puede representarse así:
p
El mismo intervalo que anteriormente se ubicaba alrededor del P, ahora se ubica alrededor del p para
poder estimar el P ahora desconocido.
En el cálculo del error máximo, se presenta aquí un pequeño escollo: P no se conoce. Para sortear este
inconveniente, reemplazamos P en el cálculo por su mejor estimador como lo es p, quedándonos en
realidad una fórmula de aproximación:
____ _ ___ _ _
máx = | Z1–/2| . P(1-P)/n | Z1–/2| . p(1-p)/n
Problema resuelto.-108
Una muestra aleatoria de 100 obreros extraída de una población expuesta durante más de 15 años de
trabajo en minas de plomo reveló mediante análisis clínicos que el 55% de ellos se hallaba afectado
por saturnismo (enfermedad del plomo).
a) Estimar mediante un intervalo de confianza del 99% la proporción de enfermos de saturnismo en
toda la población de obreros expuestos durante más de 15 años de trabajo en minas de plomo.
1–= 0.99 = 0.01 /2= 0.005 1–/2= 0.995 Z1–/2 = Z0.995 = 2.58 (o 2.57)
_____ _ ____ _ ____
máx | Z1–/2 | . p(1-p)/n = 2.58 x 0.55 x 0.45 /100 = 0.13
IP = [ p – máx ; p + máx ] = [0.55 – 0.13 ; 0.55 + 0.13] = [ 0.42 ; 0.68 ]
Conclusión: en base a una muestra representativa de 100 mineros y con una confianza del 99%, la
proporción de afectados por saturnismo en toda la población de mineros con más de 15 años de
exposición en minas de plomo se encuentra entre el 42% y el 68%.
O también: IP = p máx = 0.55 0.13
108
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 115
que es otra forma de expresar la estimación por intervalo, pero que además resalta mejor la precisión
de la estimación: 13%
b) Puede ser que la estimación anterior nos parezca muy imprecisa (13%). Si queremos mejorarla,
llevarla por ejemplo a 5%, habrá que agrandar la muestra (no sirve tocar la confianza).
¿De qué tamaño deberá ser la nueva muestra para que con una precisión del 5% (máx = 0.05) se
pueda estimar con la misma confianza anterior la proporción de enfermos de saturnismo en toda la
población de mineros del plomo expuestos durante más de 15 años?.
Como lo hicimos para la media, deberíamos despejar n de la fórmula del error máximo, que en su
forma original y en su forma aproximada es:
____ _ ___ _ _
máx = | Z1–/2 | . P(1-P)/n | Z1–/2 | . p(1-p)/n
No conocemos P porque queremos estimarlo y no conocemos p porque la nueva muestra no se hizo
todavía (justamente necesitamos calcular de qué tamaño mínimo deberá ser para cumplir con la nueva
exigencia de precisión).
Para sortear este problemita partiremos de la suposición teórica de que P = 0.50:
____________
máx = | Z1–/2 | . 0.50(1-0.50)/n
Lo que no es descabellado porque es el sustento teórico de la curva de color que respalda todo lo que
venimos haciendo; aunque luego –como es esperable– la realidad difiera del modelo teórico.
Nos queda así una expresión para el error máximo:
_____________ ____________ _______
máx = | Z1–/2 | .0.50(1-0.50) / n = | Z1–/2 | . 0.50 x 0.50 / n = | Z1–/2 | . 0.50² / n
Ahora sí, despejando: ____
n = (|Z1–/2 | . 0.50² / máx.)² = (Z1–/2 x 0.50 / máx.)²
Para nuestro problema tendremos:
n = ( 2.58 x 0.50 /0.05)² = 665.64 666 mineros
Conclusión: para poder estimar con un error máximo del 5% y una confianza del 99% la proporción
de enfermos de saturnismo en toda la población de mineros expuestos al plomo durante más de 15
años, deberá hacerse una muestra de 666 mineros como mínimo.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 116
FUNDAMENTOS
Desarrollaremos el test para la media, pero sus fundamentos son extensibles a las pruebas para otros
parámetros poblacionales.
Simulemos por un momento que conocemos la población, entonces es posible hacer una lista de todas
las muestras de un cierto tamaño n que pueden llegar a tomarse de dicha población. Si calculamos
para cada una de aquellas su media muestral , obtendremos otra lista cuyos valores conforman una
población nueva: la población de las medias de todas las muestras de tamaño n que pueden
obtenerse de la población original (procedimiento visto en el capítulo X, teoría del muestreo).
Calculando la media y el desvío de esa nueva población, podría comprobarse que su curva de
distribución109:
está centrada con la distribución de la población original, es decir:
Si se planeara tomar una muestra representativa de tamaño n, mediante un muestreo aleatorio sobre la
población original, podríamos hacernos preguntas tales como: ¿cuál es la probabilidad de que la media
de esa muestra resulte superior a un cierto valor * ?. La respuesta la buscaríamos bajo la misma curva
anterior, a la sazón distribución de la variable aleatoria , y sería del tipo: P(>*) =
*
Cuando n es grande esa nueva distribución se aproxima a la Normal (teorema central del límite): ~ N () para n.
109
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 117
*
Ahora convengamos en que el punto *, en cualquiera de los dos casos, define la divisoria entre lo
cercano y lo lejano a . y que por ello lo llamaremos punto crítico. En consecuencia, si la de la
muestra por realizar se ubicara en la cercanía de es decir más cerca de que el punto crítico,
podríamos decir que la diferencia no es significativa. Y, por el contrario, si la cayera lejos de la
zona central de la distribución, es decir más allá del punto crítico, podríamos considerar que la
diferencia es significativa.
En esas condiciones, para cualquiera de los dos casos planteados, hacemos la siguiente lectura:
es la probabilidad de que la de la muestra por realizar difiera significativamente de
______________________________________________
A partir de aquí asumimos que es realmente desconocida y que sólo contamos con un valor
hipotético1100 del parámetro. La distribución del estadístico muestral será ahora alrededor de 0:
0
Tomada y procesada la muestra, debemos cotejar con 0 para ver si el punto crítico queda
ubicado a la derecha o a la izquierda de 0 y adoptando una probabilidad quedará fijado
exactamente. Suponiendo >0 :
distribución del estadístico alrededor de 0
1
0 *
110
Hay que resaltar, aunque sea obvio, que el valor hipotético es puntual, por lo que si no fuera puntual la referencia previa que se
tenga del parámetro desconocido, deberá interpretársela y reducirla a un punto.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 118
1
0 *
nos animamos a concluir, con una probabilidad 1-a favor, que tampoco sería significativa la
diferencia , es decir que podría considerarse igual = );
1
0 *
podríamos genuinamente sospechar con un margen de error , consecuentemente la probabilidad
que se fije debería ser siempre pequeña, que la población de donde proviene se corresponde mejor
con otra población hipotética, con media , alternativa a la de referencia; es decir que = .
distribución distribución del estadístico
del estadístico alrededor de
alrededor de
0 * A
Entonces hay dos hipótesis en juego: una principal (H0: = o) y una alternativa (HA: = ), y si
contáramos con un valor puntual de referencia para A podrían calcularse las probabilidades y
a un lado y otro del punto crítico, usando la distribución del estadístico alrededor de
0 * A
Si hubieran varias alternativas puntuales, podrían plantearse sendas hipótesis alternativas H1 1, H2 2, H3 3, etc.
111
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 119
H0 : = o
HA: =
Si no contamos con algún valor concreto para A, en su lugar adoptaremos una familia infinita de
medias poblacionales alternativas significativamente distintas a 0. Es decir que la hipótesis
alternativa será > ó < ,112 según el caso.
Si >0:
distribución
del estadístico H0: =
alrededor de HA: >
0 *región crítica
Si <0:
región crítica * 0
Para ambos casos113, si cayera fuera de la región crítica: aceptamos H0 (también llamada hipótesis
nula porque supone nula la diferencia ), y si cayera dentro de la región crítica: rechazamos H0
a favor de HA114, con un margen de error ó nivel de significación .
Lo usual es desarrollar los tests en el ámbito de una distribución estándar como por ejemplo la normal,
por lo que el punto crítico estandarizado será z* y el estadístico muestral una vez estandarizado será
el estadístico de prueba:
Z =
Si >0:
distribución
del estadístico Z bajo H H0: =
HA: >
0 z* z
112
Es una hipótesis compuesta porque involucra más de un valor, a diferencia de la hipótesis principal que es simple.
113
La región crítica se ubica en relación con la evidencia que provee la muestra y determina la hipótesis alternativa.
114
La alternativa, aunque es verdaderamente la hipótesis estadística de la investigación, no se acepta ni se rechaza en este test
porque es compuesta y en todo caso implicaría la realización de un test compuesto especial para ella.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 120
Si <0:
H0: =
HA: <
z* z
- Una vez establecido el nivel de significación queda fijado el punto crítico z*.
- Si el estadístico de prueba Z cayera fuera de la región crítica, se acepta H0.
- Si Z cayera dentro de la región crítica, se rechaza H0. Por este efecto, la región crítica puede
llamarse también región de rechazo.
- Si Z cayera en el mismo z* ó en un entorno muy próximo a él, conviene agrandar la muestra.
H0: =
HA:
z* 0 z* z
Salvo en que la región de rechazo está definida en dos tramos y hay dos puntos críticos, la técnica para
el desarrollo de la prueba es igual a las anteriores de una cola: si el estadístico de prueba Z cayera
fuera de la región crítica, se acepta H0; si Z cayera dentro de la región crítica, se rechaza H0; y si
estuviera muy próximo a los, ahora, dos puntos críticos z* ó z*, es conveniente agrandar la muestra.
Si se quisiera fundamentar el test de dos colas de la forma en que se fundamentaron los de una cola,
habría que imaginarse para el estadístico muestral una distribución alternativa del tipo:
* *
cuya existencia no puede verificarse y, en consecuencia, contradice el teorema central del límite.
De otra forma, podría pensarse en dos familias de poblaciones alternativas ubicadas a ambos lados de
, que produzcan sendas distribuciones de y que a priori, antes de la evidencia muestral, sean tan
posibles unas como otras (en realidad tan críticas unas como otras). Este camino permite darle un
respaldo razonable, más que un fundamento, a un test que es eminentemente operativo.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 121
PROBLEMAS RESUELTOS
se acepta Ho se rechaza Ho
0.95
0.05
*
0 Z 0.95 Z
= 1.65
El estadístico muestral estandarizado según Z, que llamamos estadístico de prueba, será:
Z = – o
n
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 122
Las curvas de distribución de las que respaldan estas pruebas son curvas t, siempre que la población
sea normal, porque se desconoce .
Supongamos ahora que para el caso de los viáticos de todos los oficinistas que trabajan en el centro de
la ciudad y tienen un mismo perfil laboral (lo que habilita a razonar que la población tiene distribución
normal), se tiene como valor de referencia un promedio poblacional = 25$.
Listamos entonces la información con que contamos, tanto la poblacional como la muestral:
Información poblacional: - población normal
- desconocido
Información muestral: - = 28,915$
- s = 4,886$ s2= 23,877
- n = 20 personas
Prueba: - = 25$
- 0,05
El juego de hipótesis es: Ho: = 25$
HA: > 25$
se acepta Ho se rechaza Ho
0.95
0.05
se acepta Ho se rechaza Ho
0.95
0.05
*
0 Z 0.95 Z
= 1.64
115
Tomados y adaptados de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 124
El estadístico de prueba Z cae fuera de la región crítica, por lo tanto: aceptamos Ho.
Concluimos, en base a la muestra de 400 personas y con un nivel de significación del 5%, que el
candidato no tendría una mayoría significativa de votos en toda la población.
Problema 2.-
Entre todas las personas que anteriormente usaron un cierto método de lectura veloz, el 40 % no
llegaron a los resultados esperados. Con el fin mejorar la eficiencia del método, los diseñadores
hicieron algunas modificaciones a los procedimientos que se emplearon históricamente.
Para medir la nueva efectividad, se tomó una muestra de 180 personas entre todas las que siguieron
los nuevos procedimientos. En la muestra el 30% de los casos no llegaron a los resultados esperados.
¿Hubo un cambio significativo al reformar los procedimiento históricos?.
Tomando como éxito: no llegar a los resultados esperados, sobre la proporción P de éxitos en toda la
población de personas que siguieron el nuevo método sólo se conoce la evidencia provista por la
muestra, es decir p = 0.30.
El valor hipotético Po se presenta aquí como el comportamiento histórico del método. Contra él se
contrasta la efectividad (en realidad la falta de ella, porque es lo que elegimos como éxito) del nuevo
método.
Leemos que p < Po y nos preguntamos si también P < Po
Las hipótesis son entonces: Ho: P = Po
HA: P < Po
Es decir: Ho: P = 0.40
HA: P < 0.40
Para la prueba asignaremos un nivel de significación = 0.01
se rechaza se acepta Ho
Ho
0.99
0.01 *
Z 0.095 0 Z
–2.33
El estadístico de prueba Z, es: Z= 0.30 – 0.40 = – 2.74
0.40x0.60/180
El estadístico de prueba Z cae en la región crítica, por lo que: rechazamos Ho a favor de la HA.
Conclusión: en base a la muestra de 180 personas y con un nivel de significación del 1% se concluye
que con el nuevo método la proporción de personas que no llegan a los resultados esperados sería
significativamente menor respecto del método anterior. Es decir, que con las modificaciones habría
mejorado su efectividad.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 125
Como el estadístico de prueba cayó no muy lejos del punto crítico, en un entorno relativamente
próximo a él, antes de llegar a alguna conclusión puede optarse por agrandar la muestra y volver a
hacer el test. Esto es lo que se denomina como tercera regla de decisión.
Problema116. Una compañía ha comprado nueva maquinaria de producción y realiza sobre ella la
siguiente muestra (n=5): 70,0; 69,9; 70,1; 70,1; 69,8. La varianza de la maquinaria antigua es de 0,1.
Con un nivel de significación del 5%, someter a prueba la varianza poblacional de la nueva
maquinaria tomando como valor hipotético de referencia la varianza de la maquinaria antigua.
Información muestral:
- = 69,98
- s = 0,13 s2= 0,02
- n=5
Información poblacional: población normal
Prueba: ² = 0,1
= 0,05
Juego de hipótesis: Ho: ² = 0.1
HA: ² < 0.1
Rechazo Ho
a favor acepto Ho
de HA
0,05
0
*
²4;0,05
=
0,71
En detalle, el punto crítico 0,71 corresponde a un ² con n-1=4 grados de libertad y =0,05 de
probabilidad acumulada. Es decir: ²n-1; = ²4;0,05 = 0,71
El estadístico de prueba ², es: ² = (n-1) x s² = (5-1) x 0,02 = 0,80
² 0,1
116116
Adaptado de Estadística utilizando Excel . 2005. Serie Professional Tools. MP Ediciones S.A.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 126
Este es un caso donde podría considerarse la aplicación de la tercera regla de decisión, porque el
estadístico de prueba cae relativamente bastante cerca del punto crítico. Por lo tanto convendría no
decidir, luego agrandar la muestra y finalmente volver a hacer el test de hipótesis.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 127
En este segundo abordaje del análisis de regresión y correlación enfocaremos su aspecto inferencial
(el aspecto descriptivo fue visto en el capítuloVI) que comprende dos tipos de problemas: pruebas de
hipótesis y estimación.
Los parámetros poblacionales y sus correspondientes estadísticos muestrales son117 ahora:
Porque el modelo de regresión lineal para la población se expresa: Y = + . X
Y su estimador muestral es: Y = a + b . X
Complementariamente, el r muestral es el mejor estimador con que contamos para el poblacional.
117
Ver la primera página de Teoría del muestreo, capítulo XI.
118
Un ejemplo de esto son las tablas de alturas /pesos con que cuentan los médicos de familia. Para valores dados de la
altura.(X), esas tablas devuelven intervalos de confianza para los pesos.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 128
Como se hizo en el capítulo XI, para ese estudio deberíamos contar con una población bivariada
conocida, lo que permitiría:
- calcular el de esa población,
- practicar todas las muestras posibles de tamaño n,
- calcular el r de cada muestra,
- y analizar cómo se distribuyen todos los r´s muestrales alrededor del poblacional conocido.
Una particularidad que tiene este caso, a diferencia de los casos estudiados en el capítulo X, es que
sólo cuando la población “de laboratorio” no presenta ninguna correlación (=0) entre las variables X
e Y, sólo en ese caso, aparece una curva de distribución modelable y conocida que pueda respaldar
una prueba de hipótesis. Y esa curva es una distribución “t” de n-2 grados de libertad.
t
=0
En rigor, el estadístico muestral estandarizado es el que tiene un comportamiento t con n-2 grados de
libertad119. El algoritmo de estandarización es: ____
t = _r n–2 .
(1–r²)
__________________________________________________________________________
=1 r
lo que no tiene utilidad para la inferencia120.
__________________________________________________________________________
Por lo dicho, en todas las pruebas de hipótesis para el valor hipotético siempre tendrá que ser 0
(o=0) y en consecuencia la hipótesis principal o hipótesis nula siempre deberá suponer que no hay
correlación en la población. Siempre la hipótesis nula será Ho : = 0.
Al igual que lo expresado en el capítulo XIII, el planteo de la hipótesis alternativa dependerá de la
evidencia muestral. Si r es positivo entonces HA : > 0 y si r es negativo HA : < 0.
Para el problema que venimos desarrollando, la información muestral es:
n=4
119
Esta aplicación de la “t” a la correlación fue estudiada por el propio W.Gosset, creador de esa distribución.
120
Bajo el nombre de función impulso o función delta de Dirac, esa función sí es muy útil en sismología.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 129
r = + 0,9597
r² = 0,9210
Como r > 0, el juego de hipótesis para la prueba es:
Ho : = 0
HA : > 0
Acepto Ho Rechazo Ho
| =0,05
0 t*2;0,95
=
2,92
___
El estadístico estandarizado (o estadístico de prueba) es: t = 0.9597 . 2= 4,83
(1- 0.9210)
El estadístico de prueba cae dentro de la región crítica: se rechaza Ho a favor de HA.
En base a una muestra de 4 registros conjuntos de inversiones en publicidad y de ventas, y con un
margen de error del tipo I (nivel de significación) del 5% se concluye que habría una correlación
significativa directa entre la inversión en publicidad y las ventas de ese artículo, es decir que cada
vez que se incremente la publicidad de ese artículo habría, correlativamente, un aumento en las
ventas, y si la publicidad disminuye también las ventas disminuirían.
121
En estadística el concepto de predicción comprende tanto a las extrapolaciones hacia ambos lados del rango de X,
como a las interpolaciones. El concepto también vale para las series de tiempo, en donde a las predicciones estadísticas
también las llamamos pronósticos.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 130
3) Inferir la cantidad de personal que podría tener una PyME de 20 años de antigüedad, tomada entre
la población de PyMEs del Censo 2004/2005. Ídem para PyMEs de 20 y 30 años.
Cálculos: 142,4 – 4,50 x 20 = 52,4 personas
142,4 – 4,50 x 30 = 7,4 personas
Se estima que una PyME de 20 años de antigüedad tomada entre todas las del Censo 2004/2005
tendría alrededor de 52 personas trabajando.
Se estima que una PyME de 30 años de antigüedad tomada entre todas las del Censo 2004/2005
tendría alrededor de 7 trabajadores.
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 131
La siguiente información , elaborada en base a datos del INDEC, fue extraída del Anuario Estadístico
de la República Argentina 2000, sección Economía, de un diario de tirada nacional.
BALANZA COMERCIAL
ARGENTINA
Millones de dólares 35
Año Exportaciones Importaciones Saldo
1984 8.107 4.585 3.522 30
1985 8.396 3.814 4.582
1986 6.852 4.724 2.128 25
1987 6.360 5.818 542
1988 9.135 5.322 3.813 20
1989 9.579 4.203 5.376
1990 12.353 4.077 8.276 15
1991 11.978 8.275 3.703
Exportaciones
1992 12.235 14.672 -2.637 10
1993 13.118 16.784 -3.666
1994 15.839 21.590 -5.751 5
1995 20.963 20.122 841 Importaciones
1996 23.811 23.762 49 0
1997 26.431 30.450 -4.019 '84 '85 '86 '87 '88 '89 '90 '91 '92 '93 '94 '95 '96 '97 '98 '99
1998 26.441 31.404 -4.963
1999 23.333 25.508 -2.175
EVOLUCIÓN DEL COMERCIO
En millones de dólares
35.000
30.000
Importaciones
25.000
20.000
15.000
10.000
5.000
0
0 5.000 10.000 15.000 20.000 25.000 30.000
Exportaciones
Aquí se eligió al monto de las exportaciones como variable X arbitrariamente porque no hay motivo
para pensar que ella sea la variable explicativa (causa) o independiente, y los montos de las
importaciones la variable respuesta (efecto) o dependiente Y.
122
Tomado y adaptado de: Estadística – Guía de Ejercicios, UNLM – Prometeo Libros. 2003
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 132
a) Prueba de hipótesis.
n = 16 años
r = + 0,9453
r²=0,8936
Como r > 0, el juego de hipótesis para la prueba es:
Ho : = 0
HA : > 0
Acepto Ho Rechazo Ho
=0,05
|
0 t*14;0,95
=
1,761
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 133
b) Dado que en la prueba se concluyó que habría correlación significativa entre ambas variables, se
pueden hacer las estimaciones requeridas.
- 20.000 millones de dólares.
Cálculo: –5682,807 + 1,3452 x 20.000 = 21.221,193
Interpretación: si las exportaciones fueran de 20.000 millones de dólares, se estima que
las importaciones llegarían a los 21.221,193 millones de dólares.
- 30.000 millones de dólares
Cálculo: –5682,807 + 1,3452 x 30.000 = 34.673,193
Interpretación: si las exportaciones fueran de 30.000 millones de dólares, se estima que
las importaciones llegarían a los 34.673,193millones de dólares.
- 45.000 millones de dólares
Cálculo: –5682,807 + 1,3452 x 45.000 = 54.851,193
Interpretación: como el valor de X (45.000) está muy alejado del rango de las observaciones (de las
exportaciones; entre 6.360 y 26.441), se evalúa como no conveniente usar el valor calculado
(54.851,193) para estimar el monto de las importaciones.
_____________________________________________
____________________
Mario Enrique Borgna
NOTAS DE ESTADÍSTICA 134
Babbie, Earl R., Métodos de Investigación por encuesta, Biblioteca de la Salud, Fondo de
cultura económica. 1988.
Gosset W.S. (Student). The probable error of a mean. Biometrika, 1908. Cambridge
University Press, 1942.
Gmurman V.E. Teoría de las probabilidades y estadística matemática. Editorial MIR. 1974.
Hampel F.R. et al. Robust Statistics. E. John Wiley & Sons. 1986.
Koch K.-R. Parameter Estimation and Hypothesis Testing in Linear Models. 3a.ed. Springer-
Verlag. 1999.
Linnik Yu.V. Method of Least Squares and Principles of the Theory of Observations.
Pergamon Press. 1961.
Novales A. Estadística y Econometría. McGraw Hill/Interamericana. 1998.
Press S.J. Bayesian Statistics: Principles, Models, and Applications. John Wiley & Sons.
1989.
Pugachev V.S. Introducción a la teoría de las probabilidades. Editorial MIR. 1973.
Rozanov Y. Procesos aleatorios. Editorial MIR. 1973.
Tukey J., Exploratory data analysis. Addison-Wesley Publish.Co. 1977.
Von Mises Richard E.. Probabilidad, Estadística y Verdad. 1928. Edición argentina: Espasa
Calpe Argentina.S.A..1946.
Yule G.U./ Kendall M.G. Introducción a la teoría estadística. M. Aguilar, Editor. 1947.
____________________
Mario Enrique Borgna