Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Con respecto a los orígenes de la Estadística, nos remitimos a la palabra “estado” en relación con
la articulación entre los distintos agentes del gobierno sobre una población en un territorio. El
volumen de información que debía manejarse hace unos 600 años era suficientemente grande como
para requerir que secretarios especializados recabaran, depuraran, clasificaran, ordenaran y
organizaran tal información, además de presentar síntesis que quien debía tomar una decisión
pudiese interpretar fácilmente. El primer trabajo de inferencia estadística se remonta al siglo XVII
sobre la natalidad y mortalidad en una región de Polonia.
El cálculo de probabilidades tuvo un origen relacionado con el problema de los juegos de azar.
Un planteo más matemático intentaba explicar por qué el número de éxitos era más favorable en
ciertas apuestas que en otras en diferentes juegos. En ciertos aspectos fue contemporáneo con el
origen de la estadística, pero el tratamiento formal fue posterior.
Es claro que los orígenes fueron diferentes: el manejo de información real y especulaciones
sobre los juegos de azar. Sin embargo ambos problemas tienen de común la incertidumbre en los
resultados. En los juegos de azar se conoce las reglas del juego pero no los resultados hasta que el
juego no se realiza. En la toma de decisión sobre la base de información previa, se conocen los
datos pero no el resultado de la decisión a tomar.
Precisemos primero el significado del término “decisión”. Una decisión se toma cuando hay dos
o más opciones entre las que hay que elegir una, y no se tiene la seguridad absoluta del éxito en
relación con la elección realizada. Si se tuviese la seguridad absoluta sería una “determinación”.
Tanto la estadística como el cálculo de probabilidades contribuyen a ofrecer criterios para la
toma de decisión. El cálculo de probabilidades lo hace por medio de elaborar herramientas
matemáticas formales sobre las que se apoya la estadística para inferir posibles resultados de las
decisiones tomadas a partir de datos experimentales.
Se suele separar la estadística en “estadística descriptiva”, cuando se limita a la recopilación de
datos, su depuración, clasificación, ordenamiento, organización y síntesis gráfica y numérica. Por
otra parte la “estadística de inferencia” se apoya en la teoría de probabilidades para ofrecer
herramientas formales y cuantitativas como criterio para la toma de decisión.
En una primera parte del curso nos ocuparemos de introducirnos en el cálculo de probabilidades,
luego abordaremos la estadística descriptiva y finalmente algunos elementos del lenguaje de la
estadística de inferencia.
forzamos así la aleatoriedad de modo que no pueda manipularse el resultado y haya incertidumbre
total. De esta manera podemos decir que ambos resultados son igualmente posibles y, si hemos
considerado uno como favorable, la idea intuitiva que suele expresarse como “una de dos
posibilidades a favor”, se traduce naturalmente en un formato matemático como
𝑐𝑓
𝑝=
𝑐𝑝
En el ejemplo de tirar un dado, se asume que debe estar perfectamente equilibrado, es decir que
debe ser un cubo perfecto y el centro de gravedad coincidir con el centro geométrico, las caras
deben ser distinguibles, y el experimento debe realizarse de modo que garantice la aleatoriedad.
El experimento correspondiente a tirar dos monedas es el más sencillo dentro de un nivel
superior en complejidad. Notemos que hay cuatro resultados diferentes de acuerdo con las
alternativas
Cara Cara
Cara Ceca
Ceca Cara
Ceca Ceca
𝑐𝑓 1
𝑝= = = 0,5 = 50%
𝑐𝑝 2
El cálculo nos lleva inmediatamente a expresar la probabilidad como una fracción, como un
número decimal, o en porcentaje.
Al tirar un dado, la probabilidad de que quede en posición superior la cara que contiene dos
puntos, el número “2”, se obtiene dividiendo un caso favorable (el 2) entre seis caras o casos
posibles, de modo que
𝑐𝑓 1
𝑝= = = 0,1666 … ≅ 0,167 = 16,7%
𝑐𝑝 6
En cambio, si preguntamos “cuánto vale la probabilidad de obtener una cara” al tirar dos
monedas, vemos que hay dos resultados favorables entre cuatro posibles. Si llamamos éxito a
obtener al menos una cara, habrá tres resultados favorables entre los cuatro posibles, con lo cual las
probabilidades valdrán 2/4=0,5=50% en el primer caso y 3/4=0,75=75% en el segundo.
Si al tirar un dado nos preguntamos por la probabilidad de obtener un número par vemos que hay
tres resultados favorables entre seis posibles. Si pedimos que se obtenga un número menor que tres
habrá dos resultados favorables. Si debe ser el número par y menor que tres, habrá sólo un resultado
favorable: el “2”. Pero si queremos que sea par o menor que tres, serán favorables el “1”, el “2”, el
“4” y el “6”, cuatro favorables entre seis posibles.
Por otra parte vemos que no puede haber casos favorables negativos. Eventualmente puede no
haber ningún caso favorable (𝑐𝑓 = 0), con lo cual la probabilidad de éxito será nula. Tomemos
como ejemplo pedir que salgan tres caras al tirar dos monedas. O bien podemos plantear una
situación en la que todos los casos son favorables, sea por ejemplo pedir menos de tres caras al tirar
dos monedas. Es claro que habrá cuatro casos favorables, tantos como posibles. En el primer
ejemplo, la probabilidad de éxito es nula, de modo que se tiene la seguridad absoluta de fracaso. El
evento es entonces “determinístico” y no “probabilístico”. En el segundo ejemplo, la probabilidad
de éxito vale “uno”, o “cien por ciento”. Se trata de otro evento determinístico con seguridad
absoluta de éxito.
En ambos casos (𝑝 = 0) y (𝑝 = 1) se tiene seguridad absoluta, mientras que en todas las
situaciones intermedias habrá incertidumbre y está involucrado el cálculo de probabilidades.
De modo que obtenemos la primera conclusión general:
0≤𝑝≤1
El símbolo ≤ se lee “menor o igual” y se establece así el rango permitido del número
“probabilidad”. Los extremos son determinísticos y todo el rango intermedio 0 < 𝑝 < 1 es
probabilístico.
A modo de ejercicios:
1. Hallar la probabilidad de obtener dos cecas a tirar dos monedas
2. Hallar la probabilidad de obtener exactamente una ceca al tirar dos monedas
3. Hallar la probabilidad de obtener al menos una ceca al tirar dos monedas
4. Hallar la probabilidad de obtener ninguna ceca al tirar dos monedas
5. Hallar la probabilidad de obtener a lo sumo dos cecas al tirar dos monedas
6. Hallar la probabilidad de obtener un seis al tirar un dado.
7. Hallar la probabilidad de no obtener un seis al tirar un dado.
8. Hallar la probabilidad de que se obtenga un número par y mayor que cuatro al tirar un dado
9. Hallar la probabilidad de que se obtenga un número par o mayor que cuatro al tirar un dado.
10. Hallar la probabilidad de obtener dos seis al tirar dos dados.
4
𝑆 = {𝐴1 ; 𝐴2 ; … ; 𝐴𝑛 }
De este modo podemos decir que hay no sólo dos resultados posibles sino n resultados posibles
al cruzar la calle: A1=llegar en diez segundos al otro lado, A2=tropezar en mitad de la calle…. Hay
unas pocas cosas de las que se puede tener seguridad absoluta: que algo va a ocurrir entre todas las
opciones posibles, o lo que es lo mismo, es imposible que no ocurra nada.
Si nos referimos a la probabilidad de un evento como
1
𝑃(𝐴) = 𝑃{𝐶𝑎𝑟𝑎} = 𝑝𝐴 = = 0,5 = 50%
2
Lo que sí sabemos es que no es imposible que tal evento ocurra, por lo tanto
Lo que aseguramos es que esta probabilidad es mayor que cero, simplemente que es un evento
posible.
5
En síntesis, aseguramos que la probabilidad de cualquier evento es mayor que cero y menor que
uno, que la probabilidad del espacio muestral vale uno y que la probabilidad de un evento imposible
vale cero. En términos de la teoría de conjuntos, diremos
En orden: la probabilidad de cualquier evento es mayor que cero, la probabilidad del espacio
muestral vale uno, y la probabilidad de un evento vacío vale cero. Como la máxima probabilidad
posible vale uno, cualquier probabilidad de un evento real tiene que ser menor que uno.
Si el conjunto de días del año es el conjunto de referencia, se dice que es el conjunto “universal” “U”. El
conjunto de días nublados es parte del conjunto “U”, por lo tanto se dice que “A” es un “subconjunto” de “U”
o que está incluido en “U” (𝐴 ⊂ 𝑈). Es razonable que los días lluviosos sean también nublados. Si somos más
estrictos en la definición y entendemos que “día nublado” quiere decir que “hay al menos una nube en el
cielo”, si llamamos “B” al conjunto de días lluviosos resulta que 𝐵 ⊂ 𝐴 y, por lo tanto, a su vez en “U”, por
lo tanto 𝐵 ⊂ 𝐴 ⊂ 𝑈.
Si admitimos que ningún día despejado puede ser lluvioso y llamamos “C” al conjunto que cumple con
estas dos propiedades, resulta que “C” no posee ningún elemento. Se dice que es un “conjunto vacío” y
representa por “∅”. Se admite que el conjunto vacío está incluido en todos los conjuntos (∀𝐴, ∅ ⊂ 𝐴).
Para expresar la relación de inclusión entre conjuntos por medio de relaciones lógicas utilizamos la
implicación
(𝐴 ⊂ 𝐵) ⇔ ∀𝑥/𝑥 ∈ 𝐴 => 𝑥 ∈ 𝐵
En un diagrama
En el diagrama se representa el elemento “x” dentro del conjunto “A”. Como todos los elementos que
están dentro de “A”, también están dentro del conjunto “B”, entonces “x” también está dentro del conjunto
“B”. Podemos recordar que “todos los hombres (A) son mortales (B), Sócrates (x) es hombre (𝑥 ∈ 𝐴),
entonces Sócrates es mortal (𝑥 ∈ 𝐵)”.
Otra relación entre conjuntos es la de igualdad. Si todos los elementos de “A” están en “B” y a su vez
todos los de “B” están en “A” se dice que “A” y “B” son iguales: 𝐴 = 𝐵.
(𝐴 = 𝐵) ⇔ ∀𝑥/𝑥 ∈ 𝐴 <=> 𝑥 ∈ 𝐵
Un diagrama requiere superponer los dos dibujos. A modo de ejemplo, “A” es el conjunto de “los griegos”
y “B” es el conjunto de las “personas de nacionalidad griega”. El ejemplo es obvio pero “equivalencia” refiere
a decir lo mismo de una manera diferente.
La inclusión de conjuntos es válida para la igualdad, es decir, si A=B es cierto que AB y AB (A está
incluido en B y B está incluido en A). Recíprocamente si AB y BA debe ser A=B (Si A está incluido en B
y B está incluido en A, entonces A es igual a B).
Notemos también que la inclusión puede ser estricta cuando, como en el último diagrama, un conjunto está
contenido dentro de otro pero existe algún elemento del otro conjunto que no pertenece al primero. Si así no
fuera, podrían ser iguales. En general la inclusión no es estricta y admite la igualdad de modo que, cuando se
6
trate de una inclusión estricta debe aclararse o diferenciarse la inclusión estricta de la que no lo es, por
ejemplo 𝐴 ⊂ 𝐵 para la inclusión, tal como la hemos definido, que admite la igualdad, y 𝐴 ⊂ 𝐵 para la
inclusión estricta.
Dados dos conjuntos es posible formar otro nuevo por medio de operaciones. Por ejemplo el conjunto
“unión” es el formado por los elementos que pertenecen al menos a uno de los conjuntos. Puede notarse que
se asocia con la operación lógica “disyunción”.
𝐴 ∪ 𝐵 = {𝑥 / (𝑥 ∈ 𝐴)˅(𝑥 ∈ 𝐵)}
En un diagrama
El conjunto intersección está formado por los elementos que pertenecen a ambos conjuntos A y B. La
intersección se asocia con la operación lógica “conjunción”.
𝐴 ∩ 𝐵 = {𝑥 / (𝑥 ∈ 𝐴)˄(𝑥 ∈ 𝐵)}
En un diagrama
El complemento de “A” es el conjunto de elementos que pertenecen al universal al cual “A” está referido,
pero que no pertenecen a “A”. Se asocia con la operación lógica “negación”.
Las tres operaciones mencionadas se llaman elementales porque no pueden obtenerse por medio de la
combinación de otras. Una operación derivada es la diferencia entre conjuntos, escrita como 𝐴 − 𝐵 y dada por
el conjunto de elementos que pertenecen a A pero no a B
𝐴 − 𝐵 = {𝑥 / (𝑥 ∈ 𝐴)˄(𝑥 ∉ 𝐵) = 𝐴 ∩ 𝐵̅
7
𝐴∆𝐵 = (𝐴 ∪ 𝐵) − (𝐴 ∩ 𝐵)
Se sugiere verificar las leyes de De Morgan sombreando los diagramas, conocidos como “diagramas de
Venn”, respetando gráficamente las operaciones de unión, intersección y complemento.
En relación con las operaciones de conjuntos, se llama “unión” entre dos conjuntos a la reunión
de los elementos de dos conjuntos. Suele notarse con el símbolo ∪ y escribimos
Para que un evento se encuentre en la unión entre dos conjuntos, tal evento debe pertenecer al
menos a uno de los dos conjuntos mencionados. A modo de ejemplo, si al tirar un dado se establece
como evento A={números pares}={2;4;6} y como B={números menores que 3}={1;2}, la unión de
ambos eventos se escribe
𝐴 ∪ 𝐵 = {1; 2; 4; 6}
Los números 1, 2, 4, 6 cumplen al menos una de las dos condiciones: ser par o menor que tres.
La otra operación de conjunto se llama “intersección” y suele notarse con el símbolo ∩ de modo
que un evento perteneciente a la intersección requiere que pertenezca a los dos eventos
simultáneamente. Sobre el ejemplo anterior diremos que
𝐴 ∩ 𝐵 = {2}
El número 2 es el único que cumple las dos condiciones: ser par y menor que tres.
Para vincular estas operaciones con el cálculo de probabilidades, notemos que podemos escribir
la probabilidad de la unión en términos de las probabilidades individuales de la forma
Para calcular la probabilidad del complemento de un evento recurrimos a una operación muy
sencilla.
𝑃(𝐴̅) = 1 − 𝑃(𝐴)
En particular, si dos resultados son mutuamente excluyentes, es decir, que no pueden ocurrir en
forma simultánea, por ejemplo que sea par e impar a la vez, la probabilidad de su ocurrencia
simultánea o intersección es nula y la probabilidad de la ocurrencia de al menos uno de los
resultados o de la unión será la suma de las probabilidades de cada uno de ellos. Esto es válido para
la probabilidad de la ocurrencia alternativa de muchos resultados excluyentes, que será la suma de
las probabilidades individuales. Como 𝑃(𝐴 ∩ 𝐵) = 0
1 1 1 4 2
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) = + − = =
2 3 6 6 3
De la misma manera podemos verificar la validez de la ley relativa al complemento para los que
no son pares o no pertenecen al conjunto A, y para los que no son múltiplos de tres, o no pertenecen
a B,
1 1 1 2
𝑃(𝐴̅) = 1 − 𝑃(𝐴) = 1 − = 𝑦 𝑃(𝐵̅) = 1 − 𝑃(𝐵) = 1 − =
2 2 3 3
Que no sea múltiplo de 3 ni par refiere a los que quedan excluidos de ambos conjuntos. En la
1
agrupación inicialmente propuesta hallamos diez elementos. Escribiríamos 𝑃(𝐴̅ ∩ 𝐵̅) = 3. Por otra
9
parte, los que no son simultáneamente par y múltiplo de 3, refiere a no pertenecer a los elementos
de la intersección. Vemos que hay 24 elementos que no cumplen a la vez las dos condiciones.
5
Luego 𝑃(𝐴 ̅̅̅̅̅̅̅
∩ 𝐵) = 6. Como se trata de un complemento, podemos verificar que
1 5
̅̅̅̅̅̅̅
𝑃(𝐴 ∩ 𝐵) = 1 − 𝑃(𝐴 ∩ 𝐵) = 1 − =
6 6
Hasta el momento hemos hablado de la probabilidad de un evento, simbolizado con una letra
genérica A, asociada con un experimento aleatorio. A modo de ejemplo, el experimento aleatorio
puede consistir en tirar un dado y el evento, que el resultado sea un número mayor que 3. Ya hemos
dicho que la probabilidad asociada vale 1/2=0,5=50% dado que serían favorables el 4, 5 y 6. Pero si
nos dan una información adicional, como por ejemplo que se trata de un número par, sabemos que
los números posibles son el 2, 4 y 6 porque excluimos los impares. Entre ellos el 4 y el 6 son
mayores que el número 3. De modo que la información adicional acerca de que se trata de un
número par limita el número de casos posibles a tres valores, de los cuales dos son pares (4 y 6). Por
lo tanto el número de casos posibles vale 3 (pares, dado que los impares fueron descartados), y lo
favorables son 2 (los pares y mayores que 3). En consecuencia podemos escribir
2
𝑃(𝑀𝑎𝑦𝑜𝑟 𝑞𝑢𝑒 3 𝑠𝑎𝑏𝑖𝑒𝑛𝑑𝑜 𝑞𝑢𝑒 𝑒𝑠 𝑝𝑎𝑟) =
3
Para expresarlo en un lenguaje simbólico, si A representa el evento “sale un número mayor que
3” y B representa el evento “sale un número par”, dado que los casos posibles son los favorables a
B. Notaremos con una barra “/” el texto “sabiendo que”.
𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑎 𝐴 𝑦 𝑎 𝐵
𝑃(𝐴/𝐵) =
𝐶𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑎 𝐵
En nuestro ejemplo, el resultado vale 2/3, pero podemos expresarlo de una manera más general
en términos de probabilidades.
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴/𝐵) =
𝑃(𝐵)
En nuestro caso será
𝑃(𝐴 ∩ 𝐵) 2/6 2
𝑃(𝐴/𝐵) = = =
𝑃(𝐵) 3/6 3
A modo de ejemplo, si la probabilidad de obtener un número mayor que tres, al tirar un dado,
vale 2/3 si se sabe que salió un número par, si se supiera que el resultado fue un número impar, ésta
probabilidad valdrá 1/3 porque sólo habrá un resultado favorable: el 5.
La noción de “independencia” es el planteo opuesto a la dependencia. Es decir, cuando la
probabilidad de ocurrencia de un evento no se modifica por la ocurrencia o no ocurrencia del otro.
Por ejemplo, la probabilidad de aprobar un examen sabiendo que llueve, o la probabilidad de
obtener un número par al tirar un dado sabiendo que hace frío.
En tal caso podemos escribir que
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴/𝐵) =
𝑃(𝐵)
y decimos que si hay independencia
𝑃(𝐴/𝐵) = 𝑃(𝐴)
resulta
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴) =
𝑃(𝐵)
Haciendo un pasaje de términos
Esto nos dice que, cuando dos eventos son independientes, la probabilidad de la intersección,
también llamada probabilidad “conjunta”, se obtiene como producto de las probabilidades
individuales.
Recordemos que la probabilidad de obtener “cara” al tirar una moneda vale 1/2. Si tiramos dos
monedas, la probabilidad de obtener cara en las dos vale
1 1 1
𝑃(𝑐𝑎𝑟𝑎 𝑦 𝑐𝑎𝑟𝑎) = 𝑃(𝑐𝑎𝑟𝑎). 𝑃(𝑐𝑎𝑟𝑎) = ∗ =
2 2 4
Esto es válido para cualquier cálculo de probabilidad en tanto los eventos sean independientes.
A modo de ejercicios, planteemos, al tirar un dado.
1. Hallar la probabilidad de obtener un número par y menor que 3.
2. Hallar la probabilidad de obtener un número impar o menor que 3.
3. Hallar la probabilidad de obtener un número par sabiendo que es menor que 4.
4. Hallar la probabilidad de obtener un número impar sabiendo que es menor que 4.
5. Al tirar una moneda y un dado, hallar la probabilidad de obtener una cara y un número menor
que 3.
6. Al tirar tres monedas, hallar la probabilidad de obtener tres caras.
7. Al tirar dos dados, hallar la probabilidad de que la suma de los resultados sea mayor que 10.
11
Al plantear que al tirar un dado se obtenga un número par, tenemos como casos favorables el 2,
4 y el 6. Al pedir que sea menor que 3, tenemos el 1 y el 2. El único número que cumple con las dos
condiciones es el 2. Como hay seis casos posibles, resulta que
1
𝑝=
6
En el segundo planteo pedimos que sea impar o menor que tres, por lo tanto que se cumpla al
menos una de las dos posibilidades, en consecuencia los casos favorables sería el 1, 2, 3, o 5 y
resulta
4 2
𝑝= =
6 3
En el tercer ejercicio se dice “sabiendo que es menor que 4”, por lo tanto los casos posibles son
el 1, 2 y 3. Entre ellos solamente el 2 es par, luego
1
𝑝=
3
Si en cambio pedimos como favorable que sea impar, hay dos casos favorables menores que 4 y
serían el 1 y 3, luego
2
𝑝=
3
Al tirar una moneda y un dado, como son experimentos independientes, la probabilidad de que
ocurran los dos eventos será el producto de las probabilidades individuales. La probabilidad de cara
vale ½ y la probabilidad de obtener un número menor que 3 vale 2/6=1/3, luego
1 1 1
𝑝= ∗ =
2 3 6
Al tirar una moneda, la probabilidad de obtener una cara vale p=1/2. Como se la tira tres veces y
son eventos independientes, podemos obtener la probabilidad de que los tres resultados sean cara
multiplicando las probabilidades, es decir
1 1 1 1
𝑝= ∗ ∗ =
2 2 2 8
12
En el último ejercicio se pide que al tirar dos dados se obtenga 6 en las dos tiradas. La
probabilidad de que al tirar un dado se obtenga el 6 vale 1/6, pero como las dos tiradas son
independientes, volvemos a multiplicar las dos probabilidades
1 1 1
𝑝= ∗ =
6 6 36
El número de casos en que la suma excede de diez corresponde a los pares (5;6), (6; 5) y (6;6),
por lo tanto, hay 3 casos favorables entre 36 casos posibles y la probabilidad vale 1/12.
Variable aleatoria
Para abordar la última etapa en el planteo teórico del problema del cálculo de probabilidades,
trataremos lo que se conoce como “variable aleatoria”. Se trata de representar a los eventos por
medio de números. Así como las caras del dado pueden ser numeradas, también se puede asignar un
número a las caras de una moneda, por ejemplo
𝐶𝑒𝑐𝑎−→ 0 𝐶𝑎𝑟𝑎−→ 1
Lo mismo podemos hacer con la asignación de números a las bolillas de un bolillero, o a los
números de documento, o a los números de libreta de estudiante, a las calles o a las casas.
Hay números que se asignan de manera arbitraria, como puede ser los que asignamos a las caras
de la moneda o a las caras del dado, o a las bolillas del bolillero. En el caso de los números de las
casas y las calles, si bien son arbitrarios, responden a cierto criterio. Notemos que también en el
dado porque la suma de los números de las caras opuestas da siete. Los números de documento son
menos arbitrarios aun porque están secuenciados de acuerdo con la fecha de nacimiento y de
realización del trámite de documentación. Por otra parte el número de estudiantes en un curso o el
número de vehículos que pasan por hora por una esquina están determinados con un cierto criterio
objetivo.
Así como no sabemos qué número va a salir al tirar un dado, tampoco sabemos qué número de
documento nos va a tocar o cuántos estudiantes habrá en un curso. Vemos que los tres experimentos
son aleatorios en el sentido que no se conoce el resultado previamente a la realización del
experimento, pero en cada uno de ellos tenemos un conocimiento a priori diferente. En el dado sólo
conocemos las reglas del juego, de modo que sabemos cuáles son los resultados posibles y que son
igualmente probables. Al tramitar un número de documento, no sabemos cuál nos va a tocar pero
tenemos una idea aproximada en función de la secuencia. Al contabilizar el número de inscriptos en
un curso sólo sabemos que no puede superar la capacidad del aula donde se dictará.
Si bien estas variables aleatorias son diferentes en su naturaleza, tienen algo en común: que se
las puede contar. A este tipo de variables aleatorias que pueden contarse se las llamará “variables
aleatorias discretas”.
Otros experimentos aleatorios, como medir el tiempo de viaje, el peso de una carga, la velocidad
de un vehículo, la distancia recorrida en un minuto, no pueden ser respondidos siempre con
números enteros. Tomemos la distancia recorrida. Puede ser de 25m (25 metros), o de 25,4m (25
metros 4 decímetros), o de 25,47m (25 metros, 4 decímetros y 7 centímetros). Podríamos agregar
todos los decimales que deseemos en tanto tenga sentido en la medición. En todo caso podemos
tener una limitación técnica o conveniencia en recortar el número de decimales a informar, pero en
principio podríamos asignar infinito número de decimales a la medida. A este tipo de variables
aleatorias se debe asignar un continuo de números reales y se las llama “variables aleatorias
continuas”.
13
Por el momento nos limitaremos a consolidar esta idea por medio de un par de ejercicios. Entre
los siguientes experimentos, ¿a cuáles podría asociarse una variable aleatoria continua y a cuáles
una variable aleatoria discreta?
Por otra parte, proponer otros cinco experimentos que puedan asociarse a una variable aleatoria
discreta y cinco a una variable aleatoria continua.
En general se usa una notación para la variable aleatoria por medio de letras mayúsculas,
frecuentemente la X, Y, Z, o bien X1, X2, X3, típicamente utilizadas para variables. Por ejemplo, al
tirar un dado, si X es la variable aleatoria discreta asociada, escribiríamos
𝑋 = {1; 2; 3; 4; 5; 6}
como una manera de establecer el conjunto de valores posibles. Si asignamos el cero a la cara y el
uno a la ceca al tirar una moneda, y lo representamos por la variable aleatoria Y, notaríamos
𝑌 = {0; 1}
Si fuese una variable aleatoria continua, quizá un tiempo de viaje que puede durar entre dos y
cuatro horas, escribiríamos
𝑇 = {𝑡/ 2ℎ ≤ 𝑡 ≤ 4ℎ 𝑡 ∈ 𝑅}
como una manera de decir que la variable aleatoria T, asociada a la palabra “tiempo”, está
representada por un número real (𝑡 ∈ 𝑅 se lee “t pertenece al conjunto de números reales”) en el
rango entre dos horas y cuatro horas.
Se trata sólo de notaciones para expresar de un modo general un problema específico que puede
ser tanto si salió cara o ceca, como el tiempo de duración de un viaje.
Para expresar que se pretende conocer la probabilidad de obtener un cinco al tirar un dado,
escribiríamos
1
𝑃(𝑋 = 5) =
6
Lo leemos “la probabilidad de que la variable aleatoria X, asociada a los resultados posibles de
tirar un dado, dé por resultado concreto el número 5, vale un sexto”. El texto puede resultar extenso
pero la notación es abreviada y resulta clara en la medida que se hace costumbre su uso. Al tirar una
moneda
1
𝑃(𝑌 = 0) =
2
reconocemos preguntas planteadas previamente, pero en un formato más general que nos va
acostumbrando a leer el cálculo de probabilidades en términos de la variable aleatoria. Tratemos de
asignar los valores de probabilidad que corresponde a los planteos que acabamos de hacer.
Para expresar el planteo de un problema de probabilidades en una forma muy general,
escribimos
𝑃(𝑋 = 𝑥) = 𝑝𝑥
𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑝𝑥
1 1/6 1/6
2 1/6 2/6
3 1/6 3/6
4 1/6 4/6
5 1/6 5/6
6 1/6 6/6=1
Si tiramos dos dados y sumamos los resultados de las caras, vemos que pueden estar en el rango
de 2 (dos unos) a 12 (dos seis). La distribución resulta de contabilizar el número de combinaciones
de resultados que permite sumar cada uno de los valores posibles. Agregamos el “1”, el “13” y el
“14” para decir explícitamente que son resultados imposibles porque no hay ninguna combinación
de formas en que puedan caer los dados que dé esa suma. Sabemos que hay 36 casos posibles pero
sólo uno de ellos dará por resultado la suma X=2. Si sale “1” el primero y “2” el segundo o bien “2”
el primero y “1” el segundo, la suma dará X=3, de modo que hay dos casos favorables entre 36
posibles para obtener como suma X=3. Si seguimos analizando los posibles resultados veremos que
hay tres modos diferentes de obtener X=4 con un máximo de seis casos favorables para obtener
X=7, el máximo de probabilidad de la distribución. La tabla resulta finalmente
𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑝𝑥
1 0 0
2 1/36=0,028=2,8% 2,8%
3 2/36=0,056=5,6% 8,4%
4 3/36=0,083=8,3% 16,7%
5 4/36=0,11=11% 28,7%
6 5/36=0,14=14% 42,7%
7 6/36=0,17=17% 59,7%
8 5/36=0,14=14% 73,7%
9 4/36=0,11=11% 84,7%
10 3/36=0,083=8,3% 92,0%
11 2/36=0,056=5,6% 97,6%
12 1/36=0,028=2,8% 100%
13 0
14 0
Se deja como ejercicio construir los gráficos de las distribuciones de probabilidad de los dos
experimentos previos.
Retomemos la primera tabla
𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑝𝑥
1 1/6 1/6=0,167
2 1/6 2/6=0,333
3 1/6 3/6=0,500
4 1/6 4/6=0,667
5 1/6 5/6=0,833
6 1/6 6/6=1,000
16
𝑃(𝑋 ≤ 𝑥𝑖 ) = ∑ 𝑝𝑥𝑗
𝑗=1
Se lee “la probabilidad acumulada hasta el valor de la variable aleatoria dado por 𝑥𝑖 es la suma
de los valores de índice j desde el valor j=1 hasta j=i”. Por ejemplo
4
1 1 1 1 4
𝑃(𝑋 ≤ 𝑥4 ) = ∑ 𝑝𝑥𝑗 = 𝑝𝑥1 + 𝑝𝑥2 + 𝑝𝑥3 + 𝑝𝑥4 = + + + = = 0,666 …
6 6 6 6 6
𝑗=1
Pero no vamos a preocuparnos por la notación sino por la idea de acumular probabilidad hasta
cada resultado posible.
Agreguemos la distribución acumulada para las dos monedas
𝑋 𝑃(𝑋 = 𝑥) = 𝑝𝑥 (𝑋 ≤ 𝑥) = ∑ 𝑝𝑥
0 ¼=0,25 0,25
1 2/4=½=0,5 0,75
2 ¼=0,25 1,00
Se deja como ejercicio construir los gráficos de distribución puntual correspondientes a tirar dos
monedas y contar el número de caras, y a tirar dos dados y sumar los resultados obtenidos en las
caras. También los de distribución acumulada.
Función de distribución
Hemos visto que la distribución puntual se limita a conocer los valores de probabilidad
asignadas a cada uno de los resultados posibles de la variable aleatoria con la que se está trabajando.
17
Como debe informarse para todos los resultados posibles, tiene que ser un número finito o limitado
de valores. Esto sólo puede aplicarse a variables aleatorias discretas.
Hemos definido la distribución acumulada como la suma de los valores de probabilidad a
medida que se incrementa la variable aleatoria. Lo podemos ver en la tercera columna de la última
tabla de la página anterior.
Veremos luego que esta distribución acumulada puede utilizarse tanto para variables aleatorias
discretas como continuas. Por el momento definamos una forma más general de distribución
acumulada, que se llama “función de distribución”.
Para quienes recuerden la definición de una función en matemática, se trata de asignar un valor a
una variable dependiente (y) a partir de diferentes valores de la variable independiente (x). Suele
notarse habitualmente 𝑦 = 𝑓(𝑥).
En el cálculo de probabilidades, sobre la base de la idea general de función en matemática, se
define la “función de distribución” 𝐹(𝑥), en letra mayúscula
0 𝑥<1
1
1≤𝑥<2
6
2
2≤𝑥<3
6
3
3≤𝑥<4
𝐹(𝑥) = 6
4
4≤𝑥<5
6
5
5≤𝑥<6
6
6
{6 = 1 6≤𝑥
Esta definición difiere de la anterior en que se trata de una función de números reales definida
sobre todo el campo de los números reales. Por lo tanto nos habilita a usar herramientas del análisis
de funciones aplicadas al cálculo de probabilidades, en particular veremos que se podrá aplicar a
variables aleatorias continuas.
En el siguiente gráfico se presenta la función de distribución correspondiente a “tirar un dado”
de acuerdo con la descripción anterior
18
𝑋 = {0.5; 1.0; 1.5; 2.0; 2.5; 3.0; 3.5; 4.0; 4.5; 5.0; 5.5; 6.0}
Cada uno de estos doce valores posibles de la variable aleatoria tendría una probabilidad
asociada de un doceavo, a diferencia de un sexto en un dado normal. La forma del grafico sería la
misma, pero con doce saltos de un doceavo de probabilidad cada vez que avanzamos en 0,5 en la
variable aleatoria.
Sigamos por este camino y construyamos un dado de sesenta caras. Nuestra nueva variable
aleatoria será
𝑋 = {0.1; 0.2; 0.3; … … … ; 5.7; 5.8; 5.9; 6.0}
Tendremos sesenta saltos de 1/60 (un sesentavo) de probabilidad durante el recorrido de todos
los valores posibles de esta variable aleatoria. El gráfico sería similar pero con sesenta saltos muy
pequeños. Y si seguimos con un dado de seiscientas caras
Si lo miramos desde una cierta distancia ya no se distinguirán los seiscientos saltos, de 1/600 en
probabilidad, de un segmento de recta.
Si continuamos el razonamiento con 6000, 60000, 6.000.000 de caras, a los fines prácticos
funcionará como si fuera una “pelota”, y si lo llevamos más lejos, podemos imaginar una esfera con
“infinitas caras”. Si cada punto de la esfera tiene asociado un punto, todos tendrán la misma
probabilidad de que al rodar se detenga con uno de los puntos hacia arriba (que salga ese número),
pero cada número o punto tendrá un infinitésimo de probabilidad.
Más allá de lo anterior, que puede resultar muy abstracto, nuestro gráfico será más amigable. Si
en lugar de los seis saltos del dado cúbico, tenemos los sesenta o seiscientos o seis millones, de
saltos cada vez más pequeños, el gráfico se parecerá cada vez más a una línea. Para una esfera será
estrictamente una línea. De modo que el gráfico de la distribución de probabilidad asociada a la
esfera tendrá la forma
0 𝑥<0
𝑥
𝐹(𝑥) = { 0≤𝑥≤6
6
1 6<𝑥
2
𝑃(𝑋 ≤ 2) = 𝐹(2) = = 0,33
6
La probabilidad acumulada en la mitad superior del rango será dada por el complemento
2 2
𝑃(𝑋 > 2) = 1 − 𝑃(𝑋 ≤ 2) = 1 − 𝐹(2) = 1 − = = 0,67
6 3
5 2 3
𝑃(2 < 𝑋 ≤ 5) = 𝑃(𝑋 ≤ 5) − 𝑃(𝑋 ≤ 2) = 𝐹(5) − 𝐹(2) = − = = 0,5
6 6 6
20
3 1 2
Tomemos otros límites como 𝑃(1 < 𝑋 ≤ 3) = 𝐹(3) − 𝐹(1) = − = = 0,3333
6 6 6
A los fines de ejercitar un poco este método gráfico y analítico para el cálculo de probabilidades,
dejamos algunos ejercicios para completar.
El valor “un sexto” es la pendiente del segmento de recta que crece en la vertical desde cero
hasta uno (variable dependiente) cuando en la horizontal la variable aleatoria (variable
independiente) se desplaza desde cero hasta seis.
Si representamos gráficamente esta función de densidad se obtiene
Es claro por qué se llama “uniforme” a esta distribución de probabilidad: es constante y vale lo
mismo para todos los puntos en los que está definida la variable aleatoria.
El área encerrada debajo de la función de densidad representa la probabilidad de obtener un
resultado dentro del intervalo pedido. Tomemos, a modo de ejemplo, el ejercicio 3, en el que se
pide la probabilidad 𝑃(2 ≤ 𝑥 ≤ 4).
El área encerrada debajo de la representación de la función de densidad es un tercio del área total
y puede calcularse como “base por altura”, siendo
1 2 1
Á𝑟𝑒𝑎 = (4 − 2) ∗ = = = 0,333 …
6 6 3
Esta distribución de probabilidad es tan usada que hasta tiene un nombre y una nomenclatura, se
llama distribución “uniforme”, suele utilizarse para aplicar técnicas de muestreo y caracterizar lo
que se llama “ruido aleatorio” en análisis de señales.
La nomenclatura suele ser 𝑈[𝑎; 𝑏] para la función de distribución y 𝑢[𝑎; 𝑏] para la función de
densidad definidas en la forma
0 𝑥<𝑎
1
𝑢[𝑎;𝑏] (𝑥) = { 𝑎≤𝑥≤𝑏
𝑏−𝑎
0 𝑏<𝑥
Y
22
0 𝑥<𝑎
𝑥−𝑎
𝑈[𝑎;𝑏] (𝑥) = { 𝑎≤𝑥≤𝑏
𝑏−𝑎
1 𝑏<𝑥
Con gráficos de densidad
Y de distribución
La que hemos presentado como “distribución uniforme” es la más simple entre las distribuciones
continuas y representa la misma probabilidad para todos los puntos del intervalo. Sin embargo las
distribuciones pueden tener aspectos muy variados y complejos. Por ejemplo en la siguiente figura
presentamos las funciones de densidad de probabilidad de precipitaciones sobre dos ríos de España
(Guadalquivir y Segura)
https://www.researchgate.net/figure/Figura-1-Funcion-de-Densidad-de-Probabilidad-para-las-
precipitaciones-cuencas-del_fig1_227452493
23
La curva de la izquierda, del río Segura, tiene un mínimo de precipitación en unos 200mm y un
máximo en torno a los 800mm anuales, mientras presenta un máximo de probabilidad en torno a los
400mm (no discutiremos el eje vertical porque corresponde a un análisis estadístico).En cambio la
densidad de probabilidad del río Guadalquivir tiene un mínimo de precipitación en torno a los
300mm y un máximo en el orden de 1200mm, con un máximo de probabilidad alrededor de
650mm. La distribución del río Segura es más concentrada que la del río Guadalquivir.
El área encerrada debajo de ambas curvas vale uno, de modo que si se quiere calcular la
probabilidad de que la precipitación sobre el río Segura sea menor que 500mm bastaría calcular el
área debajo de la curva que le corresponde a la izquierda de un segmento que corte el eje horizontal
en 500mm. Una observación del gráfico permite estimar esta probabilidad en el orden del 60%,
mientras que la misma probabilidad estimada para el río Guadalquivir difícilmente alcance el 20%.
El siguiente gráfico es una simulación de una forma típica de la densidad de probabilidad de la
velocidad del viento para estudios de energía eólica
https://postdata-
statistics.com/introestadistica/impartidos/quimicauah20142015/sesion05b/sesion05b
https://www.uv.es/ceaces/base/modelos%20de%20probabilidad/MODEPR1.htm
Vemos que hay variadas formas de las funciones de densidad que describen el comportamiento
probabilista de muchos sistemas reales. El cálculo de probabilidades se realiza por medio del
cálculo de áreas encerradas bajo las curvas, o bien si se dispone de las funciones de distribución.
Una forma típica de las funciones de distribución correspondientes a los primeros gráficos es
25
https://www.uv.es/ceaces/base/variable%20aleatoria/varalea.htm
http://www.sc.ehu.es/sbweb/fisica/cursoJava/numerico/montecarlo/aleatoria/aleatoria.htm
El “mínimo” de una distribución es el menor valor que puede adquirir una variable aleatoria, de
la misma manera que el “máximo” es el mayor valor posible. Así, al tirar un dado, el mínimo vale 1
y el máximo vale 6. El “rango” de valores posibles, rango de definición o simplemente rango, para
una variable continua se obtiene como la diferencia entre el máximo y el mínimo,
para una variable discreta es más conveniente expresar los extremos, así, al tirar un dado el rango va
entre 1 y 6 (seis valores posibles).
Un parámetro usado muy frecuentemente es la “moda” o valor modal, que se interpreta como el
valor de variable aleatoria con máximo de probabilidad.
Otro parámetro de uso general se conoce como “mediana” 𝑥̃ y es el valor de la variable aleatoria
que divide la distribución en dos partes iguales. Es decir que 𝑃(𝑋 ≤ 𝑥̃) = 0,5, o lo que es lo mismo
𝐹(𝑥̃) = 0,5.
Sobre la base de la misma idea se definen los “terciles” o valores de variable aleatoria que
1
dividen la distribución en tres partes iguales, es decir que si 𝑥𝑡1 y 𝑥𝑡2 son los dos terciles, 𝐹(𝑥𝑡1 ) =
3
2 1 2
y 𝐹(𝑡𝑡2 ) = . También se utilizan “cuartiles” 𝑥𝑐1 , 𝑥𝑐2 y 𝑥𝑐3 tales que 𝐹(𝑥𝑐1 ) = , 𝐹(𝑥𝑐2 ) = y 𝐹(𝑥𝑐3 ) =
3 4 4
3
4
.Puede verse que el segundo cuartil coincide con la mediana. También se utilizan “quintiles” 𝑥𝑞1
hasta 𝑥𝑞4 , “deciles”, 𝑥𝑑1 a 𝑥𝑑9 y “percentiles” 𝑥𝑝1 a 𝑥𝑝99 . Aquí el percentil cincuenta coincide con
la mediana. En la práctica se usan como medidas rústicas que aproximan valores de probabilidad
cuando no se puede pedir mucha precisión a la información disponible. Por ejemplo los terciles
separan el tercio central del tercio más pequeño y el tercio más grande, los quintiles hacen algo
parecido con un poco más de resolución separando el veinte por ciento más alejado en ambos
extremos del veinte por ciento central, y dos medidas de apartamiento de la centralización no tan
extremas en los quintos segundo y cuarto. Los deciles subdividen medidas de probabilidad con
resolución de un diez por ciento y los percentiles con un uno por ciento, aunque para poder llegar a
tal nivel de resolución se requiere mucha información y se aplica a situaciones en que la
aproximación a la distribución de probabilidad es casi totalmente empírica. Veremos que los
cuartiles tienen algunas aplicaciones como medidas de variabilidad y de forma.
La moda y la mediana son medidas de posición, de localización o de centralización, en el sentido
que definen la ubicación de la distribución dentro del eje real, la moda en el sentido del “valor más
probable” o evento más probable, y la mediana en términos de la mitad de la distribución o de la
probabilidad acumulada. El rango 𝑅𝑔 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛 , el rango intercuartílico 𝑥𝑐3 − 𝑥𝑐1 y otras
medidas similares caracterizan la dispersión de la distribución, el primero delimitando el rango
máximo de dispersión de la variable en cuestión y el segundo el rango donde se distribuye el 50%
de la probabilidad. Pero también hay medidas de forma, como la posición relativa entre la moda y la
mediana o los rangos intercuartílicos laterales 𝑥𝑐3 − 𝑥𝑐2 y 𝑥𝑐2 − 𝑥𝑐1 que analizaremos luego.
Esperanza
El concepto de “esperanza” es uno de los más útiles, aunque su interpretación resulta un poco
más oscura que las de otros parámetros ya mencionados. Inclusive el nombre “esperanza” induce a
error debido a que no se trata de ningún valor que se espere obtener como resultado de un
experimento aleatorio. La esperanza es un parámetro de posición definido como una manera de
determinar el punto de equilibrio de una distribución puntual o de una función de densidad. En tal
sentido es una medida de posición o de localización central de la distribución. Se la interpreta como
la ubicación en la cual debería encontrarse toda la distribución de probabilidad asociada a un
experimento si ésta se concentrase en un único punto. En este sentido nos permite expresarnos en
un lenguaje determinista como si toda la distribución estuviese concentrada en el valor esperado.
27
Varianza y Dispersión
Medidas de forma
En el gráfico precedente retomamos la distribución de velocidad del viento que vimos unas
páginas atrás. En ella ubicamos el mínimo (Xm), el máximo (XM) y el rango (Rg o Rango). Si
reconocemos la línea de puntos (average significa “promedio”, veremos en estadística por qué se
utiliza esta denominación y asocia con la idea de esperanza), esa línea representa la esperanza o
punto de equilibrio de la distribución (µ). La moda (Mo) es el valor de máxima probabilidad y la
mediana (Me) representa el punto que divide a la distribución en dos partes de igual área y, por lo
tanto, la misma probabilidad. Con dos paréntesis (< y >) representamos los puntos correspondientes
a la esperanza menos la desviación estándar (µ-σ) y a la esperanza más la desviación estándar
(µ+σ). Dentro de estos límites se encuentra aproximadamente dos tercios de la probabilidad de la
distribución o del área total.
Podemos notar que la curva está “estirada” hacia la derecha, es decir que tiene un rápido
crecimiento hacia el máximo y un decrecimiento más lento. Este tipo de distribuciones están
“sesgadas a derecha” o tienen “sesgo positivo”. Es típico de la distribución del viento y de muchas
otras que están asociadas con la energía. Si estuviese estirada hacia la izquierda con rápido
decrecimiento, tendría “sesgo negativo”. Y si fuese simétrica tendría sesgo nulo o sería “insesgada”.
En el ejemplo gráfico, el orden de los tres parámetros de posición es, de izquierda a derecha: moda-
mediana-esperanza. Si tuviera sesgo negativo el orden típico sería: esperanza-mediana-moda.
Si presenta un ascenso rápido y un lento decrecimiento se dice que tiene “sesgo positivo” y, si el
crecimiento es lento con un decrecimiento rápido, el “sesgo” es “negativo”, según se ve en las
figuras que siguen.
29
En el gráfico que sigue mostramos las distribuciones de probabilidad correspondientes a dos ríos
diferentes, el Segura (CHS) y el Guadalquivir (CHG). Ubicamos la moda y la esperanza en cada
uno de ellos, así como los puntos correspondientes a la esperanza más y menos un desvío estándar
para el Segura en trazo grueso y para el Guadalquivir en trazo fino. Podemos ver que tanto el rango
como los intervalos entre desvíos son más anchos para el Guadalquivir que para el Segura, lo que
indica una mayor varianza y mayor variabilidad en el comportamiento para el primero que para el
segundo. Los dos tienen sesgo positivo, aunque es más notable en el Segura que en el Guadalquivir.
Esta distribución es “trimodal” con una moda principal (Mp) o máximo absoluto de
probabilidad, y dos modas secundarias (Ms) que representan máximos relativos de probabilidad.
Esta distribución también presenta asimetría positiva pero el comportamiento es mucho más
complejo y es muy difícil ubicar visualmente la esperanza, la mediana y el intervalo entre desvíos,
para lo cual hay que recurrir necesariamente al cálculo.
A modo ilustrativo, quizá ayuden estos videos a comprender mejor la idea de “distribución de
probabilidad”
Variable aleatoria
https://www.youtube.com/watch?v=n0T_HcJ7oak
Distribución de probabilidad
https://www.youtube.com/watch?v=naEqsDvkIXs
Función de densidad (omitir referencia a integrales)
https://www.youtube.com/watch?v=2gI8Ri792ig
https://es.wikipedia.org/wiki/Distribución_normal
La distribución normal se simboliza 𝑁(; ²) de una manera general. Por ejemplo 𝑁(3; 4)
refiere una distribución gaussiana o normal con esperanza 3 y varianza 4, por lo que la desviación
estándar vale 2. Debemos recordar que la desviación estándar (σ) es la raíz cuadrada de la varianza.
La distribución es simétrica y unimodal centrada en la esperanza. Eso quiere decir que el punto
de equilibrio (la esperanza) coincide con la moda (el máximo de probabilidad) y la mediana (el
punto que divide a la distribución por la mitad en probabilidad).
Al dibujar una curva se llama “punto de inflexión” al punto donde el gráfico cambia de
curvatura. En el gráfico que sigue, la intersección de las líneas horizontal y vertical indica la
posición del punto de inflexión. También se indica la tangente o pendiente, que es máxima en ese
31
punto. Puede verse que antes del punto de inflexión el gráfico está curvado hacia arriba y después
está curvado hacia abajo. De allí que sea el “punto de cambio de curvatura”.
https://es.wikipedia.org/wiki/Punto_de_inflexión
Volvemos a copiar el dibujo de la distribución normal debajo. Podemos ver dos puntos de
inflexión. La primera parte de la función de densidad está curvada hacia arriba (curvatura positiva)
incrementándose progresivamente en forma cada vez más rápida. En el eje horizontal ese punto se
indica como µ-σ. Sigue creciendo en forma cada vez más lenta hasta alcanzar un máximo en la
esperanza, coincidente con la mediana y la moda. Luego decrece hasta el siguiente punto de
inflexión, con curvatura hacia abajo (negativa), localizado en µ+σ. De allí en adelante vuelve a
cambiar de curvatura (positiva) decreciendo en forma cada vez más lenta.
Idealmente, esta distribución se extiende sobre todo el eje real, entre “menos infinito” y “más
infinito”, pero en la práctica puede notarse que más allá de tres desvíos estándar con respecto a la
esperanza la función de densidad es casi nula.
La probabilidad correspondiente a la región ubicada entre la esperanza y un desvío estándar a
izquierda y derecha (entre µ-σ y µ+σ) es de 68,2%. Si extendemos los límites simétricos entre la
esperanza y dos desvíos a izquierda y derecha tenemos el 95,4% de probabilidad (entre µ-2σ y
µ+2σ) y si nos extendemos a tres desvíos, la probabilidad acumulada es casi del 100% (99,8%). De
allí que tener eventos más alejados que tres desvíos con respecto a la normal son muy raros.
Presentamos ahora conjuntamente la función de densidad y la función de distribución.
32
https://es.wikipedia.org/wiki/Tabla_normal_estándar
Nos limitaremos a analizar el dibujo. En azul podemos ver el gráfico de la función de densidad
normal y el área sombreada en celeste, que representa la probabilidad acumulada.
En naranja podemos ver la función de distribución acumulada que va progresivamente
calculando el área encerrada bajo la curva de la función de densidad interpretándola como la
probabilidad acumulada correspondiente a cada punto. En el gráfico se ha indicado un valor como
ejemplo de 0,84134.
Por el momento nos limitaremos a dibujar algunas funciones de densidad normal o campanas de
Gauss a partir de los datos de esperanza y varianza. Retomamos el ejemplo inicial. 𝑁(3; 4) refiere
una distribución gaussiana o normal con esperanza 3 y varianza 4, por lo que la desviación estándar
vale 2. Centraremos nuestro gráfico en “µ=3”, calcularemos los límites µ-σ=3-2=1 y µ+σ=3+2=5, y
ubicaremos allí los puntos de inflexión. En µ-3σ=3-3*2=-3 y en µ+3σ=3+3*2=9 la curva
prácticamente debería tocar el eje. Trataremos de hacer este dibujo a mano alzada para
familiarizarnos con la forma. Dejamos como ejercicios graficar a) N(25; 25), b) N(-3;9) y c)
N(10;16).
Les envío un par de videos que podrían quizá ayudar al estudio de la distribución normal. El
primero puede contribuir a interpretar qué es y en qué tipo de situaciones se aplica. Algunas son un
poco forzadas en el video, pero sirven.
https://www.youtube.com/watch?v=phY8Z9-TXCY
El segundo puede contribuir a la interpretación del gráfico en términos de cálculo.
https://www.youtube.com/watch?v=VYmd5hLykTo
El video que sigue trata sobre la “distribución normal estándar” con esperanza nula y varianza
unitaria (𝜇 = 0 𝑦 𝜎 = 1). No prestaremos atención a la referencia a “integrales”, sino a la
representación del área bajo la curva de la distribución normal.
https://www.youtube.com/watch?v=97EI9mS0WS8
El último trata del problema del cálculo con el recurso de la estandarización y de la tabla para
distribuciones normales cualesquiera utilizando la simetría de la distribución y el complemento.
https://www.youtube.com/watch?v=59I-6L5QMfc
Desde el punto de vista del cálculo, el problema que presenta la distribución normal es que su no
se dispone de una función a la que se pueda asignar valores a la variable y resolverla. Por tal motivo
no es posible hallar valores exactos de probabilidad y en la práctica se recurre a estimaciones
numéricas que se presentan en tablas de la distribución normal. En estas tablas se dispone de
valores numéricos de una única distribución normal conocida como “estándar” con esperanza cero y
33
varianza uno, es decir 𝑁(0; 1). Es usual que se indique (𝑧) como una referencia a la función de
densidad normal estándar, y (𝑧) como una forma sintética de expresar la función de distribución
normal estándar.
Para utilizar estas tablas con distribuciones normales con otros valores de y de se
“estandariza” la variable aleatoria original X por medio de la relación
𝑋−
𝑍=
Este procedimiento transforma una variable que responde a una distribución normal genérica,
expresada como 𝑁(𝜇; 𝜎 2 ) en una normal estándar 𝜑(𝑧) = 𝑁(0; 1). A veces se usa la nomenclatura
𝑁(𝜇; 𝜎) para designarla a través de la esperanza y el desvío estándar, pero utilizaremos la esperanza
y la varianza en la forma 𝑁(𝜇; 𝜎 2 ).
Para utilizar la tabla de distribución normal acumulada estándar, que copiamos debajo en
formato comprimido pero se adjunta en otra página y como archivo independiente, tomamos como
referencia la esperanza y la varianza indicadas, y el o los límites dentro de los cuales se quiere
calcular la probabilidad pedida.
Si buscamos 𝑃(𝑋 ≤ 𝑎) = 𝑃(𝑍 ≤ 𝑧𝑎 ) = 𝜙(𝑧𝑎 ), para ello estandarizamos el valor “a” en la
forma
𝑎−
𝑧𝑎 =
Con este valor numérico vamos a la tabla y buscamos el entero y el primer decimal en la
columna derecha, si es negativo, en el lado izquierdo de la tabla y, si es positivo, en el lado derecho.
El segundo decimal lo buscamos como columna en la que corresponda para obtener la probabilidad
buscada en la intersección de la fila y la columna. Si, por ejemplo, el valor estandarizado fuese 𝑧𝑎 =
−1,26, buscamos en la fila “-1,2” hasta la columna “0,06” para hallar 0,1038 como probabilidad
deseada.
En caso que se pida que sea mayor que cierto valor, recurrimos al complemento, así
𝑎− 𝑏−
𝑧𝑎 = 𝑦 𝑧𝑏 =
Luego
https://es.calameo.com/read/00500660270f7c1129194
Este valor que se obtiene en tablas. Iremos a la fila “-0,7” y a la columna “0,05” para hallar la
probabilidad deseada, que da 0,2266.
Por el momento dejamos como ejercicios
1. Supóngase que X tiene una distribución 𝑁(2; 16). Use la tabla de distribución normal para
evaluar las probabilidades siguientes probabilidades:
a) 𝑃(𝑋 ≤ 2,1) b) 𝑃(𝑋 > 0,8) c) 𝑃 (−1,2 < 𝑋 ≤ 4,5).
2. Se sabe que un material se fabrica con una longitud que responde a una distribución normal
con parámetros µ = 20m y ² = 4m2.
a) Calcular la probabilidad de que la longitud sea menor que 17.
b) Calcular la probabilidad de que la longitud sea mayor que 21.
c) Calcular la probabilidad de que la longitud esté entre 17 y 21.
Graficar cada distribución y las regiones correspondientes a las probabilidades deseadas.
35
36
1. Supóngase que X tiene una distribución 𝑁(2; 0,16). Use la tabla de distribución normal para
evaluar las probabilidades siguientes probabilidades:
a) 𝑃(𝑋 ≤ 2,1) b) 𝑃(𝑋 > 1,8) c) 𝑃 (1,8 < 𝑋 ≤ 2,1).
A partir de la información del ejercicio tenemos como datos 𝜇 = 2 y 𝜎 2 = 0,16, por lo tanto
𝜎 = 0,4. A partir de estos datos planteamos
2,1 − 2
𝑃(𝑋 ≤ 2,1) = 𝑃 (𝑧 ≤ ) = 𝑃(𝑧 ≤ 0,25) = 𝜙(0,25) = 0,5987
0,4
1,8 − 2
𝑃(𝑋 > 1,8) = 1 − 𝑝(𝑋 ≤ 1,8) = 1 − 𝑃 (𝑧 ≤ ) = 1 − 𝑃(𝑧 ≤ −0,50) = 1 − 𝜙(−0,50)
0,4
= 1 − 0,3085 = 0,6915
Para hallar esta probabilidad ubicamos la fila “-0,5” y la primera columna “0,00”.
Para hallar la probabilidad en un intervalo recurrimos a la diferencia entre probabilidades
acumuladas.
2,1 − 2 1,8 − 2
𝑃 (1,8 < 𝑋 ≤ 2,1) = 𝑃 (𝑧 ≤ ) − 𝑃 (𝑧 ≤ ) = 𝜙(0,25) − 𝜙(−0,50)
0,4 0,4
= 0,5987 − 0,3085 = 0,2902
2. Se sabe que un material se fabrica con un parámetro de calidad que responde a una
distribución normal con esperanza µ = 20 y varianza ² = 4.
a) Calcular la probabilidad de que el número de ocurrencias sea menor que 17.
b) Calcular la probabilidad de que el número de ocurrencias sea mayor que 21.
c) Calcular la probabilidad de que el número de ocurrencias esté entre 17 y 21.
A partir de la varianza obtenemos la desviación estándar 𝜎 = 2.
17 − 20
𝑃(𝑋 ≤ 17) = 𝑃 (𝑧 ≤ ) = 𝑃(𝑧 ≤ −1,50) = 𝜙(−1,50) = 0,0668
2
21 − 20
𝑃(𝑋 > 21) = 1 − 𝑃(𝑥 ≤ 21) = 1 − 𝑃 (𝑧 ≤ ) = 1 − 𝑃(𝑧 ≤ 0,50) = 1 − 𝜙(0,50)
2
= 1 − 0,6915 = 0,3085
𝑃(17 < 𝑋 ≤ 21) = 𝑃(𝑋 ≤ 21) − 𝑃(𝑋 ≤ 17) = 𝜙(0,50) − 𝜙(−1,50) = 0,6915 − 0,0668
= 0,6247
37
A grandes rasgos hemos tocado los puntos más relevantes del cálculo de probabilidades. En lo
que sigue abordaremos algunas cuestiones relativas a la estadística. El objetivo de la estadística es
abordar el problema de la incertidumbre desde la información de que se dispone acerca de un
evento. Esa información podría ser útil para evaluar probabilidades de ocurrencias futuras de ese
evento u otro relacionado.
Veremos el origen histórico de la estadística y cómo se ha vinculado con el cálculo de
probabilidades, así como con otros problemas como el de la toma de muestras, la búsqueda de
relaciones y de predicciones, problemas de control y manejo de grandes volúmenes de datos.
Discutiremos los procedimientos para la toma de muestras, el control de información, la
clasificación de información y construcción de histogramas, ojivas y otros modos de presentación
gráfica. Calcularemos parámetros descriptivos y discutiremos aspectos relativos a la inferencia
estadística en un reencuentro con el cálculo de probabilidades.
Introducimos primero la “estadística descriptiva” a través del proceso histórico que llevó en
paralelo el cálculo de probabilidades y la estadística hasta converger en el análisis actual. A este
proceso se incorpora las técnicas de toma de muestras, las aplicaciones industriales al análisis de
procesos, el ajuste empírico de curvas a datos.
No es fácil establecer un vínculo entre un planteo probabilista y la estadística. Sin dejar de lado
el problema de la toma de muestras y el diseño de métodos numéricos para analizar problemas
multivariados. Se trata de cinco áreas diferentes que responden a problemas distintos pero
vinculados por lo que podríamos llamar variabilidad aleatoria: el problema de los juegos de azar, el
del análisis de datos e inferencia, el problema del error de medición, el del ajuste de modelos de
relación a problemas multivariados y el de la toma representativa de muestras. El desarrollo
histórico permita comprender mejor el estado actual de la relación entre el cálculo de probabilidades
y la estadística.
Puede decirse que la estadística es una disciplina que involucra la colección de datos e infiere
propiedades del experimento que los generó. Si hemos de remontarnos a los orígenes, es posible
que el registro numérico haya precedido al lenguaje escrito. Hace más de cuatro mil años en la
antigua Mesopotamia se llevaba contabilidad en tablillas en un sistema de numeración de base
sesenta, fundamento del actual sistema de medición de ángulos y de tiempo. Si nos remontamos aún
más lejos en el pasado, se ha establecido fechas de huesos, marfil y piedras con marcas hace unos
treinta mil años en Europa Central y Francia, una de ellas es un hueso de lobo con cincuenta y cinco
marcas en grupos de cinco. Hace doce mil años se han encontrado en Oriente Medio muescas en
huesos que es posible representen un calendario lunar. Sin embargo, si hemos de asignar un origen a
la colección sistemática de datos, debemos detenernos hace unos mil años.
En 1085 Guillermo el Conquistador, rey de Inglaterra, encargó a sus asesores que coleccionaran
información con el fin de obtener una descripción del estado actual del reino. Esa información fue
compilada en el hoy conocido como “Domesday Book” (Doomsday Book originalmente en inglés
antiguo, “Libro del Día del Juicio Final”). Esa compilación es una de las fuentes más confiables y
básica para estudios medievalistas. El objetivo era disponer de elementos de juicio posiblemente
con fines impositivos y aportes a la Corona en función con la capacidad de cada poblador. Para ello
constaban las principales mansiones y castillos, sus propietarios, tamaño, superficie arable, bueyes y
una estimación del valor de la propiedad. La información, recabada por comisionados desplegados
por todo el Reino, fue ordenada, sintetizada, compilada en el libro mencionado, y enviada a
Winchester. Guillermo murió en 1087, antes de poder hacer uso de la información recopilada. En la
38
1663, analiza juegos de azar como los dados y cartas. Entre los posibles resultados de tirar tres
dados concluye que la posibilidad de éxito en obtener al menos una vez un dado número es de 50%,
pero hoy sabemos que este resultado vale 1-(5/6)3=0,4113=41.13%. Se intuye el razonamiento
basado en que, al tirarlo tres veces, hay tres posibilidades de que salga el número deseado entre las
seis caras. Más allá de lo erróneo del planteo se enfatiza el modelo teórico de un dado perfecto, la
ausencia de una voluntad divina en el resultado y nuestro concepto actual de “probabilidad
empírica” como “casos favorables sobre casos posibles”, cálculo que aplicó con éxito a algunos
resultados de juegos de azar. Rescatemos esta cita traducida del Libro de los Juegos de Azar.
“Por esta razón es natural preguntarse por qué aquellos que tiran el dado tímidamente son
derrotados. ¿La mente misma tiene un presentimiento del fracaso? Pero debemos liberar a los
hombres del error; aunque podría pensarse que es verdad, tenemos una razón más manifiesta.
Cuando alguien comienza a sucumbir a una fortuna adversa, está muy frecuentemente
acostumbrado a tirar el dado tímidamente; pero si la fortuna adversa persiste, ésta resultará
necesariamente desfavorable. Entonces, dado que él lo tira tímidamente, la gente piensa que es
desfavorable por esta razón; pero esto no es así. Es porque la fortuna es adversa que el dado cae
desfavorable, y porque el resultado es desfavorable pierde, y porque pierde tira el dado
tímidamente”. (Tabak, pp. 18-19)
Galileo Galilei (1565-1642) escribió un breve trabajo sobre las posibilidades de obtener sumas
en los resultados al tirar tres dados. No planteó la probabilidad como relación entre casos favorables
y posibles sino sólo asignar mayor chance a los números cuya suma se podía obtener bajo mayor
número de combinaciones.
Paralelamente, lo que podría entenderse como el primer trabajo de inferencia estadística fue el
de John Graunt (1620-1674), quien analizó 229250 datos de certificados de defunción emitidos por
parroquias entre 1604 y 1661. Sus conclusiones tuvieron relación con la evaluación de riesgo acerca
de las diversas causas de mortalidad. También recopiló datos sobre nacimientos y halló que había
una mayor frecuencia de varones que de mujeres. Asoció este resultado con el mayor riesgo de
mortalidad de los hombres, por lo que habría un equilibrio entre los sexos en la edad adulta. La
novedad es que esta evaluación fue cuantitativa y no especulativa, cualitativa o discursiva, lo
novedoso fue la introducción del uso de datos y de cálculo para manifestar relaciones entre los
números. Graunt no fue un matemático sino un comerciante, pero debido a su trabajo, en una única
publicación (Natural and Political Observations Mentioned in a following Index, and made upon
the Bills of Mortality) fue admitido en la Royal Society por intercesión del rey Carlos II.
En el ámbito del cálculo de probabilidades, hacia 1650 Blaise Pascal (1623-1662) conoció al
caballero De Méré con quien, dado que era afecto a los juegos de azar, inició discusiones sobre la
solución de estos problemas. Hacia 1654 comenzó a intercambiar correspondencia al respecto con
Pierre de Fermat (1601-1665). Si bien no establecieron una teoría formal, puede decirse que fueron
los primeros ensayos que condujeron a ella en el ámbito limitado a la teoría de juegos en términos
de casos favorables y posibles a través del conteo y el cociente como medida relativa de
probabilidad.
Christian Huygens (1629-1695) en 1657, tras haber escuchado referencias a las comunicaciones
entre Pascal y Fermat, escribió una serie de problemas relativos al cálculo de probabilidades en “De
Ratiociniis in Ludo Aleae” (Sobre el Razonamiento en Juegos de Dados). Sin haber establecido un
fundamento formal, fue sin embargo el primer libro publicado relativo a los juegos de azar.
Jacob Bernoulli (1654-1705) escribió “Ars Conjectandi” (El Arte de Conjeturar), terminado y
publicado por su sobrino Nicolás en 1713. En él extendió las ideas del cálculo de probabilidades a
otras áreas distintas de los juegos de azar, aunque sin elaborar una teoría al respecto. La
contribución más relevante es la “ley de los grandes números” o “teorema de Bernoulli”. En
síntesis, mostró que cuando se incrementa el número de repeticiones de eventos independientes, el
cociente entre los éxitos y las realizaciones se aproxima progresivamente a la probabilidad de éxito.
Esto es verificable para una moneda equilibrada para la que se asume una probabilidad teórica de
40
posteriori. Estas cartas de Shewhart son conocidas por su nombre pero en esencia fundó lo que se
conoce como el control estadístico de procesos o control estadístico de calidad.
William Edwards Deming (1900-1993) planteó en especial el problema de obtener muestras
representativas para la evaluación estadística. Particularmente trató el problema del “muestreo” y de
cómo obtener conclusiones generales sobre un conjunto mayor del cual sólo se dispone de una
muestra a través de su análisis. En primer lugar, la muestra debe ser representativa del conjunto
total. Su libro principal acerca de este problema fue Some Theory of Sampling, de 1950. Destaca la
importancia de definir cuidadosamente el “universo” del cual se va a obtener la muestra, lo cual no
siempre es claro ni fácil de lograr. El siguiente problema es obtener una muestra representativa.
Plantea el problema de establecer la precisión deseada, el costo de realización y la evaluación de
resultados. Sus ideas fueron mejor recibidas primero en Japón y, en cierto modo, está vinculado con
el desarrollo de la industria japonesa durante la década de 1970.
Parte del desarrollo teórico expuesto hasta el momento corresponde al marco “bayesiano” del
análisis probabilístico, en el cual se propone elementos de juicio teórico para estimar probabilidades
asociadas a diferentes hipótesis en la evaluación y toma de decisión. La mayor objeción a este
enfoque radica en que en gran medida y en la mayoría de los casos, la aplicación del cálculo de
probabilidades a la práctica se apoya en estimaciones subjetivas de las probabilidades asociadas a
eventos. El enfoque alternativo “frecuentista” fue propuesto por John Venn (1834-1923) a partir de
la noción de límite empírico de una sucesión expresada como un cociente entre la frecuencia de
éxitos en relación con las repeticiones. En el análisis de Venn no había una referencia explícita a la
aleatoriedad. Richard von Mises (1883-1953) introdujo la necesidad de que la secuencia de eventos
sea aleatoria en el sentido que la siguiente realización no debe estar condicionada por los resultados
precedentes. En principio, al apoyarse sobre resultados empíricos, la evaluación de la probabilidad
es más objetiva que en el planteo bayesiano en relación con la aplicación práctica. Sin embargo se
apoya en que la muestra, sobre la cual se obtuvo la frecuencia relativa de éxitos, es representativa
de un “ensemble” teórico al que en cierto contexto nos referimos como “población”. En ese marco,
si una hipótesis es verdadera y conduce a un resultado esperado, la concordancia entre tal resultado
y los datos obtenidos de la muestra, expresados en términos probabilísticos, refuerza la
confiabilidad de la hipótesis. En 1939 Harold Jeffreys (1891-1989) reintrodujo la discusión en
defensa del enfoque bayesiano, debate que continúa en el presente.
-Tabak J (2004) Probability and Statistics: The science of uncertainty. New York, Facts On File,
Inc.
-Bunch B Hellemans A (2004) The History of Science and Technology. Boston, Houghton Mifflin
Company.
-Born M (1999, 2a ed.) Albert Einstein Hedwig y Max Born Correspondencia 1916-1955 México,
Siglo XXI Editores.
-Genicot L. (1976) Europa en el Siglo XIII. Barcelona, Labor.
recibidas primero en Japón y, en cierto modo, está vinculado con el desarrollo de la industria
japonesa durante la década de 1970.
Podríamos decir que el planteo de la estadística consiste esencialmente en tratar el problema de
la extracción de información a partir de datos resultantes de muestras como realizaciones concretas
de procesos bajo estudio, la elaboración de conclusiones a partir de esa información, y la estimación
y modelado de las distribuciones de probabilidad asociadas a procesos reales.
Al hablar en forma diferenciada de “dato” y de “información”, lo que estamos planteando es que
un dato es cualquier medida o registro de algo bajo observación. La información refiere a un
problema concreto para cuya solución el dato pueda ser relevante. De modo que la extracción de
información de los datos tiene una etapa previa al análisis estadístico, consistente simplemente en
descartar los datos no relevantes, que por lo tanto se presume que no contienen información, y del
resto hacer un análisis para extraer aún más información contenida en la parte de la muestra
seleccionada, pero no evidente de una inspección inmediata.
Hasta el momento, todo el desarrollo teórico se apoyó en la hipótesis de un conocimiento total y
completo del espacio muestral. Así partimos de un experimento tomado de un juego de azar en el
que las “reglas del juego” establecen claramente lo que puede y lo que no puede ocurrir. Se
descarta, por ejemplo, que un dado pueda romperse al caer, que una moneda ruede y se pierda,
situaciones en definitiva posibles pero que se excluyen como válidas en las reglas del juego.
Se ha planteado situaciones en las que se supone conocida la probabilidad de un evento, se
asume independencia entre repeticiones, se presupone conocida la distribución de probabilidad y la
función de densidad. En el marco de la Estadística no se supone conocida la distribución, pero sí se
admite la posibilidad de conocerla a partir de la información contenida en los datos.
El punto de partida es la descripción clara, precisa y completa de un experimento aleatorio E. El
conjunto de resultados posibles de la realización de tal experimento se lo llama la “población”. La
realización concreta del experimento es lo que se conoce como “muestra”. A partir de la muestra se
pretende caracterizar la población.
Puede verse entonces que el objetivo central de la estadística se traduce en la inferencia de las
características de una población a partir de una muestra que la represente. Es frecuente que los
problemas que se presentan sean más específicos y no se requiera el conocimiento total de la
población, por lo cual la muestra debe ser al menos relevante para dar respuesta al problema
planteado. Supondremos que el objetivo es la descripción de la población en su totalidad. En
términos matemáticos esto se traduce en el conocimiento de la función de distribución, o más
precisamente, en la estimación de tal función a partir de la información extraída de los datos de la
muestra.
Para ello se supondrá, en primera instancia, que la muestra es representativa de la población.
Esto no puede demostrarse porque para ello se debería conocer previamente la población, pero se
asume que una muestra aleatoria, es decir, tomada de repeticiones o realizaciones al azar del
experimento aleatorio, es representativa en la medida que no ha sido seleccionada con el criterio del
observador sino condicionada por las propiedades mismas de la población y el experimento
aleatorio que la define y generó los datos. Se supone que el proceso de toma de muestra no altera la
población, que los resultados son confiables e independientes entre sí. Además suponemos que la
población no cambia con el tiempo, de manera tal que sucesivas realizaciones responden a la misma
distribución de probabilidad. Una muestra tomada en forma totalmente aleatoria sobre toda la
población suele llamarse un “muestreo aleatorio simple”.
Con tales suposiciones, la muestra se analiza en primera instancia evaluando en qué medida los
datos de la muestra pueden contener información relevante en relación con el problema planteado.
Tal problema será la estimación de la distribución poblacional. Desde el punto de vista de la calidad
de la información, se discute la confiabilidad del dato. Eventualmente se separan los datos
confiables de los dudosos o se corrige o inclusive desecha los que se consideran erróneos,
fundamentando las correcciones e identificando los datos corregidos o desechados. Si son dudosos
suele hacerse dos análisis estadísticos, uno considerando tales datos como válidos y otros
46
desechándolos, así como con los datos corregidos, comparando si se llega a las mismas
conclusiones o bien si las conclusiones finales defieren, por lo cual se hace necesario una
evaluación de la calidad de la información más cuidadosa.
Hay poblaciones que son naturalmente finitas, como los estudiantes de una institución, y otras
son potencialmente infinitas, como el número de tiempos de caída de un objeto desde cierta altura,
experimento que puede realizarse infinitas veces. Si la población es finita, la muestra debería ser al
menos un orden de magnitud menor que el tamaño de la población para que tenga sentido la toma
de la muestra y no la realización de un “censo” o recolección de la información total. En principio
es sencillo establecer un muestreo aleatorio, pero es frecuente que la extracción de un elemento de
la población para incorporarlo a la muestre altere las propiedades de la población residual, como en
un experimento de extracción de muestras “sin reposición”, es decir sin reponer la muestra extraída
(sacar una bolilla de un bolillero y no reponerla), de modo que no es tan fácil garantizar la
independencia de las pruebas sucesivas en tales condiciones. Si la población es infinita no hay
problema en relación con el tamaño de la muestra pero sí con respecto a su representatividad en el
sentido que toda muestra es finita pero pretende representar una población infinita. Y el problema
de las muestras secuenciales o de “series temporales” requiere un análisis completamente diferente.
Objetivos
Los datos relevantes para caracterizar estadísticamente una población se obtienen como
resultado de la realización de un experimento aleatorio. Hemos dicho que la técnica empleada para
seleccionar las condiciones de realización del experimento aleatorio es lo que se llamará el
“muestreo”. Puede consistir en realizar una encuesta, en tirar un dado varias veces o en realizar
varias mediciones de algún parámetro.
Existen varias formas de realizar un muestreo sobre una población. Un muestreo aleatorio simple
consiste en establecer algún mecanismo para la realización al azar del experimento. Por ejemplo
forzar la aleatoriedad al tirar un dado después de haberlo movido violentamente dentro de un
cubilete, de seleccionar aleatoriamente a los individuos sobre los que se realizará una encuesta o
cuidar que una medición se haga siempre bajo las mismas condiciones de modo que cualquier
47
variabilidad sea exclusivamente aleatoria y todos los posibles encuestados tengan la misma
posibilidad de ser considerados para la encuesta.
Cuando se realiza una muestra aleatoria simple, puede usarse un generador de números
aleatorios (una función “random”) de modo que los elementos incorporados en la muestra sean
seleccionados por un criterio numérico al azar. El muestreo aleatorio asegura la independencia entre
los datos que integran la muestra, por lo tanto el número de datos equivale al número de grados de
libertad en la muestra. El objetivo es el de caracterizar las propiedades generales de una población
y, específicamente, el de estimar la función de distribución asociada. Se supone que los datos
obtenidos de una muestra aleatoria simple son representativos de una población.
Una muestra puede ser voluntaria, como podría ser la presentación por voluntad propia para
participar en una encuesta, o llamados telefónicos de los oyentes o televidentes (no a los oyentes o
televidentes desde la emisora sino de los oyentes o televidentes hacia la emisora). Es claro que se
trata de una muestra pero los llamados no fueron al azar sino que tienen suficiente interés para
involucrarse en una llamada, por lo tanto el análisis de tal muestra no dice nada acerca de los que no
tienen ese grado de interés. Tampoco el llamado telefónico desde la emisora hacia el público dado
que, en primer lugar, debe el oyente o televidente tener un teléfono donde ser llamado pero además
puede desistir de aceptar responder la encuesta, más allá de verificar la veracidad de las respuestas.
Una muestra puede estar “sesgada” cuando algunos de los resultados posibles están favorecidos
con respecto a otros. Tal sesgo puede ser intencional cuando se elige las condiciones de toma de
muestra, pero en muchos casos no es intencional. Imaginemos un dato ambiental que depende de la
alimentación eléctrica para su registro. En caso de corte de suministro, el dato no se registraría, y
estos cortes suelen estar asociados con condiciones ambientales específicas como tormentas, con lo
cual tales condiciones no estarían representadas en la misma proporción que las condiciones de
buen tiempo, lo que impone un sesgo en la interpretación de los datos. También puede darse por
seleccionar frutas de un árbol si están al alcance de la mano, con lo cual estarían favorecidas las
frutas ubicadas en un nivel bajo. El sesgo puede ser resultado de una falla o uso de un instrumento,
o bien de la selección de palabras para realizar una encuesta. Puede estar condicionado por el
recuerdo de algún suceso en particular.
Hay formas de muestreo sistemático como encuestar a una de cada cien personas que circulan
por una ruta o inspeccionar uno de cada mil artículos en una línea de producción. Es típico de los
procedimientos de control de calidad, pero pueden encubrir o mal interpretar la muestra cuando hay
variabilidad periódica en el proceso.
El muestreo estratificado presupone que la población ha sido dividida en estratos o grupos
homogéneos sobre la base de algún criterio. Puede ser por la pertenencia a un grupo de edad, a un
género, a una línea de producción o a ciertas condiciones de experimentación.
En el muestreo por conglomerados se asume que la unidad de análisis es un grupo que contiene
representantes de todos los estratos. Por ejemplo seleccionar un curso y encuestar a todo el curso
considerando que es representativo de todos los cursos por estar compuestos por individuos con
características similares.
El muestreo se puede realizar en varias etapas. Por ejemplo, seleccionar aleatoriamente una
escuela y, dentro de la escuela, seleccionar aleatoriamente un curso.
población cuyas propiedades estadísticas se pretende inferir. Pero esto no es explícito en el marco
de la estadística descriptiva.
En la mayor parte del curso trataremos con variables aleatorias “cuantitativas”, es decir, que
pueden representarse naturalmente por un número y en general son resultados de mediciones. Las
variables aleatorias “cualitativas” se definen por medio de clases o categorías. Estas clases son
excluyentes de modo que un resultado particular sólo puede pertenecer a una de ellas. Es claro que
se puede rotular las clases con un número, y hay que hacerlo para trabajar con variables aleatorias,
pero este rótulo numérico en general es arbitrario y sólo facilita la organización de la información.
Algunas de estas variables son naturalmente dicotómicas, es decir, que deben separarse en dos
categorías excluyentes, como podría decir si “llueve” o “no llueve”, si “aprobó” o “no aprobó”. Y
otras pueden separarse en dos categorías como “salió el tres” o “no salió el tres” al tirar un dado,
pero es claro que en tal caso en realidad hay seis categorías y la separación dicotómica obedece a un
criterio externo al experimento.
Algunas variables aleatorias son “ordinales”, lo que quiere decir que son cualitativas pero tienen
un orden interno, que la asignación de un número para definir una variable aleatoria debe respetar.
Por ejemplo decir “chico”, “mediano” y “grande” entraña un ordenamiento propio y natural aunque
no un número asignado, que podría ser “1, 2, 3” o bien “0, 1, 2” o “-1, 0, 1” o cualesquiera que se
desee pero respetando el orden natural de la secuencia.
La información puede presentarse como registro de datos “crudos”, puede procesarse de modo
que se haya revisado, consistido y verificado esa información. Puede presentarse en forma de
registros ordenados o de tablas ordenadas y agrupadas, y en variedades de organización con
diferentes criterios.
Puede recurrirse a presentaciones gráficas, que si bien enmascaran la individualidad de cada
dato, ofrece una perspectiva global de conjunto y precisamente visual. El uso de técnicas de
visualización, inclusive la selección de colores, es importante al momento de destacar ciertas
características o agrupar otras propiedades comunes.
Finalmente se puede recurrir a una formulación matemática en términos de una función que
ajusta a la información disponible.
El análisis puede limitarse a describir aspectos cualitativos en términos de un lenguaje
descriptivo de las propiedades, tales como la simetría, la ubicación de los extremos, los valores de
los extremos, la forma funcional, la modalidad (unimodal, bimodal, multimodal), si es continua, si
tiene singularidades o acotaciones. En general es un recurso de análisis preliminar o
comunicacional.
Por otra parte, el análisis puede ser cuantitativo si recurre a características numéricas para
describir las propiedades de la información. Cada número empleado define una propiedad
idealmente independiente de otras. Se recurre a medidas de centralización, dispersión, forma,
comparaciones con parámetros de distribuciones conocidas e incorporamos parámetros como los
extremos, rango, promedio, cuantiles, desvíos…. Se trata de un nivel intermedio de análisis con
carácter limitado pero suficiente para muchos fines, como puede ser el seguimiento de un proceso,
criterios para toma de decisión o aplicaciones concretas.
La forma más condensada de describir completamente la distribución es por medio de funciones
matemáticas que la ajustan. Esto se realiza en varias etapas. Primero se selecciona la forma
funcional que se va a ajustar. En segundo lugar se estiman los parámetros que requiere esa
distribución para su especificación. Finalmente se pone a prueba el ajuste por medio de lo que se
49
llama “pruebas de hipótesis”, también llamada “bondad de ajuste”. Es el recurso de análisis más
sofisticado y tiene fines científicos o estimaciones cuantitativas.
Histograma y ojiva
Un histograma tiene por objeto agrupar datos continuos en intervalos discretos. Como un criterio
rápido para decidir el número de intervalos apropiado, puede considerarse que éste sea del orden de
la raíz cuadrada del número de datos. Nada obliga a seleccionar este número pero es una guía para
la selección. Luego debe seleccionarse los límites de cada intervalo real. Para ello sólo
consideramos que no debe quedar ningún dato excluido del histograma ni puede dudarse de cuál es
el intervalo que le corresponde. Puede realizarse en forma automática considerando como extremos
el dado por el rango de los datos dividido por el número de intervalos, o bien seleccionar los límites
de forma más amigable y fácil de recordar y procesar luego.
Supongamos que se dispone de 50 datos (n) de estatura con valores entre 152cm y 177cm. Una
estimación del número de intervalos puede estar dada por la raíz cuadrada del número de datos. En
nuestro ejemplo sería del orden de siete intervalos (N).
Seleccionado el límite inferior 𝑙0 , que puede ser el mínimo de los datos o un número conveniente
menor, por ejemplo 𝑙0 = 150𝑐𝑚, el límite superior, que puede ser el máximo o un valor un poco
mayor, como podría ser 𝑙𝑛 =178cm, y el número de intervalos N, que puede ser el recomendado (7)
50
o bien un poco más o menos (6 u 8), la secuencia de límites de cada intervalo que conforme el
histograma será
(𝑙𝑛 − 𝑙0 )
𝑙𝑖 = 𝑙0 + 𝑖
𝑁
de modo que cuando 𝑖 = 𝑁, el límite superior del último intervalo coincida con el rango definido.
Si realizamos los cálculos, los límites serían 𝑙𝑖 = {150; 154; 158; 162; 166; 170; 174; 178}.
Cada intervalo del histograma estará conformado por intervalos reales 𝑙𝑖−1 < 𝑥 ≤ 𝑙𝑖 . Puede
intercambiarse los límites 𝑙𝑖−1 ≤ 𝑥 < 𝑙𝑖 o inclusive 𝑙𝑖−1 ≤ 𝑥 ≤ 𝑙𝑖 en tanto se “reparta” el dato que
corresponda a una igualdad en “medio dato” para cada intervalo. Lo que no puede ocurrir es que
queden datos excluidos, que se contabilice más datos de los que realmente hay por ubicarlos en más
de un intervalo, ni que se dude a qué intervalo corresponde cada dato. Expresados en el primer
modo 𝑙𝑖−1 < 𝑥 ≤ 𝑙𝑖 tienen una forma más comparable al cálculo de probabilidades. Además, si
definimos 𝑓𝑖 como “frecuencia absoluta” o número de datos contenidos en cada uno de los
intervalos 𝑙𝑖−1 < 𝑥 ≤ 𝑙𝑖 , tendremos nuestros datos {𝑥𝑗 } clasificados en N intervalos con {𝑓𝑖 } datos
cada uno. Podemos dibujar, a partir de ellos, un “histograma de frecuencia absoluta”.
https://es.wikipedia.org/wiki/Histograma
Podemos agregar dos intervalos laterales vacíos (con frecuencia cero) para poder “cerrar” el
polígono de frecuencia sobre el eje horizontal.
http://agrega.educacion.es/repositorio/08042014/a1/es_2013121613_9105204/histograma_y_po
lgono_de_frecuencias.html
El histograma es resultado de la clasificación de los datos de acuerdo con los intervalos elegidos,
de lo que resulta una tabla como la siguiente
51
https://cbtestadistica.wordpress.com/descriptiva/
En esa tabla se distribuye 80 datos en intervalos en el rango 50 a 99 de modo tal que no haya
superposición entre límites. La frecuencia absoluta contabiliza el número de datos que se
encuentran en cada intervalo. La frecuencia absoluta acumulada es la suma de la frecuencia
absoluta de la segunda columna. La frecuencia relativa es el cociente entre la frecuencia absoluta y
el número de datos (80) expresado en porcentaje, y la frecuencia relativa acumulada es el cociente
entre la frecuencia absoluta y el número de datos, expresado en porcentaje.
El grafico típico de una ojiva es como el siguiente. Los puntos medios de cada intervalo pueden
unirse mediante una línea, tanto en el histograma como en la ojiva, para formar un “polígono de
frecuencia”. Estos gráficos de línea comienzan a adoptar la forma de la función de densidad, en el
caso del histograma, y de la función de distribución a través de la ojiva.
https://sites.google.com/site/portafolio1yanchapanta/mayo?tmpl=%2Fsystem%2Fapp%2Ftemplat
es%2Fprint%2F&showPrintDialog=1
52
Hay algunos elementos adicionales a tener en cuenta. Uno de ellos refiere a cómo especificar los
límites de clase. Formalmente se expresan con el número de dígitos significativos, enteros o
decimales, en que están especificados los datos, pero los límites de cálculo pueden establecerse con
un decimal más intermedio de modo que no haya ningún dato que pueda coincidir con uno de los
límites. Por ejemplo, si se trata de medidas de temperatura expresadas con un decimal, los límites
formales podrían ser 20,0°C – 20,5°C para un tamaño de intervalo de medio grado centígrado, pero
los límites reales podrían ser 19,95°C-20,45°C de modo que se conserva el tamaño del intervalo
pero un dato de 20,0°C se ubicará en ese intervalo y otro de 20,5°C corresponderá al intervalo
siguiente.
Si dividimos cada frecuencia absoluta por el número total de datos, tendremos un nuevo
conjunto de números {𝑓𝑟𝑖 = 𝑓𝑖 /𝑛} como “histograma de frecuencia relativa”. La frecuencia relativa
de la muestra es una aproximación a la probabilidad poblacional correspondiente al intervalo.
Podemos definir como “frecuencia absoluta acumulada” a la suma de la frecuencia absoluta
progresivamente sumada sobre cada intervalo, es decir
𝐹𝑘 = ∑ 𝑓𝑖
𝑖=1
Es claro que cuando 𝑘 = 𝑁 se habrá sumado todos los datos clasificados en cada intervalo y se
obtendrá 𝐹𝑁 = 𝑛, el número total de datos. A tal forma de clasificación se la llama “ojiva de
frecuencia absoluta acumulada” o simplemente “ojiva”. Si se divide por el número de datos
tendremos
𝑘 𝑘
𝐹𝑘 𝑓𝑖
𝐹𝑟𝑘 = = ∑ = ∑ 𝑓𝑟𝑖
𝑛 𝑛
𝑖=1 𝑖=1
más de una variable, la confección de histogramas es similar pero con tablas de doble o múltiple
entrada.
Otra observación es notar que al agrupar se pierde parte de la información que tiene cada dato
dado que se lo asocia a la clase de un intervalo. El objetivo es tratar de visualizar la forma de la
función de densidad a partir de los datos más que de estudiar los valores registrados en sí mismos.
Más aún, podría ser conveniente diseñar más de un histograma desplazando los intervalos y
promediando los valores de frecuencia absoluta en sub rangos de los intervalos seleccionados para
obtener una forma más suavizada de la aproximación a la densidad.
Es posible asimismo hacer un histograma en dos variables definiendo intervalos en ambos ejes y
configurar un histograma en tres dimensiones o bien, como tabla de doble entrada, una presentación
numérica con la frecuencia absoluta, relativa o porcentual en cada casillero. Una forma gráfica
puede ser hecha mediante sombreados o colores, o bien trazando curvas de nivel en términos de
frecuencia.
También puede utilizarse intervalos de clase no numéricos como “tipos A, B, C, D”, o bien con
expresiones como “chico – mediano – grande” siempre que la delimitación de las clases sea
claramente especificada en la descripción.
https://ar.pinterest.com/pin/459437599467623344/
https://exodo398363020.wordpress.com/2018/05/13/tablas-y-graficos-estadisticos/
http://jaimetomas1.blogspot.com/2015/10/funciones-de-las-imagenes.html?m=1
Para confeccionar un gráfico de torta, también llamado gráfico de sectores, a partir de una
clasificación, se toma como base que el 100% de la información está representado por la
circunferencia completa de 360°. Para determinar el ángulo que corresponde asignar a cada sector
55
utilizamos una regla de tres simple para asignar a cada porcentaje el ángulo del sector que lo
represente.
Por ejemplo, para el sector que contiene el 40% de los casos calculamos
40% ∗ 360°
𝛼40 = = 144°
100%
Podemos verificar que los ángulos consignados en el resto de la tabla corresponden a los
porcentajes de la columna central.
Si se dispone de un número total “𝑛” de datos y en cada grupo un subtotal “𝑛𝑖 ”, utilizamos una
expresión similar de modo que el ángulo correspondiente al dato “i” está dado por
𝑛𝑖 ∗ 360°
𝛼𝑖 =
𝑛
Trataremos de desarrollar un trabajo numérico sobre una tabla de datos a modo de ejemplo. En
lo que sigue presentamos una tabla de valores de estatura de 36 personas. Estos datos fueron
tomados a partir de las mediciones de estatura realizadas en el curso de primer año de 2020.
Al dividir la secuencia por la mitad, tenemos una “mediana de la muestra”, y al dividir esa mitad
nuevamente por la mitad, obtenemos los cuartiles de la muestra, consecuentes con las definiciones
de mediana y cuartiles de una distribución de probabilidad.
Calculamos el número de intervalos del orden de la raíz cuadrada del número de datos.
No es obligatorio que utilicemos exactamente seis intervalos (raíz cuadrada de 36) sino que siete
intervalos resultan más cómodos al dividir el rango, de casi 35cm, por siete dando un tamaño de
intervalo de 5cm.
A partir del rango de cada intervalo contabilizamos el número de datos en cada uno como
frecuencia absoluta. La siguiente tabla presenta la frecuencia absoluta, la frecuencia relativa
(dividiendo por el número de datos), expresada también en porcentaje, y la frecuencia relativa
acumulada (sumando las frecuencias relativas previas) y porcentual acumulada. La tabla de
frecuencia relativa nos ofrece una aproximación a la función de densidad, y la de frecuencia
acumulada es una aproximación a la función de distribución.
En la primera fila hicimos explícito el cálculo y en ambas columnas lo expresamos en
proporción y en porcentaje.
A partir de estas columnas construiremos el gráfico del histograma de frecuencia relativa y la
ojiva de frecuencia acumulada, tareas que se dejan para realizar en forma personal.
57
Al graficar el histograma es posible unir los puntos medios de cada intervalo de frecuencia por
medio de un segmento de línea. El resultado que se obtiene es el “polígono de frecuencia”.
Cálculo de promedio
1
El haber introducido el factor 𝑛 dentro de la suma nos permite ver que el promedio se construye
tomando un enésimo de cada dato para obtener un solo número representativo del conjunto. Esto es
válido cuando cada uno de los datos es igualmente representativo del conjunto total o población. De
allí la importancia de efectuar una muestra en forma aleatoria para que cada dato, tomado al azar del
total de datos posibles, tenga la misma representatividad sobre la población.
Si se realiza una muestra por conglomerados, o jerarquizada por niveles, o cualquier otro
procedimiento dirigido, cada uno de los grupos debe ser promediado internamente. Si luego se
quiere comparar con un promedio general, es conveniente que todos los grupos contengan
aproximadamente el mismo número de datos. A modo de ejemplo, no se puede promediar datos de
estatura de veinte hombres y diez mujeres, y decir que es representativo de la población total. Aun
si se los analiza por separado, no serían totalmente comparables dado que el número de datos en
cada muestra es muy diferente.
58
Medidas de variabilidad
Nos ocuparemos de una medida de variabilidad, que hemos visto como “varianza”, pero aplicada
a la muestra.
Tomemos como ejemplo que nos informan la temperatura media o promedio anual de
temperatura de una zona seca y desértica como de 25°C y que es la misma que la temperatura media
de otro sitio en una isla pequeña en medio del océano. En principio los dos sitios tienen la misma
temperatura media pero pronto veremos que durante la noche las temperaturas en el desierto pueden
bajar mucho en tanto que el calor a plena tarde es muy intenso, más aún si se tiene en cuenta las
estaciones. Pero en la isla casi todo el día y a lo largo del año las variaciones de temperatura serán
muy pequeñas porque la temperatura estará condicionada por el océano que la rodea.
Por poner números, en el desierto puede haber variaciones entre varios grados bajo cero y casi
50°C en verano a la sombra. Por otra parte en la isla difícilmente descienda de 20°C y supere los
30°C. De modo que, desde el punto de vista de la temperatura media, los dos sitios tienen la misma
temperatura, pero las condiciones térmicas son claramente diferentes y se diferencian en la
variabilidad.
Para medir la variabilidad utilizamos la varianza aproximada por la “desviación cuadrática
media con respecto al promedio”. Primero definiremos este parámetro y luego lo analizaremos con
algún ejemplo. Definimos
𝑛
1 (𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2
𝑆𝑛2 = ∑(𝑥𝑖 − 𝑥̅ )2 =
𝑛 𝑛
𝑖=1
como desviación cuadrática media con respecto al promedio. Las desviaciones con respecto al
promedio son cada uno de los términos (𝑥𝑖 − 𝑥̅ ). Se dice “cuadrática” porque se los eleva al
cuadrado para que no se cancelen por diferencias de signo cuando el dato es menor o supera al
promedio. Al dividir por el número de datos se calcula un promedio de desvíos cuadráticos.
A modo de ejemplo, si tenemos sólo tres datos con valores 𝑥1 = 19, 𝑥2 = 20 y 𝑥3 = 21, el
promedio da por resultado 𝑥̅ = 20 y la desviación cuadrática media
59
3
1 (𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + (𝑥3 − 𝑥̅ )2
𝑆32 = ∑(𝑥𝑖 − 𝑥̅ )2 =
3 3
𝑖=1
(19 − 20)2 + (20 − 20)2 + (21 − 20)2 (−1)2 + (0)2 + (1)2 1 + 0 + 1
= = =
3 3 3
= 0,6666
Es claro que, ante el mismo promedio, es la varianza la que informa acerca de la diferencia de
variabilidad en la distribución de ambas muestras.
Definiremos como “desviación estándar de la muestra” a la raíz cuadrada de la varianza de la
muestra.
𝑆𝑛 = √𝑆𝑛2
(𝑋̅ − 𝑆3 ; 𝑋̅ + 𝑆3 )
Hemos dicho que los cálculos de promedio y desviación cuadrática media sobre la muestra son
aproximaciones o, más propiamente, estimaciones de los parámetros poblacionales “esperanza” y
“varianza respectivamente”.
En términos muy generales, la estimación estadística se refiere a un conjunto de métodos que
permiten estimar el comportamiento de una población a partir de una muestra. Nos limitamos a
algunos aspectos de la interpretación del lenguaje propio del área. Se llama “estimador” a un
procedimiento de cálculo para obtener un valor numérico al que se lo llama “estimación” o “valor
estimado” de la característica de la población a través de los datos de la muestra.
La “estimación puntual” refiere a obtener un solo valor numérico. Por ejemplo el menor valor en
la muestra es un estimador del mínimo de la población aunque un criterio para obtener un mejor
valor estimado es restar al mínimo de la muestra la mitad del rango del intervalo con el cual se
configuró el histograma. Lo mismo hacemos con el máximo de la muestra como estimador del
máximo de la población sumando medio intervalo. Un estimador de la mediana se obtiene de dividir
la muestra por la mitad después de ordenarla de menor a mayor.
Sin entrar en detalles sobre las características deseables para un buen estimador, digamos que el
promedio es un muy buen estimador de la esperanza poblacional, pero la desviación cuadrática
media (𝑆𝑛2 ) es un estimador “sesgado”. Este término quiere decir que da valores que
60
sistemáticamente difieren del verdadero valor poblacional. En el caso de 𝑆𝑛2 , da estimaciones que
son sistemáticamente menores que las reales. El motivo es que, si recordamos la definición de
“varianza”, es una medida de desviaciones cuadráticas con respecto a la esperanza y, en el cálculo
propuesto más arriba, estas desviaciones fueron calculadas con respecto al promedio, que es un
estimador de la esperanza pero no la “esperanza” propiamente dicha. El efecto es el de condicionar
un dato y perder un “grado de libertad” en la muestra por utilizar el promedio en reemplazo de la
esperanza. La forma correcta de estimar sin sesgo a la varianza es dividir la suma de desvíos
cuadráticos con respecto al promedio por 𝑛 − 1, lo que dice que el número de datos independientes
en la muestra o número de grados de libertad es el número de datos menos uno. Luego
𝑛
2
1 2
(𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2
𝑆𝑛−1 = )
∑(𝑥𝑖 − 𝑥̅ =
𝑛−1 𝑛−1
𝑖=1
A título informativo, en el ejemplo del promedio y la esperanza, uno de los métodos de cálculo
para muestras de al menos unos treinta datos es
𝑆𝑛−1 𝑆𝑛−1
𝑃 (𝑥̅ − 1,96 ∗ ≤ 𝜇 < 𝑥̅ + 1,96 ∗ ) ≅ 1 − 0,05 = 0,95 = 95%
√𝑛 √𝑛
Supongamos que tenemos un tiempo promedio de 20min, una desviación normal de 2min y se
utilizaron 𝑛 = 36 datos, tendríamos
2𝑚𝑖𝑛 2𝑚𝑖𝑛
𝑃 (20𝑚𝑖𝑛 − 1,96 ∗ ≤ 𝜇 < 20𝑚𝑖𝑛 + 1,96 ∗ ) = 𝑃(19,35𝑚𝑖𝑛 ≤ 𝜇 < 20,65𝑚𝑖𝑛) ≅ 95%
√36 √36
Este resultado quiere decir que hay un 95% de probabilidad de que la verdadera esperanza de la
población se encuentre entre los dos límites indicados. Si se asume que este resultado es correcto y
que efectivamente está entre esos límites, hay un 5% de riesgo de que en realidad esté fuera de esos
límites y, por lo tanto, cometer un error.
Mediciones
En principio podemos decir que medir es asignar un valor a través de un número a algo que
admite tal tipo de respuesta a la pregunta “cuánto”. Aunque en realidad debemos ser más precisos
en una definición compleja.
Parece una perogrullada, pero si se mide algo es porque no se sabe a priori cuánto mide. Esto nos
dice que una medición es un caso particular de un experimento aleatorio, objeto central del estudio
del cálculo de probabilidades y la estadística. El resultado del experimento medir no se conoce hasta
que se ha medido.
Es la medición lo que define por un lado la magnitud como conjunto de posibles resultados que
pueden obtenerse del proceso de medición (define la variable aleatoria en un lenguaje
probabilístico, la población en lenguaje estadístico), y por otro lado, la realización concreta del
proceso de medición determina el valor de la medida (el evento en lenguaje probabilístico, la
muestra en lenguaje estadístico). Un experimento aleatorio debe ser descripto con total precisión
para que sea repetible en las mismas condiciones.
Un proceso de medición pone en interacción varios elementos: un objeto a medir, un patrón de
medida, un instrumento, un proceso de calibración, una unidad de medida, un observador o sujeto
que mide y sus ideas; y luego sigue la etapa de registro y procesamiento de la medición en el marco
de los procedimientos de la estadística descriptiva y de inferencia.
El objeto a medir no refiere a un objeto material, en el sentido usual del término, sino a una
propiedad. Por ejemplo, el objeto-material “papel” tiene un objeto-propiedad “longitud”, la longitud
de la hoja de papel, también el ancho de la hoja de papel, el espesor, el peso, la densidad, la
rugosidad, y podríamos seguir describiendo propiedades en tanto objetos de medida. Tomemos sólo
uno: la longitud. El patrón de medida será una longitud unidad tomada como referencia. En la
actualidad, el metro-patrón se define a partir de la velocidad de la luz, considerada como una de las
pocas constantes universales. Hoy es sencillo buscar la historia y la definición internacional del
metro, actividad que se sugiere al lector. Pero baste abrir los brazos en un abrazo fraterno para tener
una noción concreta de la medida de un metro. El segundo-patrón, como unidad internacional de
tiempo, también tiene su historia y su definición a partir de la velocidad de la luz, tarea de búsqueda
62
que se sugiere al lector. Pero baste tomar un latido del corazón en estado de reposo. Ya Galileo lo
usó como forma sencilla de medir el tiempo y, en su honor, podemos hacerlo para tener una noción
concreta de la medida de un segundo. Notemos que las dos unidades han sido definidas a escala
humana.
Un instrumento es un artefacto diseñado para realizar una medición. Previamente debe ser
calibrado con el patrón de referencia. El patrón define la unidad de medida y la calibración ajusta la
escala del instrumento en tal unidad. Cada unidad tiene un nombre y un símbolo. Así la letra “m”
refiere a la unidad “metro” y la letra “s” a la unidad “segundo”. Las unidades no son abreviaturas,
van ligadas al número, se escriben con minúsculas latinas, a menos que refieran a nombres propios.
Los múltiplos se han referenciado por medio de prefijos que no deben combinarse. Así, a partir
del metro (m), tenemos el decámetro (dam=10m) y la secuencia que se presenta en la Tabla 1.I para
múltiplos y submúltiplos.
Están en uso sólo siete unidades de base: el metro (m) para la distancia, el segundo (s) para el
tiempo, el kilogramo (kg) para la masa, el kelvin (K) para la temperatura termodinámica, el mol
(mol) para la cantidad de moléculas, la candela decimal (cd) para la intensidad de luz y el ampere
(A) para la intensidad de corriente. Casi todas las unidades en uso corriente son derivadas de las de
base. Algunas son agregadas en sistemas nacionales, como el minuto (min), la hora (h), el día, la
semana, el mes, el año, la legua, la cuadra…
No debe combinarse múltiplos o submúltiplos dentro de una misma expresión (por ejemplo, no
se debe decir “centimicrón”). Para el cambio de unidad, basta reemplazar el valor de la unidad que
se estaba usando en términos de la nueva, por ejemplo: 25km=25•1000m.
Múltiplos
Unidad Equivalencia Prefijo Ejemplo en longitud Ejemplo en tiempo
metro 1 - Abrazo fraterno: 1m Latido del corazón: 1s
decámetro 10 da Ancho de una calle: 1dam Un minuto: 6das
hectómetro 100 H Longitud de una cuadra: 1hm Una hora: 36hs
kilómetro 1000 K Altura del Everest: 8,848km Un día: 84,6ks
megametro 106 M Radio terrestre: 6,371Mm Un año: 31,5576Ms
gigametro 109 G Tierra-Luna0,3844Gm Un siglo: 3,15576Gs
12
terametro 10 T Dist. Tierra-Sol: 0,1496Tm Historia escrita: 0,16Ts
petametro 1015 P Dist. Alfa Centaro: 41,3Pm Primer homínido: 0,13Ps
exametro 1018 E Radio Galaxia: 1420Em Formación Tierra: 0,14Es
zettametro 1021 Z Dist. Andrómeda: 24Zm Universo: 0,000433Zs
yottametro 1024 Y Radio del Universo: 137Ym -
Submúltiplos
Unidad Equivalencia Prefijo Ejemplo en distancia Ejemplo en tiempo
Metro 1 - Distancia de lectura: 0,3m Corchea en andante: 0,5s
Decímetro 0.1 D Mano estirada: 2dm Impulso nervioso: 2ds
Centímetro 0.01 C Diam. pelota tenis: 6,67cm Parpadeo: 5cs
milímetro 0.001 M Diámetro del tímpano: 9mm Período La440: 2,27ms
micrómetro 10-6 µ Tamaño de bacteria: 1µm Período 1MHz: 1µs
-9
nanómetro 10 N Molécula de agua: 10nm Transición electrón: 2ns
picometro 10-12 P Radio átomo H: 52.9pm Rotación molecular: 1ps
femtometro 10-15 F Radio de núcleos: 5fm Vibración atómica: 1fs
attometro 10-18 A Radio de protón: 842am Luz atraviesa átomo: 1as
zeptometro 10-21 Z - Vibración nuclear: 1zs
yoctometro 10-24 Y - Vida media mesón π: 10ys
Tabla 1.I. Múltiplos y submúltiplos de unidades
63
𝛥𝑥
𝑥
Error estándar
donde el término ∆𝑥 suele llamarse “error” de medición, término poco adecuado porque puede dar
lugar a malas interpretaciones, y que quizá debería llamarse medida de confiabilidad o, más
apropiadamente, medida de resolución.
La resolución experimental refiere a la diferencia mínima detectable numéricamente entre dos
medidas consecutivas. Así, si tenemos una regla graduada en milímetros, no tendría sentido
informar una medida de 23,784cm porque asume dos cifras significativas por debajo de la
resolución del instrumento. Si redondeamos esta medida a 23,8cm, se asume que la resolución
asociada es la que corresponde a un decimal y, en la notación de arriba, se escribiría
𝑥 = (23,8 ± 0,1)𝑐𝑚
Cuando se realizan varias medidas, en términos muy generales es válido afirmar que el promedio
es una mejor estimación representativa del conjunto de mediciones y del parámetro a medir, así
como se debe establecer un intervalo de confianza asociado a la medición.
Supongamos entonces que a partir de un conjunto de al menos una treinta medidas, se obtiene un
cierto promedio (𝑥̅ ) y una desviación normal, estimador insesgado de la desviación poblacional
(𝑠𝑛−1 ). Se define como “error estándar” estadístico de la medición a
𝑠𝑛−1
𝐸=
√𝑛
Es frecuente que se asigne esta determinación del error estándar al error de medición, y así
𝑠𝑛−1
𝑥 ± ∆𝑥 = 𝑥̅ ±
√𝑛
𝜎 𝜎 𝑠𝑛−1 𝑠𝑛−1
𝑃 (𝑥̅ − 𝑧𝛼 ≤ 𝜇 < 𝑥̅ + 𝑧𝛼 ) ≅ 1 − 𝛼 ≈ 𝑃 (𝑥̅ − 1 ≤ 𝜇 < 𝑥̅ + 1 )
2 √𝑛 2 √𝑛 √𝑛 √𝑛
Vemos entonces que el error estándar no se ofrece como intervalo de confianza para la esperanza
sino como criterio de resolución entre dos medidas experimentales consecutivas cuando se han
tratado los datos en forma estadística.
Conviene aclarar aquí que, si el número de datos es muy grande, el error estándar es muy
pequeño, de modo que este número podría ser inferior a la resolución experimental. A modo de
ejemplo, si nuestro instrumento para medir longitudes está graduado en milímetros y el desvío
66
normal da por resultado 5mm, cien mediciones nos darían un error estándar de medio milímetro,
menor que la resolución experimental pero razonable aún. En cambio, si realizamos 10000
mediciones, el error estándar sería de 0,05mm, dos órdenes de magnitud menor que la resolución
experimental. Esto es formalmente cierto, pero poco razonable en términos prácticos, tanto
instrumentales como poco razonable es tomar diez mil veces la misma medida.
En el siguiente gráfico se muestra dos distribuciones normales que se superponen parcialmente.
Si las sumamos gráficamente, podemos ver que la suma de los dos segmentos que corresponden al
punto en el que se intersecan es menor que el máximo o moda de cada una de las distribuciones
individuales. En tal caso diríamos que las dos distribuciones son resolubles. Si estuvieran más
alejadas, esta diferencia sería mayor aun y serían más resolubles todavía, pero si estuviesen más
próximas, al sumarlas, el valor máximo de las distribuciones llegaría a coincidir con la suma de los
segmentos. Esto ocurre cuando se intersecan en los puntos 𝜇𝐴 + 𝜎𝐴 = 𝜇𝐵 − 𝜎𝐵 . Si la distancia que
las separa es menor que 𝜎𝐴 + 𝜎𝐵 , las dos distribuciones no son estadísticamente resolubles.
https://desktop.arcgis.com/es/arcmap/10.3/tools/spatial-analyst-toolbox/performing-the-
classification.htm
En el dibujo se representa dos distribuciones estadísticamente resolubles, pero aun así puede
haber situaciones en que un dato pueda pertenecer tanto a una como a otra. Plantearemos este
problema más adelante en el marco de la evaluación de hipótesis.
Para cerrar el año trataremos dos temas a modo informativo pero que contribuye a interpretar
cierta terminología de uso bastante frecuente. Una de ellas se relaciona con lo que se llama
evaluación estadística de hipótesis. A veces se lo menciona como “test” de hipótesis utilizando un
término que no es castellano, y otras veces como “prueba” de hipótesis, lo que puede dar lugar a
una mala interpretación porque no se pone a prueba ni mucho menos se prueba una hipótesis. Lo
que se realiza es una medida de riesgo de cometer un error al tomar una decisión sobre la base de
alguna hipótesis.
Primero discutiremos qué es una hipótesis. Si ante un problema se propone una posible solución
que no está totalmente comprobada, tal posible respuesta es una hipótesis, que se considera válida a
menos que algún otro elemento de juicio obligue a descartarla, o bien porque conduce a
consecuencias que no son válidas.
Casi cada acción que se realiza se apoya en una hipótesis e involucra una decisión. El simple
hecho de cruzar una calle es una decisión que se apoya en la hipótesis que podremos llegar a la otra
vereda sin inconvenientes. Elegir una carrera, rendir un examen, realizar un viaje, aceptar un trabajo
son decisiones que se apoyan en suponer que se obtendrá un beneficio de alguna manera y que no
habrá inconvenientes. Tales suposiciones son hipótesis que, si algo muestra que no son válidas,
67
deben rechazarse y la decisión se verá afectada, pero si nada las invalida, la decisión será tomada
suponiendo que son válidas y las consecuencias de la decisión tomada se verán a posteriori.
Por lo tanto una hipótesis es una posible respuesta a un problema, pero por ser posible quiere
decir que puede haber otras respuestas alternativas o hipótesis alternativas. En principio
asumiremos que hay una hipótesis que por algún motivo consideraremos conveniente, y otra
hipótesis alternativa que, a menos que se imponga, será descartada con respecto a la hipótesis nula.
El ejemplo más clásico es la hipótesis de inocencia: toda persona acusada de un delito se
presume inocente a menos que se pruebe lo contrario. La hipótesis de inocencia será la de partida y,
para ser descartada, se deberá reunir todas las pruebas que pongan de manifiesto que no es válida; si
tales pruebas no son firmes, la hipótesis de inocencia será la aceptada como válida.
En general se llama “hipótesis nula” y simboliza como 𝐻0 a la hipótesis conveniente, deseable o
la que por algún motivo debe aceptarse a menos que las pruebas obliguen a que sea rechazada y
deba aceptarse la hipótesis alternativa. Notaremos ésta como 𝐻1 aunque a veces se la nota con 𝐻𝐴 o
𝐻 ′ . En el ejemplo sería la inocencia la hipótesis nula y la culpabilidad, la alternativa.
Rechazar la hipótesis nula significa declarar a una persona culpable y es posible que se cometa
un error si en realidad es inocente. También es posible cometer un error si se declara inocente a
alguien que en realidad es culpable. De modo que ante dos hipótesis hay dos errores que pueden
cometerse. Entre los dos errores que pueden cometerse el que más se desea no cometer es declarar
culpable a un inocente, esto es, rechazar la hipótesis nula (inocencia) siendo verdadera. A tal error
se lo llama “error de tipo I” y suele expresarse ETI. El otro error que puede cometerse es declarar
inocente a un culpable, esto es rechazar la hipótesis alternativa (culpabilidad) siendo verdadera o, lo
que es lo mismo, aceptar la hipótesis nula (inocencia) siendo falsa. Al segundo tipo de error se lo
llama “error de tipo II” o ETII.
En síntesis, ante un problema supondremos que hay dos hipótesis: una hipótesis deseable o
hipótesis nula (H0), y una hipótesis alternativa (H1) que deberá aceptarse sólo si hay pruebas
suficientemente convincentes a su favor. El error de tipo I (ETI) consiste en rechazar la hipótesis
nula siendo verdadera y el error de tipo II (ETII) resulta de aceptar la hipótesis nula siendo falsa.
Podrá notarse que hasta el momento no se ha mencionado la estadística ni el cálculo de
probabilidades. El motivo es que no es necesario, y es una discusión relativa a la toma de decisión
que puede hacerse desde cualquier área y con diferentes marcos. Lo que aporta la estadística y el
cálculo de probabilidades es el recurso al uso sistemático de la información y el marco teórico para
el cálculo de riesgos en términos de probabilidades de cometer errores al tomar una decisión.
Suele llamarse 𝛼 (letra griega “alfa”) a la probabilidad de cometer un error de tipo I y 𝛽 (letra
griega “beta”) a la probabilidad de cometer un error de tipo II.
Había quedado pendiente una breve discusión sobre las medidas de riesgo de error de tipo I y
tipo II, representadas usualmente por 𝛼 y 𝛽. La determinación de estos niveles de riesgo requiere el
conocimiento de la distribución de probabilidad hipotética sobre la que se está trabajando. Si se
realiza primero un experimento y, en función del resultado, luego se calcula el riesgo de error frente
a la toma de decisión, suele llamarse al parámetro 𝛼 el “valor P” o “valor de probabilidad”. En
general se refiere a 𝛼 como el “nivel de significancia”.
Tomemos un ejemplo. Si se tira una moneda una vez y sale “cara” nadie se sorprendería.
Tampoco si se la tira dos veces y sale dos veces “cara”. Quizá tampoco si a la tercera tirada vuelve
a salir “cara”. La probabilidad de que salga “cara” la primera vez vale 0,5 o 50%. De que salga dos
veces seguidas “cara” vale 0,25 o 25%. De que salga “cara” tres veces seguidas vale 0,125 o 12,5%.
Si al tirarla por cuarta vez vuelve a salir “cara” quizá resulte extraño dado que, aunque no es
imposible, la probabilidad de que esto ocurra por azar es de sólo 0,0625 o 6,25%. Pero si vuelve a
salir cara por quinta vez comenzaríamos a dudar de que la moneda sea “genuina” y quizá diríamos
que está “arreglada” para que siempre caiga cara. La probabilidad de que salga cinco veces seguidas
“cara” es sólo de 0,03125 o 3,125%. No es imposible pero comenzaríamos a considerarlo “raro”. Si
por sexta vez sale “cara” afianzaríamos nuestra desconfianza en la moneda y quizá la rechazaríamos
como “genuina” aunque la probabilidad de que esto ocurra por azar vale 0,015625 o 1,5625%. Si
68
hacemos esto, corremos el riesgo de rechazar una moneda “genuina” con una medida de error de
tipo I de 𝛼 = 1,5625%.
Esto quiere decir que, si se toma la decisión de tirar la moneda porque seis caras seguidas se
considera un resultado demasiado “raro”, asumimos el riesgo de tirar una moneda “genuina” de
poco más de 1,5% dado que la moneda puede ser buena y equilibrada, y tal resultado podría haberse
obtenido sólo por azar con esa probabilidad. Si aun así decidimos tirar la moneda, el “riesgo
calculado” de 1,5% habrá sido considerado “aceptable” frente al otro riesgo de conservar una
moneda “falsa” o al menos desequilibrada.
Este cálculo se apoyó en la hipótesis de equilibrio de una moneda “genuina”, de allí que la
evaluación de hipótesis más bien es una evaluación de riesgo de rechazar una hipótesis correcta. El
cálculo de probabilidad de estos niveles de riesgo requiere el conocimiento de la distribución de
probabilidad. En el caso de la moneda es sencillo porque se asume que la moneda equilibrada tiene
probabilidad 50% de “cara” o “ceca” en cada tirada, y que 0,56 es la probabilidad de que siempre
salga cara en seis tiradas. En general este cálculo es más complejo y requiere un fuerte apoyo
teórico, pero nos limitamos a la terminología empleada para la evaluación de los niveles de riesgo.
Antes de continuar discutiremos el estrecho vínculo entre los intervalos de confianza y los
límites para la aceptación o rechazo de hipótesis. En primer lugar, recordemos que habíamos escrito
𝑃(𝜃 ∈ [𝑙𝑖 ; 𝑙𝑠 ]) = 1 − 𝛼
En su momento pareció quizá algo extraña la notación de la probabilidad. Observemos que esta
notación general establece que el nivel de confianza (1 − 𝛼) corresponde a la probabilidad de que el
verdadero valor del parámetro buscado se encuentre dentro del intervalo, pero existe una
probabilidad (𝛼) complementaria de que el intervalo [𝑙𝑖 ; 𝑙𝑠 ] no contenga al parámetro poblacional.
Por lo tanto, si se toma una decisión asumiendo que el parámetro 𝜃 se encuentra dentro del intervalo
obtenido experimentalmente, se asume un riesgo (𝛼) de que esté fuera y la decisión sea incorrecta.
Si nos remitimos a intervalos de confianza para la esperanza y a evaluación de hipótesis sobre la
media poblacional, notamos que el intervalo de confianza se centra en el promedio mientras que una
evaluación de hipótesis a dos colas se centra en la hipótesis nula. En el siguiente esquema
mostramos el promedio (Xm) y la esperanza correspondiente a la hipótesis nula (µ). El intervalo de
confianza centrado en el promedio (< >) contiene a la hipótesis nula. Por otra parte los límites de
aceptación y rechazo ( | | ) en torno a la esperanza de la hipótesis nula contienen al promedio.
Si se hubiese hecho una evaluación de hipótesis de diferencia con respecto a una media
poblacional hipotética, el esquema hubiera conducido a no rechazar la hipótesis nula; si el promedio
estuviera fuera de los límites, se habría rechazado la hipótesis nula. Planteado a partir del intervalo
de confianza, la conclusión equivalente debió ser obtenida observando si la hipótesis nula está
contenida en el intervalo de confianza en torno al promedio.
El valor P se habría obtenido como la probabilidad de que el promedio exceda la distancia
empíricamente obtenida del valor de la esperanza hipotética. De la misma manera se puede calcular
la probabilidad de que la esperanza, parámetro que define la hipótesis nula, exceda la distancia
experimental con respecto al promedio. Lo antedicho es válido para evaluación de hipótesis
unilaterales al igual que para intervalos de confianza a un solo lado.
69
En síntesis, vemos que, si un intervalo de confianza contiene a la hipótesis nula, ésta no debería
ser rechazada al complemento del nivel de confianza (𝛼), coincidente con el nivel de significancia
de la hipótesis correspondiente. Concluimos que una reinterpretación de los intervalos de confianza
permite aplicarlos a la evaluación estadística de hipótesis.
𝜎 0,5𝑔
𝐿𝑖 = 𝜇0 − 𝑧𝛼 = 7𝑔 − 1,96 ∗ = 6,804𝑔
2 √𝑛 √25
𝜎 0,5𝑔
𝐿𝑠 = 𝜇0 + 𝑧𝛼 = 7𝑔 + 1,96 ∗ = 7,196𝑔
2 √𝑛 √25
Observamos que el valor de 7,2g para el promedio excede levemente el límite superior, con lo
cual podemos rechazar la hipótesis nula con el 5% de significancia. Equivalentemente podríamos
haber estandarizado el promedio para construir un “estadístico de prueba”, expresado como 𝑧0 dado
que se establece a partir de la hipótesis nula, en la forma
𝑥̅ − 𝜇0 7,2𝑔 − 7,0𝑔
𝑧0 = = = 2,0
𝜎 0,5𝑔/√25
Es tan cierto que
7,2𝑔 ∉ [6,804; 7,196]
como que
2,0 ∉ [−1,96; 1,96]
De modo que desarrollar la evaluación de hipótesis sobre los límites en torno a la esperanza
correspondiente a la hipótesis nula o bien en relación con los valores de la distribución normal
estándar es equivalente.
En adelante utilizaremos en forma equivalente límites de aceptación y rechazo absolutos o bien
expresados como un estadístico de prueba.
La hipótesis nula será entonces que una distribución tiene determinada forma, o bien como
alternativa, evaluar si se aparta sensiblemente de la forma propuesta. Para ello se recurre a un
procedimiento de prueba que se apoya en la llamada “distribución chi-cuadrado” aplicada a la
diferencia entre un “histograma esperado” y el efectivamente obtenido.
A partir de una variable aleatoria con distribución desconocida obtenemos una muestra con un
histograma asociado. Si a partir de la función de densidad propuesta como hipótesis nula obtenemos
un cierto número esperado de resultados correspondientes al intervalo 𝑘 entre los límites 𝑙𝑘−1 y 𝑙𝑘 ,
llamamos “𝐸𝑠𝑝𝑘 ” al número de datos esperados en función de la hipótesis en el intervalo 𝑘. Por otra
parte, habrá un cierto número de observaciones “𝑂𝑏𝑠𝑘 ” en el mencionado intervalo. Si se dispone
de N intervalos, el estadístico de prueba
𝑁
(𝑂𝑏𝑠𝑘 − 𝐸𝑠𝑝𝑘 )2
𝜒02 =∑
𝐸𝑠𝑝𝑘
𝑘=1
2
tiene una distribución aproximadamente 𝜒𝑁−𝑃−1 , donde “P” es el número de parámetros requeridos
para la estimación de la forma funcional de la distribución propuestas, los que se estiman a partir de
la muestra con pérdida de grados de libertad.
A modo de ejemplo, si se dispone de 50 datos, con lo cual se estima conveniente establecer un
número de N=7 intervalos, y se supone como hipótesis nula que la distribución es normal, por lo
cual se requiere la estimación de dos parámetros (la esperanza a partir del promedio y la varianza a
partir del cuadrado de la desviación normal). En consecuencia, el estadístico de prueba responde a
2 2
una distribución chi-cuadrado de la forma 𝜒𝑁−𝑃−1 = 𝜒7−2−1 = 𝜒42 .
Adjuntamos una “tabla chi-cuadrado” en la que se indica el número de grados de libertad en la
primera columna y el nivel de significancia en primera fila. En nuestro ejemplo, si tomamos cuatro
grados de libertad con un nivel de significancia de 5% (0,050), tendremos 𝜒42 = 9,49.
La aplicación de esta evaluación no requiere que los intervalos sean iguales en tamaño, pero sí
que haya un número mínimo de al menos unos tres datos en cada intervalo para que el resultado sea
confiable. Si, con todas estas consideraciones, 𝜒02 > 𝜒𝛼,𝑁−𝑃−1
2
para cierto nivel de significancia 𝛼,
se rechaza la hipótesis nula relativa a la distribución propuesta.
Si trabajamos con una distribución discreta, como podría ser tirar un dado sesenta veces y
esperar diez resultados para cada cara, bastaría escribir 𝐸𝑠𝑝𝑘 = 10 para todo 𝑘, y contabilizar los
resultados concretos 𝑂𝑏𝑠𝑘 para evaluar si hay uniformidad en la probabilidad de cada resultado al
tirar un dado.
Si la distribución es continua y la asociamos a una densidad 𝑓0 (𝑥), después de obtener los
límites para cada intervalo, si n es el número de datos habrá que calcular
Tablas de contingencias
Un planteo más general conduce a la configuración de tablas de doble entrada para aplicar esta
evaluación a distribuciones en dos variables. La “tabla de contingencias” se propone evaluar la
independencia entre dos variables discretas o continuas.
En la tabla siguiente presentamos observaciones de una variable clasificadas sobre la base de dos
criterios. Por ejemplo, puede ser una encuesta con varias opciones ubicadas en filas (r opciones)
tomada en varias ciudades ubicadas en columnas (s ciudades), o bien en r localizaciones en s
tiempos o cualquier planteo similar en presentación.
71
1 2 … j … s
1 Obs11 Obs12 Obs1j Obs1s
2 Obs21 Obs22 Obs2j Obs2s
…
i Obsi1 Obsi2 Obsij Obsis
…
r Obsr1 Obsr2 Obsrj Obsrs
Supongamos que hay 𝑛𝑗 ciudades con similares características en las cuales se ha obtenido 𝑛𝑖
selecciones de la categoría i. El número Obsij representa el número de observaciones de la categoría
i realizadas en ciudades con características j (podrían ser clasificadas por número de habitantes, por
ejemplo).
Si llamamos 𝑂𝑏𝑠̂𝑖 al estimador de la probabilidad, a través de la frecuencia relativa del
histograma, de las observaciones de la categoría i considerando a todas las ciudades como
equivalentes sin distinción, si n es la totalidad de datos en la muestra
𝑠
1
̂𝑖 =
𝑂𝑏𝑠 ∑ 𝑂𝑏𝑠𝑖𝑗
𝑛
𝑗=1
De la misma manera llamamos
𝑟
1
̂𝑗 =
𝑂𝑏𝑠 ∑ 𝑂𝑏𝑠𝑖𝑗
𝑛
𝑖=1
̂𝑖 ∗ 𝑂𝑏𝑠
𝑝𝑖𝑗 = 𝑂𝑏𝑠 ̂𝑗
Por lo tanto, el número de casos esperados para la característica i observada en la ciudad j vale
𝑠 𝑟
1
̂𝑖 ∗ 𝑂𝑏𝑠
𝐸𝑠𝑝𝑖𝑗 = 𝑛 ∗ 𝑂𝑏𝑠 ̂𝑗 = (∑ 𝑂𝑏𝑠𝑖𝑗 ) (∑ 𝑂𝑏𝑠𝑖𝑗 )
𝑛
𝑗=1 𝑖=1
Si construimos el estadístico de prueba
𝑟 𝑠 2
(𝑂𝑏𝑠𝑖𝑗 − 𝐸𝑠𝑝𝑖𝑗 )
𝜒02 = ∑∑
𝐸𝑠𝑝𝑖𝑗
𝑖=1 𝑗=1
se supone que, para un número de observaciones suficientemente grande, de modo que al menos
haya unos tres casos en cada uno de los casilleros, este parámetro responde a una distribución de
2
tipo 𝜒(𝑟−1)(𝑠−1) , es decir con (r-1)*(s-1) grados de libertad.
72
2
Si 𝜒02 > 𝜒𝛼,(𝑟−1)(𝑠−1) , se rechaza la hipótesis nula de independencia al nivel 𝛼% de significancia y
se asume que es posible que exista alguna relación entre las respuestas y las ciudades clasificadas
por número de habitantes, para cerrar el ejemplo.
Un planteo similar puede hacerse si se conoce la distribución de probabilidad asociada a una de
las variables o a ambas, en cuyo caso los valores esperados se calculan a través de las distribuciones
y no por medio de estimaciones a partir de los histogramas.
Un caso particular se aplica en la evaluación de respuesta a un medicamento. En tal caso la tabla
se reduce a dos filas y dos columnas con sus marginales.
Placebo Medicamento n
Recupera ObsRP ObsRM R
No recupera ObsNP ObsNM NR
n P M N
En esta tabla, ObsRP es el número de observaciones de enfermos que se recupera, aunque se les
suministra un placebo, ObsRM es el número de enfermos que se recuperan y reciben el medicamento,
ObsNP y ObsNM son los que no se recuperan recibiendo el placebo ni el medicamento
respectivamente. “R” es el total de los que se recuperan y NR los que no se recuperan, siendo n el
número total de datos.
Los valores esperados serían
Placebo Medicamento n
Recupera R*P/n R*M/n R
No recupera N*P/n N*M/n NR
n P M n
El estadístico de prueba es
𝑅𝑃 2 𝑅𝑀 2 𝑁𝑃 2 𝑁𝑀 2
(𝑂𝑏𝑠𝑅𝑃 − ) (𝑂𝑏𝑠𝑅𝑀 − ) (𝑂𝑏𝑠𝑁𝑃 − ) (𝑂𝑏𝑠𝑁𝑀 − )
𝜒02 = 𝑛 + 𝑛 + 𝑛 + 𝑛
𝑅𝑃 𝑅𝑀 𝑁𝑃 𝑁𝑀
𝑛 𝑛 𝑛 𝑛
2
El resultado es comparado con 𝜒𝛼,1 con un grado de libertad. Con un 5% de nivel de
significancia, el valor de chi-cuadrado a comparar sería 3,84. Si el valor obtenido de 𝜒02 fuese
mayor que este número, se diría que se rechaza la hipótesis de independencia con el 5% de nivel de
significancia.
Dado el pequeño tamaño de la tabla, hay otros criterios menos cuantitativos en términos de nivel
de riesgo y más empíricos, que comparan directamente relaciones entre los resultados de la tabla de
observaciones.
Otro gran problema a resolver en las distribuciones multivariadas es la posibilidad de que existan
relaciones internas entre las variables que intervienen en la distribución. En tal caso se debe estudiar
la naturaleza y evaluar la intensidad de la relación. Pero el objetivo, al trabajar sobre distribuciones
multivariadas, puede ser no sólo establecer la relación entre las variables sino agruparlas,
tipificarlas, separarlas, establecer criterios de separación, ordenarlas, jerarquizarlas; o bien trabajar
73
sobre la agrupación, tipificación, separación y ordenamiento de individuos a los que se asocian las
variables. Estos problemas son en general complejos y se deben abordar desde la perspectiva más
simple para avanzar en complejidad y criterios de modelado.
Como primera aproximación, nos limitaremos a buscar relaciones entre las variables y, con el
criterio de complejidad progresiva, adoptaremos la hipótesis más simple, es decir, de linealidad en
la relación entre dos variables. La técnica de “regresión lineal simple por cuadrados mínimos” se
origina, por una parte, en la noción de “regresión a la media”, introducido por Francis Galton en
1886 (Galton, F. (1886). “Regression towards mediocrity in hereditary stature”. En The Journal of
the Anthropological Institute of Great Britain and Ireland 15: 246-263), y por otra en el uso de
ajuste por “cuadrados mínimos”, desarrollado por Legendre y más formalmente por Gauss a
principios del siglo XIX con fines de cálculos astronómicos. La noción de regresión a la media
refiere a que, en la variabilidad biológica de la evolución, los descendientes tienden a regresar al
comportamiento medio de la población (destaquemos que Galton era primo de Darwin), en
particular se hace referencia que, en términos generales, los hijos de padres altos tienden a ser más
bajos que los padres y, recíprocamente, los descendientes de padres de baja estatura, tienden a ser
más altos que sus padres. La técnica de cuadrados mínimos es un procedimiento de ajuste de un
modelo a datos numéricos.
Si proponemos un análisis de “relación” entre dos variables, debemos considerar que X e Y son
dos variables aleatorias, que pueden estar relacionadas por medio de una relación lineal, e
incorporar un componente aleatorio independiente de ambas 𝜀(0; 𝜎 2 ), que analizaremos en detalle
luego. Se dice que es un modelo de regresión lineal simple por la forma de la ecuación y por
involucrar sólo una variable aleatoria independiente. Por el momento sólo diremos que la esperanza
del componente aleatorio es nula (es insesgado) y su varianza vale 𝜎 2 . En tal caso propondríamos
un modelo de “relación”
𝑌 = 𝛼𝑋 + 𝛽 + 𝜀(0; 𝜎 2 )
𝐸(𝑌) = 𝛼𝐸(𝑋) + 𝛽
y por otra parte la varianza. Si consideramos que tanto X como Y son variables aleatorias, debemos
concluir que
𝑉(𝑌) = 𝛼 2 𝑉(𝑋) + 𝜎 2
𝑦𝑖 = 𝛼𝑥𝑖 + 𝛽 + 𝜀𝑖
No estudiaremos, en primer lugar, la teoría formal probabilista sino el enfoque de los cuadrados
mínimos, es decir el aspecto particular de disponer de un conjunto de datos numéricos entre los
cuales se busca una relación lineal “óptima” que los vincule. El término “óptimo” puede tener
muchos significados, por lo que debe ser precisado. Si se suman los valores de 𝜀𝑖 habría una
cancelación con esperanza nula. Se pueden sumar los valores absolutos, y de hecho se utiliza en
algunas ocasiones, pero presenta problemas de cálculo. Por otra parte, el recurso a los cuadrados es
consistente con la definición de varianza y, en especial, de varianza residual mínima. En el sentido
de los “cuadrados mínimos”, conduce a un planteo formal del problema de ajuste del modelo lineal.
Usamos letras latinas o griegas con un significado formal. Las letras griegas se utilizan en el marco
de un planteo probabilista teórico y las letras latinas equivalentes como aproximación estadística
sobre la base de datos.
A partir de cada par de datos (𝑥𝑖 ; 𝑦𝑖 ) ajustamos una relación lineal por medio de la
incorporación de un “error de ajuste” 𝜀𝑖 en la forma
𝑦𝑖 = 𝑎𝑥𝑖 + 𝑏 + 𝜀𝑖
escribimos
𝜀𝑖 = 𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏 = 𝑦𝑖 − 𝑦𝑖𝑒
donde 𝑦𝑖𝑒 = 𝑎𝑥𝑖 + 𝑏 es el valor de la variable dependiente estimado por el modelo lineal. El
término de ajuste, de error o “residuo” 𝜀𝑖 es lo que debe ser minimizado. La suma de residuos
produciría una eventual cancelación de valores positivos y negativos. Para evitar esta cancelación,
elevamos al cuadrado los residuos y los sumamos sobre todos los datos disponibles. Sea
𝑛 𝑛 𝑛
Hemos escrito 𝜖(𝑎,𝑏) para sintetizar la suma de desvíos cuadráticos en un parámetro y denotar
que éste es función de los valores de a y b.
Minimizar la suma de los desvíos cuadráticos conduce a la solución. Si llamamos
𝑛 𝑛 𝑛 𝑛 𝑛
1 1 1 1 1
∑ 𝑥𝑖 𝑦𝑖 = 𝑥𝑦
̅̅̅ ∑ 𝑥𝑖2 = ̅̅̅
𝑥2 ∑ 𝑥𝑖 = 𝑥̅ ∑ 𝑦𝑖 = 𝑦̅ ∑1 = 1
𝑛 𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
queda
75
un sistema de ecuaciones
̅̅̅2 − 𝑏𝑥̅ = 0
̅̅̅ − 𝑎𝑥
𝑥𝑦
y
𝑦̅ − 𝑎𝑥̅ − 𝑏 = 0
del que obtenemos como solución
𝑥𝑦 − 𝑥̅ 𝑦̅
̅̅̅
𝑎=
̅̅̅
𝑥 2 − 𝑥̅ 2
𝑏 = 𝑦̅ − 𝑎𝑥̅
Nótese que estos “mejores” valores de a y b se calcularon sobre la base de una hipótesis de
relación lineal, de predefinir a X como la variable independiente y a Y como la dependiente, y
finalmente de utilizar el criterio de la minimización de la suma de diferencias cuadráticas. El
planteo de “relación” en lugar de “regresión”, la hipótesis de no linealidad, el intercambiar las
variables dependiente e independiente, o utilizar otro criterio diferente a la minimización de desvíos
cuadráticos, hubiese conducido a resultados distintos en los parámetros a y b.
En los gráficos que siguen se presenta una regresión positiva, negativa e indefinida
respectivamente. Luego dos aspectos de gráficos de dispersión en los cuales se observa una relación
intensa a la izquierda y una variación conjunta más débil a la derecha.
https://steemit.com/spanish/@adiazrojas13/las-7-herramientas-de-calidad-2-diagrama-de-dispersion
https://datavizcatalogue.com/ES/metodos/diagrama_de_dispersion.html
El signo del coeficiente de regresión determina el signo de la pendiente. Pero en los dos gráficos
de abajo ambas pendientes son positivas, aunque la relación entre variables es claramente diferente.
En el gráfico superior derecho es imposible decidir visualmente si la pendiente es positiva o
negativa, y aunque un cálculo de un resultado óptimo, es dudoso que pueda tener algún sentido.
76
Supongamos que, si graficamos los pares ordenados como puntos y, en el mismo gráfico, la recta
de regresión, los valores correctores de 𝜀 están representados por segmentos que ajustan el valor
“explicado” por una recta teórica 𝑦𝑖𝑒 = 𝛼𝑥𝑖 + 𝛽 con un término aditivo 𝜀𝑖 . Si consideramos que 𝑥𝑖
es un dato previo y condicionante de 𝑦𝑖 , resulta que la variable aleatoria Y está condicionada por
otra variable aleatoria X, pero no determinada. Por lo tanto, queda un término residual asociado a
otra variable aleatoria 𝜀 que debe tener asociada su propia distribución de probabilidad.
https://slideplayer.es/slide/5033312/
A través de la técnica de cuadrados mínimos hemos obtenido los parámetros de la función lineal
de regresión, pero aún falta determinar la varianza residual 𝜎𝜀2 . Si recordamos que, en términos de
una relación lineal teórica entre variables aleatorias, habíamos planteado
𝑌 = 𝛼𝑋 + 𝛽 + 𝜀
asumimos que en esta expresión 𝜀 es normal 𝑁(0; 𝜎 2 ). Esto significa que suponemos que los
ajustes son totalmente aleatorios e independientes de ambas variables aleatorias que se están
relacionando. Vemos así que, si estas suposiciones son correctas, la variable aleatoria Y queda
determinada por X con excepción de un componente aleatorio asociado a una distribución normal
(aleatoriedad pura en todo el eje real) con esperanza nula y varianza desconocida pero expresada
como 𝜎𝜀2 .
Veremos que para evaluar la “intensidad” o calidad del ajuste lineal se definen la covarianza y,
en particular, el coeficiente de correlación. La covarianza empírica se calcula
𝑛
1
𝐶(𝑋; 𝑌) = ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) = 𝑥𝑦
̅̅̅ − 𝑥̅ 𝑦̅
𝑛
𝑖=1
77
𝐶(𝑋, 𝑌)
𝑟=
𝑠𝑛𝑥 𝑠𝑛𝑦
En esta expresión
𝑛 𝑛
1 1
𝑠𝑛𝑥 = √ ∑(𝑥𝑖 − 𝑥̅ )2 𝑠𝑛𝑦 = √ ∑(𝑦𝑖 − 𝑦̅)2
𝑛 𝑛
𝑖=1 𝑖=1
Por otra parte, definimos la suma de desvíos cuadráticos residuales con respecto a los valores
2
estimados por el modelo de regresión como 𝑛𝑠𝑛𝑦𝑟
𝑛 𝑛
2
𝑛𝑠𝑛𝑦𝑟 = ∑(𝑦𝑖 − 𝑎𝑥𝑖 − 𝑏) = ∑(𝑦𝑖 − 𝑦𝑒𝑖 )2
2
𝑖=1 𝑖=1
𝑥𝑦 − 𝑥̅ 𝑦̅
̅̅̅
𝑎=
̅̅̅
𝑥 2 − 𝑥̅ 2
y la covarianza
𝐶(𝑋; 𝑌) = 𝑥𝑦
̅̅̅ − 𝑥̅ 𝑦̅
como
2
𝑠𝑛𝑥 = ̅̅̅
𝑥 2 − 𝑥̅ 2
luego
𝐶(𝑋; 𝑌) 𝑠𝑛𝑦
𝑎= 2 = 𝑟
𝑠𝑛𝑥 𝑠𝑛𝑥
Si calculamos
2 2
𝑠𝑛𝑦 − 𝑠𝑛𝑦𝑟
Obtendremos que, si esta diferencia es nula, la suma de los cuadrados de los residuos es igual
que la suma de los cuadrados originales, por lo tanto, el modelo de regresión no habrá aportado
78
ninguna información para reducir la variabilidad, pero si la suma de los cuadrados de los residuos es
nula, quiere decir que no ha quedado variabilidad sin explicar por el modelo de regresión, y el
ajuste del modelo a los datos es perfecto. Haciendo los cálculos llegamos a
2 2
𝑠𝑛𝑦 − 𝑠𝑛𝑦𝑟 = 2𝑟 2 𝑠𝑛𝑦
2
− 𝑟 2 𝑠𝑛𝑦
2
= 𝑟 2 𝑠𝑛𝑦
2
O
2
𝑠𝑛𝑦𝑟
𝑟2 = 1 − 2
𝑠𝑛𝑦
De acuerdo con este resultado, el coeficiente 𝑟 2 suele definirse como “varianza explicada”. Si
𝑟 2 = 0 nos indica que la varianza de los valores de Y residuales con respecto a los estimados por el
modelo contienen la misma varianza que los originales, por lo tanto, el modelo de regresión no ha
aportado nada en la reducción de la variabilidad por medio de una estimación determinista. Por otra
parte, si 𝑟 2 = 1 quiere decir que la variabilidad de los valores residuales con respecto a los
estimados por el modelo es nula, por lo cual es totalmente determinista y el modelo de regresión
explica en forma completa el comportamiento de la variable aleatoria. Este coeficiente 𝑟 2 empírico
puede ser una medida de la varianza residual 𝜎𝜀2 que proponíamos encontrar.