Estadistica (Imprimir)

Apuntes de Estadı́stica Aplicada
Martı́n Ruben Cerfoglio

2023
1
Contents
1 Introducción 4
1.1 Estadı́stica descriptiva y estadı́stica inferencial . . . . . . . . . 4
1.2 Definiciones básicas . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Experimento y unidad experimental . . . . . . . . . . . 6
1.2.2 Medición y dato estadı́stico . . . . . . . . . . . . . . . 7
1.2.3 Información . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.4 Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.5 Población . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.6 Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.7 Variable . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Cantidades absolutas y relativas . . . . . . . . . . . . . . . . . 10
1.3.1 Cantidad absolutas . . . . . . . . . . . . . . . . . . . . 10
1.3.2 Cantidad relativas . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Proporciones . . . . . . . . . . . . . . . . . . . . . . . 10
2 Estadı́stica descriptiva 12
2.1 Distribuciones de frecuencia . . . . . . . . . . . . . . . . . . . 12
2.1.1 Distribución de frecuencias para variables cualitativas . 13
2.1.2 Distribución de frecuencias para variables cuantitativas
discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 15
continuas . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Medidas de concentración . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Percentiles . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Medidas de posición o de tendencia central . . . . . . . . . . . 25
2.3.1 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.3 Modo o moda . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.4 Media ponderada . . . . . . . . . . . . . . . . . . . . . 33
2.3.5 La mejor medida de tendencia central . . . . . . . . . . 34
2.4 Medidas de variabilidad . . . . . . . . . . . . . . . . . . . . . 34
2.4.1 Desviación o desvı́o . . . . . . . . . . . . . . . . . . . . 35
2.4.2 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4.3 Desvı́o estándar . . . . . . . . . . . . . . . . . . . . . . 36
2.4.4 Coeficiente de variación . . . . . . . . . . . . . . . . . 39
3 Probabilidad 41
3.1 Teorı́a de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.1 Propiedad de las operaciones . . . . . . . . . . . . . . . 45
2
3.2 Definición de probabilidad . . . . . . . . . . . . . . . . . . . . 46
3.2.1 Definición clásica . . . . . . . . . . . . . . . . . . . . . 46
3.2.2 Definición frecuentista . . . . . . . . . . . . . . . . . . 48
3.2.3 Denifición subjetiva . . . . . . . . . . . . . . . . . . . . 49
3.2.4 Axiomática . . . . . . . . . . . . . . . . . . . . . . . . 50
3.2.5 Probabilidad marginal y conjunta . . . . . . . . . . . . 52
3.2.6 Probabilidad condicional e independencia . . . . . . . . 53
3.3 Reglas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3.1 Variaciones y permutaciones . . . . . . . . . . . . . . . 58
3.3.2 Combinatorias . . . . . . . . . . . . . . . . . . . . . . . 62
3.4 Teorema de la probabilidad total . . . . . . . . . . . . . . . . 65
3.5 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6 Estadı́stica Descriptiva . . . . . . . . . . . . . . . . . . . . . . 67
3
1 Introducción
1.1 Estadı́stica descriptiva y estadı́stica inferencial
Para mucha gente, estadı́stica significa descripciones numéricas. Esto
puede verificarse fácilmente al escuchar, un domingo cualquiera, a un
comentarista de televisión narrar un juego de fútbol. Sin embargo, en
términos más precisos, la estadı́stica es el estudio de los fenómenos
aleatorios. En este sentido la ciencia de la estadı́stica tiene, virtualmente,
un alcance ilimitado de aplicaciones en un espectro tan amplio de
disciplinas que van desde las ciencias y la ingenierı́a hasta las leyes y la
medicina. El aspecto más importante de la estadı́stica es la obtención de
conclusiones basadas en los datos experimentales. Este proceso se conoce
como inferencia estadı́stica. Si una conclusión dada pertenece a un
indicador económico importante o a una posible concentración peligrosa de
cierto contaminante, o bien, si se pretende establecer una relación entre la
incidencia de cáncer pulmonar y el fumar, es muy común que la conclusión
esté basada en la inferencia estadı́stica.
Para comprender la naturaleza de la inferencia estadı́stica, es necesario

entender las nociones de población y muestra. La población es la colección
de toda la posible información que caracteriza a un fenómeno. En
estadı́stica, población es un concepto mucho más general del que tiene la
acepción común de esta palabra. En este sentido, una población es
cualquier colección ya sea de un número finito de mediciones o una
colección grande, virtualmente infinita, de datos acerca de algo de interés.
Por otro lado, la muestra es un subconjunto representativo seleccionado de
una población. La palabra representativo es la clave de esta idea. Una
buena muestra es aquella que refleja las caracterı́sticas esenciales de la
población de la cual se obtuvo.
En estadı́stica, el objetivo de las técnicas de muestreo es asegurar que

cada observación en la población tiene una oportunidad igual e
independiente de ser incluida en la muestra. Tales procesos de muestreo
conducen a una muestra aleatoria. Las observaciones de la muestra
aleatoria se usan para calcular ciertas caracterı́sticas de la muestra
denominadas estadı́sticas. Las estadı́sticas se usan como base para hacer
inferencias acerca de ciertas caracterı́sticas de la población, que reciben el
nombre de parámetros. Ası́, muchas veces se analiza la información que
contiene una muestra aleatoria con el propósito principal de hacer
inferencias sobre la naturaleza de la población de la cual se obtuvo la
4
muestra.
En estadı́stica la inferencia es inductiva porque se proyecta de lo

especı́fico (muestra) hacia lo general (población). En un procedimiento de
esta naturaleza siempre existe la posibilidad de error. Nunca podrá tenerse
el 100% de seguridad sobre una proposición que se base en la inferencia
estadı́stica. Sin embargo, lo que hace que la estadı́stica sea una ciencia
(separándola del arte de adivinar la fortuna) es que, unida a cualquier
proposición, existe una medida de la confiabilidad de ésta. En estadı́stica la
confiabilidad se mide en términos de probabilidad. En otras palabras, para
cada inferencia estadı́stica se identifica la probabilidad de que la inferencia
sea correcta.Los problemas estadı́sticos se caracterizan por los siguientes
cuatro elementos:
1. La población de interés y el procedimiento cientı́fico que se empleó para

muestrear la población.
2. La muestra y el análisis matemático de su información.
3. Las inferencias estadı́sticas que resulten del análisis de la muestra.
4. La probabilidad de que las inferencias sean correctas.
El enfoque precedente para la inferencia estadı́stica descansa

únicamente en la evidencia muestral. Éste es denominado teorı́a del
muestreo o enfoque clásico de la inferencia estadı́stica y para la mayor parte
de ésta, será el que se tome en este libro. Sin embargo, también se tratará
de incorporar ocasionalmente otro punto de vista conocido como inferencia
bayesiana. Esta forma de abordar la inferencia estadı́stica utiliza la
combinación de la evidencia muestral con otra información, generalmente
proporcionada por el investigador del problema. Tal información descansa
de manera fundamental en la convicción o grado de creencia del
investigador con respecto a las incertidumbres del problema, antes de que se
encuentre disponible la evidencia muestral. Este grado de creencia puede
basarse en consideraciones como los resultados conocidos, que son producto
de investigeciones previas. Es importante que el lector comprenda que el
objetivo de los procedimientos clásico y bayesiano descansa en la evaluación
de las incertidumbres basadas en la probabilidad.
Para comprender la esencia del muestreo aleatorio y de la inferencia

estadı́stica, es necesario entender como primer punto, la naturaleza de una
5
población en el contexto de la probabilidad y de los modelos probabilı́sticos.
Este capı́tulo tratará brevemente las estadı́sticas descriptivas. A pesar

de que éstas son sencillas desde el punto de vista matemático, son valiosas
en casos donde se encuentra disponible la población completa y no existe
incertidumbre, o cuando se tienen a la mano grandes conjuntos de datos
que pueden o no considerarse como muestras aleatorias. Si un conjunto
grande se considera como muestra aleatoria de una población, la estadı́stica
descriptiva puede ir tan lejos como la distribución general de valores, al dar
una evidencia empı́rica y otras caracterı́sticas de la población. Esta
evidencia tiene un apreciable valor puesto que afirma ciertas suposiciones
que deben formularse en la aplicación de la inferencia estadı́stica.
1.2 Definiciones básicas

A continuación se exponen las definiciones básicas más importantes con
las que alumno deberá contar para poder comenzar el estudio de la
estadı́stica.
1.2.1 Experimento y unidad experimental

Se llama experimento o encuesta a la observación planeada de
un fenómeno de cualquier ı́ndole con el objetivo de conocer su
comportamiento, poder describirlo y tomar una decisión
Algunos autores establecen una diferencia entre el concepto de

ENCUESTA y el de EXPERIMENTO, utilizando el primero para referirse
a aquellas, observaciones donde no se ejerce un control directo sobre las
personas y las cosas que son objeto de los trabajos, y el segundo cuando si
se controlan uno o más de los factores que influyen en una caracterı́stica
especifica. En este trabajo no se hará tal distinción, y se utilizará
preferentemente el término EXPERIMENTO.
Se llama Unidad experimental son cada uno de los entes que son
observados en el experimento.
Se determina cuando se fijan los objetivos del trabajo
6
1.2.2 Medición y dato estadı́stico
Se llama medición a la asignación. conforme a reglas
preestablecidas - de valores (sı́mbolos, numerales o números, a cada
una de las caracterı́sticas que poseen las Unidades Experimentales.
Se llama escala de medición a una regla preestablecida o

instrumento de medición, que consiste en un conjunto de valores que
se asignarán a una caracterı́stica especifica que poseen las Unidades
Experimentales
Se llama datos estadı́stico al valor asignado a una de las

caracterı́sticas de una Unidad Experimental, conforme a la Escala
de Medición empleada.
En otras palabras, un DATO ESTADÍSTICO es el valor que resulta de

una MEDICIÓN. De acuerdo al posible uso que se les de, los DATOS
ESTADÍSTICOS se pueden clasificar en DATOS ESTADÍSTICOS
CUALITATIVOS o DATOS ESTADÍSTICOS CUANTITATIVOS:
1. Los DATOS ESTADÍSTICOS CUALITATIVOS son aquellos valores

correspondientes a los atributos o propiedades categóricas que sólo se
pueden usar para identificar y describir a una Unidad Experimental.
2. LOS DATOS ESTADÍSTICOS CUANTITATIVOS son aquellos

valores que, además de identificar y describir a una Unidad
Experimental, establecen las diferencias posibles entre los valores en
cantidad y grado.
1.2.3 Información
Se llama información al resultado de la evaluación de los Dalos
Estadı́sticos cuando se los compara con una adecuada referencia.
Es importante destacar que contrariamente a lo que significa para los

legos, una INFORMACIÓN no es el resultado de una medición, no es el Dato
Estadı́stico, sino lo que surge de comparar el valor del dato con una referencia
o modelo. La INFORMACIÓN siempre tendrá asociada una decisión o una
conclusión. O sea que para decidir realizar una determinada acción o para
afirmar un hecho o conclusión, hay que contar con una INFORMACIÓN.
7
1.2.4 Estadı́stica
En aquellos casos donde los eventos son únicos e irrepetibles o, cuando
si se los repite bajo las mismas condiciones el resultado es necesariamente el
mismo; entonces, con un solo dato se puede tener información suficiente
para tomar una decisión o arribar a una conclusión.
Sirviendo como ejemplo, la edad de una persona constituye un solo dato

que permite tener la información para decidir acerca del acceso o no de la
misma al cine para ver una pelicula apta para mayores de 16 años.
Pero, si cuando al experimento se lo realiza en las mismas condiciones,

el resultado de la medición puede ser distinto, por la existencia de causas
fortuitas que pueda alterarlo, entonces, es necesario repetir dicho
Experimento todas las veces que sean posibles, ası́ como también, recopilar
y analizar los Datos Estadı́sticos que se obtengan a los efectos de lograr la
información buscada.
Se lama estadı́stica a la disciplina cientı́fica que crea, desarrolla

y aplica las adecuados métodos de recopilación de datos, y su
evaluación, para transformarlos en informaciones con las cuales
se describan objetivamente las distintas situaciones investigadas,
se analice el comportamiento de determinadas caracterı́sticas que
poseen las UNIDADES EXPERIMENTALES y se tomen decisiones
en condición de incertidumbre o se pueda arribar a conclusiones
respecto de las UNIDADES EXPERIMENTALES.
Entonces, para que un evento sea objeto de análisis Estadı́stico, debe ser
susceptible de presentar distintos resultados, aún cuando se lo repita bajo
condiciones similares. Esto significa que la tarea Estadı́stica esta presente
cuando se necesita estudiar aquellas situaciones que requieran ser medidas en
similares condiciones y los resultados de éstas puedan presentan variabilidad.
1.2.5 Población
Se llama población al conjunto de Unidades Experimentales
que poseen caracterizaras comunes, observables, paso obtener
información sobre un hecho particular
Según la cantidad de unidades experimentales que lo integran, las

poblaciones pueden ser Finitas o Infinitas. Una población quede
8
determinado cuando se establece cual es el objetivo del trabajo a realizar.
Esta definición complementa a las nociones volcadas en la introducción de
la presente unidad.
1.2.6 Muestra
Se llama muestra a aquella parte de la Población que se ha
seleccionado para ser analizada con el fin de obtener conclusiones
respecto de la totalidad de los elementos de la misma.
1.2.7 Variable
Se llama variable a cualquier caracterı́stica observable que tienen
las unidades experimentales.
Se llama recorrido de una variable al conjunto de los posibles

valores que ella puede asumir.
De acuerdo al tipo de datos que origina la VARIABLE, éstas se clasifican

en Variables Cualitativas o Variables Cuantitativas
Una variable es cualitativa, cuando los valores que puede asumir no

constituyen un Espacio Métrico.
Una variable es cuantitativa, cuando los valores que puede asumir si

constituyen un Espacio Métrico.
– Una variable es cuantitativa discreta, cuando Los valores que

puede asumir la variable pertenecen a un conjunto finito o infinito,
pero numerable.
– Una variable es cuantitativa continua, cuando puede asumir
infinitos valores dentro de un intervalo.
El importante hacer notar que los datos que presentan verdadero interés
para la tarea estadı́stica son aquellos cuantitativos, que al poseer valores
numéricos permitirán llevar a cabo incontables operaciones como se verá a
lo largo de la materia.
9
1.3 Cantidades absolutas y relativas
Los Datos Cuantitativos que se obtienen mediante la recopilación de los
datos para realizar un determinado trabajo, según el tipo de información que
se quiera proporcionar, se pueden expresar de dos maneras, a saber:
En forma absoluta, si solamente se quiere mostrar la cuantia de la

magnitud.
En forma relativa, si a la cuantia de la magnitud medida, se la quiere

relacionar con otro valor de la misma magnitud.
Esto da origen a los dos tipos de cantidades que se describen en los

próximos parágrafos.
1.3.1 Cantidad absolutas

Se llaman cantidades absolutas a aquellos Datos Cuantitativos
que, cuando son presentados y/o analizados, están expresados en
las unidades de medida correspondientes a la magnitud que se está
midiendo.
1.3.2 Cantidad relativas

Se llaman cantidades relativas a aquellos datos cuantitativos
que surgen del cociente entre dos Cantidades Absolutas
correspondientes a la misma magnitud y unidad de medida.
Las cantidades relativas no representan magnitudes, son números puros,

porque se obtienen a través de un cociente entre valores que representan la
misma magnitud. Cuando se trata de medir la importancia que tiene una
cantidad absoluta en el contexto en que fue obtenido, es necesario establecer
una relación entre esta cantidad y otra, que correspondiendo a la misma
magnitud, pueda ser utilizada como referencia. Dicha importancia se mide
con una cantidad relativa.
1.3.3 Proporciones
Se llama proporción estadı́stica a la cantidad relativa que se
obtiene haciendo el cociente entre una parte y su correspondiente
total.
10
Cabe notar que los números obtenidos como resultado de estos cocientes
se encontrarán siempre entre 0 y 1, ya que una parte no puede ser mayor al
total al que pertenece. Por otro lado, la proporción al ser multiplicada por
100 obtendremos un valor expresado en porcentaje.
11
2 Estadı́stica descriptiva
La Estadı́stica Descriptiva se utiliza para describir un conjunto de datos
referidos a un fenómeno.
En este capı́tulo se realizará una descripción de los datos a través de

ciertas medidas que resumen las principales caracterı́sticas del conjunto de
datos bajo estudio.
Si bien en este capı́tulo no se tratará la inferencia, el cálculo de las

medidas numéricas que describen un conjunto de datos será fundamental
cuando, en base a una muestra, deseemos inferir ciertas caracterı́sticas de
una población.
La descripción numérica de un conjunto de datos brinda gran

información relacionada con la distribución de sus valores. Existen medidas
que proporcionan una idea de como se concentran las variables en el
recorrido que pueden tomar, estas son las Medidas de Concentración
Otras, nos indican en torno a qué valor se encuentran distribuidos los

datos. Estas medidas se conocen con el nombre de Medidas de Posición.
Por otro lado, están las Medidas de Dispersión, las cuales brindan
información respecto a qué tan diseminados se encuentran los datos en
relación con su ubicación central.
2.1 Distribuciones de frecuencia

Al inicio de cualquier investigación, ya sea para establecer nuevos
métodos de trabajo, controlar gestiones, describir y verificar relaciones y
comportamientos de las distintas variables en la disciplina que sea, hay que
proceder a la recopilación de los datos.
Los resultados de las mediciones, los valores de las distintas variables,

como son recopilados a medida que los hechos ocurren o se presentan,
también quedan registrados desordenadamente, y de esta manera, se
dificulta el análisis estadı́stico.
Al conjunto de datos dispuestos tal como se presentan, se lo denomina

Datos no Agrupados.
12
En los casos de contar con una gran cantidad de datos o valores de cada
una de las variables, el primer paso a realizar es ordenarlos agrupándolos en
clases de equivalencia, para que puedan ser estudiados convenientemente
para obtener información que pueda resultar de interés acerca de las
caracterı́sticas en estudio.
Es por ello que se debe proceder a organizarlos y resumirlos por medio

de la construcción de una tabla que liste los distintos valores posibles de los
datos (ya sea de forma individual o por grupos), junto con las frecuencias
correspondientes.
Se llama Distribución de frecuencias a una lista valores de datos

(ya sea de manera individual o por grupos de intervalos), junto con
sus frecuencias (o conteos) correspondientes.
Ası́, encontraremos que existen dos tipos de frecuencias:
Se llama frecuencia absoluta a la cantidad de datos, o valores

observados de una variable, que pertenecen a una misma clase de
equivalencia.
Se llama frecuencia relativa al cociente entre la frecuencia

absoluta y la cantidad total de observaciones
Para poder agrupar los datos en principio se deberá definir las clases de
equivalencia en la cual se considerará cada uno de los datos obtenidos.
Poniéndolo en palabras simples, las filas que va a poseer la tabla de
distribución de frecuencias. Veremos que ésto va a estar supeditado
principalmente al tipo de variable con la que este trabajando y el recorrido
de la misma.
2.1.1 Distribución de frecuencias para variables cualitativas

Las variables cualitativas, también llamadas variables categóricas, como
ya se ha explicado en la definición, tienen la particularidad de que sus
valores son categorı́as no cuantitativas. Cuando se utiliza este tipo de
variables para hacer una clasificación, cada categorı́a representa una
clase de equivalencia.
Un ejemplo nos va a permitir observar como funciona:
13
Fueron encuestados 800 alumnos que terminaron el ciclo secundario y se
les consultó acerca de la Facultad donde se inscribirán para realizar su
carrera universitaria.
De acuerdo a dicha encuesta se 230 alumnos manifestaron que se inscribirán
en Ciencias Médicas; 193 alumnos se inscribirán en Ciencias Económicas;
105 se inscribirán en Ciencias Jurı́dicas; 87 en Ciencias Sociales; 50 en la
facultad de Psicologı́a y el resto de los alumnos encuestados se inscribirán
en otras Facultades.
A continuación vamos a organizar los resultados en una distribución de

frecuencia y hacer una presentación tabular.
La variable en estudio es: C: Facultad donde se inscribirán los alumnos

egresados del secundario.
Cada una de las facultades conforma una categorı́a diferente.
En la siguiente tabla se presentan las frecuencias absolutas, relativas y

porcentajes para cada una de las categorı́as de la variable cualitativa.
Facultad fi Frecuencia absoluta pi Frecuencia relativa ki %

C1 : F. Cs. Jurı́dicas 105 0,13 13%
C2 : F. Cs. Económicas 193 0,24 24%
C3 : F. Cs. Médicas 230 0,29 29%
C4 : F. Cs. Sociales 87 0,11 11%
C5 : F. Psicologı́a 50 0,06 6%
C6 : Otras Facultades 135 0,17 17%
TOTALES 800 1,00 100%
Se puede observar que para este tipo de datos no hay decisiones que tomar
respecto a como construir las clases de equivalencias. A cada facultad le
corresponde una clase propia (representada una por fila). Por otra parte, este
clasificación no nos permitirá realizar muchas mas operaciones con los datos
más que obtener las frecuencias relativas (realizando la sencilla operación
que se puede encontrar en la sección de cantidad relativas) y su consecuente
transformación en porcentaje.
14
discretas
Cuando hay que clasificar las unidades experimentales de acuerdo a una
Variables Cuantitativa Discreta, generalmente, cada valor individual de la
variable representa una clase de equivalencia. Excepcionalmente, se pueden
formar clases de equivalencia con dos o más valores consecutivos, pero estos
casos no serán analizados en este trabajo.
Este tipo de variables nos aporta una caracterı́stica que con las del tipo
cualitativas no tenı́amos: nos aporta un orden dado por la magnitud de
cada valor que puede tomar. Pongamos como ejemplo las notas de los
exámenes de un grupo de alumnos en una escala del 1 al 10. Veremos
fácilmente que quien obtuvo un 10, tuvo una nota mayor que quien tuvo 9 y
ası́ sucesivamente. Al momento de armar la tabla de distribución de
frecuencias este orden lógico e intuitivo nos permitirá también obtener mas
información de los datos con que se cuentan.
Esta nueva información será la que se obtenga de la acumulación de las

cantidades unidades experimentales hasta cada una de las clases de
equivalencia.
Aclaración: para variables discretas se llamó a cada clase Ci

donde C indica que se trata de una clase e i un número entero
que se le otorgó para individualizarlas. En el caso de variables
cuantitativas, como cada clase esta representada por un valor de
variable se emplea genéricamente la expresión xi para llamar a los
valores que corresponden a las clases. La letra x nos indica que
estamos hablando de un valor de variable. La i es un número
entero y en este caso implica un orden. Sabemos que el valor x1
precederá al valor x2 y ası́ sucesivamente. Esta información
resultará de utilidad para poder interpretar muchas de
definiciones y cuadros que se vayan presentando.
La Frecuencia absoluta , fi , correspondiente a un valor xi de

la variable estudiada, es la cantidad de observaciones del mismo
dentro del total de datos.
15
La frecuencia relativa, f ri , de cada valor xi , se obtiene
dividiendo la correspondiente frecuencia absoluta, fi , por el número
total de observaciones, n , e indica la proporción de observaciones
correspondientes a dicho valor.
En el siguiente ejemplo, ilustramos los conceptos definidos

precedentemente.
Ejemplo
Consideremos las notas de los exámenes finales de la materia Estadı́stica

de un curso hipotético.
Datos de notas
1 4 5 6 8
2 4 5 6 8
2 4 5 7 8
3 4 5 7 8
3 4 5 7 8
3 5 5 7 8
4 5 6 7 9
4 5 6 7 9
4 5 6 8 9
4 5 6 8 10
Los valores que puede tomar la variable son los números enteros del 1 al
10, con lo cual se trata de una variable cuantitativa discreta.
La frecuencia absoluta (o simplemente frecuencia) es la cantidad de

veces que se repite cada valor y la frecuencia relativa será la cantidad de
veces que se repite cada valor dividido por el número total de datos, que en
este caso es 50.
Con la información de los “Datos de Notas” podemos armar la

Distribución de Frecuencias
16
Valor xi Frecuencia ni Frecuencia relativa f ri
1 1 2,0%
2 2 4,0%
3 3 6,0%
4 9 18,0%
5 11 22,0%
6 6 12,0%
7 6 12.0%
8 8 16,0%
9 3 6,0%
10 1 2,0%
De acuerdo con las definiciones expuestas anteriormente, la suma de

todas las frecuencias absolutas es igual al número total de datos, mientras
que la suma de todas las frecuencias relativas es igual al 100% (o la
unidad).
En sı́mbolos:
PM PM
i=1 fi = n i=1 f ri = 1
Donde M indica la cantidad de valores distintos observados y n la

cantidad total de datos contando las repeticiones.
Ejemplo
Considerando el ejemplo anterior, vemos que M = 10 pues hay diez

notas distintas observadas, mientras que n = 50 es el total de alumnos
evaluados. Si sumamos las frecuencias absolutas obtenemos el número total
de alumnos calificados:
P10
i=1 fi = 1 + 2 + 3 + 9 + 11 + 6 + 6 + 8 + 3 + 1 = 50
A su vez, si sumamos las frecuencias relativas, obtenemos el 100%:

P10
i=1 f ri = 0, 02 + 0, 04 + 0, 06 + 0, 18 + 0, 22 + 0, 12 + 0, 12 + 0, 16 + 0, 06 + 0, 02 = 1
Continuando con el análisis de la distribución de frecuencias de un

conjunto de datos, además de la frecuencia correspondiente a cada valor, es
útil la información relacionada con la frecuencia de valores menores o
17
iguales a una determinada observación, es decir, la frecuencia acumulada
para un valor dado.
La Frecuencia Acumulada correspondiente al valor xi es la

suma de las frecuencias de todos los valores menores o iguales a xi :
Pi
Fi = k=1 fk
La Frecuencia Relativa Acumulada correspondiente al valor xi

es la suma de las frecuencias relativas de todos los valores menores
o igual a xi :
Pi
Fr i = k=1 f ri
Alternativamente, esta última se puede calcular como la frecuencia

absoluta acumulada, Fi , dividida entre el total de observaciones n.
Fi
Fr i = n
Ilustremos las definiciones con los datos de las notas de los exámenes
finales del Ejemplo de más arriba.
Ejemplo
En base a las frecuencias calculadas para cada una de las notas,

podemos obtener las frecuencias acumuladas simplemente sumando todas
las frecuencias anteriores. Veamos algunos ejemplos de los valores con los
cuales se construye la tabla de frecuencias acumuladas.
La frecuencia acumulada absoluta de 2, es la suma de las frecuencias de

1 y 2. La frecuencia relativa acumulada se obtienen dividiendo el valor
calculado entre el número total de alumnos evaluados, es decir, 50.
F 2 = f1 + f2 = 1 + 2 = 3
F2 3
Fr 2 = 50
= 50
= 0, 06
La frecuencia acumulada de 4 es la suma de las frecuencias de 1, 2, 3 y

4. La frecuencia relativa acumulada se obtiene dividiendo el valor calculado
18
entre 50.
F4 = f1 + f2 + f3 + f4 = 1 + 2 + 3 + 9 = 15
F4 15
Fr 4 = 50
= 50
= 0, 30
La Tabla de Frecuencia Simples y Acumuladas es:
Frecuencia Frecuencia Frec. Relativa Frec. Relativa

Valor x(i)
n(i) acumulada f(i) Acumulada
1 1 1 2,0% 2,0%
2 2 3 4,0% 6,0%
3 3 6 6,0% 12,0%
4 9 15 18,0% 30,0%
5 11 26 22,0% 52,0%
6 6 32 12,0% 64,0%
7 6 38 12,0% 76,0%
8 8 46 16,0% 92,0%
9 3 49 6,0% 98,0%
10 1 50 2,0% 100,0%
El cuadro anterior nos permite ver directamente la cantidad de alumnos

que resultaron desaprobados en el examen, la cual está representada por la
frecuencia acumulada del valor x = 3. Es decir que 6 alumnos resultaron
insuficientes en el examen. A su vez, observando en la columna
correspondiente a la frecuencia relativa acumulada, podemos ver qué
porcentaje obtuvo una nota inferior o igual a 3: 12%.
Como es lógico, siempre el mayor valor observado, xM , tiene una

frecuencia absoluta acumulada igual al número total de datos y una
frecuencia relativa acumulada igual a la unidad.
F (xM ) = n
Fr i(xM ) = 1
Además, podemos observar que la frecuencia acumulada de un valor

puede obtenerse sumando la frecuencia acumulada hasta el valor anterior y
la frecuencia correspondiente al valor en cuestión:
19
Fi = Fi−1 + fi
Además, directamente de la fórmula anterior, vemos que la frecuencia de

un valor determinado se puede obtener mediante la resta de la frecuencia
acumulada hasta el mismo y la frecuencia acumulada hasta el anterior:
fi = Fi − Fi−1
Ejemplo
Consideremos el ejemplo anterior para ilustrar las fórmulas. La

frecuencia del valor 5 puede obtenerse mediante la resta de la frecuencia
acumulada correspondiente a dicho valor y aquélla correspondiente al valor
4:
f5 = F5 − F4 = 26 − 15 = 11
La frecuencia acumulada de 9 puede obtenerse sumando la frecuencia

acumulada hasta 8 y la frecuencia correspondiente a 9:
F9 = F8 − f9 = 46 − 3 = 49

continuas
Si deseamos analizar la estatura de los alumnos del curso de Estadı́stica,
en primer lugar mediremos a cada uno de los alumnos. Luego, cuando
calculemos las frecuencias absolutas de cada valor, veremos que la mayorı́a
de las observaciones son únicas y su cálculo no nos brinda ninguna idea
respecto de la distribución de las estaturas. En este caso, resulta
conveniente agrupar los datos en intervalos, y asignar una frecuencia
(absoluta y relativa, simple o acumulada) a cada intervalo en lugar de a
cada valor observado.
20
Los intervalos en los cuales se agrupan los datos se denominan
intervalos de clase.
Cada intervalo tiene un lı́mite superior y un lı́mite inferior,

asignándose al mismo todas las observaciones mayores o iguales al
lı́mite inferior e inferiores al lı́mite superior.
Se denomina marca de clase al punto medio de cada intervalo

de clase, es decir, al promedio simple entre el lı́mite superior y el
lı́mite inferior.
Cada uno de los intervalos tendrá su frecuencia de clase,

absoluta y relativa.
Finalmente, se denomina amplitud de un intervalo de clase a la

diferencia entre el lı́mite superior y el lı́mite inferior. Es decir:
amplitud = wi = Lsup − Linf
Ejemplo
Considere los siguientes datos de las estaturas, en metros, de los

alumnos.
Datos de estatura
1,594 1,640 1,680 1,729 1,760
1,594 1,642 1,687 1,731 1,763
1,612 1,652 1,687 1,737 1,781
1,614 1,652 1,691 1,738 1,787
1,622 1,653 1,702 1,738 1,796
1,624 1,658 1,704 1,738 1,797
1,633 1,660 1,704 1,740 1,801
1,635 1,675 1,705 1,752 1,817
1,640 1,679 1,715 1,753 1,818
1,640 1,680 1,717 1,753 1,859
Si consideramos intervalos de 5 cm. de amplitud cada uno, podemos

construir el siguiente cuadro de datos agrupados
21
Clase Frecuencia Frecuencia Frec. Relativa Frec. Relativa
Marca
LI LS n(j) Acumulada f(i) Acumulada
1,55 1,60 1,575 2 2 4,0% 4,0%
1,60 1,65 1,625 10 12 20,0% 24,0%
1,65 1,70 1,675 12 24 24,0% 48,0%
1,70 1,75 1,725 13 37 26,0% 74,0%
1,75 1,80 1,775 9 46 18,0% 92,0%
1,80 1,85 1,825 3 49 6,0% 98%
1,85 1,90 1,875 1 50 2,0% 100,0%
En ocasiones, de acuerdo a la variable que se estudie, hay intervalos que

poseen una gran cantidad de observaciones, mientras que otros quedarı́an
vacı́os distorsionando la distribución de frecuencias, en esos casos es
conveniente utilizar intervalos de amplitudes diferenciales.
2.2 Medidas de concentración

Se llaman medidas de concentración a aquellas medidas con
las cuales se puede establecer el porcentaje de datos que está
concentrado dentro de un determinado intervalo; o un intervalo
que contenga una determinada concentración porcentual de datos.
Hay dos tipos de medidas de concentración . Con la primera se mide

la concentración, en porcentaje, a partir de un valor conocido de la variable.
Con la segunda, a partir de un porcentaje conocido de concentración, se
determina el valor de la variable hasta donde se acumula ese porcentaje.
El cálculo de las medidas de concentración tiene sentido cuando los

datos están agrupados en una distribución de frecuencias.
2.2.1 Percentiles
Cuando tenemos un conjunto de observaciones ordenadas de una
variable cuantitativa, podemos calcular fácilmente el porcentaje de
observaciones que se encuentran por debajo de un valor determinado,
simplemente observando la frecuencia relativa acumulada hasta el mismo.
En base a esta idea, se definen los percentiles, deciles y cuartiles de la
distribución de frecuencias.
22
Los percentiles dividen la distribución de frecuencias en cien
n
partes iguales. El primero, P1 , acumula 100 (1%), el segundo,
P2 , 100 (2%), y ası́ hasta el último, P99 , que acumula 99×n
2×n
100
(99%).
Ejemplo
Los datos de estatura ordenados se observan en la tabla, ordenados de
menor a mayor.
Datos de estatura
1,594 1,640 1,680 1,729 1,760
1,594 1,642 1,687 1,731 1,763
1,612 1,652 1,687 1,737 1,781
1,614 1,652 1,691 1,738 1,787
1,622 1,653 1,702 1,738 1,796
1,624 1,658 1,704 1,738 1,797
1,633 1,660 1,704 1,740 1,801
1,635 1,675 1,705 1,752 1,817
1,640 1,679 1,715 1,753 1,818
1,640 1,680 1,717 1,753 1,859
10×n
Siendo n = 50, el percentil 10 es el valor que acumula 100
= 5
observaciones. Es decir, P10 = 1, 622.
El percentil 75 acumula 75×n

100
= 37, 5 observaciones. Para ello,
calculamos el promedio simple entre la observación 37 y 38, obteniendo
como resultado:
1,740+1,752
P75 = 2
= 1, 746
Cuando solamente disponemos de los datos agrupados, el

percentil estará dentro del primer intervalo que acumule una
frecuencia mayor o igual a n×k
100
. El cálculo de la misma es:
n×k
−Fj−1
Pk = Li + 100
fj
× wj
Donde Li es el lı́mite inferior del intervalo que contiene al percentil,

n es la cantidad total de observaciones, Fj−1 es la frecuencia
acumulada hasta el intervalo anterior, fj es la frecuencia del
intervalo, y wj es la amplitud del intervalo.
23
Ejemplo
Los datos agrupados de las estaturas de los alumnos, con sus respectivas
frecuencias simples y acumuladas, se observan en la tabla.
Clase Frecuencia Frecuencia

Marca
j LI LS n(j) acumulada
1 1,55 1,60 1,575 2 2
2 1,60 1,65 1,625 10 12
3 1,65 1,70 1,675 12 24
4 1,70 1,75 1,725 13 37
5 1,75 1,80 1,775 9 46
6 1,80 1,85 1,825 3 49
7 1,85 1,90 1,875 1 50
Calculo de la altura que supera al 60% de los alumnos, P60 ]:
n×k 50×60
El cuarto intervalo es el primero que acumula 100
= 100
= 30 o más.
El percentil 60 es:
n×k 50×60
−Fj−1 −24
Pk = L i + 100
fj
× wj = 1, 70 + 100
13
× 0, 05 = 1, 702
Los cuartiles, dividen la distribución de frecuencias en cuatro

partes iguales. El primer cuartil, tiene una frecuencia acumulada
de n4 , 25%, el segundo 2×n
4
, 50%, y el tercero, 3×n
4
, 75%.
Los deciles dividen la distribución en diez partes iguales, el primero

n
acumula 10 (10%) observaciones, el segundo 2×n 10
(20%), y ası́
sucesivamente, hasta que el noveno y último decil acumula 9×n 10
(90%).
De las definiciones anteriores, podemos ver que los cuartiles son los
percentiles 25, 50 y 75, mientas que los deciles son los percentiles 10, 20,. . . ,
90. De lo que se deduce que los últimos son un caso particular de los
primeros.
24
2.3 Medidas de posición o de tendencia central
Ya se ha insistido que para realizar un análisis estadı́stico es necesario
contar con datos obtenidos de la repetición de los experimentos bajo
condiciones similares. Por lo tanto, para una variable particular se cuenta
con varios valores observados. Éstos, generalmente, tienden a agruparse o
reunirse en torno algunos puntos importantes o centrales que permiten fijar
o ”medir” una posición en el plano o en el espacio.
Se llaman medidas de posición o de tendencia central de

una variable, a aquellos valores destacados con los cuales es posible
representar a la totalidad de los valores observados de la variable
Las medidas de posición o de tendencia central, no

necesariamente son valores de la variable, pero sı́ están expresadas en la
misma magnitud, por lo tanto, pueden ser localizadas en el mismo eje de
coordenadas donde esté representada la variable.
En las siguientes secciones vamos a enumerarlas y definirlas:
2.3.1 Media
La media (aritmética) generalmente es la más importante de todas las
medidas numéricas utilizadas para describir datos; constituye lo que la
mayorı́a de la gente denomina promedio.
Promedio o media aritmética de una variable X, es el número

que resulta de sumar todos los valores observados de la variable y
dividir esta suma por la cantidad de unidades experimentales que
se tienen.
Pn
xi
X̄ = i=1
n
La ni=1 xi es el total observado de la magnitud que representa la

P
variable. Por ejemplo, si la variable representa la cantidad de personas que

hay en cada aula, la suma es el total de las personas que hay considerando
todas las aulas; si la variable representa el peso de cada bolsa de naranjas y
está expresada en kilogramos, la suma es el total de los kilogramos que hay
considerando todas las bolsas; si la variable representa la superficie de cada
departamento y está expresada en metros cuadrados, la suma es el total de
25
metros cuadrados considerando todos los departamentos.
La media aritmética, entonces, es el cociente entre el total observado

de la magnitud en estudio y la cantidad de elementos con los cuales está
formado dicho total.
El valor numérico de la media aritmética debe interpretarse como

”cuanto le corresponderı́a a cada uno, si todos fuesen iguales”.
El método de cálculo de la media aritmética cambia ligeramente,

según se trate de:
- Valores de una variable sin agrupar
- Valores de una variable agrupados.
Ejemplo
Consideremos los datos referidos a las notas de los exámenes finales, las
cuales se reproducen en la tabla. Si sumamos todos los valores y, luego,
dividimos dicha suma por la cantidad total de observaciones, n = 50,
obtendremos el cálculo de la media aritmética sin utilizar las frecuencias:
Datos de notas
1 4 5 6 8
2 4 5 6 8
2 4 5 7 8
3 4 5 7 8
3 4 5 7 8
3 5 5 7 8
4 5 6 7 9
4 5 6 7 9
4 5 6 8 9
4 5 6 8 10
1 P50 1+2+2+3+3+3+...+9+9+9+10 284

X̄ = 50 i=1 xi = 50
= 50
= 5, 68
Sin embargo, utilizando las frecuencias la fórmula se reduce mucho (¡no

hacen falta puntos suspensivos!), ya que en lugar de sumar varias veces un
mismo número, simplemente los multiplicamos por la cantidad de veces que
se repite, es decir, por su frecuencia. Utilizando esta técnica, el cálculo
26
serı́a:
1
P10 1×1+2×2+3×3+4×9+5×11+6×6+7×6+8×8+9×3+10×1 284
X̄ = 50 i=1 xi ∗ fi = 50 = 50 = 5, 68
Veamos ahora un ejemplo con datos agrupados.
Ejemplo
Consideremos los datos de estatura y el cálculo de las frecuencias

realizado.
Si consideramos los datos sin agrupar de la primera tabla, al haber muy

pocas observaciones repetidas, la utilización de las frecuencias en el cálculo
no brinda ningún atajo. Por ello, simplemente sumamos todos los valores y
dividimos por la cantidad de observaciones.
Datos de estatura
1,594 1,640 1,680 1,729 1,760
1,594 1,642 1,687 1,731 1,763
1,612 1,652 1,687 1,737 1,781
1,614 1,652 1,691 1,738 1,787
1,622 1,653 1,702 1,738 1,796
1,624 1,658 1,704 1,738 1,797
1,633 1,660 1,704 1,740 1,801
1,635 1,675 1,705 1,752 1,817
1,640 1,679 1,715 1,753 1,818
1,640 1,680 1,717 1,753 1,859
1 P50 1,594+1,594+1,612...+1,817+1,818+1,859 85,179

X̄ = 50 i=1 xi = 50
= 50
= 1, 704
Consideremos ahora los datos agrupados. Tenemos 7 clases distintas, es

decir que M = 7. Si calculamos el producto de cada marca de clase por su
frecuencia, obtenemos los valores de la última columna de la siguiente
tabla. Luego, sumando dichos productos obtenemos el total ilustrado al
final de la última columna.
27
Clase Marca Frecuencia
y(j)*n(j)
LI LS y(j) n(j)
1,55 1,60 1,575 2 3,150
1,60 1,65 1,625 10 16,250
1,65 1,70 1,675 12 20,100
1,70 1,75 1,725 13 22,425
1,75 1,80 1,775 9 15,975
1,80 1,85 1,825 3 5,475
1,85 1,90 1,875 1 1,875
Suma = 85,250
P7
i=1 yi ∗ fi = 1, 575 × 2 + 1, 625 × 10...1, 875 × 1 = 3, 150 + 16, 250...1, 875 + 85, 250
Finalmente, la suma calculada es divida por la cantidad total de datos,

n = 50, para obtener la media aritmética aproximada:
1 P7 85,250
ȳ = 50 i+1 y i ∗ fi = 50
= 1, 705
En el ejemplo se puede observar que la media calculada con datos

agrupados no coincide exactamente con el promedio simple (calculado con
los datos sin agrupar). Esto se debe a que al agrupar los datos, algo de
información estamos perdiendo. Sin embargo, los cálculos son más sencillos
cuando se trabaja con los datos agrupados. De esta manera, hay un
intercambio entre sencillez y exactitud.
En la medida que la agrupación se realice de manera tal de reflejar la

distribución de los datos, los cálculos realizados con datos agrupados
estarán próximos a los valores verdaderos provenientes de todas las
observaciones.
2.3.2 Mediana
La media aritmética es la medida más ampliamente utilizada para
indicar el centro de una distribución. Sin embargo, el cálculo de la misma
es muy sensible a los valores extremos, entendiendo por éstos a aquéllos
muy pequeños o muy grandes.
Consideremos, por ejemplo, la observación de las siguientes estaturas

(en metros) de cuatro personas: 1.70, 1.72, 1.73 y 2.10. El promedio de
28
estas observaciones es 1.81, pero seguramente esperarı́amos un valor central
cercano a 1.72 ó 1.73. La distorsión se debe a la observación de la estatura
2.10, la cual es muy grande en comparación con las demás.
Para superar este inconveniente, la mediana es una medida que utiliza

los valores centrales de los datos ordenados para indicar el centro de la
distribución.
La mediana de un conjunto de datos, Xm e , es el valor central

cuando los datos están ordenados de manera creciente o decreciente.
Si la cantidad de datos es impar, simplemente ordenamos los datos

y nos fijamos cuál queda en el medio.
Si la cantidad de datos es par, no hay un único valor central, por

lo cual la mediana será el promedio simple entre los dos valores
centrales.
En la definición anterior vemos que la mediana es el valor de los datos

que deja a la misma cantidad de datos por encima y por debajo. Es decir,
que tiene una frecuencia acumulada de n2 y una frecuencia relativa
acumulada del 50%.
Ejemplo
Supongamos que contamos con 5 datos referidos a la estatura de los

jugadores de un equipo de básquet. La mediana será simplemente el valor
“del medio” cuando los datos estén ordenados. Si las estaturas observadas
(ordenadas) son:
1,869 1,908 1,912 1,978 2,072
Entonces, la mediana es la tercera observación, es decir que

Xme = 1, 912.
En caso de que la cantidad de observaciones sea par, deberemos calcular

el promedio entre los valores centrales. Si incluimos a los suplentes del
equipo, las observaciones son:
29
1,869 1,901 1,912 1,978 2,072
1,889 1,908 1,921 1,994 2,075
Luego, la mediana será el promedio entre los dos valores centrales, es

decir, entre la observación 5 y 6 en el conjunto de datos ordenados:
1,912+1,921
Xme = 2
= 1, 9165
De manera más formal, podemos volver a definir la mediana en términos

matemáticos.
Si contamos con n observaciones ordenadas, entonces, si n es

impar, la mediana es:
Xme = X n+1
2
O bien, cuando n es par:

1
Xme = 2
x n2 + x n2 +1
Ejemplo
Tomemos en cuenta el ejemplo anterior. En primer lugar, pueden

considerarse sólo los titulares del equipo siendo m + 5, y al ser impar
debemos calcular n+1 2
= 3. Luego, la mediana es igual a la tercera
observación:
Xme = x3 = 1, 912
Luego, cuando se consideraron los suplentes y los titulares, n = 10.

Siendo el total de observaciones par, hay dos valores centrales dados por las
posiciones n2 = 5 y n2 + 1 = 6 de los datos ordenados. De esta manera, la
mediana es el promedio entre la quinta y la sexta observación:
x5 +x6 1,912+1,921
Xme = 2
= 2
= 1, 9165
Consideremos un ejemplo con una mayor cantidad de datos, como los

“Datos de Estatura” utilizados en la sección anterior.
30
Ejemplo
Los datos ordenados se observan en la tabla. Luego, al ser n = 50 un

número par, la mediana será el promedio entre las ubicaciones n2 = 25 y
n
2
+ 1 = 26, las cuales están resaltadas en la tabla. Es decir:
x25 +x26 1,702+1,704

Xme = 2
= 2
= 1, 703
Datos de estatura
1,594 1,640 1,680 1,729 1,760
1,594 1,642 1,687 1,731 1,763
1,612 1,652 1,687 1,737 1,781
1,614 1,652 1,691 1,738 1,787
1,622 1,653 1,702 1,738 1,796
1,624 1,658 1,704 1,738 1,797
1,633 1,660 1,704 1,740 1,801
1,635 1,675 1,705 1,752 1,817
1,640 1,679 1,715 1,753 1,818
1,640 1,680 1,717 1,753 1,859
Cuando solamente disponemos de los datos agrupados, la mediana

estará dentro del primer intervalo que acumule una frecuencia
mayor o igual a n2 . El cálculo de la misma es:
n
−Fj−1
Xme = Li + 2
fj
× wj
Donde Li es el lı́mite inferior del intervalo que contiene la mediana,

n es la cantidad total de observaciones, Fj−1 es la frecuencia
acumulada hasta el intervalo anterior, fj es la frecuencia del
intervalo, y wj es la amplitud del intervalo.
2.3.3 Modo o moda

Tanto la media como la mediana se utilizan exclusivamente con datos
cuantitativos, ya que no nos basta con conocer la categorı́a en la cual se
encuentra una observación, sino que tenemos que conocer el valor de cada
observación para realizar el cálculo. La moda tiene la principal ventaja de
poder calcularse con datos cualitativos y en distribuciones que son
relativamente simétricas, indicará la posición central de las observaciones.
31
La moda o el modo de un conjunto de datos, Xmo , es el valor más
frecuente. Es decir, es aquel valor que tiene mayor frecuencia (tanto
absoluta como relativa). Puede presentarse el caso en que dos (o
más) valores tienen la máxima frecuencia. En este caso decimos
que la distribución es bimodal (o multimodal).
Ejemplo
Los datos de las notas de los alumnos, con sus respectivas frecuencias
simples, son los expuestos en la tabla.
Valor xi Frecuencia ni
1 1
2 2
3 3
4 9
5 11
6 6
7 6
8 8
9 3
10 1
La moda, es simplemente el valor más observado (el que tiene frecuencia

máxima), es decir que Xmo = 5.
Cuando contamos con datos agrupados, existe una clase modal,

la cual es la que posee mayor frecuencia. La moda se calcula de la
siguiente manera:
d1
Xmo = Li + d1 +d2
× wi
Donde Li es el lı́mite inferior de la clase modal, d1 es la diferencia

entre la frecuencia del intervalo modal y la frecuencia del intervalo
anterior y d2 la diferencia entre la frecuencia del intervalo modal y
la frecuencia del intervalo posterior.
32
Ejemplo
Los datos agrupados de estatura, con sus respectivas frecuencias

simples, se observan en la tabla. La clase modal (aquélla con mayor
frecuencia) es la cuarta. Por lo cual la moda es:
Clase
Marca Frecuencia
LI LS
1,55 1,60 1,575 2
1,60 1,65 1,625 10
1,65 1,70 1,675 12
1,70 1,75 1,725 13
1,75 1,80 1,775 9
1,80 1,85 1,825 3
1,85 1,90 1,875 1
d1 (13−12)
Xmo = Li4 + d1 +d2
× wi = 1, 70 + (13−12)+(13−9)
× 0, 05 = 1, 71
2.3.4 Media ponderada

En algunos casos los valores varı́an su grado de importancia, de modo
que es posible que queramos acomodarlos de acuerdo con ello. Después,
será posible proceder al cálculo de una media ponderada, que es una media
que se obtiene asignando distintos pesos a los valores, tal como se muestra
en la siguiente fórmula.
P
(w×x)
X̄ = P
w
Por ejemplo, supongamos que necesitamos una media de tres

calificaciones de una prueba (85, 90, 75), donde la primera prueba cuenta el
20%, la segunda el 30% y la tercera el 50% de la calificación final. Podemos
asignar pesos de 20, 30 y 50 a las calificaciones de la prueba y luego
calcular la media aplicando, como sigue:
(20×85)+(30×90)+(50×75) 8150
X̄ = 20+30+50
= 100
= 81, 5
Otro ejemplo son los promedios universitarios (que utilizan letras), que
pueden calcularse si asignamos a cada calificación con letras el número
adecuado de puntos (A = 4, B = 3, etcétera), y después asignamos a cada
33
puntaje un peso igual al número de horas crédito. Nuevamente, se utiliza la
fórmula anterior para calcular el promedio de calificaciones
2.3.5 La mejor medida de tendencia central

Hasta ahora hemos considerado la media, mediana y moda como
medidas de tendencia central. ¿Cuál de ellas es la mejor?
Desafortunadamente, no existe una respuesta única a esa pregunta, porque
no hay criterios objetivos para determinar la medida más representativa
para todos los conjuntos de datos. Las diferentes medidas de tendencia
central ofrecen diversas ventajas y desventajas, algunas de las cuales se
resumen en la siguiente tabla:
¿Toma en ¿Afectado
¿Qué tan
Medida Definición Existencia cuanta por valor Ventajas y desventajas
común es?
cada valor? extremos?
”Promedio” más Se usa mucho y funciona bien
Media Siempre existe Si Si
conocido con muchos métodos estadı́sticos
Valor en el Suele ser buena opción si hay
Mediana De uso común Siempre existe No No
medio valores extremos.
Valor mas Se usa en Podrı́a no existir o Apropiada para datos de
Moda No No
frecuente ocasiones haber mas de una nivel nominal.
2.4 Medidas de variabilidad

De acuerdo a lo estudiado en el sección anterior, las medidas de posición
o tendencia central se pueden considerar como ”representantes” de la
totalidad de los valores observados de una variable. Estas medidas serán
”buenas representantes” si los valores observados son homogéneos; esto
quiere decir que si no hay ”demasiada” diferencia o desviación entre cada
uno de ellos y alguna medida en particular, entonces la medida en cuestión
es representativa.
A los efectos de poner de manifiesto la magnitud de las desviaciones, en

su conjunto, es necesario contar con medidas adecuadas para ello.
Las medidas de variabilidad son aquellas que permiten estudiar,

cómo se desvı́an, en su conjunto, los valores observados de una
variable, con respecto a alguna Medida de Tendencia Central.
34
A la izquierda tenemos los tornillos fabricados por la empresa A, y a la
derecha los de la empresa B
En estos apuntes unicamente nos dedicaremos al estudio de la

variabilidad respecto a la MEDIA.
Se presenta un ejemplo visual de variación, el cual incluye muestras de

tornillos de dos compañı́as diferentes. Puesto que dichos tornillos se utilizan
para unir las alas al fuselaje, su calidad es muy importante. Si sólo
tomamos en consideración la media, no reconocerı́amos cualquier diferencia
entre dos muestras, ya que ambas tienen una media x̄ de 2,000 pulgadas.
Sin embargo, debe ser evidente que las muestras difieren mucho con
respecto a las variaciones de las longitudes de los tornillos. Los tornillos
fabricados por la fabrica A parecen tener longitudes muy similares, mientras
que las longitudes de los tornillos de la fabrica B varı́an mucho. En muchos
procesos de fabricación, este mismo aspecto tiene una gran importancia. Se
logra una mejor calidad a través de una variación menor. La idea es poder
desarrollar la habilidad para medir y comprender la variación.
2.4.1 Desviación o desvı́o

El primer concepto que veremos para poder avanzar es el siguiente:
35
Se llama desviación con respecto a la media aritmética, a
la diferencia entre un valor individual de la variable y su media
aritmética.
Por si solo el concepto no tiene gran utilidad, pero debemos tenerlo bien
presente por que es la base de todo que veamos sobre variabilidad.
2.4.2 Varianza
La varianza es una medida de variabilidad que es, en esencia,
el promedio al cuadrado de las distancias entre cada observación y
la media del conjunto de observaciones. Su fórmula es:
P
(xi −X̄)2
V (x) = n−1
La varianza es una medida razonablemente buena de la variabilidad

debido a que si muchas de las diferencias son grandes (o pequeñas) entonces
el valor de la varianza será grande (o pequeño). El valor de la varianza
puede sufrir un cambio muy desproporcionado, aún más que la media, por
la existencia de algunos valores extremos en el conjunto.
Quizás se pregunten por qué elevar al cuadrado las desviaciones en lugar

de promediarlas directamente. La respuesta es que, si se promedian
directamente las desviaciones respecto de la media, aquéllas positivas se
compensarán con las negativas y el resultado final será cero, no aportando
ninguna noción respecto de la dispersión de los datos.
Un pequeño inconveniente que presenta la varianza es que su valor está

expresado en unidades al cuadrado. Por ejemplo, si la variable que se mide
son metros, la varianza indicará metros cuadrados. Por ello, en lugar de
utilizar la varianza como medida de dispersión se suele utilizar el desvı́o
estándar.
2.4.3 Desvı́o estándar

La desviación estándar es, por lo general, la medida de variación más
importante y útil. Definimos ahora la desviación estándar (también
llamado desvı́o estándar):
36
El desvı́o estándar de una variable es la raı́z cuadrada positiva
de la varianza.Su fórmula es:
rP
(xi −X̄)2
S(x) = n−1
En definitiva, es una medida de variación de los valores con respecto a la

media. Es un tipo de desviación promedio de los valores, con respecto a la
media.
Destaquemos algunos puntos importantes sobre el desvı́o estándar:
El desvı́o estándar es una medida de variación de todos los valores con

respecto a la media.
El valor del desvı́o estándar suele ser positivo. Sólo es igual a cero
cuando todos los valores de los datos son el mismo número. Además,
valores grandes de S(x) indican mayores cantidades de variación.
El valor del desvı́o estándar se puede incrementar de manera drástica

con la inclusión de uno o más datos distantes (valores de datos que se
encuentran muy lejos de los demás).
Las unidades del desvı́o estándar (como minutos, metros, kilos,

etcétera) son las mismas de los datos originales
Pasos para calcular el desvı́o estándar
Paso 1: Calcule la media x̄.
Paso 2: Reste la media de cada valor individual para tener una lista de
desviaciones de la forma (x − x̄).
Paso 3: Eleve al cuadrado cada una de las diferencias obtenidas en el

paso 2. Esto produce números de la forma (x − x̄)2 .
Paso 4: Sume todos los cuadrados obtenidos en el paso 3. Éste es el

valor de (x − x̄)2
P
Paso 5: Divida el total del paso 4 entre el número (n − 1), es decir, 1

menos que el total de valores presentes.
Paso 6: Calcule la raı́z cuadrada del resultado del paso 5.
37
Aclaración: Dividir la varianza muestral por n-1 en lugar de n
se hace para tener en cuenta la incertidumbre en la estimación de
la varianza poblacional. Cuando se toma una muestra de una
población, es posible que los datos de la muestra no sean una
representación perfecta de la población completa. Al dividir la
varianza muestral por n-1, se le quita un grado de libertad a la
muestra, lo que significa que se asume que la muestra es menos
precisa en la estimación de la varianza poblacional. De esta
manera, la estimación resultante es más robusta y menos
influenciada por valores atı́picos o extremos en la muestra. Se
desprende de lo anterior que para el caso en que se desee calcular
la varianza de una población, se deberá dividir por n
Ejemplo
Consideremos por ejemplo la observación de la estatura dos grupos de

tres personas cada uno. Las observaciones del primer grupo son 1,70m.,
1,71m. y 1,72m., mientras que las del segundo son 1,55m., 1,71m. y 1,87m.
Los dos grupos tienen la misma media y mediana, la cual es de 1,71m.
Ahora calculemos la varianza para cada uno de ellos. En el primer caso,

será:
1
V (x) = 2
× [(1, 70 − 1, 71)2 + (1, 71 − 1, 71)2 + (1, 72 − 1, 71)2 ]
0,0002
= 2
= 0, 0001
Mientras que para el segundo caso:
1
V (x) = 2
× [(1, 55 − 1, 71)2 + (1, 71 − 1, 71)2 + (1, 87 − 1, 71)2 ]
0,0512
= 2
= 0, 0256
Como era de esperar, la varianza del segundo grupo es mayor que la del
primero. Debe notarse que los los valores resultantes tiene magnitud de
centı́metros al cuadrado, que si bien tiene sentido intrı́nseco (es decir,
representa una forma de medir áreas), no sirve para realizar comparaciones
en lo que se está midiendo. Una forma sencilla de ilustrar el problema es
pensar una varianza de temperaturas que estará expresada en grados
centı́grados al cuadrado. Si bien la varianza está correctamente expresada,
grados centı́grados al cuadrado no es algo que tenga un significado per se.
38
Nos queda el último paso para obtener el desvı́o estándar, obtener la raı́z
cuadrada de las varianzas calculadas. Confiamos en que el alumno pueda
realizar tan sencilla operación por su cuenta.
2.4.4 Coeficiente de variación

Para poder establecer si la variabilidad alrededor de la Media
Aritmética que presenta una variable es baja o no, es necesario que el valor
numérico del Desvı́o Estándar (la medida de variabilidad absoluta con la
que habitualmente se mide la dispersión) sea comparado o relacionado con
ella (la media aritmética).
El coeficiente de variación de una variable es el cociente entre

el desvı́o estándar y la media aritmética de dicha variable:
S(x)
CV (x) = x̄
El coeficiente de variación es un número puro, desprovisto de

magnitud. Es una medida de variabilidad relativa. Relaciona el desvı́o
estándar con la media aritmética. Su valor numérico permite establecer
criterios generales acerca de la homogeneidad de los datos, de la
representatividad de la media aritmética y la comparación con la
variabilidad de otras variables aunque las unidades de medida o las
magnitudes sean distintas.
Un criterio generalmente aaceptado es que si el CV(x) es menor a 0,10,

se puede considerar que la variable en estudio es homogénea, y
consecuentemente, la media aritmética es representativa.
Ejemplo
Utilizemos los siguientes datos muestrales dados de estatura y peso de

40 hombres:
Desvı́o
Media
estándar
Estatura 173,58 cm 7,67 cm
Peso 77,82 kg 11,87
39
Los dos coeficientes de variación se obtienen de la siguiente manera:
S(x) 7,67cm
Estaturas: CV (x) = x̄
= 173,58cm
= 0, 0442
S(x) 11,87kg
Pesos: CV (x) = x̄
= 77,82kg
= 0, 1526
Aun cuando la diferencia en unidades imposibilita la comparación de la

desviación estándar de 7,67cm, con la desviación estándar de 11,87kg, es
posible comparar los coeficientes de variación, que carecen de unidades.
Se observa que las estaturas (con CV = 4,42%) tienen una variación

considerablemente menor que los pesos (con CV = 15,26%). Lo anterior
tiene sentido, ya que, por lo general, vemos que los pesos de los hombres
varı́an mucho más que sus estaturas. Por ejemplo, es muy raro encontrar
un adulto que mida el doble que otro, pero es mucho más común ver a uno
que pese el doble que otro.
Aclaración: en esta sección de medidas de variabilidad se

trataron ejemplos de datos sin agrupar. Se debe considerar que
para datos agrupados existen formas de cálculo especiales que
permite aproximar los valores de estas medidas. Sin embargo, por
poder calcularse todas las medidas de forma automática con
cualquiera de las múltiples aplicaciones informáticas que existen,
sin necesidad de agrupar los datos, es que se omite en esta última
parte el trabajo con tablas de distribución de frecuencias
40
3 Probabilidad
En los capı́tulos anteriores se han estudiado los distintos métodos de
recopilación de datos y cómo se pueden utilizar para describir los hechos,
mediante el análisis del comportamiento de las variables observadas, y el
cálculo de las medidas que resumen la información que contienen.
Lo que se ha estudiado, entonces, es el tratamiento de acontecimientos

que ya ocurrieron. En este capı́tulo, y en los próximos, el estudio recaerá
sobre los posibles resultados de aquellas acciones o experimentos que se
llevarán a cabo en un proceso de investigación. O sea, el tratamiento de
eventos que ocurrirán.
El estudio de fenómenos observables hace necesario la formulación de

modelos que describan el comportamiento y/o el resultado futuro de los
experimentos correspondientes. En algunos casos estos resultados pueden
predecirse con exactitud, pero en otros, por cuestiones de casualidad, azar,
o cualquier otra circunstancia, los futuros resultados se ignoran totalmente,
o hay cierto grado de ignorancia acerca de cuáles pueden ser. En este
último caso es en que nos vamos a centrar. El objetivo del estudio de la
probabilidad es poder medir la incertidumbre respecto a la ocurrencia o
no de algún suceso, siendo la base sobre la que se construyen los métodos
importantes de la estadı́stica inferencial.
Esos fenómenos respecto de los cuales no podemos determinar su

resultado basándonos en las condiciones previas se denominan fenómenos
o experimentos aleatorios y son estudiados por la teorı́a de la
probabilidad y, mediante ciertos axiomas que veremos más adelante, se
define lo que llamaremos medida de probabilidad. A su vez, a partir de
dichos axiomas se desprenden una serie de propiedades de la probabilidad
muy útiles para su aplicación al análisis de fenómenos concretos.
Ası́, mediante ciertos estudios probabilı́sticos se podrán realizar

afirmaciones respecto de la probabilidad de que determinado artı́culo de
una lı́nea de producción sea defectuoso, la probabilidad de ganar cierto
juego de azar o la probabilidad de que al extraer un individuo al azar del
curso de estadı́stica, el mismo sea un hombre y, además, sea fumador.
En el presente capı́tulo se presentarán los conceptos básicos relacionados

con la Teorı́a de la Probabilidad, la cual constituye una piedra angular de
la Estadı́stica. Pero antes de entrar de lleno en el tema que nos compete,
41
expondremos un breve repaso de la Teorı́a de Conjuntos, la cual será una
herramienta fundamental para los desarrollos posteriores.
3.1 Teorı́a de conjuntos

La Teorı́a de Conjuntos, o al menos los conceptos básicos de ésta, es
desarrollada en los estudios de nivel medio. Sin embargo, aquı́ se realiza
una breve introducción a modo de repaso y con el fin de establecer la
notación a usar a lo largo del capı́tulo.
De acuerdo con lo visto anteriormente, lo que nos interesa estudiar es el

comportamiento de los fenómenos aleatorios. Dicho comportamiento puede
relacionarse con el resultado de un determinado experimento. Por ejemplo,
el experimento puede consistir en medir la hora en que pasa el ómnibus, u
observar el punto de caı́da de una piedra o bien anotar el resultado de un
partido de fútbol. Teniendo en mente esta relación, pasemos a desarrollar la
teorı́a desde esta óptica, considerando al comportamiento aleatorio de
ciertos fenómenos como resultados de un experimento determinado.
Definimos, a continuación, ciertos elementos comunes de cualquier

experimento:
Espacio muestral ( Ω ): conjunto de todos los posibles

resultados que se pueden dar al realizar un experimento.
Suceso Simple: cada uno de los posibles resultados,

considerados individualmente. Es decir, cada uno de los
elementos del espacio muestral.
Suceso compuesto: conjunto de eventos simples.
Aclaración: evento y suceso sirven de sinónimos en el estudio

de probabilidad y serán utilizados indistintamente en este apunte
En general, salvo aclaración en contrario, la letra griega omega ( Ω )

representará el espacio muestral, mientras que las letras mayúsculas del
alfabeto latino (A, B,...) denotarán sucesos, tanto simples como
compuestos. Unos ejemplos clarificarán las definiciones enunciadas.
42
Ejemplo
Considere el lanzamiento de un dado. El espacio muestral está dado por
Ω = {1, 2, 3, 4, 5, 6}, un evento simple es A = ”el resultado es 2” y un
evento compuesto es B = ” el resultado es un número par”. Los eventos
pueden escribirse también como A = {2} y B = {2, 4, 6}.
Ejemplo Si se considera un experimento dado por el lanzamiento de

una moneda, el espacio muestral está dado por Ω = {Cara, Ceca}, y y en
este caso sólo es posible considerar los eventos simples: A = {Cara} y
B = {Ceca}.
Ejemplo
Considere el lanzamiento de dos monedas, una por vez. El espacio muestral
está dado por:
Ω = {CaraCara, CaraCeca, CecaCara, CecaCeca}.
Un suceso simple es A = {CaraCeca}, o de manera extensiva A = ”el
primer lanzamiento es cara y el segundo ceca”. Un evento compuesto es
B = {CaraCara, CecaCeca}, o de manera extensiva B = ”los dos
lanzamientos arrojan el mismo resultado”.
A continuación, definimos algunas operaciones básicas relacionadas con

conjuntos:
Unión de dos conjuntos (A ∪ B): está dada por el conjunto de todos

los resultados que pertenecen al evento A o al evento B o a ambos.
Si se considera el lanzamiento de un dado y se definen los eventos
A = {1, 2, 3} y B = {2, 4, 6}, entonces (A ∪ B) = {1, 2, 3, 4, 6}
Intersección de dos conjuntos (A ∩ B): está dada por el conjunto

de los resultados que pertenecen tanto a A como a B , es decir a A y a
B simultáneamente.
Considerando el ejemplo anterior, (A ∩ B) = {2}
Complemento de un conjunto ( AC ): es el conjunto de todos los

elementos del espacio muestral que no pertenecen al evento A.
Continuando los ejemplos anteriores: AC = {4, 5, 6} y B C = {1, 3, 5}
Por otro lado, podemos realizar algunas definiciones que están

relacionadas con las caracterı́sticas de los conjuntos:
43
Cuando todos los elementos de un conjunto A pertenecen también a
otro conjunto B , se dice que A está incluido en B , y se denota A ⊂ B.
Un conjunto que no posee ningún elemento se denomina conjunto vacı́o

y se denota por Ø= {}.
Dos eventos A y B son mutuamente excluyentes si la ocurrencia de

uno implica la no ocurrencia del otro, es decir, la intersección de los
conjuntos que representan a dos eventos mutuamente excluyentes es el
conjunto vacı́o: A ∩ B = Ø.
Dos eventos A y B son colectivamente exhaustivos si la unión de los

conjuntos que los representan conforman el espacio muestral: A ∩ B =
Ω. Es decir, que con certeza ocurrirá al menos uno de ellos.
De acuerdo con las definiciones enunciadas hasta aquı́, se pueden extraer

las siguientes conclusiones:
A ⊂ Ω: Todo evento está incluido en el espacio muestral.
A∩AC = Øy A∪AC = Ω: Un evento y su complemento son mutuamente

excluyentes y colectivamente exhaustivos.
Ejemplo
Consideremos el lanzamiento de un dado. El espacio muestral, como ya
hemos visto, es Ω = {1, 2, 3, 4, 5, 6}. Además, definimos los eventos A = ”el
resultado es mayor a 3”, B = ”el resultado es impar”, y C = ”el resultado
es 1”. O bien, A = {4, 5, 6}, B = {1, 3, 5} y C = {1}.
De acuerdo con las definiciones arriba enunciadas, podemos obtener los

siguientes resultados: A ∩ C = Ø.(A y C son mutuamente excluyentes) y
C ⊂ B (C está incluido en B).
Ejemplo
Supongamos que, con los datos del ejemplo anterior, deseamos hallar las
operaciones compuestas AC ∩ B y (A ∩ C C ) ∪ B. Siempre es recomendable
operar paso a paso.
Para hallar AC ∩ B primero obtenemos AC = {1, 2, 3} luego, realizamos

la intersección de este último con B. Finalmente AC ∩ B = {1, 3}.
Para la segunda operación deseada, calculamos primero

C C = {2, 3, 4, 5, 6}, luego realizamos la intersección con A, dando por
44
resultado A ∩ C C = {4, 5, 6}, y finalmente, al realizar la unión con B , el
resultado es (A ∩ C C ) ∪ B = {1, 3, 4, 5, 6}.
3.1.1 Propiedad de las operaciones

Las operaciones entre conjuntos definidas en la sección anterior
presentan algunas propiedades que vale la pena tener presentes. A modo de
ejercicio, el lector puede comprobar las propiedades que siguen realizando,
en cada una de ellas, el diagrama de Venn del miembro izquierdo y del
miembro derecho por separado, y luego, compararlos para verificar la
igualdad.
Asociatividad de la unión: la unión de un conjunto A con la unión

de otros dos conjuntos B y C, es igual a la unión de la unión de los dos
primeros con el tercero. Es decir:
A ∪ (B ∪ C) = (A ∪ B) ∪ C
Asociatividad de la intersección: la intersección de un conjunto A

con la intersección de otros dos conjuntos B y C, es igual a la
intersección de la intersección los dos primeros con el tercero. Es
decir:
A ∩ (B ∩ C) = (A ∩ B) ∩ C
Distributividad de la intersección respecto de la unión: La

intersección de un evento A con la unión de otros dos eventos B y C,
es la unión de las intersecciones de A con cada uno de ellos. Es decir:
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Distributividad de la unión respecto de la intersección: La

unión de un evento A con la intersección de otros dos eventos B y C,
es la intersección de las uniones de A con cada uno de ellos. Es decir:
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Complemento de la unión: el complemento de la unión de los

conjuntos A y B es la intersección de los complementos de cada uno
de ellos. Es decir:
45
(A ∪ B)C = AC ∩ B C )
Complemento de la intersección: el complemento de la intersección

de los conjuntos A y B es la unión de los complementos de cada uno
de ellos. Es decir:
(A ∩ B)C = AC ∪ B C
3.2 Definición de probabilidad

En esta sección veremos que existen varias maneras de definir a la
probabilidad, las cuales surgirán de acuerdo con el tipo de fenómeno que
estemos analizando. A su vez, se observará que estas definiciones están
estrechamente ligadas a las nociones intuitivas que se pueden llegar a tener
respecto de la probabilidad.
3.2.1 Definición clásica

Si preguntamos a cualquier persona que nos diga cuál es la probabilidad
de obtener ceca al lanzar una moneda al aire, casi con seguridad nos
contestará “un 50%”. Asimismo, si consultamos cuál es la probabilidad de
obtener el número 6 al lanzar un dado, es muy posible que la respuesta sea
“un sexto”; mientras que si preguntamos cuál es la probabilidad de obtener
un número par, la respuesta será “un 50%”. Estas respuestas intuitivas
están ligadas a la definición clásica de probabilidad:
Sea Ω un espacio muestral finito que contiene N eventos simples, y

sea A un evento que puede darse de n maneras distintas; es decir,
que al realizar un experimento hay N resultados posibles de los
cuales n son favorables al evento A . La probabilidad de que ocurra
el evento A está dada por:
resultadosf avorables n
P (A) = resultadosposibles
= N
Si relacionamos la definición precedente con el repaso de la Teorı́a de

Conjuntos, podemos afirmar que la probabilidad de que se dé el evento A
está dada por el cociente entre la cantidad de elementos del conjunto
favorables al evento A y el número de elementos del conjunto Ω, siendo
estos últimos igualmente probables.
46
Cabe aclarar que el evento A puede ser simple o compuesto, y en este
segundo caso, puede resultar complicado determinar la cantidad de maneras
en que puede darse el evento. A su vez, hay ocasiones en que resulta
complicado determinar la cantidad de elementos que posee el espacio
muestral Ω. Para ambos casos, resultan útiles las reglas de conteo
(combinatoria, variaciones, etc.) que serán vistas en la sección 6 de este
capı́tulo.
Ejemplo
Un individuo está por jugar a un juego en el que se lanzan dos dados
equilibrados; gana $1 si el resultado de la suma de los números obtenidos en
ambos dados es siete.
La cantidad de resultados posibles cuando se lanzan dos dados es 36

(estos resultados son igualmente probables): si el resultado del primer dado
es 1, el segundo puede arrojar cualquiera de los números del 1 al 6, con lo
cual ya tenemos seis resultados posibles; si el primer dado es 2, el segundo
nuevamente podrá arrojar cualquier valor del 1 al 6, con lo cual ya
sumamos doce resultados; y ası́ sucesivamente hasta completar 62 = 36
resultados posibles.
Luego, deberı́amos determinar la cantidad de resultados favorables al

evento ”la suma de los dados es 7”: éste puede darse de seis maneras
distintas (1 y 6, 2 y 5, 3 y 4, 4 y 3, 5 y 2, 6 y 1). En la siguiente tabla, se
resumen todos los resultados posibles, y aparecen sombreados los resultados
favorables al evento:
Ası́, la probabilidad de que el apostador gane, está dada por el cociente

entre el número de resultados favorables al suceso y el número de resultados
47
posibles:
6 1
P (A) = 36
= 6
= 0, 1667
3.2.2 Definición frecuentista

La Definición Frecuentista de probabilidad surge debido a la existencia
de fenómenos aleatorios en los cuales no se puede determinar con precisión
la probabilidad clásica de cada evento simple, es decir, que no podemos
precisar cuántos resultados favorables a un evento existen y/o cuántos
resultados posibles hay.
Consideremos algunos ejemplos en los cuales no se puede determinar

con precisión los casos favorables y los casos posibles: un jefe de control de
calidad desea determinar la probabilidad de que un artı́culo sea defectuoso,
un fanático está interesado en la probabilidad de que su equipo de fútbol
gane o un profesor que quiere saber la probabilidad de que sus alumnos
aprueben.
Para estimar la probabilidad de cada uno de esos eventos, se recurre a la

segunda manera de definir a la probabilidad, utilizando la frecuencia
relativa de ocurrencia de los mismos.
Sea K el número de veces que se observa un fenómeno determinado,

y sea k el número de veces en que ocurre un resultado favorable
al evento A. La probabilidad de ocurrencia del evento A es
la frecuencia relativa observada cuando el número total de
observaciones crece indefinidamente:
k
P (A) = limK→∞ K
La gran mayorı́a de los fenómenos aleatorios con que nos enfrentaremos

en la práctica son de este tipo, por lo cual esta definición de probabilidad
será muy utilizada.
Ejemplo
Consideremos un control de calidad de una empresa, en el cual se desea
saber la probabilidad de que un determinado artefacto tenga una vida útil
superior a las 1200 hs. Para ello, el departamento de control de calidad
separa 500 unidades de la producción y mide la vida útil de cada unidad.
48
Los resultados se observan en la siguiente tabla:
Ası́, de acuerdo a la Definición Frecuentista (y considerando que 500 es

un número suficientemente grande), la probabilidad de que la vida útil sea
mayor o igual a 1200 hs. es:
115+84+41
P (A) = 500
= 0, 23 + 0, 17 + 0, 08 = 0, 38
Esta definición de probabilidad da lugar a las pruebas de hipótesis, que

serán tratadas en el más adelante. Consideremos el lanzamiento de un dado
y supongamos que queremos detectar si el mismo está cargado. Para ello,
podrı́amos lanzar el dado un gran número de veces y observar la frecuencia
relativa de ocurrencia de cada resultado; por ejemplo, si lanzamos el dado
600 veces, deberı́amos esperar que 100 veces se dé cada uno de los
resultados posibles. Sin embargo, difı́cilmente esto ocurra, y supongamos
que el resultado 2 se dio 140 veces.
Lo que se pretende al realizar un test de hipótesis, es probar si la

evidencia empı́rica es suficiente como para afirmar que el dado está
efectivamente cargado a favor del número 2, o si la observación de una
cantidad elevada de dicho resultado se debió simplemente al azar propio del
experimento. Continuaremos con este tema en el capı́tulo correspondiente.
3.2.3 Denifición subjetiva

La Definición Subjetiva de probabilidad está relacionada con el grado de
creencia que tiene quien lleva a cabo un experimento respecto de la
49
probabilidad de ocurrencia del mismo.
Ası́, por ejemplo, al lanzar un nuevo producto al mercado, un gerente de

ventas puede creer que el mismo tendrá un 70% de aceptación en el público,
es decir, que la probabilidad (subjetiva) de que un individuo acepte el
producto es de 0,7. Esta probabilidad suele llamarse también probabilidad
a priori, ya que refleja el grado de creencia antes de que se realice cualquier
prueba empı́rica. Las probabilidades a priori suelen modificarse luego
mediante algún tipo de experimento como, por ejemplo, una encuesta para
ver la aceptación que podrı́a tener el producto. Una vez que el experimento
se realiza, se modifican las probabilidades a priori para obtener las
probabilidades a posteriori, las cuales serán utilizadas para tomar
decisiones.
Este tipo de análisis de problemas es lo que se conoce como Análisis

Bayesiano, mediante el cual se modifican las probabilidades subjetivas (a
priori) utilizando el Teorema de Bayes, el cual será expuesto más adelante.
La tarea consiste en analizar la información suministrada por los resultados
de algún tipo de experimento (por ejemplo, como dijimos anteriormente,
una encuesta), para obtener probabilidades condicionadas a dicha
información. Este tipo de análisis está ı́ntimamente relacionado con la
dependencia estadı́stica de ciertos fenómenos, el cálculo de probabilidades
condicionales y el Teorema de Bayes, temas desarrollados más adelante en
el presente Capı́tulo. Cabe destacar que el Análisis Bayesiano tiene una
amplitud mucho mayor que la mencionada. Sin embargo en esta obra no se
tratarán con profundidad problemas de este tipo.
Antes de iniciar el estudio de probabilidades condicionales y de

fenómenos estadı́sticamente independientes, desarrollaremos los axiomas
principales que debe cumplir cualquier medida de probabilidad.
3.2.4 Axiomática
Todas las definiciones anteriores están ı́ntimamente ligadas a la parte
experimental de la Estadı́stica. Sin embargo, en los últimos años, la Teorı́a
de la Probabilidad ha evolucionado de manera sorprendente y las
definiciones se han hecho más rigurosas desde un punto de vista
matemático.
En este contexto, el ruso Andrei Kolmogorov (1933) definió la medida o
50
función de probabilidad mediante una serie de axiomas. Éstos, si bien son
válidos para cualquiera de las definiciones de probabilidad expuestas
anteriormente, amplı́an la definición incluyendo a cualquier medida que los
verifique.
Dado un espacio muestral Ω, llamamos medida de probabilidad a

una función p que va del espacio muestral al conjunto de los números
reales si satisface los siguientes axiomas:
Si A es un suceso cualquiera, entonces P (A) ≥ 0.
P (Ω) = 1
Si Ai (i = 1, 2...) son eventos mutuamente excluyentes:

P (A1 ∪ A2 ∪ ...) = P (A1 ) + P (A2 ) + ...
Es decir, que la probabilidad “P” asigna a cada elemento del espacio

muestral un número que verifica los axiomas expuestos.
A partir de estos tres axiomas, se desprenden las siguientes conclusiones:
Conocida la probabilidad de un evento A , se puede conocer la de su

complemento AC mediante la siguiente relación:
P (AC ) = 1 − P (A)
La función de probabilidad está incluida en el intervalo real [0, 1], es

decir:
0 ≤ P (A) ≤ 1
La probabilidad del evento vacı́o es nula, es decir:
P (Ø) = 0
51
Si A y B son dos eventos cualesquiera, entonces la probabilidad de su
unión es:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Esto se conoce como regla de la suma.
Si A , B y C son tres eventos cualesquiera, entonces la probabilidad

de su unión es:
P (A∪B∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B∩C)+P (A∩B∩C)
Si A está incluido en B , entonces la probabilidad de A es menor o

igual a la probabilidad de B:
A ⊆ B ⇒ P (A) ≤ P (B)
Si A está incluido en B , entonces la probabilidad de la intersección de

los dos conjuntos coincide con la probabilidad de A :
A ⊆ B ⇒ P (A ∩ B) = P (A)
3.2.5 Probabilidad marginal y conjunta

En la presente sección, expondremos conceptos relacionados con la
probabilidad de eventos que ocurren simultáneamente y la probabilidad de
eventos simples. Ambos conceptos ya han sido estudiados y ejemplificados
en apartados anteriores, pero no han sido definidos de manera precisa.
Probabilidad marginal
Se llama probabilidad marginal de un suceso A a la probabilidad

de que se presente un suceso aleatorio A incluido en el Espacio
Muestral Ω asociado a un Experimento Aleatorio E.
P(A) : probabilidad marginal del suceso A
52
La Probabilidad Marginal es simplemente la probabilidad de ocurrencia
de un evento A, sin pensar en la existencia de otro evento B que suceda de
modo simultáneo con A.
Probabilidad conjunta
Se llama probabilidad conjunta de dos sucesos A y B. a

la probabilidad de que se presenten en el mismo Experimento
Aleatorio dos sucesos aleatorios A y B incluidos en el Espacio
Muestra Ω, asociado a dicho Experimento E.
P (A.B) o P (A ∩ B) : probabilidad marginal del suceso A y B.
La probabilidad conjunta implica la presentación del suceso

intersección de dos o más sucesos aleatorios.
3.2.6 Probabilidad condicional e independencia

En la presente sección analizaremos la influencia que tiene sobre un
evento determinado la información que se posee sobre otro evento
relacionado con el mismo, si es que existe tal influencia.
Probabilidad condicional
Cuando se trabaja con fenómenos aleatorios, muchas veces podemos

contar con cierta información que modificarı́a nuestra estimación de la
probabilidad del mismo. En estos casos, se dice que la probabilidad del
evento en cuestión está condicionada a la ocurrencia de otro evento.
Se llama probabilidad condicional del suceso A tal que se haya

presentado el suceso B, a la probabilidad de que se presente el
suceso A con la condición de que previamente se presente el suceso
B.
P (A/B) : probabilidad condicional de A dado B.
La probabilidad condicional implica la probabilidad de que se

presente un suceso A tomando como espacio muestral al suceso B en vez del
espacio muestral original Ω. El espacio muestral formado por B es un
espacio muestral reducido, ya que se consideran como total de resultados
posibles sólo los que pertenecen a dicho suceso B.
53
La probabilidad condicional del suceso A tal que se haya
presentado el suceso B, es el cociente entre la probabilidad
conjunta entre los dos sucesos A y B y la probabilidad marginal
del suceso condicionante B.
P (A∩B)
P (A/B) = P (B)
, conP (B) ̸= Ø
Ejemplo
Consideremos el lanzamiento de dos dados. El resultado del primero de
ellos se denotará por d1 y el resultado del segundo por d2 . La probabilidad
de que la suma sea 3 está dada por:
2 1
P (d1 + d2 = 3) = 36
= 18
Sin embargo, si sabemos que el resultado del primer dado es 2, la única

manera de que la suma sea 3 es que el resultado del segundo sea 1, por lo
tanto, la probabilidad será:
1
P (d1 + d2 = 3 sabiendo que d2 = 2) = 6
En la siguiente Tabla se ilustra el razonamiento seguido en el ejemplo:
↓ Dado 1 = 2
Esta aproximación implica la utilización de la definición clásica de

probabilidad. Usemos ahora la definición de probabilidad condicional para
54
hacer el cálculo.
1
P (d1 +d2 =3∩d1 =2) 1
P (d1 + d2 = 3/d1 = 2) = P (d1 =2)
= 36
1 = 6
6
Puede observarse que el condicionamiento es equivalente a “recortar” el

espacio muestral: se eliminan del espacio muestral aquellos eventos que
resultan imposibles de acuerdo a la información con la que contamos.
Eventos estadı́sticamente independientes
Lógicamente, puede suceder que tengamos información sobre la

ocurrencia de un evento determinado B , y sin embargo la probabilidad
marginal de ocurrencia del evento A no se vea alterada. Esto quiere decir,
que la ocurrencia de B no tiene ninguna influencia sobre el evento A , es
decir, que los eventos son estadı́sticamente independientes.
Dos eventos A y B son estadı́sticamente independientes, si la

ocurrencia de uno no afecta la probabilidad de ocurrencia del otro,
es decir que:
P (A/B) = P (A)
De las definiciones de probabilidad condicional y eventos

independientes, se desprende la regla del producto de probabilidades de
eventos independientes.
Si A y B son dos eventos estadı́sticamente independientes, entonces

la probabilidad conjunta es igual el producto de las probabilidades
marginales:
P (A ∩ B) = P (A) × P (B)
Se destaca que la independencia es una relación simétrica entre eventos,

esto quiere decir que si A es independiente de B, entonces B es
independiente de A.
55
Ejemplo
Consideremos el lanzamiento de dos dados y los siguientes eventos: A1 =
”el resultado del primer dado es dos y A2 = “el resultado del segundo es
tres”. La probabilidad marginal de cada uno de ellos es:
1 1
P (A1 ) = P (d1 = 2) = 6
P (A2 ) = P (d2 = 3) = 6
La probabilidad conjunta es:
1
P (A1 ∩ A2 ) = 36
Como puede observarse, la probabilidad conjunta es el producto de las

probabilidades marginales.
A1 A2 A1 ∩ A2
Ejemplo
Consideremos el lanzamiento de dos dados y los siguientes eventos: B1 =
”el resultado del primer dado es dos” y B2 = ”la suma de los resultados de
los dos dados es cinco”. La probabilidad marginal de cada uno de ellos es:
1 4 1
P (B1 ) = P (d1 = 2) = 6
P (B2 ) = P (d1 + d2 = 5) = 36
= 9
La probabilidad conjunta es:
1
P (B1 ∩ B2 ) = 36
ya que existe una única manera de que simultáneamente, el resultado del

primer dado sea 2 y la suma sea 5 (el primero resultado debe ser 2 y el
segundo 3).
En este caso, los eventos son dependientes, ya que el producto de las

probabilidades marginales no iguala a la probabilidad conjunta.
56
B1 B2 B1 ∩ B2
3.3 Reglas de conteo

En muchos fenómenos se puede identificar claramente cuántos
resultados son posibles al realizar un experimento y cuántos son favorables
a cierto evento A , y con dichos valores calcular la probabilidad del evento
utilizando la definición clásica. Sin embargo, la tarea al realizar el conteo de
casos favorables y casos posibles puede resultar sumamente ardua.
Por ejemplo, consideremos la probabilidad de que al sacar tres cartas de

una baraja francesa, dos de ellas sean negras. Para ello, deberı́amos contar
cuántas combinaciones posibles hay al sacar tres cartas de una baraja
francesa, y luego contar cuántas de ellas son favorables al evento “dos son
negras”. Esta tarea serı́a muy engorrosa si no se utilizan las reglas de
conteo que se exponen en esta sección.
Al momento de trabajar con reglas de conteo, un factor importante a

considerar es la relevancia del orden en el cual suceden las observaciones.
De esta manera, dependiendo de si el orden altera o no el resultado del
experimento se estará trabajando con reglas distintas. Básicamente, las
reglas de conteo son las variaciones, permutaciones y combinaciones. Antes
de abordar el detalle de cada una de ellas, debe tenerse en cuenta las
diferencias principales entre las mismas: en las combinaciones el orden es
irrelevante y el resultado depende de los elementos que conformen la
observación; en las variaciones, por el contrario, dos observaciones
representan resultados distintos a pesar de tener los mismos elementos si el
orden en el cual los mismos se presentan varı́a. Finalmente, al trabajar con
permutaciones se evalúan las distintas alternativas para ordenar un grupo
57
de elementos.
3.3.1 Variaciones y permutaciones

Consideremos dos lanzamientos consecutivos de una moneda. Los
resultados posibles, considerando el orden en que ocurren, son cuatro:
Ω = {CaraCara, CaraCeca, CecaCara, CecaCeca}
Consideremos ahora tres lanzamientos consecutivos, entonces hay ocho

resultados posibles:
Ω = {CaraCaraCara, CaraCaraCeca, CaraCecaCara, CecaCaraCara,

CaraCecaCeca, CecaCaraCeca, CecaCecaCara, CecaCecaCeca}
Consideremos 5 lanzamientos, o 10 lanzamientos, o, más aún, 20

lanzamientos. La tarea de contar uno por uno todos los posibles resultados
serı́a muy complicada ¿no? Para contar la cantidad de resultados posibles
en estos casos se utilizan las variaciones.
Cuando un fenómeno puede ocurrir de n maneras distintas (hay n

resultados posibles), y el mismo se repite r veces, la cantidad total
de resultados distintos que se pueden obtener (considerando el
orden en que ocurre el resultado de cada ensayo) es una variación
de n elementos tomados de r en r :
V(n,r) = nr
Ejemplo
Si lanzamos una moneda al aire hay dos resultados posibles (n = 2), cara o
ceca. Si lanzamos 2 veces consecutivas una moneda (n = 2), los resultados
posibles son V(2;2) = 22 = 4
Si se lanzan 3 veces, entonces hay V(2;3) = 23 = 8 resultados posibles.
Si se realizan 20 lanzamientos, habrá V(2;20) = 22 0 = 1.048576 posibles

resultados (teniendo en cuenta el orden en que ocurren las caras y las cecas
obtenidas).
58
Ejemplo
En los ejemplos anteriores hemos visto que si lanzamos 2 veces un dado,
hay 36 resultados posibles si se tienen en cuenta el orden en que ocurren los
números (es decir, un 6 y un 1 no es lo mismo que un 1 y un 6). Esta
cantidad no es ni más ni menos que las variaciones de 6 tomados de 2 en 2:
V(6;2) = 62 = 36
Por otra parte, hay ocasiones en que se combinan distintos fenómenos.

Por ejemplo, lanzamos un dado y una moneda y queremos analizar cuántos
posibles resultados se obtienen. Estas circunstancias generan la segunda
regla de conteo.
Si hay r fenómenos donde el primero posee n1 resultados posibles,

el segundo n2 resultados posibles,. . . , y el r-ésimo nr resultados
posibles, entonces el número total de resultados distintos que se
pueden obtener al combinar los r fenómenos es:
n1 × n2 × ... × nr
Ejemplo
Si se lanza una moneda (n1 = 2) y un dado (n2 = 6), la cantidad de
resultados posibles es:
2 × 6 = 12
Este resultado es bastante intuitivo, considerando que puede ocurrir

“cara” con cada uno de los seis resultados del dado y “ceca” con cada uno
de los mismos.
Ejemplo
Si se lanza una moneda (n1 = 2), dos dados (n2 = n3 = 6) y se extrae
una carta de una baraja española (n4 = 40), la cantidad de resultados
posibles es:
2 × 6 × 6 × 40 = 2.880
Un caso particular de la segunda regla de conteo mencionada es lo que

se denomina Variación sin repetición. En ese caso, lo que se considera es
que el fenómeno sujeto a experimentación es siempre el mismo pero los
59
eventos, una vez que suceden, no vuelven a ocurrir. Es decir que, con cada
repetición del experimento, el número de eventos posibles disminuye en uno
respecto de los posibles casos del experimento anterior. Por lo tanto:
n1 = n; n2 = n − 1; n3 = n − 2;...nr = n − (r − 1)
Cuando un fenómeno puede ocurrir de n maneras distintas (hay

n resultados posibles), el mismo se repite r veces y, además, una
vez obtenido un resultado determinado el mismo no puede volver
a darse, la cantidad total de resultados distintos (considerando
el orden en que ocurre el resultado de cada ensayo) genera las
variaciones sin repetición de n elementos tomados de a r :
n!
V Rn,r = n × (n − 1) × (n − 2) × ... × (n − (r − 1)) = (n−r)!
Ejemplo
Si se toma un mazo de barajas españolas (40 cartas) y quiere saberse la
cantidad de maneras posibles que existe de tomar dos cartas diferentes
(considerando importante el orden en el cual sean seleccionamos las
mismas). Debe tenerse en cuenta que, una vez tomada una carta del mazo
original, la misma ya no formará parte de él. El cálculo intuitivo de la
cantidad de posibilidades en este caso no es sencillo. Sin embargo, podemos
realizar el cálculo deseado utilizando la fórmula de variaciones sin
repetición con n = 40 y r = 2 , obteniendo un total de ¡1560 combinaciones
posibles!:
40! 40!
V R40,2 = (40−2)!
= 38!
= 1560
Es muy importante tener en cuenta que en las reglas analizadas hasta

aquı́ es importante el orden en que ocurren los eventos. Es decir que, por
ejemplo, al lanzar dos veces una moneda, no es lo mismo CaCe que CeCa ,
o al lanzar dos dados, no es lo mismo un dos y un tres que un tres y un dos.
La segunda regla de conteo que analizaremos, y que también considera

el orden de los resultados es la permutación. Ésta considera las distintas
maneras de ordenar un grupo de elementos. Uno de los casos más sencillos
es el caso de la permutación simple. Lo que se refleja en este caso es la
cantidad de maneras en las que puede ordenarse un grupo de n elementos:
60
Si se poseen n elementos, la cantidad de maneras de ordenarlos es:
n! = n × (n − 1) × (n − 2) × ... × 2 × 1
Puede verse que esta alternativa de cálculo es equivalente al de una

variación sin repetición en donde el número de experimentos, r , es igual al
número de resultados posibles para el primero de ellos. Es decir:
n!
V Rn;n = (n−n)!=n!
Esta equivalencia es lógica dado que las distintas formas de ordenar el

grupo constituyen los distintos eventos para la variación.
Ejemplo
Puede considerarse, a modo de ejemplo, el caso en el cual cinco
deportistas deban realizar una prueba. El orden en el cual cada uno de ellos
la efectúe depende de un sorteo el cual consiste en retirar de una urna el
nombre de cada uno de ellos. La cantidad de maneras de ordenar a estos
deportistas es entonces 120 y está dado por: 5! = 5 × 4 × 3 × 2 × 1 = 120
Una alternativa a la permutación simple es la de considerar la cantidad

de muestras ordenadas distintas que pueden obtenerse de un grupo. Este
concepto es similar al de la variación sin repetición, y la fórmula de cálculo
es la misma:
Si se extraen r elementos de un conjunto de n , la cantidad

de muestras ordenadas distintas que pueden obtenerse es la
permutación de n tomados de a r :
n!
Pn;r = V R(n;r) = (n−r)!
Ejemplo
Continuando con el ejemplo anterior, podrı́a darse el caso en que el
primer dı́a realicen la prueba sólo tres de los cinco deportistas. ¿Cuántas
alternativas distintas de deportistas seleccionados y orden en el que se
realizarán las pruebas existen? Este cálculo equivale a determinar la
permutación de 5 elementos (los deportistas) tomados de a 3 (tres):
61
5!
P(5;3) = (5−3)!
= 60
En ocasiones se presentan casos en los cuales el orden pierde

importancia, por ejemplo si queremos saber solamente la suma de los
dados, o la cantidad de cecas que salen. En estos casos las reglas de conteo
cambian, de acuerdo a lo que se verá en el siguiente apartado.
3.3.2 Combinatorias
Según hemos hecho referencia en el párrafo anterior, hay casos en los
cuales no resulta relevante el orden en el cual se dan los resultados, sino
cuáles son esos resultados en sı́. Por ejemplo, en el caso en que lancemos un
dado dos veces de manera tal que avancemos en un juego tantos casilleros
como indica la suma de ellos, el orden de los resultados no resultará
relevante: si obtenemos un 5 y luego un 2 significará lo mismo que obtener
un 2 y luego un 5; en ambos casos avanzaremos 7 casilleros. Cuando
trabajamos con variaciones o permutaciones, el orden resulta relevante: por
ejemplo, en el caso en que en el juego en cuestión deban cumplirse las
”prendas” relativas al casillero al cual nos lleve el primer dado.
Cuando se trabaja con combinatorias lo que se busca calcular es la

cantidad de grupos distintos de r elementos que pueden formarse con los n
elementos que conforman un conjunto.
Si se extraen r elementos de un conjunto de n , la cantidad de

muestras distintas que pueden obtenerse (sin importar el orden) es
la combinatoria de n elementos tomados de a r :
n!
Cn;r = (n−r)!r!
La combinatoria de n tomados de a r suele escribirse como:

n n!
r
= (n−r)!r!
Ejemplo
Si se considera el ejemplo anterior, con la combinatoria puede calcularse
cuántos grupos de deportistas distintos realizarı́an la prueba el primer dı́a
de la competición. En esta situación no resulta relevante el orden en el que
62
participarán los tres deportistas seleccionados sino cuáles son los mismos.
La cantidad de grupos distintos que deberán realizar la prueba el primer dı́a
es la combinatoria de cinco elementos tomados de a 3:
5!
C(5;3) = (5−3)!3!
= 10
Es decir, que hay diez grupos distintos de tres deportistas que debieran
realizar la prueba el primer dı́a.
Ejemplo
Dado un grupo de cien lamparitas, quince de ellas resultan ser
defectuosas. ¿Cuál es la probabilidad de que, tomando dos lamparitas al
azar, las dos resulten ser defectuosas? Lo primero que debemos calcular, de
acuerdo a la definición clásica, es la cantidad de eventos posibles: es decir,
cuántos conjuntos de dos lamparitas pueden formarse. En este caso,
tomamos dos lamparitas ( r = 2) de entre cien (n = 100):
100!
Casosposibles = C(100;2) = 98!2!
= 4950
Los casos favorables son la cantidad de grupos de dos lamparitas que

pueden formarse sólo considerando aquellas defectuosas:
15!
Casosf avorables = C(15;2) = 13!2!
= 105
La probabilidad entonces de tomar dos lamparitas defectuosas es:
105
4950
= 0, 021
Puede también considerarse la combinación de distintos elementos

existiendo la posibilidad de reposición. Por ejemplo, para el caso de la suma
que se obtiene al lanzar dos veces un mismo dado, el hecho de que en el
primer lanzamiento haya salido un dos no invalida que el segundo resultado
sea también un dos.
63
Si se consideran r elementos de un conjunto de n , la cantidad de
muestras distintas que pueden obtenerse (sin importar el orden) en
caso de que la obtención de un resultado no invalide nuevamente
su ocurrencia es:
(n+r−1)!
CRn;r = (n−1)!r!
Ejemplo
Si se considera la cantidad de combinaciones posibles que surgen de dos
lanzamientos de un dado, independientemente del orden, los resultados que
serán distintos son los sombreados con gris en el cuadro siguiente, es decir,
21 combinaciones diferentes.
Prescindiendo de la representación gráfica, podrı́a haberse utilizado la

fórmula anterior con n = 6 (resultados posibles en un lanzamiento) y r = 2
(cantidad de lanzamientos):
(6+2−1)!
CR6;2 = (6−1)!2!
= 21
64
Evento A a partir de su intersección con una partición del espacio
muestral.
3.4 Teorema de la probabilidad total

Utilizando el esquema de probabilidades condicionales, si no se conoce
directamente la probabilidad de ocurrencia de un evento A, la misma puede
obtenerse utilizando la ley de la probabilidad total, la cual determina la
probabilidad de un evento por medio de las probabilidades conjuntas del
mismo con otros eventos mutuamente excluyentes y colectivamente
exhaustivos.
Sea A un evento de un espacio muestral Ω y sea Dj (j = 1, 2, ..., n)

una partición del espacio muestral (es decir, que los Dj son
mutuamente excluyentes y colectivamente exhaustivos), entonces
la probabilidad total del evento A está dada por:
Pn Pn
P (A) = j=1 P (A ∩ Dj ) = j=1 P (A/Dj ) × P (Dj )
Esta fórmula puede comprobarse simplemente inspeccionando la

siguiente figura, donde el espacio muestral se divide en ocho partes.
Ejemplo
Consideremos una bolsa con cubitos y bolitas de madera de dos colores (rojo
y verde). Se sabe que el 20% de las piezas rojas son bolitas, es
decir,P (b/r) = 0, 2 y el 40% de las verdes son bolitas, es decir,
65
P (b/v) = 0, 4 . Además, se conoce que el 70% de las piezas son rojas
(P (r) = 0, 7 ).
La probabilidad de extraer una bolita puede calcularse mediante el

empleo de la fórmula de cálculo de probabilidad total, teniendo en cuenta
que el porcentaje de piezas verdes será el complemento del porcentaje de
piezas rojas:P (v) = 0, 3 . Finalmente, la probabilidad deseada es:
P (b) = P (r ∩ b) + P (v ∩ b)
P (b) = P (r) × P (b/r) + P (v) × P (b/v)
P (b) = 0, 7 × 0, 2 + 0, 3 × 0, 4
P (b) = 0, 26
Ejemplo
Consideremos el ejemplo anterior. Si en total hay 250 piezas en la bolsa,
tendremos que 175 (70% de 250) son rojas y 75 (30% de 250) son verdes.
De las piezas rojas, 35 son bolitas (20% de 175); mientras que de las
verdes, 30 son bolitas (40% de 75). Esto nos da un total de 65 bolitas sobre
las 250 piezas, es decir que:
65
P (b) = 250
= 0, 26
En la siguiente Tabla, se resumen todas las cantidades de piezas y

colores de acuerdo con los datos del ejemplo:
3.5 Teorema de Bayes

Basado en las probabilidades condicionales y la ley de la probabilidad
total, el reverendo Thomas Bayes expuso el siguiente Teorema17:
66
Dado un evento A y n eventos mutuamente excluyentes y
colectivamente exhaustivos B1 , B2 , ...., Bn entonces la probabilidad
de cualquiera de los eventos Bj condicionado al evento A puede
calcularse como:
P (Bj /A) = PnP (A/B j )×P (Bj )

P (A/Bj )×P (Bi )
i=1
Ejemplo
En un centro médico especializado en problemas respiratorios, el 80% de los
fumadores que se fueron a atender resultó tener cáncer, mientras que de los
no fumadores atendidos sólo el 10% tenı́a cáncer. Se sabe, además, que el
60% de los pacientes no son fumadores. ¿Cuál es la probabilidad de que un
paciente con cáncer sea fumador?
Definimos los eventos:
B1 = ”el paciente es no fumador”, B2 = ”el paciente es fumador”, y A

= ”el paciente tiene cáncer”.
De acuerdo con la información que contamos, conocemos las siguientes

probabilidades:
P (B1 ) = 0, 60; P (B2 ) = 0, 40; P (A/B1 ) = 0, 10; P (A/B2 ) = 0, 80
Sobre la base de éstas, podemos hallar la probabilidad deseada, es decir

P (B2 /A) . Utilizando el Teorema de Bayes tenemos que:
P (A/B2 )×P (B2 )
P (B2 /A) = P (A/B1 )×P (B1 )+P (A/B2 )×P (B2 )
Reemplazando con los datos de la clı́nica:

0,80×0,40
P (B2 /A) = 0,10×0,60+0,80×0,40
= 0, 8421
3.6 Estadı́stica Descriptiva

n: Cantidad de unidades experimentales observadas o medidas.
67
h: Cantidad de categorı́as de la variable.
ci : Nombre de la i-ésima categorı́a de la variable.
fi : Frecuencia absoluta. Cantidad de unidades experimentales que

pertenecen a la i-ésima categorı́a.
pi : Frecuencia relativa. Proporción de unidades experimentales que

pertenecen a la i-ésima categorı́a.

P
denota la sumatoria de un conjunto de valores.
x es la variable que suele utilizarse para representar los valores de datos

individuales.
n representa el número de valores de una muestra.
N representa el número de valores de una población.

P
x
x̄ = n
es la media de un conjunto de valores muestrales.
P
x
µ= N
es la media de todos los valores de una población.
68

Estadistica (Imprimir)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica (Imprimir)

Cargado por

Copyright:

Formatos disponibles

Apuntes de Estadı́stica Aplicada

Martı́n Ruben Cerfoglio

Para comprender la naturaleza de la inferencia estadı́stica, es necesario

En estadı́stica, el objetivo de las técnicas de muestreo es asegurar que

En estadı́stica la inferencia es inductiva porque se proyecta de lo

1. La población de interés y el procedimiento cientı́fico que se empleó para

2. La muestra y el análisis matemático de su información.

3. Las inferencias estadı́sticas que resulten del análisis de la muestra.

4. La probabilidad de que las inferencias sean correctas.

El enfoque precedente para la inferencia estadı́stica descansa

Para comprender la esencia del muestreo aleatorio y de la inferencia

Este capı́tulo tratará brevemente las estadı́sticas descriptivas. A pesar

1.2 Definiciones básicas

1.2.1 Experimento y unidad experimental

Algunos autores establecen una diferencia entre el concepto de

Se determina cuando se fijan los objetivos del trabajo

Se llama escala de medición a una regla preestablecida o

Se llama datos estadı́stico al valor asignado a una de las

En otras palabras, un DATO ESTADÍSTICO es el valor que resulta de

1. Los DATOS ESTADÍSTICOS CUALITATIVOS son aquellos valores

2. LOS DATOS ESTADÍSTICOS CUANTITATIVOS son aquellos

Es importante destacar que contrariamente a lo que significa para los

Sirviendo como ejemplo, la edad de una persona constituye un solo dato

Pero, si cuando al experimento se lo realiza en las mismas condiciones,

Se lama estadı́stica a la disciplina cientı́fica que crea, desarrolla

Según la cantidad de unidades experimentales que lo integran, las

Se llama recorrido de una variable al conjunto de los posibles

De acuerdo al tipo de datos que origina la VARIABLE, éstas se clasifican

 Una variable es cualitativa, cuando los valores que puede asumir no

 Una variable es cuantitativa, cuando los valores que puede asumir si

– Una variable es cuantitativa discreta, cuando Los valores que

 En forma absoluta, si solamente se quiere mostrar la cuantia de la

 En forma relativa, si a la cuantia de la magnitud medida, se la quiere

Esto da origen a los dos tipos de cantidades que se describen en los

1.3.1 Cantidad absolutas

1.3.2 Cantidad relativas

Las cantidades relativas no representan magnitudes, son números puros,

En este capı́tulo se realizará una descripción de los datos a través de

Si bien en este capı́tulo no se tratará la inferencia, el cálculo de las

La descripción numérica de un conjunto de datos brinda gran

Otras, nos indican en torno a qué valor se encuentran distribuidos los

2.1 Distribuciones de frecuencia

Los resultados de las mediciones, los valores de las distintas variables,

Al conjunto de datos dispuestos tal como se presentan, se lo denomina

Es por ello que se debe proceder a organizarlos y resumirlos por medio

Se llama Distribución de frecuencias a una lista valores de datos

Ası́, encontraremos que existen dos tipos de frecuencias:

Se llama frecuencia absoluta a la cantidad de datos, o valores

Se llama frecuencia relativa al cociente entre la frecuencia

2.1.1 Distribución de frecuencias para variables cualitativas

Un ejemplo nos va a permitir observar como funciona:

A continuación vamos a organizar los resultados en una distribución de

La variable en estudio es: C: Facultad donde se inscribirán los alumnos

Cada una de las facultades conforma una categorı́a diferente.

En la siguiente tabla se presentan las frecuencias absolutas, relativas y

Facultad fi Frecuencia absoluta pi Frecuencia relativa ki %

Esta nueva información será la que se obtenga de la acumulación de las

Aclaración: para variables discretas se llamó a cada clase Ci

La Frecuencia absoluta , fi , correspondiente a un valor xi de

En el siguiente ejemplo, ilustramos los conceptos definidos

Consideremos las notas de los exámenes finales de la materia Estadı́stica

La frecuencia absoluta (o simplemente frecuencia) es la cantidad de

Con la información de los “Datos de Notas” podemos armar la

Una variable es cualitativa, cuando los valores que puede asumir no

Una variable es cuantitativa, cuando los valores que puede asumir si

En forma absoluta, si solamente se quiere mostrar la cuantia de la

En forma relativa, si a la cuantia de la magnitud medida, se la quiere