Apuntes para El Curso de Probabilidad y Estadística 1

Probabilidad y Estadística 1
Apuntes para el curso Probabilidad y Estadística 1
Tabla de Contenido
Introducción ....................................................................................................................................................................... 2
Capítulo 1 ........................................................................................................................................................................... 2
Variables y Representaciones ............................................................................................................................................ 2
Concepto de Estadística. ............................................................................................................................................... 2
La observación estadística............................................................................................................................................. 3
Variables y atributos...................................................................................................................................................... 5
Fuentes estadísticas....................................................................................................................................................... 6
Capítulo 2 ........................................................................................................................................................................... 7
Análisis Estadístico: Estadística Descriptiva ...................................................................................................................... 7
Medidas tendencia central ............................................................................................................................................ 8
Media ......................................................................................................................................................................... 8
Mediana ..................................................................................................................................................................... 9
Moda ........................................................................................................................................................................ 10
Medidas de Dispersión ................................................................................................................................................ 11
Varianza ................................................................................................................................................................... 11
Desviación estándar o Típica.................................................................................................................................... 11
Medidas de Distribución.............................................................................................................................................. 12
Asimetría .................................................................................................................................................................. 12
Curtosis .................................................................................................................................................................... 13
Escalas de Medida ....................................................................................................................................................... 15
Nominal.................................................................................................................................................................... 15
Ordinal ..................................................................................................................................................................... 15
Intervalo ................................................................................................................................................................... 15
Razón ....................................................................................................................................................................... 15
Análisis Descriptivo de acuerdo al nivel de Medida ................................................................................................... 16
Variables Categóricas .............................................................................................................................................. 16
Variables de Escala .................................................................................................................................................. 17
Gráficos del Procedimiento Frecuencias ..................................................................................................................... 17
Gráfico de Barras ..................................................................................................................................................... 17
Gráfico de Sectores .................................................................................................................................................. 18
Histograma .............................................................................................................................................................. 19
Fuentes bibliográficas ...................................................................................................................................................... 20
Profesor Juan Manuel Jiménez Rodríguez, MBA

jjimenez@funcionefectiva.com
1
Introducción
En este resumen se expondrán un conjunto de instrumentos de análisis estadístico cuya finalidad es ayudar
a manejar, de una forma cómoda y útil, la cada vez mayor cantidad de información de tipo cuantitativo y
cualitativo, a la cual estamos continuamente expuestos.
La verdadera aportación de la estadística al mundo moderno es la gran cantidad de instrumentos y técnicas

que permiten recolectar, analizar y sintetizar esa gran cantidad de información del entorno, en un intento
de buscar las posibles regularidades que en ella se esconde, detrás de la enorme variabilidad que se
presentan en los datos. El objetivo último del tratamiento estadístico de la información es reducir al
máximo la incertidumbre inherente a la variabilidad de la información, para que la toma de decisiones del
que utilice la estadística se lleve a cabo con el menor grado de incertidumbre posible.
Dado lo anterior, no debe tenerse la falsa idea de entender la estadística como una simple colección de
métodos o técnicas útiles para el tratamiento de la información o concluir que la estadística es lo que
hacen los estadísticos. También debe reconocerse que nuestras decisiones diarias se basan en un flujo
creciente de información, la que tenemos que sintetizar para evitar dispersarnos en datos inútiles que no
nos permitirán tomar decisiones oportunas y adecuadas a nuestras necesidades estratégicas; las que son
de tipo condicionado, pues se toman en función de algún tipo de información, tanto pasada como
presente.
Capítulo 1
Variables y Representaciones
Concepto de Estadística.
Es frecuente que la Estadística se identifique con una tabla o colección de datos ordenados y sistemáticos,
lo que en realidad son estadísticas. Esta forma de entender la Estadística tiene su origen en el significado
etimológico del término, dado que la palabra Estadística deriva del latín “status” y se remonta a los tiempos
en los que los estados-naciones recababan datos, especialmente sobre renta y población, a efectos de
recaudación impuestos y mantenimiento del ejercito. Al identificarse esos datos con el estado, terminaron
conociéndose como estadística.
Debe reconocerse que la estadística nace con la necesidad del ser humano de desarrollarse en sociedad,
pues se requiere de ella para lograr la armonía en cuanto al desarrollo social de las diferentes tribus y sus
interrelaciones. Desde este punto de vista, la estadística es tan antigua como el hombre social.
En cambio, la Estadística entendida como ciencia tiene un origen más reciente y el gran desarrollo que ha
tenido a lo largo del siglo XX. Como ciencia, la Estadística está formada por el conjunto de métodos y
técnicas que permiten la obtención, organización, síntesis, descripción e interpretación de datos, para la
toma de decisiones en ambientes de incertidumbre.
Este objetivo tiene su razón de ser en el hecho de que la Estadística misma, se preocupa del estudio de lo
que podemos denominar como fenómenos de masas; ya que los datos aislados no suponen la necesidad de
analizarlos, pues si la información es escasa no tiene sentido plantearse problemas de organización ni de
síntesis.

2
Si se estudian los gastos de transporte de las empresas distribuidoras de productos de consumo masivo y se
tiene información para solo dos empresas, entonces con esos dos datos no tiene sentido preparar todo un
análisis mediante una tablas o gráficos, pues la escasez de información no debiera ser nunca objeto de
análisis estadístico, dada que la descripción de la misma es irrelevante y a partir de ella poco se puede decir
en relación con los gastos en transporte de todas las empresas del ramo.
La metodología estadística adquiere relevancia cuando se analiza un elevado volumen de datos, pues por lo
general, tras esa “masa de datos” se esconden ciertas regularidades o leyes de comportamiento que nos
permitirán, una vez descritas, tomar decisiones en ambiente de incertidumbre, siempre que esta pueda
cuantificarse en términos de probabilidad, pues esas decisiones se basan en una serie de leyes que, a
diferencia de las leyes de la física, no son exactas sino que están sujetas a errores.
Entonces, podemos establecer que la Estadística es una disciplina científica que se interesa en los
fenómenos típicos o las regularidades que presentan un conjunto de datos y trata de determinar las
propiedades de esos conjuntos. Está ligada con el método científico en la toma, organización, recopilación,
presentación y análisis de datos, tanto para la deducción de conclusiones como para tomar decisiones
razonables de acuerdo a dichas conclusiones.
Además, podemos dividir la Estadística en dos ramas principales: la Estadística Descriptiva, que es la más
antigua de la Estadística y su objeto es el análisis de los datos para descubrir o describir las posibles
regularidades que presenten, la que a su vez se divide en descriptiva (área de la estadística que busca
describir y analizar un grupo dado, sin sacar inferencias o conclusiones de un grupo mayor) e inferencial
(área de la estadística que trata de las condiciones bajo las cuales las inferencias obtenidas sobre una
muestra representativa de una población, son válidas); y la Teoría de la Probabilidad, que nace después y se
usa para trasladar el conocimiento estadístico al manejo de las incertidumbres. La unión ambas ha dado
lugar a lo que se conoce como Estadística Matemática.
La observación estadística.
Se ha establecido que la Estadística se dedica al estudio de los fenómenos de masas, es decir, centra su
interés en la observación de grupos amplios de entes o elementos, los cuales pueden ser personas o cosas,
a los que se les llama Población.
Ahora bien, una vez que se tiene claro que el objeto de la Estadística es la observación y estudio de las
poblaciones, la siguiente cuestión que puede plantearse es como ha de realizarse esa observación. La
misma puede se exhaustiva o parcial. Las dos formas tienen ventajas e inconvenientes. En el caso de la
observación exhaustiva o total, y si se asume que no hay errores de medida entonces, lo que se consigue es
eliminar la incertidumbre.
En primera instancia, debe definirse que el dato estadístico es la información numérica o cuantitativa sobre
un tema, para un cierto período, organizada de tal forma que muestra los aspectos más significativos y de
mayor interés de dicho tema. En general es un conjunto de números referidos a una misma característica y
recogidos de tal modo que pueden ser comparados, analizados o interpretados.
Frente a esa ventaja fundamental, la observación exhaustiva tiene un grave inconveniente: el coste. Se
trata tanto de un coste económico, como social, ecológico, de espacio temporal, es decir, el coste desde
una perspectiva global. Imaginemos la siguiente situación: ante la posibilidad de lograr un puesto en la
Federación de estudiantes, un candidato quiere saber cual es la intención de voto del electorado
estudiantil. Para ello tiene dos opciones: preguntarle a todos los estudiantes o solo a un grupo de ellos. En

3
el primer caso estamos frente a una observación exhaustiva y ante esta situación, para el candidato que
lleva a delante la observación, no habrá incertidumbre alguna respecto al resultado final de las elecciones,
siempre y cuando no haya errores de medida, los cuales se podrían originar en la falta de sinceridad en la
respuesta de los electores, por las no respuestas, entre otras posibles causas. Normalmente no se realiza
este tipo de observación dado que el tamaño de la población es demasiado grande, lo que conlleva un
coste que hace poco aconsejable esa opción. Un ejemplo de una operación estadística de carácter
exhaustivo, dentro de la estadística oficial, son los censos de población.
La alternativa al enfoque anterior es la observación parcial, lo que implica que no se observa a toda la
población. Dentro de esta forma de proceder se pueden distinguir dos categorías distintas: la subpoblación
y la muestra. Con la primera lo que se hace es observar a un conjunto de entes o elementos de la
población, que guardan entre si una cierta característica y que los diferencia de los demás.
Así, retomando el ejemplo anterior, los electores que no han votado antes porque en las elecciones
anteriores no habían ingresado a la institución educativa constituyen una subpoblación. Al proceder de esta
forma se consigue realizar una operación estadística en menos tiempo y a menor coste pero, en cambio, la
incertidumbre acerca de la intención de voto del electorado es enorme, pues esa subpoblación no
representa en absoluto a toda la población. Su intención de voto no tiene por qué coincidir con la de los
demás electores.
No obstante, esta forma de observar la población puede resultar de gran interés en determinados casos.
Pensemos que nuestro interés se centra es cuantificar la ocupación hotelera en una zona turística. En esta
situación, en lugar de preguntar a todos los establecimientos que se dedican a esta actividad económica,
podría resultar suficiente con preguntarle solo a los hoteles a partir de una cierta categoría, por ejemplo a
los de tres y más estrellas pues, en este caso, esos elementos de la población son determinantes de la
población total y los demás tienen poca incidencia en el volumen de ocupación.
La segunda opción de la observación parcial consiste en tomar una muestra. En este caso se observará
también un subconjunto de elementos de la población, pero ahora los elementos de la muestra no guardan
ninguna característica especial que los diferencie de los demás; al contrario, con una muestra lo que se
pretende es representar a toda la población. Podríamos decir que la muestra es una población de tamaño
reducido.
Las ventajas de observar la población de forma parcial y, en especial, para el caso de seleccionar muestras
son, en algunos casos, evidentes. En primer lugar reduce el tiempo de observación, considerando que si el
tiempo que se dedica a observar los elementos de la población es excesivo, podría ocurrir que los
resultados llegaran más tarde de lo necesario. Siguiendo con el ejemplo de las elecciones, si el periodo de
observación es superior al tiempo hasta que tengan lugar las elecciones, entonces cuando se disponga de
resultados sobre intención de voto ya no son necesarios. En general, si lo que se pretende al observar la
población es analizar una característica que no cambia mucho con el transcurso del tiempo, entonces no
importará demasiado que el periodo de observación sea razonablemente largo. Por el contrario, si esa
característica está sometida a fuertes variaciones en periodos de tiempo cortos o si el plazo de
presentación de resultados es breve, en tales circunstancias la observación parcial, mediante una muestra,
es el procedimiento más indicado. En segundo lugar está el tema de los costes, que en la observación
parcial son más reducidos que en el caso de la exhaustiva.
Finalmente, la observación parcial presenta también la ventaja de que reduce las pruebas destructivas.
Imaginemos que nos encontramos frente a un estudio de control de la calidad de la producción de una
empresa que se dedica a la fabricación de vigas de hormigón para obras civiles. Esas vigas habrán de
someterse a presiones altas para conocer su resistencia a la ruptura. Pero si somete toda la producción a
4
este tipo de pruebas destructivas entonces no hay producción. Bastaría en este caso con seleccionar una
muestra y, aplicarle ese tipo de pruebas a los elementos de la misma, para tener una idea razonable de cual
es la resistencia a la ruptura de las vigas producidas por la empresa.
Pero no todo son ventajas en la observación parcial. El principal inconveniente se deriva de que la
observación no es exhaustiva y en estos casos las características de la población serán desconocidas, pues
aunque la muestra pretenda representar lo más fielmente posible a la población, con los datos de la
muestra solo podremos conocer las características de esos valores muestrales. Entre las características
observadas en la muestra y las de la población habrá siempre una diferencia que se conoce como error
muestral. Es precisamente este error muestral el que lleva a que las decisiones, en relación con las
características poblacionales, se tomen en situaciones de incertidumbre.
Veamos esto de una forma gráfica y sencilla. En la Figura se han representado una población con todos sus
elementos y una muestra de los mismos. Como puede apreciarse, la población toma valores que van del 1
al 9, mientras que en la muestra el valor 4 no está incluido. Así pues, según la muestra, los valores de la
población van del 1 al 3 y del 4 al 9, pero eso no es cierto, solo es aproximado. Se está cometiendo un error.
Población y muestra
Variables y atributos.
Se ha señalado que el objeto de estudio de la Estadística son las poblaciones, que están formadas por entes
o elementos y que el número total de ellos determina el tamaño de la población. Para estudiar una
población, lo primero que debe hacerse es observarla de alguna de las formas ya señaladas. Observar una
población es equivalente a observar sus elementos y esos elementos poseen una serie de características
que son las que realmente se observan. Por ejemplo, el conjunto de todas las empresas industriales
radicadas en Heredia constituye una población. Los elementos de esa población son las empresas. Pero una
empresa no se observa en abstracto, ya que lo que realmente tiene interés son sus características, como
por ejemplo el número de empleados, el volumen de ventas, los costes salariales, los gastos en publicidad,
los beneficios de las mismas, la naturaleza de los productos que fabrican, etc.
A todas estas características de los elementos de una población se les conoce de forma genérica como
caracteres y éstos según su naturaleza pueden ser de tipo cuantitativo o cualitativo. Para el ejemplo
anterior, serían caracteres cuantitativos “el número de empleados”, “el volumen de ventas”, “los costes
salariales”, “los gastos en publicidad”, “los beneficios de las mismas”, etc., mientras que sería cualitativo “la
naturaleza de los productos que fabrican”. Hay que señalar que, en general, cualquier carácter de tipo
cuantitativo se puede ofrecer en términos cualitativos. Así, si el número de empleados lo agrupamos en
intervalos se podría hablar de empresas pequeñas, medianas y grandes, siendo ahora el carácter “tamaño
de la empresa” de naturaleza cualitativa. Pero en estadística es más habitual hablar de variables que de
caracteres cuantitativos y de atributos en lugar de caracteres cualitativos.
Las variables son susceptibles de medirse en términos cuantitativos y a cada una de esas posibles

5
mediciones o realizaciones se les conoce como valores, datos u observaciones. A su vez, en función del
número posible de valores que tome una variable, a las mismas se las puede clasificar en discretas y
continuas. Serán discretas cuando el número de valores sea finito o infinito numerable, mientras que una
variable será continua cuando el número de sus valores sea infinito no numerable. En los casos en los que
las variables toman infinitos valores, la práctica habitual es agruparlos en intervalos, como se muestra en
las Tabla 1, para variable continua, y en la Tabla 2 para discreta.
Tabla 1
Salarios (miles de colones) de los Empleados
Rango Cantidad
0 - 100 3567
101 – 250 7490
251 – 500 6365
501 – 700 3251
701 - 900 2956
901 - 1200 1058
1201 o más 598
Fuente: xxx
Tabla 2
Empleados por empresa
Cantidad de Empresas
Empleados
Menos de 10 69
De 11 a 25 48
De 26 a 50 52
De 51 a 100 34
De 101 a 150 26
Mas de 150 14
Fuente: xxx
Los atributos no pueden medirse como ocurre con las variables. Lo único que puede hacerse con ellos es
describirlos mediante palabras y clasificarlos en categorías no numéricas que sean mutuamente
excluyentes. A cada una de estas categorías se le denomina modalidades. Un ejemplo es el que se recoge
en la Tabla 3.
Tabla 3
Alumnos matriculados en la UACA según facultad
en el cuatrimestre 5 del 2010
Facultad Alumnos
Arquitectura 255
Ciencias Sociales 450
Ingeniería 185
Ciencias Humanas 133
Ciencias de la Salud 786
Posgrado e Investigación 115
Total 1924
Fuente: xxx
Fuentes estadísticas.
Se ha indicado que el objetivo de la Estadística es el estudio de los fenómenos de masas y que ello requiere
el manejo de una información numérica amplia. La cuestión inmediata que surge es saber de dónde se

6
puede obtener esa información, sin la cual el análisis estadístico no se puede realizar. En definitiva, se trata
de conocer las fuentes que suministran información de carácter estadístico. Estas fuentes son susceptibles
de clasificarse según distintos criterios: Atendiendo al agente que elabore esa información, la misma puede
agruparse en endógena y exógena; la primera sería la que elabora el propio investigador
Si es endógena, la operación estadística conducente a recabar los datos necesarios para la realización del
análisis estadístico, se supone que es realizada por el propio investigador, quien se encargará de observar
los distintos caracteres, cuantitativos o cualitativos, relevantes de los elementos de una población. El
resultado será una base de datos, obtenida mediante una muestra, o cualquiera de los otros
procedimientos indicados con anterioridad, que permitirá el correspondiente análisis estadístico. Esta
situación se da cuando no existe fuente alternativa exógena capaz de facilitar esa información.
Si la fuente es exógena, la podemos definir como aquella cuyo objeto principal es la obtención de
información estadística pero que no actúa como usuaria. Las fuentes exógenas son múltiples y a su vez se
las puede clasificar en dos categorías distintas. Por un lado están las fuentes oficiales o públicas y, por otro,
las privadas. De todas ellas las que generan mayor volumen de información son las primeras, es decir, las
oficiales o públicas. Estas últimas se pueden clasificar, a su vez, según el ámbito espacial en que desarrollan
sus competencias en materia estadística. Así se tienen las fuentes de carácter internacional, las de ámbito
estatal, las de ámbito regional o autonómico y las de carácter local.
Capítulo 2
Análisis Estadístico: Estadística Descriptiva
Una de las principales funciones de la estadística consiste en la descripción de los datos; ya sea por
medio de medidas (estimadores), gráficos o tablas en las que se puedan apreciar claramente el
comportamiento y las tendencias de la información recopilada. Debemos recordar que la
estadística es un sistema o método empleado en la recolección, organización, análisis e
interpretación de los datos. Esta ciencia se divide en dos fases; la primera corresponde a la
Estadística descriptiva, cuya finalidad es agrupar y representar la información de forma ordenada,
de tal manera que nos permita identificar rápidamente aspectos característicos del
comportamiento de los datos. La segunda fase corresponde a la Estadística de Inferencia, la cual
busca dar explicación al comportamiento o hallar conclusiones de un amplio grupo de individuos,
objetos o sucesos a través del análisis de una pequeña fracción de sus componentes (Muestra).
En este capítulo nos concentraremos exclusivamente en la Estadística Descriptiva y los

procedimientos que la componen, como las medidas de tendencia central, medidas de
distribución y las medidas de dispersión. Antes de conocer cada una de estas medidas es necesario
resaltar la diferencia entre Población y Muestra. Se denomina Población al total de los elementos
que componen un conjunto, el cual es el objeto de interés de un estudio.
Las poblaciones pueden ser finitas o infinitas de acuerdo si se conoce el total de los elementos que
la componen o no. Generalmente es bastante difícil realizar un estudio con el total de la
población, ya sea por que es demasiado grande, requiere demasiado tiempo para su análisis, los
costos son muy elevados, se desconoce el total de elementos, etc. Por estas razones se suele
sustraer una pequeña fracción de la población para realizar los análisis; de tal manera que las

7
conclusiones que se extraigan sobre la fracción sean aplicables a la población. A esta fracción se le
denomina Muestra y cada uno de los procedimientos estadísticos presentan algunas variaciones
en sus ecuaciones de acuerdo si los datos representan muestras o poblaciones.
Medidas tendencia central
Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del cual se
tienden ha reunir los datos (“Punto central”). Estas medidas aplicadas a las características de las
unidades de una muestra se les denomina estimadores o estadígrafos; mientras que aplicadas a
poblaciones se les denomina parámetros o valores estadísticos de la población. Los principales
métodos utilizados para ubicar el punto central son la media, la mediana y la moda.
Media
Es la medida de posición central más utilizada, la más conocida y la más sencilla de calcular,
debido principalmente a que sus ecuaciones se prestan para el manejo algebraico, lo cual la hace
de gran utilidad. Su principal desventaja radica en su sensibilidad al cambio de uno de sus valores
o a los valores extremos demasiado grandes o pequeños. La media se define como la suma de
todos los valores observados, dividido por el número total de observaciones.
Ecuación 1
Cuando los valores representan una población la ecuación se define como:
Ecuación 2
Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa cada
uno de los valores de la población.
Ya que en la mayoría de los casos se trabajan con muestras de la población todas las ecuaciones
que se presenten a continuación serán representativas para las muestras. La media aritmética
para una muestra esta determinada como
Ecuación 3
Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi) representa cada
uno de los valores observados. Esta fórmula únicamente es aplicable si los datos se encuentran
desagrupados; en caso contrario debemos calcular la media mediante la multiplicación de los
diferentes valores por la frecuencia con que se encuentren dentro de la información; es decir,

8
Ecuación 4
Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número de
observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma de las
frecuencias de cada clase.
Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5 personas al
azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su interpretación se han generado
tres rangos de edad los cuales se han establecido de 21 a 30 años, de 31 a 40 años y de 41 a 50
años. Si nos fijamos en estos rangos notaremos que los puntos medios son 25, 35 y 45
respectivamente. Los resultados de la organización de estos datos se representan en la tabla:
Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a
Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si ha estos
mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 3), tomando como
referencia cada uno de los valores individuales, obtendríamos que la media es igual a
Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años
aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde parcialmente la
exactitud de los cálculos, principalmente al aumentar el número de datos.
Es importante resaltar que existe una gran variedad de medias como la Media geométrica, la
Media ponderada, la Media cuadrática, etc.
Mediana
Con esta medida podemos identificar el valor que se encuentra en el centro de los datos, es decir,
nos permite conocer el valor que se encuentra exactamente en la mitad del conjunto de datos
después que las observaciones se han ubicado en serie ordenada. Esta medida nos indica que la

9
mitad de los datos se encuentran por debajo de este valor y la otra mitad por encima del mismo.
Para determinar la posición de la mediana se utiliza la fórmula
Ecuación 5
Para comprender este concepto vamos a suponer que tenemos la serie ordenada de valores (2, 5,
8, 10 y 13), la posición de la mediana sería:
Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie, que
equivale al número (8). Si por el contrario contamos con un conjunto de datos que contiene un
número par de observaciones, es necesario promediar los dos valores medios de la serie. Si en el
ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada (2, 5, 8, 10, 13 y 15) y la
posición de la mediana sería,
Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio, es
necesario promediar los dos valores de la posiciones tercera y cuarta para producir una mediana
equivalente, que para el caso corresponden a (8 + 10)/2 =9. Lo que nos indicaría que la mitad de
los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra por encima de este
valor.
En conclusión la mediana nos indica el valor que separa los datos en dos fracciones iguales con el
cincuenta porciento de los datos cada una. Para las muestras que cuentan con un número impar
de observaciones o datos, la mediana dará como resultado una de las posiciones de la serie
ordenada; mientras que para las muestras con un número par de observaciones se debe
promediar los valores de las dos posiciones centrales.
Moda
La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir, si
tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2 quien seria
la moda de los datos. Es posible que en algunas ocasiones se presente dos valores con la mayor
frecuencia, lo cual se denomina Bimodal o en otros casos más de dos valores, lo que se conoce
como multimodal.
En conclusión las Medidas de tendencia central, nos permiten identificar los valores más
representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La Media nos
indica el promedio de los datos; es decir, nos informa el valor que obtendría cada uno de los
individuos si se distribuyeran los valores en partes iguales. La Mediana por el contrario nos
informa el valor que separa los datos en dos partes iguales, cada una de las cuales cuenta con el
10
cincuenta porciento de los datos. Por último la Moda nos indica el valor que más se repite dentro
de los datos.
Medidas de Dispersión
Así como las medidas de tendencia central nos permiten identificar el punto central de los datos,
las Medidas de dispersión nos permiten reconocer que tanto se dispersan los datos alrededor del
punto central; es decir, nos indican cuanto se desvían las observaciones alrededor de su promedio
aritmético (Media). Este tipo de medidas son parámetros informativos que nos permiten conocer
como los valores de los datos se reparten a través de eje X, mediante un valor numérico que
representa el promedio de dispersión de los datos. Las medidas de dispersión más importantes y
las más utilizadas son la Varianza y la Desviación estándar (o Típica).
Varianza
Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores
respecto a su punto central (Media ). Este promedio es calculado, elevando cada una de las
diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su promedio o
media; es decir, sumado todos los cuadrados de las diferencias de cada valor respecto a la media y
dividiendo este resultado por el número de observaciones que se tengan. Si la varianza es
calculada a una población (Total de componentes de un conjunto), la ecuación sería:
Ecuación 6
Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la
media poblacional y (N) es el número de observaciones ó tamaño de la población. En el caso que
estemos trabajando con una muestra la ecuación que se debe emplear es:
Ecuación 7
Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media
de la muestra y (n) es el número de observaciones ó tamaño de la muestra. Si nos fijamos en la
ecuación, notaremos que se le resta uno al tamaño de la muestra; esto se hace con el objetivo de
aplicar una pequeña medida de corrección a la varianza, intentando hacerla más representativa
para la población. Es necesario resaltar que la varianza nos da como resultado el promedio de la
desviación, pero este valor se encuentra elevado al cuadrado.
Desviación estándar o Típica

Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a
su punto central o media. La desviación estándar nos da como resultado un valor numérico que
representa el promedio de diferencia que hay entre los datos y la media. Para calcular la
desviación estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su ecuación sería:
11
Ecuación 8
Para comprender el concepto de las medidas de distribución vamos a suponer que el gerente de
una empresa de alimentos desea saber que tanto varían los pesos de los empaques (en gramos),
de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para
pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y 520) gramos
respectivamente.
Por lo que su media es:
La varianza sería:
Por lo tanto la desviación estándar sería:
Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una
tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le
permite al gerente determinar cuanto es el promedio de perdidas causado por el exceso de peso
en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de
empacado.
Medidas de Distribución
Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los
valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos
tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su
utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de
generar el gráfico. Sus principales medidas son la Asimetría y la Curtosis.
Asimetría
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del
punto central (Media aritmética). La asimetría presenta tres estados diferentes [Fig. 1], cada uno
de los cuales define de forma concisa como están distribuidos los datos respecto al eje de
asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por

12
encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen
aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como
asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la
media.
Figura 1
El Coeficiente de asimetría, se representa mediante la ecuación matemática,
Ecuación 9
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuación se
interpretan:
(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma
cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se
tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).
(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en
la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en
la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa
la aglomeración de los valores con respecto a la media.
Curtosis
Esta medida determina el grado de concentración que presentan los valores en la región central
de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran
concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja
concentración (Platicúrtica).

13
Figura 2
Para calcular el coeficiente de Curtosis se utiliza la ecuación:
Ecuacion 10
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la media de la
muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan:
(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil encontrar

un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5
aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un
coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma
importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se
requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se
encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética (Fig.3); es
decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media
dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos
valores.
Figura-3
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las principales
medidas de Estadística Descriptiva; es de gran importancia que los lectores profundicen en estos
temas ya que la principal dificultad del paquete SPSS radica en el desconocimiento de los
conceptos estadísticos.
14
Escalas de Medida
Para realizar un correcto análisis de los datos es fundamental conocer de antemano el tipo de
medida de la variable, ya que para cada una de ellas se utiliza diferentes estadísticos. La
clasificación más convencional de las escalas de medida las divide en cuatro grupos denominados
Nominal, Ordinal, Intervalo y Razón.
Nominal
Son variables numéricas cuyos valores representan una categoría o identifican un grupo de
pertenencia. Este tipo de variables sólo nos permite establecer relaciones de igualdad/desigualdad
entre los elementos de la variable. La asignación de los valores se realiza en forma aleatoria por lo
que NO cuenta con un orden lógico. Un ejemplo de este tipo de variables es el Género ya que
nosotros podemos asignarle un valor a los hombres y otro diferente a las mujeres y por más
machistas o feministas que seamos no podríamos establecer que uno es mayor que el otro.
Ordinal
Son variables numéricas cuyos valores representan una categoría o identifican un grupo de
pertenencia contando con un orden lógico. Este tipo de variables nos permite establecer
relaciones de igualdad/desigualdad y a su vez, podemos identificar si una categoría es mayor o
menor que otra. Un ejemplo de variable ordinal es el nivel de educación, ya que se puede
establecer que una persona con título de Postgrado tiene un nivel de educación superior al de una
persona con título de bachiller. En las variables ordinales no se puede determinar la distancia
entre sus categorías, ya que no es cuantificable o medible.
Intervalo
Son variables numéricas cuyos valores representan magnitudes y la distancia entre los números de
su escala es igual. Con este tipo de variables podemos realizar comparaciones de
igualdad/desigualdad, establecer un orden dentro de sus valores y medir la distancia existente
entre cada valor de la escala. Las variables de intervalo carecen de un cero absoluto, por lo que
operaciones como la multiplicación y la división no son realizables. Un ejemplo de este tipo de
variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es la
misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una
temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.
Razón
Las variables de razón poseen las mismas características de las variables de intervalo, con la
diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total
de medida, por lo que se puede realizar cualquier operación Aritmética (Suma, Resta,
Multiplicación y División) y Lógica (Comparación y ordenamiento). Este tipo de variables permiten
el nivel más alto de medición. Las variables altura, peso, distancia o el salario, son algunos
ejemplos de este tipo de escala de medida.
15
Análisis Descriptivo de acuerdo al nivel de Medida
No todos los procedimientos estadísticos son realmente útiles para la totalidad de los niveles de
medida. Cada uno de los tipos de medida posee ciertas características, las cuales debemos tener
en cuenta en el momento de realizar un análisis descriptivo. En la tabla [2], encontrarás algunos
de los procedimientos que resultan ventajosos en los análisis descriptivos de los diferentes niveles
de medida. Es necesario aclarar que esta tabla es sólo una muestra de las medidas que se pueden
emplear; en algunos textos de estadística aparecen tablas más amplias y detalladas de los
procedimientos.
Tabla 2
Si nos fijamos en la tabla 2, notaremos que los niveles Nominal y Ordinal cuentan con los mismos
procedimientos de análisis, por lo que se agrupan como variables categóricas. Es importante
resaltar que para los análisis descriptivos no hay una gran diferencia entre estos dos tipos de
variables, pero si existe diferencia en los análisis de Inferencia.
Variables Categóricas
Para las variables que representan categorías o grupos de pertenencia, los principales
procedimientos estadísticos, que se pueden utilizar en su análisis descriptivo son las frecuencias
(Recuento), el Porcentaje, la Moda, en algunos casos la mediana y los gráficos más favorables son
el de Sectores y el de Barras.
Para comprender mejor la razón de estos procedimientos vamos a realizar el análisis de la variable
Género, la cual cuenta con los valores (1, 1, 1, 1, 1, 1, 1, 1, 2, 2); en donde el valor uno (1)
representa al género Femenino y el valor Dos (2) al género Masculino. Las frecuencias y sus
respectivos porcentajes para esta variable serían los expuestos en la tabla [3]. Ahora si hallamos
las principales medidas de tendencia central, obtenemos los resultados expuestos en la tabla [4].
Tablas 3 y4

16
Si nos fijamos en los resultados notaremos que la Media toma el valor 1.2, el cual nos indica que
en promedio los encuestados cuenta con un género de (1.2). Este resultado no posee una
interpretación aplicable a la información de la variable, por lo que esta medida no es de utilidad
en el análisis descriptivo.
Si observamos la Mediana notaremos que toma el valor 1, que para el caso corresponde al género
Femenino, pero si en vez de 10 valores tuviéramos únicamente dos (1 y 2), la mediana sería de
(1.5), cuya interpretación no es aplicable a la información de la variable. La mediana se puede
utilizar cuando estamos trabajando con variables que contienen un elevado número de categorías
y su interpretación se debe manejar como un factor informativo para el investigador y no como
una medida representativa en el reporte.
Por último encontramos la Moda, la cual para el caso asume el valor 1 y nos indica que la categoría
con mayor frecuencia dentro de la variable es la correspondiente al género Femenino. Las
medidas de dispersión y distribución no son aplicables a este tipo de variables ya que sus
ecuaciones nos permiten determinar como se comportan los datos respecto a un punto central o
media. Si hallamos la desviación estándar para los datos del ejemplo, obtendríamos un valor de
0.42164, que nos indicaría que el promedio del género presenta una variación de ±0.42, cuyo
resultado no sería aplicable a la interpretación de la variable.
Variables de Escala
Este tipo de variables nos permite realizar análisis más profundos de los datos, aplicando una gran
variedad de medidas. Al contrario de las variables categóricas en este tipo de variables las
frecuencias no son de utilidad en los análisis descriptivos, debido a la gran cantidad de valores que
suele tomar. Supongamos que realizamos un sondeo de edad con una muestra de 500 personas, si
generamos una tabla de frecuencias obtendríamos fácilmente unos 60 o 70 rangos diferentes
haciéndola muy extensa y poco informativa.
Para las variables de escala son más informativas la medidas como la media, la mediana, la
desviación estándar, la asimetría y otras más, a las cuales se les suele denominar Medidas de
Resumen.
Gráficos del Procedimiento Frecuencias
Gráfico de Barras
Este tipo de gráfico nos permite identificar y comparar de forma visual el comportamiento de las
categorías de una variable. Por medio de las barras podemos conocer aspectos de forma sencilla
de una o varias variables, como lo pueden ser sus categorías, las frecuencias y las diferencias entre
ellas. La estructura básica de un gráfico de barras [Fig. 9], esta basado en un eje de categorías
generalmente el eje horizontal y un eje de frecuencias que en algunos casos puede ser remplazado
por el porcentaje. Además se suelen utilizar diferentes colores para cada una de las categorías
facilitando el reconocimiento por parte del usuario.

17
Figura 9
Los gráficos de barras también son útiles para comparar varias variables a la vez [Fig. 10]. Este tipo
de opciones implica una serie de técnicas como la anidación y la agrupación las cuales serán
expuestas en el capítulo siete.
Figura 10
Gráfico de Sectores
Los gráficos de sectores o de torta nos permiten observar la variable de forma global haciendo una
comparación inmediata del porcentaje o la frecuencia del total de las categorías de una variable.
Su utilidad radica en la facilidad para interpretar la información contenida en una variable
mediante la representación grafica de los resúmenes (Porcentajes o Frecuencias).
Figura 11
La estructura básica de los gráficos de sectores [Fig. 11], esta definida por un círculo en el cual se
representan cada una de las categorías por la porción o fracción correspondiente al porcentaje o
18
la frecuencia. En algunas ocasiones suelen separarse las fracciones, con el fin de hacer más clara la
información.
Histograma
Los histogramas nos permiten identificar diversos parámetros como la dispersión, la distribución y
la concentración de los datos en una variable de Escala. Este tipo de gráficos generan una
representación visual del comportamiento de los datos, permitiendo observar rasgos
característicos como la zona o rango de mayor concentración, la amplitud, los valores extremos,
etc.
La estructura básica de un histograma [Fig. 12], esta basada en rangos, los cuales suelen ser
representados por barras cuya altura es determinada por la cantidad de valores que se
encuentren dentro de los límites de cada rango (Frecuencia). Generalmente se utiliza el Eje
vertical para representar las frecuencias y el Eje horizontal para los rangos; adicionalmente se
puede sobreponer una Curva Normal con el fin de comparar si los datos tienden a distribuirse de
forma uniforme.
Figura 12
En resumen cuando se trabaja con variables categóricas (Nominal u Ordinal), los gráficos más
indicados y representativos en su análisis descriptivo corresponden a los gráficos de Barras y los
de Sectores; por el contrario si se trata de una variable de Escala el gráfico más apropiado es el
Histograma.

19
Fuentes bibliográficas
Sánchez Fernández, J. (2004). Introducción a la Estadística Empresarial, Edición electrónica en
http://www.eumed.net/cursecon/libreria/index.htm
Wester, Alan. Estadística para administradores, Editorial McGraw-Hill
Martínez, Ciro. Estadística y Muestreo, Editorial Ecoe editores

20

Apuntes para El Curso de Probabilidad y Estadística 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes para El Curso de Probabilidad y Estadística 1

Cargado por

Copyright:

Formatos disponibles

Probabilidad y Estadística 1

Apuntes para el curso Probabilidad y Estadística 1

Profesor Juan Manuel Jiménez Rodríguez, MBA

La verdadera aportación de la estadística al mundo moderno es la gran cantidad de instrumentos y técnicas

Profesor Juan Manuel Jiménez Rodríguez, MBA

Profesor Juan Manuel Jiménez Rodríguez, MBA

Profesor Juan Manuel Jiménez Rodríguez, MBA

Profesor Juan Manuel Jiménez Rodríguez, MBA

En este capítulo nos concentraremos exclusivamente en la Estadística Descriptiva y los

Profesor Juan Manuel Jiménez Rodríguez, MBA

Medidas tendencia central

Cuando los valores representan una población la ecuación se define como:

Profesor Juan Manuel Jiménez Rodríguez, MBA

Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a

Profesor Juan Manuel Jiménez Rodríguez, MBA

Desviación estándar o Típica

Por lo que su media es:

Por lo tanto la desviación estándar sería:

Profesor Juan Manuel Jiménez Rodríguez, MBA

El Coeficiente de asimetría, se representa mediante la ecuación matemática,

Profesor Juan Manuel Jiménez Rodríguez, MBA

Para calcular el coeficiente de Curtosis se utiliza la ecuación:

(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil encontrar

Análisis Descriptivo de acuerdo al nivel de Medida

Profesor Juan Manuel Jiménez Rodríguez, MBA

Gráficos del Procedimiento Frecuencias

Profesor Juan Manuel Jiménez Rodríguez, MBA

Profesor Juan Manuel Jiménez Rodríguez, MBA

Wester, Alan. Estadística para administradores, Editorial McGraw-Hill

Martínez, Ciro. Estadística y Muestreo, Editorial Ecoe editores

Profesor Juan Manuel Jiménez Rodríguez, MBA

También podría gustarte