Está en la página 1de 38

Estadística y Probabilidad

Presentación

La asignatura Estadística y Probabilidad, se encuentra dentro del bloque de las


asignaturas básicas del Bachillerato Digital correspondiente al cuarto semestre que el
estudiante debe cursar si considera continuar con estudios de licenciatura en las áreas
Físico-Matemáticas o Químico-Biológicas; brinda los conocimientos básicos relativos a la
Estadística Descriptiva, Inferencia Estadística, así como la Probabilidad y sus
distribuciones.

Esta asignatura dará al estudiante los conocimientos relativos a la Estadística Descriptiva,


Inferencia Estadística, Análisis de la Probabilidad de un Eventos así como las posibles
distribuciones de Probabilidad, esto le permitirá interpretar el comportamiento de
fenómenos físicos o sociales a través de la organización, análisis y síntesis de los datos
existentes.

Unidad 1. Distribución de Frecuencias

Introducción

En el complicado mundo de hoy pocas cuestiones están claras y no sujetas a


controversia. Para entender y formarnos una opinión sobre un tema debemos recoger
información, es decir, datos y, para interpretar los datos, debes tener conocimientos de
Estadística.

La Estadística es una de las herramientas más ampliamente utilizadas en la investigación


científica. Se emplea en instituciones gubernamentales y educativas, en los negocios y en
la industria, y en otras organizaciones. El empleo juicioso de las técnicas estadísticas
permite obtener conclusiones útiles a partir de un conjunto de datos. Además es muy
importante que los resultados de cualquier estudio se presenten en forma clara y concisa,
de modo que rápidamente se pueda tener una idea de las características esenciales de
los datos. Esto es particularmente necesario cuando se trata de un amplio conjunto de
datos, como frecuentemente ocurre por ejemplo en las encuestas o en los censos de
población.

En esta unidad se tratarán algunas técnicas de presentación de datos tanto tabulares


como gráficos que nos ayudarán a revelar elementos y características importantes de los
mismos para analizar un problema físico o social.

Propósito

Al término de la unidad serás competente para realizar una distribución de frecuencias,


elaborando un histograma a partir de una serie de datos y analizando gráficas
estadísticas; lo que te permitirá analizar un problema físico o social tomando como base
sus resultados.

1
1.1 Antecedentes de la estadística

La recopilación sistemática de datos económicos y de población se inició en Venecia y


Florencia, las ciudades – Estado italianas, durante el Renacimiento. El término
Estadística, derivado de la palabra Estado, se utilizó entonces para referirse a la
obtención de datos de interés estatal. Esta idea de de recopilación de datos se extendi ó
desde Italia a otros países de la Europa Occidental. De hecho durante, la primera mitad
del siglo XVI, era habitual que los gobiernos Europeos obligaran a las parroquias a que
registraran los nacimientos, matrimonios y defunciones. Debido a las muy escasas
condiciones de salud pública, las estadísticas referidas a estos hechos tenían un especial
interés.

Las altas tasas de mortalidad en Europa antes del siglo XIX se debieron primordialmente
a guerras, epidemias y hambruna. En 1562, como forma de conseguir que la corte real se
trasladara al campo, la ciudad de Londres comenzó a publicar los datos de mortalidad.
Inicialmente, esos datos listaban los lugares de defunción y si las muertes habían sido
causadas por dicha plaga. Desde 1625, esta información se extendió a todas las causas
de defunción.

En 1660 el comerciante inglés John Graunt utilizó los datos de mortalidad de Londres
para estimar la población de la ciudad, muestreó los hogares de ciertas parroquias de
Londres y descubrió que, en promedio, se producían 3 defunciones por cada 88
habitantes. Dividiendo entre 3, observó que en pr omedio había una muerte por cada 88/3
habitantes. Puesto que las cifras de mortalidad de Londres recogían 13 200 muertes en
Londres en el año en cuestión, Graunt estimó que la población de Londres era de
aproximadamente habitantes. Graunt también usó las cifras de
mortalidad de Londres para inferir las tasas de defunción por edad y con esa información
confeccionó tablas que representaban las proporciones poblacionales de muerte por
distintas clases de edad. Los estimadores de Graunt sobre la mortalidad por edades
fueron de gran interés en los negocios de gestión de pensiones. Estos se diferenciaban
de los seguros de vida en que la gente aportaba una cantidad establecida como inversión
y, a su cuenta, recibía una cantidad regular de por vida 1.

Imagen 1. John Graunt”

1
Ross, S. (2007). Introducción a la Estadística. México: Reverté.

2
Los trabajos de Graunt sobre las tablas de mortalidad inspiraron la aportación de Edmund
Halley en 1693. Halley, descubridor del cometa que lleva su nombre, utilizó las tablas de
mortalidad para calcular las probabilidades de que una persona de cualquier edad tenía
de sobrepasar otra edad distinta. Halley ejerció gran influencia para convencer a las
aseguradoras del momento de que los seguros tenían que depender de las edades de los
asegurados. Tras Graunt y Halley, la recopilación de datos se incrementó de manera
continuada durante todo el siglo XVII y hasta bien entrado el siglo XVIII. Por ejemplo, la
ciudad de París empezó a registrar cifras de mortalidad en 1667; y en 1730 registrar las
edades de muerte era una práctica común en toda Europa.

El término Estadística, que se utilizó hasta el siglo XVIII como una abreviatura de la
ciencia descriptiva de los Estados, se identificó cada vez más, en el siglo XIX, con las
cifras cuantitativas. Hacia 1830, en Francia e Inglaterra, el término ya fue usado de forma
general como sinónimo de la ciencia numérica de la sociedad. Este cambio de significado
se debió a que, desde 1800, los gobiernos de Europa Occidental y de los Estados Unidos
comenzaran a recopilar y publicar sistemáticamente una gran cantidad de registros de
censos y de otros tipos de tablas.

Aunque a lo largo del siglo XIX la teoría de la Probabilidad había sido desarrollada por
matemáticos tales como Jacob Bernoulli, Karl Friedich Gauss y Pierre Simon Laplace, su
aplicación al hecho de estudios estadísticos fue casi inexistente, ya que la mayor parte de
los estadísticos sociales de la época se contentaban con dejar que los datos hablaran por
sí mismos. En particular, en ésa época los estadísticos no estaban interesados en sacar
inferencias a partir de individuos, más bien se centraban en la sociedad en su totalidad.

Por consiguiente, no estaban preocupados por el muestreo sino que intentaban obtener
censos de la población al completo. Como resultado, la inferencia probabilística sobre la
población a partir de muestras era prácticamente desconocida en las estadísticas sociales
del siglo XIX. No fue hasta finales de éste siglo cuando los estadísticos empezaron a
preocuparse por inferir conclusiones a partir de los datos numéricos. El movimiento
comenzó con los trabajos de Francis Galton sobre el análisis de la influencia de la
herencia a través de la utilización de técnicas que actualmente se conocen como análisis
de regresión y correlación, que alcanzaron su mayor auge con los trabajo de Karl
Pearson.

3
Dos de las áreas más importantes de aplicación de la Estadística a principios del siglo XX
fueron la Biología y la Agricultura; todo ello gracias al interés de Pearson y otros
investigadores de su laboratorio. Como resultado, tras los primeros años del siglo XX,
aumentó muy rápidamente el número de personas, procedentes de la ciencia, los
negocios y la administración que empezaron a considerar la Estadística como una
herramienta capaz de suministrar soluciones cuantitativas a una gran variedad de
problemas científicos y prácticos.

En la actualidad, podemos encontrar las ideas estadísticas en muchos ámbitos. La


Estadística Descriptiva puede verse en periódicos y revistas. La Inferencia Estadística se
ha hecho indispensable en las investigaciones médicas y de salud pública, en la
investigación de mercados y en el control de calidad, en la educación, la contabilidad, la
economía, en la predicción meteorológica o de las votaciones, y en muestreos, deportes,
seguros, en juegos de apuestas y en cualquier tipo de investigación que pretende ser
científica. Hoy en día la Estadística de ha convertido realmente en una pieza integrante de
nuestra herencia intelectual.

1.1.1 Conceptos básicos

1.1.1.1 Estadística

La mayor parte de las palabras tienen varios significados; la palabra Estadística no es una
excepción. En el lenguaje común, la palabra se emplea para denotar un conjunto de
números o calificaciones. Por ejemplo, en relación con el deporte, las estadísticas se nos
presentan como los resultados de los partidos jugados cada semana, como las posiciones
de los equipos en los diferentes grupos o como la cantidad de partidos ganados, perdidos
y empatados de cada equipo; también estamos acostumbrados a escuchar el número de
accidentes automovilísticos o de muertes en los tradicionales “puentes” producto de los
días festivos; en los diarios locales se presentan nacimientos y muertes como
“estadísticas vitales”, La opinión pública está cada vez más atenta a la información sobre
los índices mensuales de inflación o desempleo; en los informes gubernamentales hay
mucho que decir al respecto; contar y medir estos hechos genera muchas clases de
datos. El término Estadística empleado de ésta forma significa sólo un poco más que
datos numéricos y estos ejemplos forman sólo una parte del concepto general de
Estadística.

Podemos definir a la Estadística como el conjunto de métodos para manejar la


obtención, presentación y análisis de observaciones numéricas. Sus fines son
describir al conjunto de datos obtenidos y tomar decisiones o realizar
generalizaciones acerca de las características de todas las posibles observaciones
bajo consideración.

En la actualidad, la Estadística se emplea en toda clase de estudios científicos como un


procedimiento en la toma de decisiones. En medicina ¿cómo prueba un médico la
eficiencia de un nuevo fármaco? En la industria, ¿cómo se determina la producción de un
artículo específico? En Sociología, ¿de qué modo pronosticar el tamaño de la población
mundial para el año 2025? O ¿cómo inferir el tipo de alimentación que nutrirá a la

4
humanidad para ese mismo año? En la mercadotecnia, ¿qué reacciones tendrán los
consumidores ante un nuevo producto dado? En agricultura, ¿qué tipos y en qué dosis los
fertilizantes e insecticidas aumentan las cosechas? Es indiscutible que la Estadística ha
llegado a ser un instrumento cotidiano para todo tipo de profesionistas y técnicos que por
la índole de sus labores deben manejar datos para que se extraigan conclusiones de
ellos.

El estudio de la Estadística puede dividirse en dos grandes ramas

Es aquella parte de la Estadística que se


Descriptiva dedica a la obtención, organización,
presentación y representar un conjunto de
datos, con el fin de describir apropiadamente
las características de ese conjunto.
Estadística

Es aquella parte de la Estadística que


Inferencial comprende métodos y procedimientos que
por medio de la inducción determina
propiedades de una población estadística, a
partir de una pequeña parte de la misma
(muestra).

1.1.1.2 Variable

Una variable es una forma de expresar una característica de un grupo de elementos de


estudio, como el peso de una persona, su estatura, el color de sus ojos, etc. Las variables
normalmente se identifican por medio de letras; por ejemplo, la variable b se usa para
representar la base de un triángulo, la variable h para representar la altura, etc. Las
variables pueden clasificarse de acuerdo con la forma de los valores que pueden asumir
cuando se mide la característica que representa a la variable. Pueden ser cuantitativas o
cualitativas. Las primeras, conocidas también como numéricas o escalares, expresan en
forma numérica las características de los sujetos de estudio, por ejemplo, 25 kilos, 78
metros, 12.50 pesos, etc., mientras que las variables cualitativas o categóricas expresan
una característica no numérica, por ejemplo, güero, blanco, moreno, delgado, etc.

Las variables cuantitativas pueden ser discretas o continuas. Las discretas sólo pueden
tener algunos valores válidos, por ejemplo, el número de habitantes de una ciudad
(forzoso un número entero positivo), el número de hijos (número entero positivo). En
general sirven para contar, ya sean borregos, manzanas, metros, etc.

Las variables continuas pueden tener cualquier valor, por ejemplo, la alt ura de una
persona, 1.60, 1.615, 1.6153, etc., el espesor de una hoja puede ser de 1 mm, 0.99 mm,
0.999 mm, o cualquier otro valor. Sirven para medir ya sea el espesor de una hoja de
papel, la altura de una persona, etc.

5
Las variables cualitativas pueden clasificarse en nominales y jerarquizadas. Las primeras
expresan una condición específica de las condiciones de los sujetos de estudio como su
domicilio o nacionalidad, mientras que las variables cualitativas jerarquizadas denotan una
característica de tamaño u orden por ejemplo, chico, mediano, grande; o malo, regular,
bueno. El manejo de las variables cualitativas jerarquizadas puede facilitarse si se
expresan mediante una clave numérica o alfabética, por ejemplo, 1 o A para soltero, 2 o B
para casado; etc.

Las variables pueden tomar diferentes valores o datos, así los valores o datos también se
clasifican en cualitativos y cuantitativos.

Cualitativos: Cuando la observación de la variable se hace sobre una cualidad no


numérica, como por ejemplo el sexo (Masculino o Femenino), el estado civil (Soltero o
Casado), las enfermedades (Gripe, Faringitis, Anginas, etc.), o lugar de nacimiento
(Jalisco, Guanajuato, DF, Morelos, etc.).

Cuantitativos: Cuando la observación que se hace de la variable puede ser expresada


en términos numéricos como por ejemplo la edad (15 años, 25, años, 42 años, etc.), el
peso (74 kg, 12 libras, 45 gramos, etc.) o el número de hijos (3 hijos, 5 hijos, etc.).

1.1.1.3 Población y Muestra

El término Población, igual que sucede con la palabra Estadística, tiene varios
significados. Población en Estadística no significa exactamente lo mismo que en lenguaje
común. Su significado en Estadística está estrechamente relacionado con el concepto de
variable. Si recuerdas una variable está vinculada con el proceso de medición de una
característica de interés que tienen en común los elementos de un conjunto determinado
de personas o cosas. Para tener una población estadística es necesario que el
correspondiente conjunto de personas o cosas (universo de estudio) haya quedado
completamente determinado.

Una POBLACIÓN en Estadística es la totalidad de todas las posibles mediciones y


observaciones bajo consideración en una situación dada de un problema, es decir,
es la colección de todos los valores que asume la variable en cada uno de los
elementos del conjunto o universo que se ha determinado para dicha variable.

6
Una MUESTRA es un conjunto de elementos, medidas u observaciones tomadas o
extraídas a partir de una población dada, a fin de conocer aproximadamente las
características de la población de donde proviene. Es un subconjunto de la
población.

Desde luego el número de observaciones o elementos de una muestra es menor que el


número de posibles observaciones en la población; de otra forma, la muestra sería la
población misma. Las muestras se toman debido a que no es factible, desde el punto de
vista tiempo y costo aunque en algunos casos sea probable como en el Censo de
población que tú conoces, recolectar todas las posibles observaciones en la población.

Pero ¿cómo obtenemos una muestra?

La muestra debe lograr una representación adecuada de la población, en la que se


reproduzca de la mejor manera los rasgos esenciales de dicha población que son
importantes para la investigación.

En Estadística Descriptiva el concepto de muestra no reviste gran importancia sin


embargo en Estadística Inferencial es donde cobra primordial relevancia debido a que un
objetivo de la Estadística Inferencial es sacar conclusiones acerca de una población
mediante el análisis e interpretación de una colección pequeña de datos que es la
muestra. ¿Cualquier muestra sirve para esto? No, para obtener conclusiones acerca de
una población con los datos proporcionados por una muestra extraída de aquella, es
necesario que la muestra contenga las características generales de la población es decir
que sea representativa. Para que una muestra sea representativa, y por lo tanto útil, debe
de reflejar las similitudes y diferencias encontradas en la población, es decir ejemplificar
las características de ésta.

Al procedimiento de obtener una muestra se le llama MUESTREO. El muestreo es la


rama de la Estadística que estudia cómo seleccionar una muestra de la poblaci ón.

7
Existen diferentes métodos de muestreo, aunque en general pueden dividirse en dos
grandes grupos: métodos de muestreo probabilísticos (aquellos en los que todos los
individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra
y, consiguientemente, todas las posibles muestras tienen la misma probabilidad de ser
seleccionadas. Sólo estos métodos de muestreo probabilísticos nos a seguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables ) y los
métodos de muestreo no probabilísticos (no se tiene certeza de que la muestra extraída
sea representativa, ya que no todos los sujetos de la población tiene n la misma
probabilidad de ser elegidos, sin embargo, en general se seleccionan a los sujetos
siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra
sea representativa).

Finalmente, por ser este curso introductorio al fascinante mundo de la Estadística y


Probabilidad no ahondaremos en ningún método de Muestreo, pero no te preocupes que
en cursos de nivel superior los aprendas.

Actividades de aprendizaje (Se desarrollan en plataforma)

1.2 Método Estadístico

El método estadístico consiste en una secuencia de procedimientos o pasos para el


manejo de los datos cualitativos y cuantitativos cuando se lleva a cabo una
investigación 2. Dicho manejo de datos tiene por propósito la comprobación, en una parte
de la realidad, de una o varias consecuencias verificables deducidas de la hipótesis 3
general de la investigación.

Las características que adoptan los procedimientos o pasos propios del método
estadístico dependen del diseño de investigación 4 seleccionado para la comprobación
de la consecuencia verificable en cuestión.

El método estadístico tiene las siguientes etapas:

1. Recolección (medición)

2
Investigación: Es una actividad humana orientada a la obtención de nuevos conocimientos y, por
esa vía, ocasionalmente dar solución a problemas o interrogantes de carácter científico.
3
Hipótesis: Una hipótesis es algo que se supone y a lo que se le otorga un cierto grado de
posibilidad para extraer de ello un efecto o una consecuencia.
4
Diseño de investigación: El diseño de investigación constituye el plan general (plan de trabajo a
seguir) del investig ador p ara obtener respuestas a sus interrog antes o comprobar la
hipótesis de investigación.

8
En esta etapa se recoge la información cualitativa y/o cuantitativa señalada en el diseño
de la investigación. En vista de que los datos recogidos suelen tener diferentes
magnitudes o intensidades en cada elemento observado (por ejemplo el peso o la talla de
un grupo de personas), a dicha información o datos también se les conoce como
variables. Por lo anterior, puede decirse que esta etapa del método estadístico consiste
en la medición de las variables.

La recolección o medición puede realizarse de diferentes maneras; a veces ocurre por


simple observación y en otras ocasiones se requiere de complejos procedimientos de
medición; en algunas ocasiones basta con una sola medición y en otras se requiere una
serie de ellas a lo largo de amplios períodos de tiempo. La calidad técnica de esta etapa
es fundamental ya que de ella depende que se disponga de datos exactos y confiables en
los cuales se fundamenten las conclusiones de toda la investigación.

Es tan grande la importancia de esta etapa que algunas clasificaciones de las


investigaciones se basan en la forma en que ocurre la medición; por ejemplo si la
información es recogida en una sola ocasión suele decirse que la investigación es
transversal; en cambio, si la información es recogida a lo largo del tiempo se denomina
longitudinal a la investigación. En ocasiones, la recolección de la información debe ocurrir
en grupos tan grandes de individuos que se hace impráctico tratar de abarcar a todos
ellos; entonces es cuando se ponen en práctica procedimientos de muestreo.
Un ejemplo de ésta etapa es lo que hace el IFE. Como sabes, El Instituto Federal
Electoral (IFE) es un organismo público, autónomo y permanente encargado de organizar
las elecciones federales, es decir, las referentes a la elección del Presidente de la
República y de los Diputados y Senadores que integran el Congreso de la Unión. Una de
sus principales tareas es integrar el Registro Federal de Electores para lo cual recolecta
toda la información personal: nombre, dirección, rfc, etc. de todos los habitantes de la
República Mexicana mayores a 18 años y al quedar registrados nos proporcionan la
famosa credencial de elector.

2. Recuento (cómputo)

En esta etapa del método estadístico la información recogida es sometida a revisión,


clasificación y cómputo numérico.

A veces el recuento puede realizarse de manera muy simple, por ejemplo con rayas o
palotes; en otras ocasiones se requiere el empleo de tarjetas con los datos y, en
investigaciones con mucha información y muchos casos, puede requerirse el empleo de
computadoras y programas especiales para el manejo de bases de datos. En términos
generales puede decirse que el recuento consiste en la cuantificación de la frecuencia con
que aparecen las diversas características medidas en los elementos en estudio; por
ejemplo: el número de personas de sexo femenino y el de personas de sexo masculino o
el número de niños con peso menor a 3 kilos y el número de niños con peso igual o mayor
a dicha cifra.

Como ejemplo de ésta etapa, el IFE hace su recuento de todos los votos de todas las
casillas que se abrieron a través del país.

9
3. Presentación

En esta etapa del método estadístico se elaboran los cuadros y los gráficos que permiten
una inspección precisa y rápida de los datos. La elaboración de cuadros, que también
suelen llamarse tablas, tiene por propósito acomodar los datos de manera que se pueda
efectuar una revisión numérica precisa de los mismos.

La elaboración de gráficos tiene por propósito facilitar la inspección visual rápida de la


información. Casi siempre a cada cuadro con datos le puede corresponder una gráfica
pertinente que represente la misma información. Presentar la misma información tanto en
un cuadro como en su correspondiente gráfico permite obtener una clara idea de la
distribución de las frecuencias de las características estudiadas.

En esta etapa, el IFE hace toda una presentación de sus resultados a través de su sitio
oficial. Te recomiendo visitarlo:
http://www.ife.org.mx/portal/site/ifev2/Estadisticas_y_Resultados_Electorales/

4. Síntesis

En esta etapa la información es resumida en forma de medidas que permiten expresar de


manera sintética las principales propiedades numéricas de grandes series o
agrupamientos de datos. La condensación de la información, en forma de medidas
llamadas de resumen, tiene por propósito facilitar la comprensión global de las
características fundamentales de los agrupamientos de datos.

Tales medidas de resumen, al ser comunicadas, permiten a los interlocutores evocar de


una misma manera la esencia de los datos; por ejemplo, cuando alguien inf orma que el
promedio de calificaciones de un grupo de alumnos es 9.6, en una escala que va del O al
10, la imagen que se transmite es la de un grupo con buen aprovechamiento escolar;
igualmente, cuando se dice que el porcentaje de defunciones con una cierta técnica
quirúrgica es de 80%, las personas que escuchan se imaginan que se trata de un
procedimiento peligroso.

La información cualitativa, como el sexo, la ocupación o los tipos de enfermedades,


requiere ser condensada a través de medidas de resumen diferentes a la que se usan
para sintetizar la información cuantitativa o numérica como el peso, la talla o la
concentración de glucosa. Entre las principales medidas de resumen para sintetizar a los
datos cualitativos se encuentran las razones, las proporciones y las tasas.

Entre las principales medidas para sintetizar los datos cuantitativos se encuentra la moda
y la amplitud, la mediana y los percentiles y el promedio y la desviación estándar. Estas
medidas las trabajaremos en la unidad 2.

5. Análisis

En esta etapa, mediante fórmulas estadísticas apropiadas y el uso de tablas


específicamente diseñadas, se efectúa la comparación de las medidas de resumen
previamente calculadas; por ejemplo, si antes se han calculado los promedios de peso de

10
dos grupos de personas sometidas a diferentes dietas, el análisis estadístico de los datos
consiste en la comparación de ambos promedios con el propósito de decidir si parece
haber diferencias significativas entre tales promedios. Existen procedimientos bien
establecidos para la comparación de las medidas de resumen que se hayan calculado en
la etapa de descripción. Tales procedimientos, conocidos como pruebas de análisis
estadístico cuentan con sus fórmulas y procedimientos propios. Estos procedimientos los
lleva a cabo la Estadística Inferencial la cual estudiaremos en la unidad 3.

Cada prueba de análisis estadístico debe utilizarse siempre en función del tipo de diseño
de investigación que se haya seleccionado para la comprobación de cada consecuencia
verificable deducida a partir de la hipótesis general de investigación. Lo anterior se lleva a
cabo a través de la Estadística Inferencial mediante un procedimiento llamado pruebas de
hipótesis las cuales estudiarás en cursos posteriores.

En los primeros párrafos se mencionó que el método estadístico es una secuencia


ordenada de procedimientos para el manejo de los datos en las investigaciones. Luego de
haber revisado las características y propósitos de las diversas etapas del método, parece
quedar claro que tal secuencia guarda siempre el orden descrito.

Es lógico efectuar el recuento de la información (2a. etapa, Recuento) solo hasta que
previamente fue recogida (1a. etapa, Recolección o Medición). Antes de condensar la
información en la etapa de síntesis (4a. etapa) siempre conviene haberla comprendido a
través de la elaboración de cuadros y gráficos (3a. etapa Presentación).

Desde luego es impensable efectuar análisis estadístico (5a. etapa, Análisis) para
comparar medidas de resumen si antes estas no han sido calculadas (4a. etapa, Síntesis)
Por lo anterior, puede considerarse a la estadística como una disciplina que posee su
propio método. Tal disciplina emplea conocimientos de otras ciencias como la lógica y la
matemática y por ello se dice que la estadística es una forma razonable de emplear el
sentido común y la aritmética para el manejo de los datos en las investigaciones.

1.3 Distribución de frecuencias

La capacidad humana para comprender al mismo tiempo grandes cantidades de datos es


muy limitada, por eso es muy importante que los resultados numéricos de cualquier
estudio se presenten en forma clara y concisa, de modo que rápidamente se pueda tener
una idea de las características esenciales de los datos. Esto es particularmente necesario
cuando se trata de un amplio conjunto de datos o una gran cantidad de los mismos, como
frecuentemente ocurre en las encuestas o en los censos de población; la mayoría de los
análisis estadísticos incluyen una gran cantidad de datos, los cuales sería casi imposible
utilizar si no se les compactara mediante un sencillo procedimiento conocido como
Distribución de Frecuencias. Las distribuciones de frecuencias son la forma más común
de organizar un gran número de datos.

11
Una distribución de frecuencias es una tabla que representa el número de elementos que
pertenecen a cada una de las clases o categorías en las que se halla dividido el conjunto
de datos para su estudio. La tabla está compuesta por los siguientes elementos:

 El número de clases o categorías en que se agruparán los datos.


 El intervalo o ancho de cada clase o categoría, delimitado por los valores mínimo
y máximo aceptables en cada clase o categoría si se trata de datos cuantitativos.
En el caso de datos cualitativos el número de clases queda definido por la
naturaleza de los datos que se analiza y por el detalle que se desea de éstos.
 La frecuencia o número de elementos de cada clase.

Ejemplos de tablas de Distribución de Frecuencias

+) La siguiente tabla de Distribución de Frecuencias nos proporciona las frecuencias de


de peso, en kg, de 100 estudiantes distribuidos en diferentes clases. Cada clase abarca
un intervalo de peso determinado por el límite inferior y límite superior. Por ejemplo, la
clase A comprende los pesos entre 60 kg y 62 kg, la clase B comprende los pesos entre
63 kg y 65 kg, etcétera. Así entonces la tabla nos indica que de las 100 personas, 5 de
ellas están en la clase A, 18 de ellas están en la clase B, etcétera.

Clase Límite Inferior Límite superior Frecuencia


A 60 62 5
B 63 65 18
C 66 68 42
D 69 71 27
E 72 74 8
TOTAL 100

+) La siguiente tabla de Distribución de Frecuencias nos indica que de 200 autos: 25


fueron de color rojo, 18 fueron de color Azul, 42 de color Negro y 15 de color Plata.

Clase Frecuencia
Rojo 25
Azul 18
Negro 42
Plata 15
TOTAL 200

Pero te preguntarás ¿Cómo obtenemos toda esta información? ¿Porqué 5 o 4 clases?


¿Cómo se determina el ancho de clase? ¿Cómo se determina el límite inferior y superior
de cada clase? ¿De dónde y cómo se obtiene la Frecuencia?

¡No te preocupes que a continuación lo sabrás ¡

12
Los pasos a seguir para la elaboración de una Distribución de Frecuencias son:

A) Recopilación de datos.
B) Ordenamiento de los datos.
C) Determinación del número de clases.
D) Cálculo del intervalo o ancho de cada clase.
E) Elaboración de intervalos.
F) Obtención de frecuencias.

Ejemplo 1:

En un centro comercial se les preguntó a 22 personas (muestra) su estatura. Los


resultados fueron los siguientes:

Datos Originales

1.82 m 1.52 m 1.70 m 1.61 m


1.43 m 1.72 m 1.81 m 1.56 m
1.51 m 1.78 m 1.58 m 1.57 m
1.47 m 1.54 m 1.48 m 1.78 m
1.69 m 1.61 m 1.53 m
1.88 m 1.66 m 1.73 m

Obtener la distribución de frecuencias de éstos datos.

A) Recopilación de datos

Consiste en escribir los datos de la muestra que nos interesa conocer, sin importar el
orden.

1.82 m 1.52 m 1.70 m 1.61 m


1.43 m 1.72 m 1.81 m 1.56 m
1.51 m 1.78 m 1.58 m 1.57 m
1.47 m 1.54 m 1.48 m 1.78 m
1.69 m 1.61 m 1.53 m
1.88 m 1.66 m 1.73 m

B) Ordenamiento de los datos

Consiste en ordenar los datos en forma ascendente o descendente para facilitar el conteo
de datos que correspondan a cada uno de los intervalos. Los ordenamos de forma
ascendente.

13
1.43 m 1.54 m 1.66 m 1.78 m
1.47 m 1.56 m 1.69 m 1.81 m
1.48 m 1.57 m 1.70 m 1.82 m
1.51 m 1.58 m 1.72 m 1.88 m
1.52 m 1.61 m 1.73 m
1.53 m 1.61 m 1.78 m

C) Determinación del número de clases

Número de clases=

Así, el número de clases= . Redondeado tenemos 5 clases.

El número de clases en que se agrupan los datos se determina con


cuando éste es menor de 200. Para muestras con 200 o más datos el número de clases
se determina con .

D) Cálculo del intervalo o ancho de cada clase

Intervalo =

Por lo tanto el Intervalo =

El intervalo o ancho de clase se debe ajustar, esto se logra aumentando el ancho de clase
calculado a la siguiente unidad de variación después del ancho de clase; es decir, si por
ejemplo el ancho calculado de un grupo de datos cuya unidad de variación es 1 resulta
193.4, el ancho ajustado debe ser 194; si la unidad de variación de un grupo de datos es
de 50 y el ancho calculado es de 220 entonces se debe ajustar a 250.

En nuestro ejemplo la unidad de variación es de 0.01 m por lo tanto el intervalo o ancho


de clase ajustado es de 0.10 m.

E) Elaboración de intervalos

Cada intervalo de clase está formado por un límite inferior (LI) y un límite superior (LS).
Estos límites se calculan de la siguiente forma

14
En nuestro ejemplo tenemos que

LI de la clase B = LI de la clase A + 0.10 =1.43 + 0.10 = 1.53


LI de la clase C= LI de la clase B + 0.10 = 1.53 + 0.10 =1.63
LI de la clase D= LI de la clase C + 0.10 = 1.63 + 0.10 =1.73
LI de la clase E= LI de la clase D + 0.10 = 1.73 + 0.10 =1.83

LS de la clase A=LI de la clase A + 0.10 – 0.01 = 1.43 + 0.10 – 0.01 = 1.52


LS de la clase B=LI de la clase B + 0.10 – 0.01 = 1.53 + 0.10 – 0.01 = 1.62
LS de la clase C=LI de la clase C + 0.10 – 0.01 = 1.63 + 0.10 – 0.01 = 1.72
LS de la clase D=LI de la clase D + 0.10 – 0.01 = 1.73 + 0.10 – 0.01 = 1.82
LS de la clase E=LI de la clase E + 0.10 – 0.01 = 1.83 + 0.10 – 0.01 = 1.92
Quedando los intervalos de cada clase

Clase Límite Inferior Límite superior


A 1.43 1.52
B 1.53 1.62
C 1.63 1.72
D 1.73 1.82
E 1.83 1.92

F) Obtención de Frecuencias

La frecuencia de cada clase se obtiene contando, en la tabla de datos ordenados, el


número de elementos incluidos o que están dentro de cada clase. Así obtenemos

Clase Límite Inferior Límite superior Frecuencia


A 1.43 1.52 ///// 5
B 1.53 1.62 /////// 7
C 1.63 1.72 //// 4
D 1.73 1.82 ///// 5
E 1.83 1.92 / 1
TOTAL 22

Ejemplo 2:

En un estadio de Futbol, durante el juego por el campeonato, se tomó una muestra de 35


personas a las cuales se les preguntó ¿cuánto pagó por sus boletos? Los resultados
fueron los siguientes:

15
Datos Originales

800 1050 700 600 1350 600


1350 700 800 950 1250 650
450 1000 1400 1000 1150 850
1500 550 1550 800 1600 900
700 1100 1000 650 1350 950
850 1300 750 850 750

Obtener la distribución de frecuencia.

A) Recopilación de datos

800 1050 700 600 1350 600


1350 700 800 950 1250 650
450 1000 1400 1000 1150 850
1500 550 1550 800 1600 900
700 1100 1000 650 1350 950
850 1300 750 850 750

B) Ordenamiento de los datos

Los ordenamos de forma ascendente.

450 700 800 950 1100 1350


550 700 800 950 1150 1400
600 700 850 1000 1250 1500
600 750 850 1000 1300 1550
650 750 850 1000 1350 1600
650 800 900 1050 1350

C) Determinación del número de clases

Número de clases=

Lo redondeamos a 6 clases.

D) Cálculo del intervalo o ancho de cada clase

Intervalo =

16
La unidad de variación en este ejemplo es de 50, por lo tanto el intervalo o ancho de clase
se ajusta a 200.

E) Elaboración de intervalos

Recordemos que cada intervalo de clase está formado por un límite inferior (LI) y un límite
superior (LS) y que se calculan de la siguiente forma

En nuestro ejemplo tenemos que


LI de la clase B = LI de la clase A + 200 = 450 + 200 = 650
LI de la clase C= LI de la clase B + 200 = 650 + 200 = 850
LI de la clase D= LI de la clase C + 200 = 850 + 200 = 1050
LI de la clase E= LI de la clase D + 200 = 1050 + 200 = 1250
LI de la clase F= LI de la clase F + 200 = 1250 + 200 = 1450

LS de la clase A=LI de la clase A + 200 – 50 = 450 + 200 – 50 = 600


LS de la clase B=LI de la clase B + 200 – 50 = 650 + 200 – 50 = 800
LS de la clase C=LI de la clase C + 200 – 50 = 850 + 200 – 50 = 1000
LS de la clase D=LI de la clase D + 200 – 50 = 1050 + 200 – 50 = 1200
LS de la clase E=LI de la clase E + 200 – 50 = 1250 + 200 – 50 = 1400
LS de la clase F=LI de la clase F + 200 – 50 = 1450 + 200 – 50 = 1600

Quedando los intervalos de cada clase

Clase Límite Inferior Límite superior


A 450 600
B 650 800
C 850 1000
D 1050 1200
E 1250 1400
F 1450 1600

G) Obtención de Frecuencias

La frecuencia de cada clase se obtiene contando, en la tabla de datos ordenados, el


número de elementos incluidos o que están dentro de cada clase. Así obtenemos

17
Clase Límite Inferior Límite superior Frecuencia
A 450 600 //// 4
B 650 800 ///////// 10
C 850 1000 ///////// 9
D 1050 1200 /// 3
E 1250 1400 ////// 6
F 1450 1600 /// 3
TOTAL 35

Ejemplo 3:

En una tienda departamental se toma una muestra de 15 personas a las cuales se les
pregunta sobre su preferencia por el sabor de un refresco. Los resultados obtenidos son
los siguientes

Toronja Cola Manzana Limón Naranja Toronja


Tamarindo Cola Cola Manzana Manzana Cola
Cola Manzana Toronja

B) Ordenamiento de los datos

Los ordenamos alfabéticamente de manera ascendente.

Cola Cola Manzana Manzana Toronja


Cola Cola Manzana Naranja Toronja
Cola Limón Manzana Tamarindo Toronja

C) Determinación del número de clases

Como los datos son cualitativos, el número de clases está determinado por la naturaleza
de los mismos datos, es decir: Cola, Limón, Manzana, Naranja, Tamarindo y Toronja.

F) Obtención de Frecuencias

Clase Frecuencia
Cola 5
Limón 1
Manzana 4
Naranja 1
Tamarindo 1

18
Toronja 3
TOTAL 15

1.3.1 Frecuencias Relativas

La Frecuencia relativa de una clase es la proporción de la frecuencia de esa clase


respecto al total de frecuencias de la tabla. Para poder calcularla utilizamos

FR

Esta FR se puede representar en porcentaje, sólo se multiplica cada FR por 100.


Ejemplo 1:

Clase Límite Límite Frecuencia FR FR


Inferior superior (%)
A 1.43 1.52 5 5/22=0.227 22.8
B 1.53 1.62 7 7/22=0.318 31.9
C 1.63 1.72 4 4/22=0.18 18.0
D 1.73 1.82 5 5/22=0.227 22.8
E 1.83 1.92 1 1/22=0.045 4.5
TOTAL 22 100

Ejemplo 2:

Clase Límite Límite Frecuencia FR FR


Inferior superior (%)
A 450 600 4 4/35=0.1142 11.42
B 650 800 10 10/35=0.2858 28.58
C 850 1000 9 9/35=0.2571 25.71
D 1050 1200 3 3/35=0.0857 8.57
E 1250 1400 6 6/35=0.1715 17.15
F 1450 1600 3 3/35=0.0857 8.57
TOTAL 35

Actividades de aprendizaje (Se desarrollan en plataforma)

19
1.4 Presentaciones gráficas

“Una gráfica vale más que mil palabras”, dice el refrán. Esto es particularmente cierto en
el caso de los análisis estadísticos, donde los datos al natural e incluso tabulados pueden
ser abrumadores, difíciles de comprender. Las gráficas tienen por objeto representar las
características esenciales de los resultados obtenidos en la tabulación, en particular en
una distribución de frecuencias. Las gráficas que usaremos básicamente son los
Histogramas, para datos cuantitativos, y Gráficas de Sectores o Pastel, para datos
cualitativos.

1.4.1 Histogramas

Un histograma es una gráfica de barras que representa, a escala, el número de elementos


que comprende cada una de las clases de una distribución de frecuencias. En este tipo de
gráficas se colocan los intervalos de clase en el eje horizontal y en el vertical el valor de la
frecuencia correspondiente; la altura de las barras del histograma está dada por la
frecuencia de la clase. Por ejemplo, para la distribución de frecuencias del ejemplo 2 de la
sección 1.3

Clase Límite Inferior Límite superior Frecuencia


A 450 600 //// 4
B 650 800 ///////// 10
C 850 1000 ///////// 9
D 1050 1200 /// 3
E 1250 1400 ////// 6
F 1450 1600 /// 3
TOTAL 35

Su histograma está dado por

En ésta gráfica podemos observar rápidamente que el precio de los boletos en su mayoría
estuvieron dentro del intervalo B de $650 a $800, seguido del precio dentro del intervalo C

20
de $850 a $1000; al mismo tiempo podemos observar que el rango de precios entre
$1050 -$1200 y $1450 - $1600, intervalos D y F respectivamente, fue el menos frecuente.

Pero, ¿cómo construimos un Histograma?

En la actualidad, y gracias a la tecnología, contamos con diferente software que nos


permiten hacer gráficas rápidamente, en particular Excel 5. Con Excel podemos realizar
nuestro histograma de una forma muy rápida, sencilla y práctica.

Para poder realizarlo llevaremos a cabo el procedimiento siguiente:


1.- Copia la tabla de distribución de frecuencias en una hoja de Excel. Deja sólo la
columna de frecuencias numéricas.

2.- Seleccionar las columnas de “Clase” y “Frecuencias”; para lograrlo primero


seleccionas la columna clase, después oprimes la tecla “CTRL” y sin soltarla seleccionas
la columna de frecuencias. Con lo anterior lo que consigues es una selección múltiple de
celdas en Excel.

5
Existen algunos otros programas para hacer gráficas como los programas equivalentes en Ubuntu
(Linux) con open office o los estudiantes que usan Mac.
La versión que se utilizó para los ejemplos en este apartado es Microsoft Excel 2007.

21
3.- Del menú, escoges las opciones: Insertar, Columna, Columna en 2-D, el primer subtipo
de gráfica.

Una vez hecho lo anterior, debes obtener algo similar a lo siguiente

22
4.- Sobre cualquier barra de los datos debes colocar el puntero del ratón y darle botón
derecho para desplegar el menú secundario, con lo anterior podrás modificar algunas
características del gráfico.

Del menú que surge escoges la última opción “Dar formato a serie de datos” y aparece
una ventana con varias opciones. La que nos interesa en particular es “Ancho del

23
intervalo” en la cual debes mover el medidor “Sin intervalo” hacia la izquierda; te debe
quedar esta pantalla

Con lo anterior obtenemos lo siguiente

5.- Una vez más colocas el apuntador del ratón en cualquiera de las barras de los datos y
aprietas el botón derecho para desplegar nuevamente el menú alterno donde una vez

24
más elijes “Dar formato a serie de datos” y ahora escoges la opción “Color del borde”,
donde seleccionas las opciones Línea sólida y color negro

Obteniendo

25
6.- Seleccionas la leyenda “Frecuencia” que se encuentra a la derecha de la gráfica y la
borras con la tecla suprimir (“supr”).

7.- Seleccionas el título Frecuencia y le das nuevamente “click” con el apuntador del ratón
para editarlo y cambiarlo por “Frecuencia del precio del boleto por clase o intervalo”.

26
Finalmente con los pasos anteriores has logrado construir un Histograma.

La importancia de un histograma estriba en que al permitir organizar y presentar los datos


gráficamente se puede prestar atención a determinadas características importantes de los
datos. Es decir, un histograma puede a menudo indicar:

1. La simetría de los datos.

En este caso los datos se encuentran distribuidos uniformemente alrededor del valor con
mayor frecuencia, es decir, 50% a la izquierda y 50% a la derecha con respecto a la
frecuencia más alta. Se dice entonces que los datos están distribuidos normalmente.

2. La dispersión de éstos.

En este caso los datos se encuentran distribuidos dentro de todas las clases sin presentar
alguna concentración en particular.

27
3. Si existen intervalos que tienen un alto nivel de concentración de datos.

En este caso los datos se encuentran concentrados en particular sobre alguna clase.

4. Si los datos están sesgados a la derecha

5. Si los datos están sesgados a la izquierda.

28
1.4.2 Gráficas de Sección o Pastel

Las gráficas de sección o pastel se usan como un recurso estadístico para representar
porcentajes y/o proporciones. Son gráficas circulares divididas en secciones o
“rebanadas” que suman el 100%; cada sección o rebanada está dada por la frecuencia
relativa (%) y se utilizan particularmente para datos cualitativos.

Si tomamos la distribución de frecuencias del ejemplo 3 de la sección 1.3 y calculamos su


frecuencia relativa.

Clase Frecuencia FR
(%)
Cola 5 33.33
Limón 1 6.67
Manzana 4 26.66
Naranja 1 6.67
Tamarindo 1 6.67
Toronja 3 20
TOTAL 15

la gráfica de sección o pastel está dada por

Imagen 11. Gráfica de sección o pastel

Pero, ¿cómo elaboramos una gráfica de sección o pastel?

Nuevamente utilizando Excel y el procedimiento siguiente:

29
1. Copia la tabla de distribución de frecuencias en una hoja de Excel.

2. Selecciona las columnas de “Clase” y “Frecuencias”. Ten mucho cuidado de no


seleccionar el último renglón de la tabla.

30
3.- Del menú, escoges las opciones: Insertar, Circular, Gráfico 2D, el primer subtipo de
gráfica.

Una vez hecho lo anterior, debes obtener algo similar a lo siguiente

31
4.- Sobre cualquier sección o rebanada debes colocar el puntero del ratón y darle botón
derecho para desplegar el menú secundario, con lo anterior podrás modificar algunas
características del gráfico. Debes escoger la opción “Agregar etiquetas de datos”

y al hacerlo te queda

32
Tienes que volver a darle con botón derecho del apuntador del ratón sobre cualquier
sector o rebanada para escoger ahora la opción “Formato de etiquetas de datos”

Con lo anterior te queda

33
y quitas la opción “Valor” y seleccionas la opción “Porcentaje”

Para que la gráfica quede con los porcentajes respectivos

34
5.- Finalmente hay que cambiar el titulo de la gráfica por “Sabor de refresco”. Para
cambiarlo debes editarlo y para editarlo tienes que darle “click” con el puntero del ratón,
esperar unos segundos y volver hacerlo. Una vez editado lo debes cambiar.

(Se realiza en plataforma)

Evaluación de Unidad (Se desarrollan en plataforma)

35
Conclusión

Haz finalizado tu primera unidad del curso de Estadística y Probabilidad, en el cual vimos

36
Referencias

De contenido

Libros

 Castillo, J. (1998). Estadística Básica. México: Grupo Editorial Iberoamérica.


 Freund, J. (1994). Estadística Elemental. México: Pearson Prentice Hall.
 Ross, S. (2007). Introducción a la Estadística. México: Reverté.
 Triola, M. (2009). Estadística. México: Pearson Prentice Hall.
 Zavala Aguilar, R. (2011). Estadística Básica. México: Trillas.

De consulta

Sitios de internet

Te sugiero revisar las siguientes ligas electrónicas para reforzar los temas aprendidos en
esta unidad como los conceptos básicos, construcción de tablas de distribución de
frecuencias, histogramas y gráficas de pastel.

 Mancilla, H. (sf). Estadística Descriptiva e Inferencial I. Colegio de Bachilleres.


http://www.conevyt.org.mx/bachillerato/material_bachilleres/cb6/5sempdf/edin1/e
din1_f1.pdf
 UNAM. (2012). Estadística y Probabilidad.
http://www.recursoseducativos.unam.mx/eduCommons/search?Subject%3Alist=E
stad%C3%ADstica%20y%20Probabilidad
 UNAM. (2012). Portal académico. Colegio de Ciencias y Humanidades. UNAM.
http://portalacademico.cch.unam.mx/alumno/sitiosdeinteres/matematicas/estadisti
ca1

De imágenes

1. John Graunt
Recuperado de:
http://www.flickr.com/photos/galeria-est/4531241325/

2. Jacob Benoulli
Recuperado de:
http://www.flickr.com/photos/9892313@N04/3580196007/

3. Karl Pearson
Recuperado de:
http://www.bun.kyoto-u.ac.jp/philosophy_and_history_of_science/phs-

37
archives/Images/pearson.p.jpg

4. Población y muestra
Recuperado de:
http://www.eyeintheskygroup.com/Azar-Ciencia/Analisis-Estadistico-Juegos-de-
Azar/Estadistica-Descriptiva-Poblacion-y-
Muestra_archivos/Poblaci%F3n%20y%20Muestra%20Estad%EDstica.jpg

5. Frecuencia del precio del boleto por clase o intervalo


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

6. Simetría de los datos


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

7. Dispersión de los datos


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

8. Concentración de datos
Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

9. Datos sesgados a la derecha


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

10. Datos sesgados a la izquierda


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

11. Gráfica de sección o pastel


Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech

38

También podría gustarte