Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EyP Unidad 1
EyP Unidad 1
Presentación
Introducción
Propósito
1
1.1 Antecedentes de la estadística
Las altas tasas de mortalidad en Europa antes del siglo XIX se debieron primordialmente
a guerras, epidemias y hambruna. En 1562, como forma de conseguir que la corte real se
trasladara al campo, la ciudad de Londres comenzó a publicar los datos de mortalidad.
Inicialmente, esos datos listaban los lugares de defunción y si las muertes habían sido
causadas por dicha plaga. Desde 1625, esta información se extendió a todas las causas
de defunción.
En 1660 el comerciante inglés John Graunt utilizó los datos de mortalidad de Londres
para estimar la población de la ciudad, muestreó los hogares de ciertas parroquias de
Londres y descubrió que, en promedio, se producían 3 defunciones por cada 88
habitantes. Dividiendo entre 3, observó que en pr omedio había una muerte por cada 88/3
habitantes. Puesto que las cifras de mortalidad de Londres recogían 13 200 muertes en
Londres en el año en cuestión, Graunt estimó que la población de Londres era de
aproximadamente habitantes. Graunt también usó las cifras de
mortalidad de Londres para inferir las tasas de defunción por edad y con esa información
confeccionó tablas que representaban las proporciones poblacionales de muerte por
distintas clases de edad. Los estimadores de Graunt sobre la mortalidad por edades
fueron de gran interés en los negocios de gestión de pensiones. Estos se diferenciaban
de los seguros de vida en que la gente aportaba una cantidad establecida como inversión
y, a su cuenta, recibía una cantidad regular de por vida 1.
1
Ross, S. (2007). Introducción a la Estadística. México: Reverté.
2
Los trabajos de Graunt sobre las tablas de mortalidad inspiraron la aportación de Edmund
Halley en 1693. Halley, descubridor del cometa que lleva su nombre, utilizó las tablas de
mortalidad para calcular las probabilidades de que una persona de cualquier edad tenía
de sobrepasar otra edad distinta. Halley ejerció gran influencia para convencer a las
aseguradoras del momento de que los seguros tenían que depender de las edades de los
asegurados. Tras Graunt y Halley, la recopilación de datos se incrementó de manera
continuada durante todo el siglo XVII y hasta bien entrado el siglo XVIII. Por ejemplo, la
ciudad de París empezó a registrar cifras de mortalidad en 1667; y en 1730 registrar las
edades de muerte era una práctica común en toda Europa.
El término Estadística, que se utilizó hasta el siglo XVIII como una abreviatura de la
ciencia descriptiva de los Estados, se identificó cada vez más, en el siglo XIX, con las
cifras cuantitativas. Hacia 1830, en Francia e Inglaterra, el término ya fue usado de forma
general como sinónimo de la ciencia numérica de la sociedad. Este cambio de significado
se debió a que, desde 1800, los gobiernos de Europa Occidental y de los Estados Unidos
comenzaran a recopilar y publicar sistemáticamente una gran cantidad de registros de
censos y de otros tipos de tablas.
Aunque a lo largo del siglo XIX la teoría de la Probabilidad había sido desarrollada por
matemáticos tales como Jacob Bernoulli, Karl Friedich Gauss y Pierre Simon Laplace, su
aplicación al hecho de estudios estadísticos fue casi inexistente, ya que la mayor parte de
los estadísticos sociales de la época se contentaban con dejar que los datos hablaran por
sí mismos. En particular, en ésa época los estadísticos no estaban interesados en sacar
inferencias a partir de individuos, más bien se centraban en la sociedad en su totalidad.
Por consiguiente, no estaban preocupados por el muestreo sino que intentaban obtener
censos de la población al completo. Como resultado, la inferencia probabilística sobre la
población a partir de muestras era prácticamente desconocida en las estadísticas sociales
del siglo XIX. No fue hasta finales de éste siglo cuando los estadísticos empezaron a
preocuparse por inferir conclusiones a partir de los datos numéricos. El movimiento
comenzó con los trabajos de Francis Galton sobre el análisis de la influencia de la
herencia a través de la utilización de técnicas que actualmente se conocen como análisis
de regresión y correlación, que alcanzaron su mayor auge con los trabajo de Karl
Pearson.
3
Dos de las áreas más importantes de aplicación de la Estadística a principios del siglo XX
fueron la Biología y la Agricultura; todo ello gracias al interés de Pearson y otros
investigadores de su laboratorio. Como resultado, tras los primeros años del siglo XX,
aumentó muy rápidamente el número de personas, procedentes de la ciencia, los
negocios y la administración que empezaron a considerar la Estadística como una
herramienta capaz de suministrar soluciones cuantitativas a una gran variedad de
problemas científicos y prácticos.
1.1.1.1 Estadística
La mayor parte de las palabras tienen varios significados; la palabra Estadística no es una
excepción. En el lenguaje común, la palabra se emplea para denotar un conjunto de
números o calificaciones. Por ejemplo, en relación con el deporte, las estadísticas se nos
presentan como los resultados de los partidos jugados cada semana, como las posiciones
de los equipos en los diferentes grupos o como la cantidad de partidos ganados, perdidos
y empatados de cada equipo; también estamos acostumbrados a escuchar el número de
accidentes automovilísticos o de muertes en los tradicionales “puentes” producto de los
días festivos; en los diarios locales se presentan nacimientos y muertes como
“estadísticas vitales”, La opinión pública está cada vez más atenta a la información sobre
los índices mensuales de inflación o desempleo; en los informes gubernamentales hay
mucho que decir al respecto; contar y medir estos hechos genera muchas clases de
datos. El término Estadística empleado de ésta forma significa sólo un poco más que
datos numéricos y estos ejemplos forman sólo una parte del concepto general de
Estadística.
4
humanidad para ese mismo año? En la mercadotecnia, ¿qué reacciones tendrán los
consumidores ante un nuevo producto dado? En agricultura, ¿qué tipos y en qué dosis los
fertilizantes e insecticidas aumentan las cosechas? Es indiscutible que la Estadística ha
llegado a ser un instrumento cotidiano para todo tipo de profesionistas y técnicos que por
la índole de sus labores deben manejar datos para que se extraigan conclusiones de
ellos.
1.1.1.2 Variable
Las variables cuantitativas pueden ser discretas o continuas. Las discretas sólo pueden
tener algunos valores válidos, por ejemplo, el número de habitantes de una ciudad
(forzoso un número entero positivo), el número de hijos (número entero positivo). En
general sirven para contar, ya sean borregos, manzanas, metros, etc.
Las variables continuas pueden tener cualquier valor, por ejemplo, la alt ura de una
persona, 1.60, 1.615, 1.6153, etc., el espesor de una hoja puede ser de 1 mm, 0.99 mm,
0.999 mm, o cualquier otro valor. Sirven para medir ya sea el espesor de una hoja de
papel, la altura de una persona, etc.
5
Las variables cualitativas pueden clasificarse en nominales y jerarquizadas. Las primeras
expresan una condición específica de las condiciones de los sujetos de estudio como su
domicilio o nacionalidad, mientras que las variables cualitativas jerarquizadas denotan una
característica de tamaño u orden por ejemplo, chico, mediano, grande; o malo, regular,
bueno. El manejo de las variables cualitativas jerarquizadas puede facilitarse si se
expresan mediante una clave numérica o alfabética, por ejemplo, 1 o A para soltero, 2 o B
para casado; etc.
Las variables pueden tomar diferentes valores o datos, así los valores o datos también se
clasifican en cualitativos y cuantitativos.
El término Población, igual que sucede con la palabra Estadística, tiene varios
significados. Población en Estadística no significa exactamente lo mismo que en lenguaje
común. Su significado en Estadística está estrechamente relacionado con el concepto de
variable. Si recuerdas una variable está vinculada con el proceso de medición de una
característica de interés que tienen en común los elementos de un conjunto determinado
de personas o cosas. Para tener una población estadística es necesario que el
correspondiente conjunto de personas o cosas (universo de estudio) haya quedado
completamente determinado.
6
Una MUESTRA es un conjunto de elementos, medidas u observaciones tomadas o
extraídas a partir de una población dada, a fin de conocer aproximadamente las
características de la población de donde proviene. Es un subconjunto de la
población.
7
Existen diferentes métodos de muestreo, aunque en general pueden dividirse en dos
grandes grupos: métodos de muestreo probabilísticos (aquellos en los que todos los
individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra
y, consiguientemente, todas las posibles muestras tienen la misma probabilidad de ser
seleccionadas. Sólo estos métodos de muestreo probabilísticos nos a seguran la
representatividad de la muestra extraída y son, por tanto, los más recomendables ) y los
métodos de muestreo no probabilísticos (no se tiene certeza de que la muestra extraída
sea representativa, ya que no todos los sujetos de la población tiene n la misma
probabilidad de ser elegidos, sin embargo, en general se seleccionan a los sujetos
siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra
sea representativa).
Las características que adoptan los procedimientos o pasos propios del método
estadístico dependen del diseño de investigación 4 seleccionado para la comprobación
de la consecuencia verificable en cuestión.
1. Recolección (medición)
2
Investigación: Es una actividad humana orientada a la obtención de nuevos conocimientos y, por
esa vía, ocasionalmente dar solución a problemas o interrogantes de carácter científico.
3
Hipótesis: Una hipótesis es algo que se supone y a lo que se le otorga un cierto grado de
posibilidad para extraer de ello un efecto o una consecuencia.
4
Diseño de investigación: El diseño de investigación constituye el plan general (plan de trabajo a
seguir) del investig ador p ara obtener respuestas a sus interrog antes o comprobar la
hipótesis de investigación.
8
En esta etapa se recoge la información cualitativa y/o cuantitativa señalada en el diseño
de la investigación. En vista de que los datos recogidos suelen tener diferentes
magnitudes o intensidades en cada elemento observado (por ejemplo el peso o la talla de
un grupo de personas), a dicha información o datos también se les conoce como
variables. Por lo anterior, puede decirse que esta etapa del método estadístico consiste
en la medición de las variables.
2. Recuento (cómputo)
A veces el recuento puede realizarse de manera muy simple, por ejemplo con rayas o
palotes; en otras ocasiones se requiere el empleo de tarjetas con los datos y, en
investigaciones con mucha información y muchos casos, puede requerirse el empleo de
computadoras y programas especiales para el manejo de bases de datos. En términos
generales puede decirse que el recuento consiste en la cuantificación de la frecuencia con
que aparecen las diversas características medidas en los elementos en estudio; por
ejemplo: el número de personas de sexo femenino y el de personas de sexo masculino o
el número de niños con peso menor a 3 kilos y el número de niños con peso igual o mayor
a dicha cifra.
Como ejemplo de ésta etapa, el IFE hace su recuento de todos los votos de todas las
casillas que se abrieron a través del país.
9
3. Presentación
En esta etapa del método estadístico se elaboran los cuadros y los gráficos que permiten
una inspección precisa y rápida de los datos. La elaboración de cuadros, que también
suelen llamarse tablas, tiene por propósito acomodar los datos de manera que se pueda
efectuar una revisión numérica precisa de los mismos.
En esta etapa, el IFE hace toda una presentación de sus resultados a través de su sitio
oficial. Te recomiendo visitarlo:
http://www.ife.org.mx/portal/site/ifev2/Estadisticas_y_Resultados_Electorales/
4. Síntesis
Entre las principales medidas para sintetizar los datos cuantitativos se encuentra la moda
y la amplitud, la mediana y los percentiles y el promedio y la desviación estándar. Estas
medidas las trabajaremos en la unidad 2.
5. Análisis
10
dos grupos de personas sometidas a diferentes dietas, el análisis estadístico de los datos
consiste en la comparación de ambos promedios con el propósito de decidir si parece
haber diferencias significativas entre tales promedios. Existen procedimientos bien
establecidos para la comparación de las medidas de resumen que se hayan calculado en
la etapa de descripción. Tales procedimientos, conocidos como pruebas de análisis
estadístico cuentan con sus fórmulas y procedimientos propios. Estos procedimientos los
lleva a cabo la Estadística Inferencial la cual estudiaremos en la unidad 3.
Cada prueba de análisis estadístico debe utilizarse siempre en función del tipo de diseño
de investigación que se haya seleccionado para la comprobación de cada consecuencia
verificable deducida a partir de la hipótesis general de investigación. Lo anterior se lleva a
cabo a través de la Estadística Inferencial mediante un procedimiento llamado pruebas de
hipótesis las cuales estudiarás en cursos posteriores.
Es lógico efectuar el recuento de la información (2a. etapa, Recuento) solo hasta que
previamente fue recogida (1a. etapa, Recolección o Medición). Antes de condensar la
información en la etapa de síntesis (4a. etapa) siempre conviene haberla comprendido a
través de la elaboración de cuadros y gráficos (3a. etapa Presentación).
Desde luego es impensable efectuar análisis estadístico (5a. etapa, Análisis) para
comparar medidas de resumen si antes estas no han sido calculadas (4a. etapa, Síntesis)
Por lo anterior, puede considerarse a la estadística como una disciplina que posee su
propio método. Tal disciplina emplea conocimientos de otras ciencias como la lógica y la
matemática y por ello se dice que la estadística es una forma razonable de emplear el
sentido común y la aritmética para el manejo de los datos en las investigaciones.
11
Una distribución de frecuencias es una tabla que representa el número de elementos que
pertenecen a cada una de las clases o categorías en las que se halla dividido el conjunto
de datos para su estudio. La tabla está compuesta por los siguientes elementos:
Clase Frecuencia
Rojo 25
Azul 18
Negro 42
Plata 15
TOTAL 200
12
Los pasos a seguir para la elaboración de una Distribución de Frecuencias son:
A) Recopilación de datos.
B) Ordenamiento de los datos.
C) Determinación del número de clases.
D) Cálculo del intervalo o ancho de cada clase.
E) Elaboración de intervalos.
F) Obtención de frecuencias.
Ejemplo 1:
Datos Originales
A) Recopilación de datos
Consiste en escribir los datos de la muestra que nos interesa conocer, sin importar el
orden.
Consiste en ordenar los datos en forma ascendente o descendente para facilitar el conteo
de datos que correspondan a cada uno de los intervalos. Los ordenamos de forma
ascendente.
13
1.43 m 1.54 m 1.66 m 1.78 m
1.47 m 1.56 m 1.69 m 1.81 m
1.48 m 1.57 m 1.70 m 1.82 m
1.51 m 1.58 m 1.72 m 1.88 m
1.52 m 1.61 m 1.73 m
1.53 m 1.61 m 1.78 m
Número de clases=
Intervalo =
El intervalo o ancho de clase se debe ajustar, esto se logra aumentando el ancho de clase
calculado a la siguiente unidad de variación después del ancho de clase; es decir, si por
ejemplo el ancho calculado de un grupo de datos cuya unidad de variación es 1 resulta
193.4, el ancho ajustado debe ser 194; si la unidad de variación de un grupo de datos es
de 50 y el ancho calculado es de 220 entonces se debe ajustar a 250.
E) Elaboración de intervalos
Cada intervalo de clase está formado por un límite inferior (LI) y un límite superior (LS).
Estos límites se calculan de la siguiente forma
14
En nuestro ejemplo tenemos que
F) Obtención de Frecuencias
Ejemplo 2:
15
Datos Originales
A) Recopilación de datos
Número de clases=
Lo redondeamos a 6 clases.
Intervalo =
16
La unidad de variación en este ejemplo es de 50, por lo tanto el intervalo o ancho de clase
se ajusta a 200.
E) Elaboración de intervalos
Recordemos que cada intervalo de clase está formado por un límite inferior (LI) y un límite
superior (LS) y que se calculan de la siguiente forma
G) Obtención de Frecuencias
17
Clase Límite Inferior Límite superior Frecuencia
A 450 600 //// 4
B 650 800 ///////// 10
C 850 1000 ///////// 9
D 1050 1200 /// 3
E 1250 1400 ////// 6
F 1450 1600 /// 3
TOTAL 35
Ejemplo 3:
En una tienda departamental se toma una muestra de 15 personas a las cuales se les
pregunta sobre su preferencia por el sabor de un refresco. Los resultados obtenidos son
los siguientes
Como los datos son cualitativos, el número de clases está determinado por la naturaleza
de los mismos datos, es decir: Cola, Limón, Manzana, Naranja, Tamarindo y Toronja.
F) Obtención de Frecuencias
Clase Frecuencia
Cola 5
Limón 1
Manzana 4
Naranja 1
Tamarindo 1
18
Toronja 3
TOTAL 15
FR
Ejemplo 2:
19
1.4 Presentaciones gráficas
“Una gráfica vale más que mil palabras”, dice el refrán. Esto es particularmente cierto en
el caso de los análisis estadísticos, donde los datos al natural e incluso tabulados pueden
ser abrumadores, difíciles de comprender. Las gráficas tienen por objeto representar las
características esenciales de los resultados obtenidos en la tabulación, en particular en
una distribución de frecuencias. Las gráficas que usaremos básicamente son los
Histogramas, para datos cuantitativos, y Gráficas de Sectores o Pastel, para datos
cualitativos.
1.4.1 Histogramas
En ésta gráfica podemos observar rápidamente que el precio de los boletos en su mayoría
estuvieron dentro del intervalo B de $650 a $800, seguido del precio dentro del intervalo C
20
de $850 a $1000; al mismo tiempo podemos observar que el rango de precios entre
$1050 -$1200 y $1450 - $1600, intervalos D y F respectivamente, fue el menos frecuente.
5
Existen algunos otros programas para hacer gráficas como los programas equivalentes en Ubuntu
(Linux) con open office o los estudiantes que usan Mac.
La versión que se utilizó para los ejemplos en este apartado es Microsoft Excel 2007.
21
3.- Del menú, escoges las opciones: Insertar, Columna, Columna en 2-D, el primer subtipo
de gráfica.
22
4.- Sobre cualquier barra de los datos debes colocar el puntero del ratón y darle botón
derecho para desplegar el menú secundario, con lo anterior podrás modificar algunas
características del gráfico.
Del menú que surge escoges la última opción “Dar formato a serie de datos” y aparece
una ventana con varias opciones. La que nos interesa en particular es “Ancho del
23
intervalo” en la cual debes mover el medidor “Sin intervalo” hacia la izquierda; te debe
quedar esta pantalla
5.- Una vez más colocas el apuntador del ratón en cualquiera de las barras de los datos y
aprietas el botón derecho para desplegar nuevamente el menú alterno donde una vez
24
más elijes “Dar formato a serie de datos” y ahora escoges la opción “Color del borde”,
donde seleccionas las opciones Línea sólida y color negro
Obteniendo
25
6.- Seleccionas la leyenda “Frecuencia” que se encuentra a la derecha de la gráfica y la
borras con la tecla suprimir (“supr”).
7.- Seleccionas el título Frecuencia y le das nuevamente “click” con el apuntador del ratón
para editarlo y cambiarlo por “Frecuencia del precio del boleto por clase o intervalo”.
26
Finalmente con los pasos anteriores has logrado construir un Histograma.
En este caso los datos se encuentran distribuidos uniformemente alrededor del valor con
mayor frecuencia, es decir, 50% a la izquierda y 50% a la derecha con respecto a la
frecuencia más alta. Se dice entonces que los datos están distribuidos normalmente.
2. La dispersión de éstos.
En este caso los datos se encuentran distribuidos dentro de todas las clases sin presentar
alguna concentración en particular.
27
3. Si existen intervalos que tienen un alto nivel de concentración de datos.
En este caso los datos se encuentran concentrados en particular sobre alguna clase.
28
1.4.2 Gráficas de Sección o Pastel
Las gráficas de sección o pastel se usan como un recurso estadístico para representar
porcentajes y/o proporciones. Son gráficas circulares divididas en secciones o
“rebanadas” que suman el 100%; cada sección o rebanada está dada por la frecuencia
relativa (%) y se utilizan particularmente para datos cualitativos.
Clase Frecuencia FR
(%)
Cola 5 33.33
Limón 1 6.67
Manzana 4 26.66
Naranja 1 6.67
Tamarindo 1 6.67
Toronja 3 20
TOTAL 15
29
1. Copia la tabla de distribución de frecuencias en una hoja de Excel.
30
3.- Del menú, escoges las opciones: Insertar, Circular, Gráfico 2D, el primer subtipo de
gráfica.
31
4.- Sobre cualquier sección o rebanada debes colocar el puntero del ratón y darle botón
derecho para desplegar el menú secundario, con lo anterior podrás modificar algunas
características del gráfico. Debes escoger la opción “Agregar etiquetas de datos”
y al hacerlo te queda
32
Tienes que volver a darle con botón derecho del apuntador del ratón sobre cualquier
sector o rebanada para escoger ahora la opción “Formato de etiquetas de datos”
33
y quitas la opción “Valor” y seleccionas la opción “Porcentaje”
34
5.- Finalmente hay que cambiar el titulo de la gráfica por “Sabor de refresco”. Para
cambiarlo debes editarlo y para editarlo tienes que darle “click” con el puntero del ratón,
esperar unos segundos y volver hacerlo. Una vez editado lo debes cambiar.
35
Conclusión
Haz finalizado tu primera unidad del curso de Estadística y Probabilidad, en el cual vimos
36
Referencias
De contenido
Libros
De consulta
Sitios de internet
Te sugiero revisar las siguientes ligas electrónicas para reforzar los temas aprendidos en
esta unidad como los conceptos básicos, construcción de tablas de distribución de
frecuencias, histogramas y gráficas de pastel.
De imágenes
1. John Graunt
Recuperado de:
http://www.flickr.com/photos/galeria-est/4531241325/
2. Jacob Benoulli
Recuperado de:
http://www.flickr.com/photos/9892313@N04/3580196007/
3. Karl Pearson
Recuperado de:
http://www.bun.kyoto-u.ac.jp/philosophy_and_history_of_science/phs-
37
archives/Images/pearson.p.jpg
4. Población y muestra
Recuperado de:
http://www.eyeintheskygroup.com/Azar-Ciencia/Analisis-Estadistico-Juegos-de-
Azar/Estadistica-Descriptiva-Poblacion-y-
Muestra_archivos/Poblaci%F3n%20y%20Muestra%20Estad%EDstica.jpg
8. Concentración de datos
Elaborada por: Víctor Manuel Terreros Muñoz
Editado por: Alma Martínez Campech
38