Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Antologia de Lecturas Eaei 2023
Antologia de Lecturas Eaei 2023
COMENTADA
2023
ESTADÍSTICA
APLICADA A LAS
EMPRESAS I
ANTOLOGÍA DE LECTURAS
AGOSTO-DICIEMBRE
ACADEMIA DE ESTADÍSTICA
2
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
INDICE
INTRODUCCIÓN ........................................................................................................................... 4
TEMA I. INTRODUCCIÓN Y RECOLECCIÓN DE DATOS ...................................................................... 8
LECTURA 1. ARISTAS DEL CRECIMIENTO ............................................................................................. 8
LECTURA 2. USO DE LA ESTADÍSTICA ................................................................................................ 10
LECTURA 3. CONCEPTOS AFINES ....................................................................................................... 11
LECTURA 4. LA ESTADÍSTICA, FUNDAMENTAL PARA EL DESARROLLO SUSTENTABLE ...................... 15
LECTURA 5. ¿QUÉ ES LA ESTADÍSTICA MODERNA?........................................................................... 17
LECTURA 6. DISCIPLINA MILITAR EN EL TRABAJO.............................................................................. 22
LECTURA 7. HISTORIA DE LA ESTADÍSTICA......................................................................................... 25
LECTURA 8. HISTORIA DE LA ESTADÍSTICA......................................................................................... 29
LECTURA 9. HISTORIA Y MÉTODO ESTADÍSTICO ................................................................................ 31
LECTURA 10. HISTORIA Y CONCEPTOS ............................................................................................... 35
LECTURA 11. LA INVESTIGACIÓN ESTADÍSTICA.................................................................................. 38
LECTURA 12. CONCEPTOS AFINES ..................................................................................................... 61
LECTURA 13. EL INFORME KINSEY ..................................................................................................... 64
LECTURA 14. ENCUESTA POR ENTREVISTA ........................................................................................ 68
LECTURA 15. DISEÑO DE CUESTIONARIO .......................................................................................... 72
LECTURA 14. MÁS ALLÁ DE LAS ENCUESTAS ..................................................................................... 91
COMENTARIO ............................................................................................................................ 93
TEMA 2: ESTADÍSTICA DESCRIPTIVA ............................................................................................ 95
LECTURA 17. INTRODUCCIÓN A LA ESTADÍSTICA DESCRIPTIVA ........................................................ 95
LECTURA 18. GRÁFICOS .................................................................................................................. 100
LECTURA 19. ORGANIZACIÓN Y REPRESENTACIÓN DE DATOS ........................................................ 107
LECTURA 20. MEDIDAS DE TENDENCIA CENTRAL ........................................................................... 112
LECTURA 21. GRÁFICAS DE DISTRIBUCIONES ................................................................................. 118
LECTURA 22. FUNDAMENTOS DE LA ESTADÍSTICA DESCRIPTIVA .................................................... 122
COMENTARIO .......................................................................................................................... 133
TEMA 3. DATOS CUALITATIVOS ................................................................................................. 134
LECTURA 23. ANÁLISIS CONJUNTO DE DOS VARIABLES ................................................................. 134
COMENTARIO .......................................................................................................................... 137
TEMA 4. TEORÍA DE LA PROBABILIDAD ..................................................................................... 138
LECTURA 24. PROBABILIDAD ........................................................................................................... 138
LECTURA 25. PRINCIPIOS DE PROBABILIDAD .................................................................................. 145
3
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
COMENTARIO .......................................................................................................................... 153
TEMA 5. DISTRIBUCIONES DE PROBABILIDAD............................................................................ 154
LECTURA 26. DISTRIBUCIONES DE PROBABILIDAD DISCRETAS Y CONTINUAS................................ 154
LECTURA 27. DISTRIBUCIONES ........................................................................................................ 164
COMENTARIOS ........................................................................................................................ 168
BIBLIOGRAFÍA .......................................................................................................................... 169
4
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
INTRODUCCIÓN
Desde el 2002, la Universidad Autónoma del Carmen (UNACAR) ha venido trabajando con
un modelo educativo centrado en el aprendizaje y actualmente se enriquece al continuar siendo
un modelo que se centra en el aprendizaje del estudiante, enfatizando esta visión con un enfoque
didáctico por competencias. Así, en el 2009, inició un cambio sustancial que busca responder a
los retos que el escenario educativo nacional e internacional plantea a todas las instituciones
educativas.
Por lo tanto, es necesario el diseño y la adecuación de los materiales didácticos que deberán
hacer mayor énfasis en la digitalización de la información, planteamiento de estrategias que
estimulen la investigación con su correspondiente difusión, y el cambio de estrategias a favor del
enfoque por competencias.
Dentro de este marco, presentamos la Antología Comentada para Estadística Aplicada a las
Empresas I, documento pensado y diseñado para todos los alumnos inscritos en alguno de los
cinco Programas Educativos de la Facultad de Ciencias Económico Administrativas de la
UNACAR, el nombre indica el carácter secuencial que se espera este material, al considerar un
segundo tomo aplicado al curso subsecuente. En su diseño se han incluido algunos materiales
que a lo largo de varios años de experiencia, los miembros de la Academia de Estadística han
venido recopilando y adecuando a las necesidades propias del programa del curso. Finalmente,
la antología trata de reflejar las diversas facetas de la estadística: como ciencia, como herramienta
de investigación en áreas diversas y como medio para la solución de problemas del área
administrativa.
Por otro lado, es conveniente señalar que en el campo empresarial hay demasiada
competencia por la cual se requiere de conocimientos, habilidades, actitudes y comportamientos
conforme al área en la cual se quiera trabajar; la estadística coadyuva a desarrollar algunas de
las competencias necesarias en este ámbito: competencias para la comunicación, la planeación
y gestión, para el trabajo en equipo, para la acción estratégica, para una autoadministración y una
administración multicultural.
5
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Adicionalmente, todos aquellos que se precien de realizar investigación tendrán que tener un
conocimiento mínimo de esta disciplina, pues gran parte de sus resultados se basan en
observaciones procesadas estadísticamente. Al estudiante universitario, especialmente a aquel
que no está dentro de las disciplinas “duras”, le es muy difícil entender magnitud y la importancia
que tiene y tendrá esta disciplina en su vida profesional y cotidiana, gran parte de ello se debe a
la poca consciencia que tiene del papel que ha jugado la estadística a lo largo de la historia de la
evolución del hombre hasta llegar a la época moderna.
La estadística en el análisis de datos es muy amplia y las áreas en las que se aplica son
diversas, desde las ciencias exactas hasta las ciencias sociales. En la estadística encontramos
que la mayor diferencia entre los diferentes cursos, a nivel licenciatura, radica en los ejemplos
que se utilizan, mientras que el contenido de los cursos son básicamente los mismos. En el área
de Administración interesan cosas como ganancias, horas trabajadas y salarios. Tal cual se
señala en su título, el material que se presenta en esta antología se ha seleccionado pensando
en una aplicación inmediata, con la cual se identifique el futuro profesional del área administrativa.
Si revisamos libros afines al área encontraremos una gran diversidad de ellos, sin embargo,
esta antología es un material que ha hecho pensar, en las ventajas de contar con un documento
pensado y diseñado “a medida”, para ser utilizado como base del curso del mismo nombre que
se imparte en las Licenciaturas en Negocios Internacionales, Mercadotecnia, Administración,
Hospitalidad y Contabilidad.
El material incluye el programa del curso de Estadística Aplicada a las Empresas I, donde se
observa el uso de este documento a lo largo de las cinco secuencias que integran el programa,
que respectivamente dan lugar a las cinco secciones de la antología se va requiriendo en el curso.
En primer lugar, presentamos una breve panorámica de los conceptos estadísticos. Hay que
aclarar que desde un punto de vista matemático, existen numerosas dificultades de tipo
6
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
filosófico ligadas a la interpretación de estos conceptos y su aplicación a situaciones prácticas.
Se debe estar consciente de la pluralidad de significados atribuibles a conceptos como el de
aleatoriedad o probabilidad y de las controversias existentes en torno a la inferencia estadística,
puesto que las dificultades epistemológicas se reproducen con frecuencia en el aprendizaje de
los alumnos.
¿En cuántos casos el fenómeno que se está observando se presenta bajo determinada
forma? o bien ¿En qué proporción del total de casos observados, el fenómeno se presenta bajo
esa forma?
En un tercer capítulo tenemos lecturas que abordan los datos emanados de variables
aleatorias cualitativas. Por lo cual se hace necesario la incursión en el manejo de datos
categóricos, siendo estos lo de uso más común en las ciencias sociales y por ende en la
administración. Es menester señalar que se abordarán algunas lecturas complementarias al
cuaderno de Ejercicios de Estadística I que emplean los alumnos del mismo curso.
7
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Al iniciar cada lectura vine la bibliografía de la cual se obtuvo, independientemente que al final
del documento viene el listado completo de todas las empleadas en este.
Por último, sólo resta señalar que la selección de las lecturas se hizo de acuerdo con la
claridad en el manejo de conceptos y ejemplos, y que este se complementa con el juego de
diapositivas, prácticas, video y cuaderno de ejercicios, elaborados y en algunos otros casos
rediseñadas por los mismos autores, que versan sobre las mismas temáticas.
Por último sólo resta señalar que este material comparte varias de sus lecturas con la
Antología de Estadística Descriptiva que se aplica para los estudiantes de la Facultad de
Educación, sin embargo la mayoría de ellas son de empleo específico para el estudiante de
administración.
Academia de Estadística
8
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
9
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Tratado de Libre Comercio de América del Norte, La minería ha sido una de las actividades que han
permitieron un incremento en la inversión y permitido un desempeño saludable de muchos
generaron crecimiento, pero este no ha ido países en estos últimos años. Chile y Perú deben
suficiente para compensar los lastres que en buena medida la bonanza que están viviendo
registra la economía en otros puntos. a los altos precios del cobre y de otros productos
minerales, que son comprados ávidamente por
No debe extrañarnos, por ejemplo que el sector los industriales chinos. En México, sin embargo,
primario haya tenido consistentemente un peor se erigen enormes obstáculos al establecimiento
desempeño que otros sectores de la economía. de nuevas minas y los operadores son a menudo
Tenemos una serie de políticas públicas que objeto de chantajes tanto del crimen organizado
parecen estar hechas para debilitar la como de grupos sociales que buscan arrancar
producción en el campo. En México una granja recursos a empresas que ya hayan cumplido con
de 101 hectáreas es, por definición todos los requisitos de ley para la extracción de
constitucional, in monopolio. En otros países mineral. Vale la pena recordar, por otra parte,
productores, como Estados Unidos, Canadá o que la principal mina de cobre del país, la de
Brasil, los centros de producción agrícola tienen Cananea, tuvo que interrumpir varios su
con frecuencia extensiones de miles de operación debido a una huelga ilegal promovida
hectáreas y una gran seguridad en la tendencia desde su exilio en Vancouver por el líder minero
de la tierra, lo cual facilita las inversiones Napoleón Gómez Urrutia.
productivas de largo plazo. En México, por otra
parte, está prohibido el cultivo del maíz Una de las razones del crecimiento económico
transgénico, que tiene mayor resistencia y que ha tenido Brasil en los últimos años ha sido
productividad. Esto no significa que no se cultive el aumento de la inversión de producción
este maíz en México: quiere decir que petrolera, en un tiempo en que la extracción de
terminamos importándolo de Estados Unidos. crudo en México.
10
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
11
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
El mejor empleado no es el que más suda, sino 2 ¿Qué se requiere para entender un Curso
que es el que mejor piensa y decide hacer lo que Básico de Estadística?
considera que es racionalmente correcto.
☞ Conocimientos de Aritmética básica:
Para tomar decisiones se debe estar en sumar, restar, multiplicar y dividir.
capacidad de llenar los vacíos de información de
la manera más racional posible. ☞ Seguridad de uno mismo: puedo
conseguir lo que me propongo.
Es aquí donde la Estadística puede ayudar a
tomar decisiones racionalmente correctas: ☞ Poner atención y dedicación en las clases
ayuda a llenar los vacíos de información. del curso.
Este curso va dirigido a enseñar progresivamente ☞ Hacer un pequeño esfuerzo por repasar
el uso de la Estadística para obtener un en casa lo que se ha aprendido.
conocimiento más profundo, racionalmente
aceptable, del comportamiento de un proceso. ☞ Memorizar las definiciones y los
Con la Estadística podemos ver más allá de lo ven esquemas.
nuestros ojos.
12
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
☞ La fórmula del triunfador, en cualquier
actividad de la vida, es:
Es tan importante que casi no existe actividad humana en que no esté involucrada la Estadística. Las
decisiones más importantes de nuestra vida se toman con base en la aplicación de la Estadística. Pongamos
algunos ejemplos.
NOTA: este proceso se llama probabilístico. Abundan los procesos probabilísticos. La Estadística,
en un curso más avanzado, me enseñará a determinar cuándo una actividad probabilística tiene
un resultado ACEPTABLE.
13
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Ejemplo: todos los que leen El Tribuna en Es cualquier actividad física que nos interese
Carmen. estudiar. Ejemplo: las ventas, la producción
Son todas las mediciones que he podido diaria, los gastos diarios, el horneado del pan,
obtener de una actividad o proceso. la densidad de tinta en una impresión, el
Ejemplo: ventas mensuales en un envasado de refrescos.
supermercado.
MEDICIÓN
MUESTRA
Consiste en:
Es una parte, escogida aleatoriamente, de Escoger una característica cuantificable de la
una población. actividad en estudio.
Ejemplo: tomar 20 facturas de entre las Ejemplo: peso de las bolsas de concentrado.
ventas del mes en una tienda. NOTA: el color de la bolsa no es una
característica cuantificable.
VARIABLE
Usar un instrumento de medida apropiado,
Es la medición de una actividad en que los según la característica en estudio.
Ejemplo: una balanza o una báscula.
resultados no son todos iguales.
Ejemplo: el número de compradores que
llegan en un día a una ferretería. Someter la muestra al instrumento. Ejemplo:
pesar, anotar cuidadosamente el resultado.
CONSTANTE
Ejemplo: 340 Kg.
Es la medición de una actividad en que los
resultados son todos iguales. OBSERVACIÓN
Ejemplo: el número de operarios en un
taller. Se aplica cuando la característica en estudio
es CUALITATIVA. Interesa saber si se tiene o
PROBABILÍSTICO no se tiene una característica. El resultado se
expresa en porcentaje.
Es un proceso cuyos resultados no se pueden
predecir con seguridad, pues se escapa a ser Ejemplo: el color de una tinta.
controlado.
Ejemplo: el 38% de las piezas son de color
Ejemplo: el número y los tipos de defectos rojo.
que voy a encontrar en la próxima página
impresa que voy a examinar. 6 ¿Qué hace la ESTADÍSTICA BÁSICA O
DESCRIPTIVA?
MUESTREO
☞ Toma mediciones exactas.
Es la escogencia técnica de una muestra ☞ ORGANIZA la información obtenida con
tomada de una población determinada. Con las mediciones.
el Muestreo se asegura que la muestra sea ☞ Con las mediciones CONOCE el proceso
REPRESENTATIVA. en estudio.
☞ TOMA DECISIONES DETERMINISTICAS
FENÓMENO O PROCESO para mejorar el proceso.
14
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
7 ¿Qué hace la ESTADÍSTICA INFERENCIAL? NOTA: recuérdese que una muestra es tan
solo una parte de la población, por
• Obtiene mediciones muestrales consiguiente, si se quiere extrapolar, o sea,
representativas. aplicar los resultados de la muestra a toda la
• GENERALIZA estos resultados Población, tienen que usarse los
muestrales para toda la población. conocimientos que da la Estadística
• TOMA DECISIONES PROBABILÍSTICAS Inferencial. Para ello se toma muestras
para mejorar el proceso en estudio. representativas de la población en estudio.
15
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Actualización necesaria
16
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
valiosos recursos humanos. “Ese activo que
pudo ser nuestro, deja de serlo”, advirtió.
Información oportuna
17
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
mejorar la manera de impartir esta ciencia en las Para tratar esta y otras temáticas relacionadas, el
aulas, así como desarrollar una metodología de IIMAS – junto con la Asociación Mexicana
investigación, porque la que hay en el país aún Autónoma de México- organizó la mesa redonda
impaciente. La Estadística para el Desarrollo Sostenible de
México.
18
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
19
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Estados Unidos requirió el levantamiento de una población, basándose solo en los resultados
censos cada diez años. Actualmente estos datos de la muestra.
se usan para muchos propósitos, incluyendo
Para aclarar esto, son necesarias algunas otras
prorrateo del Congreso y la asignación de fondos
definiciones.
federales.
20
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
pasarse en la información contenida en muestra personas que sean exactamente iguales) y que la
de esa población. identificación, control y reducción de la variación
proporciona oportunidades para mejorar la
La teoría de probabilidades proporciona el enlace calidad. Los métodos estadísticos pueden
al averiguar la probabilidad de los resultados de proporcionar el vehículo para aprovechar esas
la muestra reflejen los resultados de la población. oportunidades. El papel de los métodos
Estas ideas también pueden ilustrarse estadísticos en el contexto de mejorar la calidad
refiriéndose al ejemplo de una votación política. puede entenderse mejor si nos referimos a un
Si el encuestador desea estimar el porcentaje de modelo de mejorar la calidad.
los votos que un candidato obtendrá en una
elección particular, no entrevistará a cada uno de Podemos observar que el triángulo consta de tres
los miles (o incluso millones) de votantes que porciones; en la parte superior, tenemos la
componen la población. En vez de esto se filosofía de la administración y en la dos esquinas
seleccionará una muestra de votantes. inferiores tenemos los Métodos estadísticos y las
Basándose en el resultado de la muestra, se Herramientas de comportamiento. Cada uno de
extraerán conclusiones referentes a toda la esos tres aspectos es indispensable para el
población de votantes. Adjunto a estas mejoramiento de calidad a largo plazo de
conclusiones se tendrá un planteamiento de cualquiera de los bienes manufacturados o de los
probabilidad que especifique la verosimilitud o servicios prestados por una organización. Una
confianza que los resultados de la muestra filosofía de la administración proporciona una
reflejen el comportamiento de votación de la base constante para los esfuerzos por mejorar la
población. calidad. Entre los enfoques disponibles están
aquellos preconizados por W. Edward Deming y
PENSAMIENTO ESTADÍSTICO Y Joseph Juran.
ADMINISTRACIÓN MODERNA
Para instrumentar un enfoque de aumento de
En la década pasada, el surgimiento de una calidad en una organización, se necesitan usar
economía global ha llevado a un interés mayor en tanto las herramientas de comportamiento como
la calidad de los productos manufacturados y de los métodos estadísticos. Cada uno de éstos
los servicios prestados. De hecho más que el ayuda en la comprensión y en el
trabajo de cualquier otra persona, la labor del perfeccionamiento de los procesos. Entre las
estadístico W. Edwards Deming ha conducido a herramientas de comportamiento útiles están el
este ambiente empresarial modificado. Una flujo de procesos y los diagramas de esqueleto de
parte integral del enfoque gerencial que contiene pescado, la lluvia de ideas, la toma de decisiones
este interés creciente en la calidad (a menudo de grupo nominal y la estructuración de equipos.
referido como administración para la calidad Entre los métodos estadísticos más útiles para el
total) es la aplicación de ciertos métodos desarrollo de una mayor calidad están las
estadísticos y el uso del pensamiento estadístico numerosas tablas, diagramas y estadísticas
por parte de los gerentes de una compañía. descriptivas y los diagramas de control.
21
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
importante distinción entre dos tipos de estudios forma de un producto o un servicio
estadísticos que se emprenden: Los estudios proporcionado; y el paso de trasformación
enumerativos y los estudios analíticos. intermedio que convierte las entradas en la salida
deseada. Una pregunta clave gira en torno a
Los estudios enumerativos involucran la toma de cómo puede usarse cualquier dato que pudiera
decisiones respecto a una población y/o sus ser recabado como parte del proceso (a menudo
características. en un periodo) para mejorar el proceso en el
futuro.
Las elecciones políticas son un ejemplo de un
estudio enumerativo puesto que sus adjetivos La distinción estudios enumerativos y analíticos
son proporcional estimaciones de las es importante, puesto que los métodos que han
características de la población y decidir ciertas sido desarrollados principalmente para estudios
acciones sobre esa población. El listado de todas enumerativos pueden ser engañosos o
las unidades (como los votantes registrados) que incorrectos para estudios analíticos.
pertenecen a la población, se denomina el marco
y proporciona la base para la selección de la Algunos métodos son apropiados para cualquier
muestra. Así pues, el enfoque del estudio tipo de estudio. Otros métodos son apropiados
enumerativo está puesto sobre el conteo (o principalmente para estudios enumerativos o
medición) de los resultados obtenidos a partir del principalmente analíticos.
marco.
EL PAPEL DE LOS PAQUETES DE COMPUTACIÓN
Los estudios analíticos involucran realizar alguna EN ESTADÍSTICA.
actividad sobre un proceso para mejorar el
Durante los últimos 20 años, el campo de la
desempeño en el futuro.
estadística ha cambiado dramáticamente
La investigación de los resultados de un proceso mediante el desarrollo de software de
de fabricación o de servicio, considerado durante computadora especialmente escrito para el
cierto tiempo, es un ejemplo de estudio analítico análisis estadístico. Durante los ochenta, el
.La atención de un estudio analítico está puesto software estadístico experimento una vasta
sobre la predicción del comportamiento futuro revolución tecnológica. Además de las mejoras
de un proceso y sobre la comprensión y manifestadas en actualizaciones periódicas, la
perfeccionamiento de este proceso. En un disponibilidad de computadoras personales
estudio analítico, no existe un universo condujo al desarrollo de nuevos paquetes que
identificable, como sucede en un estudio usaban una interfaz manejada por menúes.
enumerativo y en consecuencia, tampoco hay un
Además, rápidamente se dispuso de las versiones
marco.
de computadoras personales de paquetes como
En el estudio enumerativo, el tazón representa la SAS, SPSS y MINITAB. Más aún, el uso cada vez
población. Las preguntas de interés giran en mayor de los paquetes de hojas de cálculo
torno a la pregunta “¿qué hay en el tazón?”. Un populares como Lotus 1-2-3 y Excel llevaron a la
ejemplo de esto sería saber cuántas bolas del incorporación de peculiaridades estadísticas en
tazón son negras o en qué proporción son negras. estos paquetes.
En el estudio analítico, hay varias etapas que El final de las décadas de los años ochenta y el
componen un proceso. Estas etapas por lo principio de los noventa representaron un
general incluyen entradas que podrían abarcar periodo continuo de avances tecnológicos.
alguna combinación de persona, equipo, Mientras que los primeros paquetes
material e información; salidas que tienen la desarrollados para las computadoras personales
solo estaban disponibles para maquinas IBM o
22
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
compatibles, actualmente los paquetes han sido salida de varios de estos paquetes
adaptados al ambiente de las computadoras (principalmente MINITAB, SAS y SPSS), con un
Macintosh. Además, los rápidos avances en el énfasis más limitado en los pasos involucrados en
hardware de las computadoras implico que se los cálculos. Esto es congruente con el tema del
pudiera disponer de cantidades más grandes de texto, que subraya el uso apropiado de los
memoria de computadoras a un costo menor. métodos estadísticos antes que la teoría
Esto permitió a los creadores de paquetes incluir matemática subyacente a los métodos.
procedimientos estadísticos adicionales más
Aunque el software estadístico ha hecho factibles
sofisticados en cada versión posterior.
incluso los análisis más sofisticados, los
Por tanto, es fácil comprender por qué el uso de problemas surgen cuando usuarios inexpertos
estos paquetes de software es algo común estadísticamente, que no comprenden las
dentro de las comunidades empresariales, premisas que están detrás de los procedimientos
académicas y de investigación. Así pues, en este o las limitaciones de los resultados obtenidos,
texto adoptaremos la posición de que al realizar son engañados por la salida estadística generada
un análisis estadístico, es casi seguro que se por la computadora. Por razones pedagógicas,
tenga acceso a algún paquete o paquetes (o un creemos que es importante que las aplicaciones
paquete de hoja de trabajo) de software de los métodos incluidos en el texto se ilustren
estadístico. Con esto en mente, nuestra atención mediante el uso de ejemplos resueltos.
está puesta en la interpretación de la
23
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
22
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
“hacerse de la vista gorda”, no son nuevos. Pero Es más fácil, aunque no lo creas, imponer el
eso no debe servirnos para justificar el despreciar desorden que el orden aun lugares muy
la disciplina, el orden, los límites y sobre todo, organizados. Me confieso culpable de haberlo
para entender lo que los expertos llaman “La hecho en mi trabajo de Inglaterra y en Italia.
Tiranía del Caos”. O sea que donde reina el Pronto mi equipo de mexicanos y yo fuimos
desorden, todo se dificulta: el trabajo, el imponiendo nuestras propias reglas. Y pronto
desempeño, la misma autoestima del individuo también nos dimos cuenta de que íbamos
se mejora. A todos nos conviene el orden y lo que volviendo una célula maligna en aquel cuerpo.
en oficinas se conoce como “respetar el Dizque trabajamos más “a gusto”, pero en
organigrama”. realidad, salíamos más tarde porque se retrasaba
el trabajo, y los de allá podían irse al pub o al café
Si llegas a un lugar desorganizado donde más pronto y hacer la reunión afuera. Nos fuimos
reina la indisciplina, tú puedes ayudar aislando y, al ir contracorriente, nos hicimos la
imponiéndote primero una autodisciplina y, con vida más difícil, pues no fluía, y a golpes de la
tu ejemplo, poco a poco hacer que los demás realidad, tuvimos que analizar y concluir que
vayan haciéndose a la idea de que le conviene. estábamos equivocados. Y no solo por no
adaptarnos, sino por no aceptar que los limites –
** Aunque no lo creas, los límites brindan como el pasamano de una escalera- te permiten
seguridad y confianza** circular y trabajar con mayor libertad que el
desorden.
Individualismo o indisciplina
El liderazgo
Mucho tiempo se pensó que la libertad ayudaba
a la creatividad, que hacía individuos con Si quieres aprender a ser líder pronto, la
personalidad propia. Hoy se sabe que no es así. mejor manera es obedecer y seguir a tu actual
líder. Si es disciplinado, claro, y a su vez obedece
Y aquí en México, sobre todo, tendemos a reglas.
resentir que nos manden, que nos den órdenes o
que nos obliguen a seguir lineamientos ajenos; y Porque un jefe desordenado y caótico
no nos vendría mal copiar otros sistemas de puede ser el camino más directo al estrés, la
trabajo más productivos y más exitosos donde la angustia o la flojera. Si el tuyo es de tipo, lo mejor
clave es la disciplina. es cambiarte de área o de empresa. Si no es
posible, inventa historias de intolerancia del
Si tú quieres subir, aspirar a mejores novio o de tu familia a las salidas tarde, presenta
puestos, tener acceso a una gerencia o una iniciativas en la mañana que lo motiven a trabajar
dirección, lo primero es mirar a tu alrededor y ver a tu manera, haz los trabajos tú sola y preséntalos
qué equipo de trabajo o que director (a) y su ya terminados, demostrándole veladamente que
equipo son los que funcionan mejor y con más vas a trabajar sin él.
soltura. Al llegar nueva a un trabajo, observa las
reglas, analízalas si quieres y anota los cambios Sigue las reglas
que propondrías a que introducirías poco a poco
más adelante. Si tú ya eres jefa o directora, te conviene
apegarte tú misma a las reglas: un jefe que
Pero por lo pronto, demuestra respeto, aprovecha su posición como lugar de privilegio
obediencia tu superiores (sí, aunque te suene para violar la disciplina que impone a sus
anticuado) y a los lineamientos existentes. empleados no obtiene respeto de ellos. La
indisciplina acaba por atraparte y te vuelves
Todo con orden
23
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
esclava de ese desorden en vez de ser quien
domina la situación.
Disciplina personal
24
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
LECTURA 7. HISTORIA DE LA
ESTADÍSTICA
25
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
ayudar a la toma de decisiones y en su caso pueblo; ellos llevaban cuenta de los
formular predicciones (Estadística Inferencial). movimientos poblacionales y
continuamente hacían censos. Tal era su
Historia de la Estadística dedicación por llevar siempre una
relación de todo que hasta tenían a la
La palabra Estadística procede del vocablo diosa Safnkit, diosa de los libros y las
“Estado”, pues era función principal de los cuentas. Todo esto era hecho bajo la
Gobiernos de los Estados establecer registros de dirección del Faraón y fue a partir del año
población, nacimientos, defunciones, 3050 a.C.
• En la Biblia observamos en uno
impuestos, cosechas... La necesidad de poseer
datos cifrados sobre la población y sus de los libros del Pentateuco, bajo el
condiciones materiales de existencia han debido nombre de Números, el censo que
hacerse sentir desde que se establecieron realizó Moisés después de la salida de
sociedades humanas organizadas. Egipto. Textualmente dice: "censo de las
tribus: el día primero del segundo año
después de la salida de Egipto, habló
Es difícil conocer los orígenes de la Estadística.
Yahvé a Moisés en el desierto de Sinaí en
Desde los comienzos de la civilización han
el tabernáculo de la reunión, diciendo:
existido formas sencillas de estadística, pues ya
"Haz un censo general de toda la
se utilizaban representaciones gráficas y otros
asamblea de los hijos de Israel, por
símbolos en pieles, rocas, palos de madera y
familias y por linajes, describiendo por
paredes de cuevas para contar el número de
cabezas los nombres de todos los
personas, animales o ciertas cosas.
varones aptos para el servicio de armas
en Israel”. En el libro bíblico Crónicas
• Su origen empieza posiblemente
describe el bienestar material de las
en la isla de Cerdeña, donde existen
diversas tribus judías.
monumentos prehistóricos
• En China existían los censos
pertenecientes a los Nuragas, las
chinos ordenados por el emperador Tao
primeros habitantes de la isla; estos
hacia el año 2.200 a.C.
monumentos constan de bloques de
• Posteriormente, hacia el año 500
basalto superpuestos sin mortero y en
a.C., se realizaron censos en Roma para
cuyas paredes de encontraban grabados
conocer la población existente en aquel
toscos signos que han sido interpretados
momento. Se erigió la figura del censor,
con mucha verosimilitud como muescas
cuya misión consistía en controlar el
que servían para llevar la cuenta del
número de habitantes y su distribución
ganado y la caza.
por los distintos territorios.
• Hacia el año 3.000 a.C. los
• En la Edad Media, en el año 762,
babilonios usaban ya pequeñas tablillas
Carlomagno ordenó la creación de un
de arcilla para recopilar datos en tablas
registro de todas sus propiedades, así
sobre la producción agrícola y los
como de los bienes de la iglesia.
géneros vendidos o cambiados mediante
• Después de la conquista
trueque.
normanda de Inglaterra en 1.066, el rey
• Los egipcios ya analizaban los
Guillermo I, el Conquistador, elaboró un
datos de la población y la renta del país
catastro que puede considerarse el
mucho antes de construir las pirámides.
primero de Europa.
En los antiguos monumentos egipcios se
• Los Reyes Católicos ordenaron a
encontraron interesantes documentos
Alonso de Quintanilla en 1.482 el
en que demuestran la sabia organización
y administración de este
26
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
recuento de fuegos (hogares) de las conduce, siguiendo los pasos de Galton a la
provincias de Castilla. investigación estadística, sus trabajos culminan
con la publicación de la obra Métodos
En 1662 un mercader de lencería londinense, estadísticos para investigaciones. En él aparece la
John Graunt, publicó un tratado con las metodología estadística tal y como hoy la
observaciones políticas y naturales, donde conocemos.
Graunt pone de manifiesto las cifras brutas de
nacimientos y defunciones ocurridas en Londres A partir de mediados del siglo XX comienza lo que
durante el periodo 1.604-1.661, así como las podemos denominar la estadística moderna, uno
influencias que ejercían las causas naturales, de los factores determinantes es la aparición y
sociales y políticas de dichos acontecimientos. popularización de los computadores. El centro de
Puede considerarse el primer trabajo estadístico gravedad de la metodología estadística se
serio sobre la población. empieza a desplazar técnicas de computación
intensiva aplicadas a grandes masas de datos, y
Curiosamente, Graunt no conocía los trabajos de se empieza a
B. Pascal (1.623-1.662) ni de C. Huygens (1.629-
1.695) sobre estos mismos temas. Un poco más
tarde, el astrónomo Edmund Halley (1.656-
1.742) presenta la primera tabla de mortalidad Sumerios y Asirios utilizaban un
que se puede considerar como base de los hueso extraído del talón de
estudios contemporáneos. En dicho trabajo se animales como ovejas, ciervos o
intenta establecer el precio de las anualidades a caballos, denominado astrágalo o
satisfacer a las compañías de seguros. Es decir, en talus, que tallaban para que
Londres y en París se estaban construyendo, casi pudieran caer en cuatro posiciones
de manera simultánea, las dos disciplinas que distintas, por lo que son
considerados como los
actualmente llamamos estadística y
precursores de los dados.
probabilidad.
28
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
LECTURA 8. HISTORIA DE LA
ESTADÍSTICA
En este breve material se expone los conceptos,
Como dijera Huntsberger: "La palabra estadística la historia, la división así como algunos errores
a menudo nos trae a la mente imágenes de básicos cometidos al momento de analizar datos
números apilados en grandes arreglos y tablas, Estadísticos.
de volúmenes de cifras relativas a nacimientos,
muertes, impuestos, poblaciones, ingresos, Definición de Estadística
deudas, créditos y así sucesivamente. La Estadística es la ciencia cuyo objetivo es reunir
Huntsberger tiene razón pues al instante de una información cuantitativa concerniente a
escuchar esta palabra estas son las imágenes que individuos, grupos, series de hechos, etc. Y
llegan a nuestra cabeza. deducir de ello gracias al análisis de estos datos
unos significados precisos o unas previsiones
La Estadística es mucho más que sólo números para el futuro.
apilados y gráficas bonitas. Es una ciencia con
tanta antigüedad como la escritura, y es por sí Otros autores tienen definiciones de la
misma auxiliar de todas las demás ciencias. Los Estadística semejantes a las anteriores, y
mercados, la medicina, la ingeniería, los algunos otros no tan semejantes. Para Chacón
gobiernos, etc. Se nombran entre los más esta se define como “la ciencia que tiene por
destacados clientes de ésta. objeto el estudio cuantitativo de los colectivos”;
otros la definen como la expresión cuantitativa
La ausencia de ésta conllevaría a un caos del conocimiento dispuesta en forma adecuada
generalizado, dejando a los administradores y para el escrutinio y análisis. La más aceptada,
ejecutivos sin información vital a la hora de sin embargo, es la de Mínguez, que define la
tomar decisiones en tiempos de incertidumbre. Estadística como “La ciencia que tiene por
objeto aplicar las leyes de la cantidad a los
La Estadística que conocemos hoy en día debe hechos sociales para medir su intensidad,
gran parte de su realización a los trabajos deducir las leyes que los rigen y hacer su
matemáticos de aquellos hombres que predicción próxima”.
desarrollaron la teoría de las probabilidades, con
la cual se adhirió a la Estadística a las ciencias Los estudiantes confunden comúnmente los una
formales conquistadas. Para el nacimiento de confusión que es conveniente aclarar debido a
Cristo sucedía uno de estos empadronamientos que esta palabra tiene tres
de la población bajo la autoridad del imperio. significados: la palabra estadística, en primer
término se usa para referirse a la información
estadística; también se utiliza para referirse al
conjunto de técnicas y métodos que se utilizan
29
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
para analizar la información estadística; y el
término estadístico, en singular y en masculino,
se refiere a una medida derivada de una muestra.
Utilidad e Importancia
30
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
31
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
método capaz de aplicarse a los datos ajenos a la política tuvo lugar en 1691 y estuvo a
económicos. cargo de Gaspar Neumann, un profesor alemán
que vivía en Breslau. Este investigador se
Para el año 1532 empezaron a registrarse en propuso destruir la antigua creencia popular de
Inglaterra las defunciones debido al temor que que en los años terminados en siete moría más
Enrique VII tenía por la peste. Más o menos por gente que en los restantes, y para lograrlo hurgó
la misma época, en Francia la ley exigió a los pacientemente en los archivos parroquiales de la
clérigos registrar los bautismos, fallecimientos y ciudad.
matrimonios. Durante un brote de peste que
Después de revisar miles de partidas de
apareció a fines de la década de 1500, el
defunción pudo demostrar que en tales años no
gobierno inglés comenzó a publicar estadísticas
fallecían más personas que en los demás. Los
semanales de los decesos. Esa costumbre
procedimientos de Neumann fueron conocidos
continuó muchos años, y en 1632 estos Bills of
por el astrónomo inglés Halley, descubridor del
Mortality (Cuentas de Mortalidad) contenían los
cometa que lleva su nombre, quien los aplicó al
nacimientos y fallecimientos por sexo. En 1662,
estudio de la vida humana. Sus cálculos sirvieron
el capitán John Graunt usó documentos que
de base para las tablas de mortalidad que hoy
abarcaban treinta años y efectuó predicciones
utilizan todas las compañías de seguros.
sobre el número de personas que morirían de
varias enfermedades y sobre las proporciones de
Durante el siglo XVII y principios del XVIII,
nacimientos de varones y mujeres que cabría
matemáticos como Bernoulli, Francis Maseres,
esperar. El trabajo de Graunt, condensado en su
Lagrange y Laplace desarrollaron la teoría de
obra Natural and Political Observations...Made
probabilidades. No obstante durante cierto
upon the Bills of Mortality (Observaciones
tiempo, la teoría de las probabilidades limitó su
Políticas y Naturales. Hechas a partir de las
aplicación a los juegos de azar y hasta el siglo
Cuentas de Mortalidad), fue un esfuerzo
XVIII no comenzó a aplicarse a los grandes
innovador en el análisis estadístico.
problemas científicos.
Por el año 1540 el alemán Sebastián Muster Godofredo Achenwall, profesor de la Universidad
realizó una compilación estadística de los de Gotinga, acuñó en 1760 la palabra estadística,
recursos nacionales, comprensiva de datos sobre que extrajo del término italiano statista
organización política, instrucciones sociales, (estadista).
comercio y poderío militar.
Durante el siglo XVII aportó indicaciones más Creía, y con sobrada razón, que los datos de la
concretas de métodos de observación y análisis nueva ciencia serían el aliado más eficaz del
cuantitativo y amplió los campos de la inferencia gobernante consciente. La raíz remota de la
y la teoría Estadística. palabra se halla, por otra parte, en el término
latino status, que significa estado o situación;
Los eruditos del siglo XVII demostraron especial Esta etimología aumenta el valor intrínseco de la
interés por la Estadística Demográfica como palabra, por cuanto la estadística revela el
resultado de la especulación sobre si la población sentido cuantitativo de las más variadas
aumentaba, decrecía o permanecía estática. situaciones.
En los tiempos modernos tales métodos fueron Jacques Quételect es quien aplica las Estadísticas
resucitados por algunos reyes que necesitaban a las ciencias sociales. Este interpretó la teoría de
conocer las riquezas monetarias y el potencial la probabilidad para su uso en las ciencias
humano de sus respectivos países. El primer sociales y resolver la aplicación del principio de
empleo de los datos estadísticos para fines promedios y de la
32
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
variabilidad a los fenómenos sociales. Quételect Segunda Fase: De la Descripción de los
fue el primero en realizar la aplicación práctica de Conjuntos a la Aritmética Política: Las
todo el método Estadístico, entonces conocido, a ideas mercantilistas extrañan una
las diversas ramas de la ciencia. intensificación de este tipo de
investigación. Colbert multiplica las
Entretanto, en el período del 1800 al 1820 se
desarrollaron dos conceptos matemáticos encuestas sobre artículos
fundamentales para la teoría Estadística; la teoría manufacturados, el comercio y la
de los errores de observación, aportada por población: los intendentes del Reino
Laplace y Gauss; y la teoría de los mínimos envían a París sus memorias. Vauban,
cuadrados desarrollada por Laplace, Gauss y más conocido por sus fortificaciones o su
Legendre. A (finales0del siglo XIX, Sir Francys Dime Royale, que es la primera
Galton ideó el método conocido por Correlación,
propuesta de un impuesto sobre los
que tenía por objeto medir la influencia relativa
de los factores sobre las variables. De aquí partió ingresos, se señala como el verdadero
el desarrollo del coeficiente de correlación precursor de los sondeos. Más tarde,
creado por Karl Pearson y otros cultivadores de Bufón se preocupa de esos problemas
la ciencia biométrica como J. Pease Norton, R. H. antes de dedicarse a la historia natural.
Hooker y G. Udny Yule, que efectuaron amplios
estudios sobre la medida de las relaciones. La escuela inglesa proporciona un nuevo
progreso al superar la fase puramente
Los progresos más recientes en el campo de la descriptiva. Sus tres principales
Estadística se refieren al ulterior desarrollo del representantes son Graunt, Petty y
cálculo de probabilidades, particularmente en la Halley. El penúltimo es autor de la
rama denominada indeterminismo o relatividad, famosa Aritmética Política. Chaptal,
se ha demostrado que el determinismo fue ministro del interior francés, publica en
reconocido en la Física como resultado du las 1801 el primer censo general de
investigaciones atómicas y que este principio se población, desarrolla los estudios
juzga aplicable tanto a las ciencias sociales como industriales, de las producciones y los
a las físicas. cambios, haciéndose sistemáticos
durante las dos terceras partes del siglo
Etapas de Desarrollo de la Estadística XIX.
Le historia de la estadística está resumida en tres
Tercera Fase: Estadística y Cálculo de
grandes etapas o fases.
Probabilidades: El cálculo de
probabilidades se incorpora
Primera Fase: Los Censos: Desde el
rápidamente como un instrumento de
momento en que se constituye una análisis extremadamente poderoso para
autoridad política, la idea de inventariar el estudio de los fenómenos económicos
de una forma más o menos regular la y sociales y en general para el estudio de
población y las riquezas existentes en el fenómenos “cuyas causas son
territorio está ligada a la conciencia de demasiados complejas para conocerlos
totalmente y hacer posible su análisis”.
soberanía y a los primeros esfuerzos
administrativos. División de la Estadística
33
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
La Estadística para su mejor estudio se ha sirven para hacer generalizaciones. La Estadística
dividido en dos grandes ramas: la Estadística Inferencial investiga o analiza una población
Descriptiva y la Inferencial. partiendo de una muestra tomada.
34
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
ESTADÍSTICA, rama de las matemáticas que se El Imperio romano fue el primer gobierno que
ocupa de reunir, organizar y analizar datos recopiló una gran cantidad de datos sobre la
numéricos y que ayuda a resolver problemas población, superficie y renta de todos los
como el diseño de experimentos y la toma de territorios bajo su control. Durante la edad media
decisiones. sólo se realizaron algunos censos exhaustivos en
Europa. Los reyes carolingios Pipino el Breve y
Historia Carlomagno ordenaron hacer estudios
minuciosos de las propiedades de la Iglesia en los
Desde los comienzos de la civilización han años 758 y 762 respectivamente.
existido formas sencillas de estadísticas, pues ya
se utilizaban representaciones gráficas y otros Después de la conquista normanda de Inglaterra
símbolos en pieles, rocas, palos de madera y en 1066, el rey Guillermo I de Inglaterra encargó
paredes de cuevas para contar el número de un censo. La información obtenida con este
personas, animales o ciertas cosas. Hacia el año censo, llevado a cabo en 1086, se recoge en el
3000 A.C. los babilonios usaban ya pequeñas Domesday Book. El registro de nacimientos y
tablillas de arcilla para recopilar datos en tablas defunciones comenzó en Inglaterra a principios
sobre la producción agrícola y de los géneros del siglo XVI, y en 1662 apareció el primer estudio
vendidos o cambiados mediante trueque. Los estadístico notable de población, titulado
egipcios analizaban los datos de la población y la Observations on the London Bills of Mortality
renta del país mucho antes de construir las (Comentarios sobre las partidas de defunción en
pirámides en el siglo XXXI a.C. Los libros bíblicos Londres).
de Números y Crónicas Incluyen, en algunas
partes, trabajos de estadística. El primero Un estudio similar sobre la tasa de mortalidad en
contiene dos censos de la población de Israel y el la ciudad de Breslau, en Alemania, realizado en
segundo describe el bienestar material de las 1691, fue utilizado por el astrónomo inglés
diversas tribus judías. En China existían registros Edmund Halley como base para la primera tabla
numéricos similares con anterioridad al año 2000 de mortalidad. En el siglo XIX, con la
A.C. Los griegos clásicos realizaban censos cuya generalización del método científico para
información se utilizaba hacia el año 594 estudiar todos los fenómenos de las ciencias
A.C. para cobrar impuestos. naturales y sociales, los investigadores aceptaron
la necesidad de reducir la
35
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
información a valores numéricos para evitar la Para establecer una ley física, biológica o social,
ambigüedad de las descripciones verbales. el estadístico debe comenzar con un conjunto de
datos y modificarlo basándose en la experiencia.
En nuestros días, la estadística se ha convertido Por ejemplo, en los primeros estudios sobre
en un método efectivo para describir con crecimiento de la población los cambios en el
exactitud los valores de los datos económicos, número de nacimientos y el número de
políticos, sociales, psicológicos, biológicos y fallecimientos en un determinado lapso.
físicos, y sirve como herramienta para relacionar
y analizar dichos datos. El trabajo del experto Los expertos en estudios de población
estadístico no consiste ya sólo en reunir y tabular comprobaron que la tasa de crecimiento
los datos, sino sobre todo el proceso de depende sólo del número de nacimientos, sin
interpretación de esa información. El desarrollo que el número de defunciones tenga
de la teoría de la probabilidad ha aumentado el importancia. Por tanto, el futuro crecimiento de
alcance de las aplicaciones de la estadística. la población se empezó a calcular basándose en
Muchos conjuntos de datos se pueden el número anual de nacimientos por cada mil
aproximar, con gran exactitud, utilizando habitantes. Sin embargo, pronto se dieron cuenta
determinadas distribuciones probabilísticas; los de que las predicciones obtenidas utilizando este
resultados de éstas se pueden utilizar para método no utilizaban métodos correctos.
analizar datos estadísticos. La probabilidad es útil
Los estadísticos comprobaron que hay otros
para comprobar la fiabilidad de las inferencias
factores que limitan el crecimiento de la
estadísticas y para predecir el tipo y la cantidad
población. Dado que el número de posibles
de datos necesarios en un determinado estudio
nacimientos depende del número de mujeres, y
estadístico.
no del total de la población, y dado que las
Métodos Estadísticos mujeres sólo tienen hijos durante parte de su
vida, el dato más importante que se ha de utilizar
La materia prima de la estadística consiste en para predecir la población es el número de niños
conjuntos de números obtenidos al contar o nacidos vivos por cada mil mujeres en edad de
medir cosas. Al recopilar datos estadísticos se ha procrear. El valor obtenido utilizando este dato
de tener especial cuidado para garantizar que la mejora al combinarlo con el dato del porcentaje
información sea completa y correcta. de mujeres sin descendencia.
El primer problema para los estadísticos reside Por tanto, la diferencia entre fallecimientos y
en determinar qué información y cuánta se ha de nacimientos sólo es útil para indicar el
reunir. En realidad, la dificultad al compilar un crecimiento de población en un determinado
censo está en obtener el número de habitantes periodo de tiempo del pasado, el número de
de forma completa y exacta; de la misma manera nacimientos por cada mil habitantes sólo expresa
que un físico que quiere contar el número de la tasa de crecimiento en el mismo período, y sólo
colisiones por segundo entre las moléculas de un el número de nacimientos por cada mil mujeres
gas debe empezar determinando con precisión la en edad de procrear sirve para predecir el
naturaleza de los objetos a contar. Los número de habitantes en el futuro.
estadísticos se enfrentan a un complejo
problema cuando, por ejemplo, toman una La estadística es una Ciencia que tiene como
muestra para un sondeo de opinión o una finalidad facilitar la solución de problemas en los
muestra electoral. El seleccionar una muestra cuales necesitamos conocer algunas
capaz de representar con exactitud las características sobre el comportamiento de
preferencias del total de la población no es tarea
fácil.
36
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
algún suceso o evento. Características que nos sin importar que tan sencillo o complicado sea.
permiten conocer o mejorar el conocimiento de Cuanto más complicado sea, más ayuda nos
ese suceso. Además nos permiten inferir el presta para resolver la situación.
comportamiento de sucesos iguales o similares
sin que estos ocurran.
37
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
38
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
enlace entre el pasado y el futuro es mediado por el azar. No se pueden prever los acontecimientos, sólo
sus probabilidades de presentación".1
"El determinismo sufrió un proceso de erosión durante el siglo XIX y así quedó un espacio para dar cabida
a las leyes autónomas del azar. La idea de la naturaleza humana fue desplazada por el modelo de persona
normal y leyes de dispersión. Estas dos transformaciones se dieron en forma paralela y se alimentaron
recíprocamente. El azar hizo que el mundo pareciera menos caprichoso: el azar estaba legitimado porque
aportaba orden al caos. Cuanto mayor era el indeterminismo en nuestra concepción del mundo y del
hombre, más elevado era el nivel de control que se esperaba. Muchas clases de conducta humana,
especialmente conductas perversas como el crimen y el suicidio fueron objeto de recuento. Se
manifestaban pasmosamente regulares año tras año. Leyes estadísticas de la sociedad parecían
desprenderse de las tablas oficiales de desviación. Los datos sobre promedios y dispersiones engendraron
la idea de persona normal y condujeron a nuevas clases de manejo social. En los primeros años del siglo
XX se suponía que las leyes estadísticas podían reducirse a hechos subyacentes deterministas, pero el
aparente predominio de esas leyes fue minando lenta y erráticamente el determinismo. Las leyes
estadísticas llegaron a considerarse como leyes de derecho propio y su alcance se extendió a los
fenómenos naturales. Nació un nuevo tipo de conocimiento objetivo, producto de nuevas tecnologías para
obtener información sobre procesos naturales y sociales. Surgieron nuevos criterios sobre los que debía
considerarse como prueba del conocimiento. Las leyes estadísticas que podían justificarse así se usaron no
sólo para describir sino también para explicar el curso de los sucesos. El azar era domesticado en el sentido
de convertirse en la materia misma de los procesos fundamentales de la naturaleza y la sociedad.
En otro orden, la estadística es una ciencia auxiliar, un instrumento para el avance de otras ciencias, desde
que las técnicas estadísticas forman parte del método científico. Entre estas técnicas pueden mencionarse
los métodos de resumen de datos, tanto numéricos como gráficos, la comprobación de hipótesis y las
técnicas de muestreo.
"En la literatura epistemológica moderna, el conocimiento científico tiene la tarea de describir, explicar y
predecir eventos. El rol de la estadística como método científico está fuertemente condicionado por el
paradigma dominante de las ciencias. En la física clásica, el elemento estocástico es visto como una
consecuencia de la limitación de la mente humana mientras que en la biología evolucionista de Darwin y
la genética de Mendel, el azar es intrínseco al fenómeno, cambia con el tiempo y la necesidad. "
"Los humanos siempre hemos querido controlar el futuro o, al menos, predecir lo que va a ocurrir. Por
esto la astrología es tan popular. Según ella, lo que pasa en la Tierra está relacionado con los movimientos
de los planetas en el firmamento. Esto es una hipótesis que puede ser sometida a prueba científicamente,
o lo seria si los astrólogos se comprometieran y formularan predicciones definidas que pudieran ser
comprobadas. Sin embargo, con considerable astucia, expresan siempre sus predicciones en términos tan
vagos que pueden ser aplicados a cualquier cosa que ocurra. Nunca se puede demostrar que predicciones
como sus relaciones personales pueden intensificarse o se le presentará una oportunidad financieramente
interesante son erróneas. Pero el motivo real por el que la mayoría de los científicos no cree en la
astrología no es la presencia o la ausencia de evidencias científicas acerca de ella, sino que no resulta
consistente con otras teorías que han sido comprobabas experimentalmente."
39
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
"conocimiento científico". Si los nuevos conocimientos pueden organizarse en un cuerpo coherente, que
permite explicar hechos ya ocurridos y predecir hechos que habrán de ocurrir, entonces el método
científico (la investigación científica) conduce a la formación de nuevas teorías, y también a modificar las
teorías existentes o a destruirlas.
La teoría es un conjunto de proposiciones lógicamente articuladas que tiene por fin la explicación y
predicción de resultados en un área determinada de fenómenos. En el caso particular de las ciencias
sociales el área de fenómenos es el de las conductas de los individuos o de los grupos humanos.
En el esquema de Wallace (1971) el proceso del conocimiento científico involucra cuatro componentes:
• teoría
• hipótesis
• contraste de hipótesis.
A partir de la teoría (conjunto de proposiciones lógicamente articuladas) se extraen una o varias hipótesis.
Estas representan predicciones o respuestas probables a las preguntas que se formula el investigador. Las
hipótesis estadísticas suelen formularse como proposiciones en las que se realizan afirmaciones respecto
de una variable o respecto a las relaciones entre dos o más variables.
Volvamos sobre el concepto de "hipótesis estadística". Se trata de una proposición, una afirmación sobre
la distribución de una variable o sobre las relaciones entre dos o más variables. Pero no se trata de
afirmaciones cualesquiera. Las mismas deben ser el reflejo de la teoría que las sustenta y sólo tienen
sentido si pueden someterse a prueba (al revés de lo que ocurre con las afirmaciones de los astrólogos
mencionadas más arriba por Stephen Hawking).
¿Qué datos deben recogerse? ¿Cómo se deben registrar? ¿Cómo se habrán de resumir? Para responder a
estas preguntas se requiere del auxilio de la estadística, más precisamente de lo que se conoce con el
nombre de "estadística descriptiva".
Los resultados obtenidos de la recolección de datos ¿son compatibles con las hipótesis de la investigación?
La evidencia empírica ¿confirma las hipótesis? Para responder a estas preguntas es necesario apelar
nuevamente a la estadística, esta vez a la denominada "estadística de inferencia".
40
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Es esta segunda interpretación de la estadística, como instrumento que sirve al desarrollo de otras ciencias,
lo que ha motivado la redacción del presente trabajo. Diversos textos tratan los temas básicos de la
estadística descriptiva y de la estadística de inferencia. En éste, en cambio, se trata de poner en evidencia
los elementos que deben tenerse en cuenta al realizar una investigación estadística, aplicada
principalmente a las ciencias sociales.
Para terminar con esta introducción, creemos oportuno traer a colación los atributos que deben
caracterizar a la investigación de calidad, según la visión de Neil J. Salkind",
b) La investigación es una actividad que puede repetirse. Si no fuera así, los resultados de la
investigación no se podrían verificar.
d) La investigación se basa en el razonamiento lógico y está vinculada a una teoría. "La actividad
de investigación proporciona respuestas que ayudarán a llenar los huecos de lo que puede ser un
rompecabezas grande y complicado. Las áreas principales de investigación deben desglosarse en
elementos más pequeños, y todos esos elementos deben ligarse con un tema común, que las más
de las veces es alguna teoría subyacente que guía la investigación"1º.
f) La investigación es incremental. "Es decir, que va creciendo con lo que ya se tiene. Ningún
científico se yergue solo; todos se paran sobre los hombros de otros."
g) La investigación es una actividad que debe emprenderse con el fin de mejorar la sociedad. El
proceso de investigación y el investigador mismo deben regirse por un código ético. "Los
investigadores no mantienen a mujeres embarazadas sin comer para estudiar los efectos de la
desnutrición sobre los niños. Estas prácticas poco éticas no se justificarían por el fin perseguido,
sobre todo al haber otras formas de contestar tales preguntas sin recurrir a prácticas posiblemente
perjudiciales."
Si estos atributos caracterizan la buena investigación, ¿qué es una mala investigación? "Es el viaje de pesca
que se emprende en busca de algo importante que simplemente no se encontrará. Es plagiar el trabajo de
otras personas. Falsificar datos para demostrar algo. Falsear la información y engañar a los participantes.
Por desgracia, hay investigadores cuyo trabajo se caracteriza por tales prácticas, pero son una minoría."
LA INVESTIGACIÓN ESTADISTICA
41
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Una investigación se puede denominar "estadística" cuando las hipótesis son del tipo definido más
arriba: afirmaciones relativas a la distribución de una o más variables aleatorias. En estas
investigaciones pueden identificarse, entre otros, los siguientes componentes:
• variables: características medibles que poseen todas las unidades del universo
• objeto de la investigación: no consiste en identificar las entidades del universo con ciertas
características, sino que se trata de resumir
Las actividades que involucra una investigación estadística pueden clasificarse con arreglo a
diversos criterios. Uno de ellos se relaciona con el orden cronológico en que deben ser realizadas.
En este sentido, puede hablarse de tres grandes etapas o fases:
• planificación
• ejecución y procesamiento
• análisis y divulgación.
Las actividades que se incluyen en estas fases siguen un orden temporal, en algunos casos, con
actividades que requieren para su iniciación la finalización previa de otras. En otros casos, en
cambio, las actividades pueden ir en paralelo o con un importante periodo de solapamiento.
Algunas veces, el orden temporal de las actividades está condicionado más por los recursos
humanos disponibles que por la lógica de las previaturas. En estos casos se vuelve clave la tarea
de planificación para evitar una prolongación innecesaria de la investigación, y así ganar en
oportunidad en la presentación de los resultados.
42
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
La división en tres fases es totalmente convencional. En muchas investigaciones estadísticas las
mismas personas trabajan en todas o la mayor parte de las actividades, las cuales se solapan tanto
como es posible para ganar en oportunidad. La división en fases se realiza exclusivamente para
facilitar la presentación de los conceptos involucrados.
Las notas que siguen están basadas en la experiencia recogida a lo largo de varios años de
investigación estadística así como en la lectura de diversos textos.
FASE 1: PLANIFICACION
1. Objetivos de la investigación
Los objetivos refieren al propósito, al por qué de la propuesta de investigación. El propósito está
relacionado con ciertas hipótesis. Ciertas necesidades de información en el marco de una teoría,
tal como se ha comentado en la introducción.
Los objetivos deben ponerse por escrito para lograr el acuerdo de todas las partes involucradas
(téngase presente que muchas veces quien propone o quién financia la investigación no es quien
la ejecuta).
Ejemplo: Encuesta de población en edad escolar. Los objetivos apuntan a conocer cuántas
personas en edad escolar asisten al sistema educativo. Podrían agregarse como objetivos
adicionales:
Conocer el perfil de los hogares de los niños que no asisten conocer los motivos que
argumentan los padres para no matricular a sus hijos en el sistema educativo
43
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Se trata de conocer las experiencias anteriores en investigaciones similares que permitan orientar
el nuevo trabajo y evitar que se repitan errores anteriores. Cuando las investigaciones anteriores
pueden ordenarse en el tiempo a intervalos regulares, entonces puede elaborarse una serie
temporal y la nueva investigación no sólo aporta datos del período de estudio. Sino que permite
la comparación ínter-temporal. Las investigaciones anteriores pueden aportar datos
fundamentales para definir el procedimiento y el método de recolección, y en el caso de optarse
por el muestreo, para definir el diseño y el tamaño de la muestra.
Para facilitar la comparación es necesario tener en cuenta los conceptos y clasificadores utilizados
en las investigaciones anteriores, y evaluar la conveniencia de adoptarlos o adaptarlos.
Las respuestas de estas preguntas suelen estar contempladas en una Ley del Sistema Estadístico
Nacional, en el caso que los resultados de la investigación puedan ser considerados "estadísticas
oficiales". En la Ley se establece la obligación de las personas de responder a las encuestas que les
realicen las unidades productoras de estadísticas del Sistema, y como contrapartida, la obligación
de éstas de utilizar la información exclusivamente con fines estadísticos, salvaguardando la
identificación de quienes proporcionan la información (secreto estadístico).
5. Procedimientos de recolección
Censo
Muestreo
Explotación estadística de registro administrativo
Experimentación.
En una investigación estadística habitualmente se utiliza un solo procedimiento, pero en ocasiones
se suelen combinar dos o más procedimientos para hacer una mejor utilización de la información
existente.
44
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Si el registro es completo, entonces se trabaja con todos los datos de la población.
Es el caso del número de vehículos de un país, número de personas que poseen
teléfono en su domicilio, etc.
Las desventajas del registro administrativo son:
A pesar de los inconvenientes indicados, se debe tratar de utilizar al máximo este procedimiento
de recolección, que es de una riqueza inmensa en todos los campos de la actividad socioeconómica
de un país. Para evitar las desventajas señaladas, debe tratarse de que la fuente administrativa se
adecue, en lo posible, a los fines estadísticos. Esto se logra, cuando las autoridades administrativas
adquieren conciencia de la importancia del uso de estadísticas en sus propias actividades.
trasforma para mejorar este procedimiento de recolección, es lograr que las autoridades de las
oficinas administrativas participen en la planificación de las estadísticas que proporcionarán y
además, reciban compensaciones por su colaboración, ya sea con información procesada de
acuerdo a sus necesidades, formularios para registrar la información original, etc. En esta forma,
su interés en la obtención de la información que se utilice con fines estadísticos será un aspecto
esencial de su gestión y no solamente un subproducto.
Los antecedentes obtenidos son una valiosa ayuda para el diseño de muestras. Permite la
preparación de los marcos de referencia de diferentes diseños muestrales que facilitan la
selección de la muestra. Es el único tipo de investigación utilizable para obtener
información sobre fenómenos que se producen con poca frecuencia.
45
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
La credibilidad en las estadísticas que se obtienen mediante el censo es mayor que la de
cualquier otro procedimiento de recolección.
Es necesaria una compleja organización que abarque todo el universo por investigar,
evitando omisiones y duplicaciones. Esta situación es particularmente válida en el caso de
encuestas que cubren todo el territorio nacional, en las que la organización de los trabajos
de campo se complica por el tamaño del universo y su dispersión.
La información que se obtiene puede ser menos precisa que la que se lograría mediante
una muestra. Esto ocurre porque los errores y omisiones producidos en la recolección y
algunas veces en el procesamiento de la información de un censo, pueden superar a los
que se acumulen en la muestra incluyendo el error de muestreo (error que se produce
debido a que la información de toda la población es una estimación que utiliza como
base los datos de una parte representativa de esa población). Esta mayor precisión que se
puede lograr con la muestra se debe a que los errores ajenos al muestreo se pueden
reducir, pues el menor número de empadronadores permite seleccionar los más
calificados.
Las limitaciones al uso del muestreo se refieren a que la precisión de los resultados puede
no ser adecuada para pequeñas subpoblaciones o para fenómenos que se producen con
poca frecuencia.
el grado de control que se imponen a las variables objeto de estudio (si no hay control
sobre ciertas variables, entonces no puede asegurarse que el efecto tenga por causa el
tratamiento)
46
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
la forma en que interviene (o no) la a l e a t o r i e d a d e n la conformación de los grupos:
¿Los individuos que intervienen en los grupos se eligen aleatoriamente de la población?
¿Los individuos se asignan aleatoriamente a los grupos? ¿Se decide aleatoriamente
cuáles son los grupos experimentales y cuáles los de control?
6. Métodos de recolección
• Entrevista personal
• Correo
• Entrega personal
• Teléfono
• Telefax
• Correo electrónico
• Internet
La elección de método dependerá de los resultados de un balance de las ventajas y desventajas de
los diferentes métodos en relación con las condiciones particulares de la investigación. Se deberá
tratar de maximizar las ventajas, y en lo posible, eliminar las desventajas. Se puede utilizar un solo
método de recolección, pero en algunos casos, puede ser que resulte más eficiente la combinación
de dos o tres métodos. Así, en una investigación puede resultar más económico y rápido, sin que
se vea afectada la calidad de la información, utilizar el envío por
47
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
correo en una parte del territorio y la entrevista personal en otro sector que así lo requiera, en
vez de utilizar la entrevista para toda la encuesta. También puede darse el caso que para una
investigación convenga utilizar el correo en una primera instancia de la recolección, y para
aquellos informantes morosos en responder, se utilice la entrevista como segunda parte de la
recolección.
La forma de actuar del entrevistador, su apariencia y expresión, pueden influir en la actitud del
entrevistado hacia la encuesta, y en consecuencia, en la calidad de la información proporcionada.
Se conocen casos de informantes que se han negado a proporcionar información como reacción
desfavorable ante la apariencia o comportamiento del entrevistador.
Correo. Es el método más económico y cómodo para los organizadores de la encuesta. Exige como
requisitos básicos antes de estudiar su adopción:
• que no haya entre los informantes un número de analfabetos que pueda producir
un porcentaje de omisión que afecte la precisión que se requiere de la
información;
Entre las ventajas del método del correo, se destaca el hecho de ser el más económico. El costo
de enviar un cuestionario por correo es mucho menor que enviar un encuestador. Otorga algunas
comodidades al informante, como la de poder contestar el cuestionario cuando dispone de
tranquilidad y tiempo. Esta tranquilidad hace más probable que las respuestas sean mejor
pensadas e incluso que puedan ser corroboradas mediante la revisión de documentos.
48
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
El método del correo permite alcanzar en forma rápida y económica a los informantes que se
encuentren dispersos en zonas geográficas extensas.
Entre las desventajas del método del correo debe mencionarse que dificulta la aclaración de
las dudas que se le puedan plantear al entrevistado. Esta dificultad se puede disminuir
considerablemente, si se establece un centro de informaciones con el que sea fácil comunicarse.
El correo produce más omisiones de información que la entrevista como método de recolección.
Esto se debe principalmente a la desidia, la haraganería o a la falta de interés del informante en
los temas del cuestionario. Difícilmente la respuesta superará el 30% de los cuestionarios enviados
por correo en ocasión del primer envío.
Los cuestionarios que se envían por correo deben ser más atractivos (que los que utiliza el
entrevistador personal) para vencer la resistencia o la desidia del entrevistado. Para hacerlos más
atractivos, se puede apelar al uso de varios colores, lo que suele encarecer las actividades de
impresión.
Generalmente la labor del agente es más amplia: puede dar algunas instrucciones para el llenado
del cuestionario al momento de entregarlo y posteriormente, al retirarlo, puede revisar la
completitud y la eventual existencia de respuestas ilógicas o inconsistentes. En caso de que las
hubiere, deberá primero aclararlas satisfactoriamente y después retirar el cuestionario.
Teléfono. El método del teléfono consiste en una entrevista que, en lugar de ser cara a cara (como
en la entrevista personal), se realiza mediante el contacto telefónico. Esta forma de entrevista no
es posible en todos los casos, porque no todas las unidades de la muestra tienen teléfono
necesariamente. En algunos casos, la encuesta está dirigida exclusivamente al universo de
personas con teléfono. Los encuestadores telefónicos deben ser capacitados tal como en el caso
de la entrevista personal. Las respuestas de los entrevistados pueden registrarse en un
cuestionario como el que se utiliza en las entrevistas personales, pero si los medios lo permiten,
será preferible el registro de las respuestas directamente en la pantalla del computador. En este
caso, las secuencias de las preguntas (y los eventuales saltos) se realizarán automáticamente y el
encuestador ahorrará tiempo y molestias al entrevistado.
La ventaja principal de este método es el costo, cuando se lo compara con la entrevista personal
(no es necesario pagar pasajes ni viáticos, y las encuestas pueden hacerse una a continuación de
la otra). Puede utilizarse un horario más extenso que en el caso de la entrevista personal. Algunas
personas puedan sentirse más cómodas para responder al no tener enfrente a un entrevistador.
En cuanto a las desventajas del método, la más relevante tiene que ver con los sesgos de respuesta
que origina el teléfono como instrumento de captura. Muchas personas se sienten menos
comprometidas a decir la verdad frente al teléfono que cuando están frente a la presencia de una
persona. Además, no todas las personas del universo tienen teléfono necesariamente, y por este
método sólo es posible recoger
49
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
información de los que lo poseen. En estos casos, los sesgos provienen de suponer que quienes
tienen teléfono se comportan en promedio como los que no lo tienen.
Telefax. Cuando los entrevistados poseen telefax, y sus números son conocidos por los
organizadores de la encuesta, el cuestionario puede enviarse por este medio y las respuestas
pueden recibirse por el mismo método. El envío del cuestionario por fax debería estar precedido
de un contacto telefónico advirtiendo de la llegada del mismo, y para asegurarse que la
persona que debe responder estará en condiciones de hacerlo en el plazo requerido.
Entre las ventajas del método cabe destacar su reducido costo, el hecho que los faxes pueden
enviarse en cualquier momento, incluso fuera de los horarios de oficina, y que el envío puede
hacerse automáticamente desde la computadora.
Correo electrónico. Cuando la encuesta puede realizarse por correo electrónico (es decir, se
conocen las direcciones electrónicas de los entrevistados), entonces el método ofrece ventajas
significativas frente a todos los restantes. El ahorro no se realiza sólo con los encuestadores,
sino también con la impresión de cuestionarios y su envío, y con el procesamiento de los datos. Se
tiene la certeza de que el cuestionario llega a todos los destinatarios, a menos que estos tengan
descompuesta su computadora, desconectado el modem o que no tengan la costumbre de
consultar su correo electrónico habitualmente. El retorno del cuestionario con los datos se realiza
por el mismo método, y de los cuestionarios devueltos es muy fácil hacer el control administrativo
e identificar a los que han demorado la devolución. Como las respuestas se devuelven en archivo
electrónico, puede no ser necesario ni la lectura ni la digitación de los datos, con lo que se
simplifican las labores de procesamiento.
Internet. Cuando no se conoce la dirección electrónica de los entrevistados, entonces se les puede
pedir (por correo o por teléfono) que visiten una página de Internet donde hemos colocado el
cuestionario, y que respondan cargando sus datos en la misma página. Este método todavía no
es de uso muy frecuente. Actualmente lo utilizan ciertas firmas comerciales para conocer la
opinión de sus clientes sobre las características de los productos. Pero estas investigaciones no
pueden garantizar la representatividad de la muestra, por cuanto quienes responden al
cuestionario difícilmente se comporten en promedio como los que no responden.
7. Instrumento de captura
El instrumento de captura es el elemento físico o virtual que sirve para registrar los datos
individuales necesarios para la investigación. El instrumento de captura a utilizar está
50
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
básicamente condicionado por el método de recolección elegido. Así, se puede establecer la
siguiente correspondencia.
Cuestionario-guía,
Radiograbador,
Filmadora
Los instrumentos pueden clasificarse en dos grandes grupos: los que están estructurados hasta el
más mínimo detalle y los que no lo están. Entre los primeros se encuentran los cuestionarios de
autollenado, para el encuestador y electrónico. En estos casos se especifica con todo cuidado cada
una de las preguntas, siguiendo un orden lógico, muchas veces con opciones de respuesta
en el mismo cuestionario (preguntas cerradas) y en algunos casos con aclaraciones y comentarios
que permiten al informante o al encuestador comprender cabalmente el alcance de las preguntas.
El cuestionario de autollenado es el que exige el mayor esfuerzo de diseño, pues se debe dar la
mayor facilidad al entrevistado para que se motive a registrar por sí mismo los datos solicitados.
El uso de colores, diferentes tamaños de letra, dibujos y cualquier otro elemento que haga más
atractivo el diseño, son válidos para obtener una más alta tasa de respuesta.
8. Calendario de operaciones
51
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
que los resultados puedan ponerse a disposición de los usuarios en un plazo razonable. Para
lograrlo, es necesario distribuir cronológicamente la realización de las operaciones, de manera que
la última operación se haya terminado al cumplirse el plazo establecido. Esta distribución en el
tiempo se llama "calendario de operaciones". Para establecer el calendario es necesario conocer:
• lista de actividades
9. Presupuesto
El control de los gastos a través del presupuesto permite garantizar que todas las tareas necesarias
serán realizadas efectivamente. De lo contrario, la falta de presupuesto para alguna actividad
puede afectar la calidad de los resultados de la investigación. Es muy frecuente que, cuando no se
administra bien el presupuesto, los recursos empiecen a escasear, y la decisión de los
responsables sea la de reducir la supervisión de campo, de simplificar la etapa de crítica, reducir
el porcentaje de verificación de la digitación, etc., afectando de este modo la calidad del trabajo
final.
Refiere a las desagregaciones regionales o con algún otro criterio con que pueden publicarse los
resultados sin que se afecte la confiabilidad y la precisión de los resultados de la investigación. Los
niveles de desagregación deseados deben ser explicitados desde el inicio de la investigación, de
forma que puedan ser tenidos en cuenta para el diseño muestral y para la determinación del
tamaño de la muestra. En una Encuesta de Hogares que se realiza con el propósito de cuantificar
el desempleo, el tamaño de la muestra puede planearse para desagregar la tasa de desempleo por
sexo o por grupos de edad, y también por regiones. En este último caso probablemente resultaría
más eficiente incorporar en el diseño muestral una estratificación previa por regiones. En caso
contrario, la estratificación deberá realizarse a posteriori, con el riesgo que en alguna de las
regiones la muestra sea inexistente o su tamaño resulte insuficiente para estimar el desempleo
con precisión y seguridad aceptables.
52
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
mediante muestreo no probabilístico. Siempre que sea posible, el primer método es el
recomendado, porque permite extrapolar los resultados de la muestra al universo, y proporcionar
una medida del error (error de muestreo).
Aunque parezca paradójico, para realizar muestreo es necesario tener información del universo a
los efectos de asignar probabilidades de selección. Sería conveniente que la unidad de muestreo
coincidir con la unidad investigada, aunque esto no siempre es posible.
Ejemplo:
En este ejemplo las unidades de muestreo no siempre contienen unidades a investigar (viviendas
deshabitadas}, a veces contienen más de una (viviendas con dos o más hogares) y a veces
contienen unidades extrañas (viviendas con unidades económicas o con hogares que las utiliza
como viviendas secundarias}.
El marco de muestreo ideal es la lista de unidades del universo. En tal caso el muestrista podrá
asignar probabilidades iguales de selección, o probabilidades desiguales con arreglo a algún
criterio (por ejemplo: el tamaño de las unidades). Cuando no se dispone de una lista completa de
las unidades del universo, se suele trabajar con dos o más etapas de selección. En la primera se
pueden elegir áreas geográficas. En tal caso, el marco de muestreo es una lista de áreas
geográficas.
a) Completitud
b) Actualización (de las unidades del marco y de los datos de las unidades}
53
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
e) Inclusión de datos complementarios sobre ubicación (teléfono, dirección)
Un diseño muestra! es tanto más eficiente cuanto mayor es la información previa que utiliza sobre
el universo y los temas a investigar. Aquí "eficiencia" se utiliza en dos sentidos. Por un lado, se
refiere a la posibilidad de obtener la información requerida al menor costo, y por otro lado, refiere
al concepto estadístico de eficiencia: obtener estadísticos (estimadores) con el menor error de
muestreo (con la mayor precisión) posible. La elección del diseño muestral depende no sólo del
tipo de información disponible sino también de su calidad. Esto se hace evidente, por ejemplo,
cuando se debe evaluar el grado de actualización del material cartográfico y su concordancia con
las bases de datos asociadas.
Son las variables que se quiere investigar. Se llaman variables porque sus valores varían de persona
a persona del universo. Las variables pueden ser cuantitativas (edad, ingresos, número de
integrantes del hogar) o cualitativas (sexo, estado civil, nacionalidad). A veces las variables pueden
investigarse a través de una única pregunta (sexo, edad) y otras veces se requieren varias para
componerla.
Por ejemplo, para saber si una persona que viaja hacia nuestro país es un visitante debemos
preguntar:
• cuál es el motivo del viaje (en particular, si viaja por motivos de trabajo remunerado
en el lugar de destino)
54
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Otro ejemplo: Para saber si una persona es un desocupado debemos preguntar:
Según las necesidades de la investigación, las categorías de respuesta serán más o menos
afinadas. Si preguntamos por la edad de los visitantes, podríamos tener las siguientes variantes:
Mayor de edad.......
Edad: 0•9
10•19
20•29
30•59
60 o más
15. Plan de tabulados
Refiere a las tablas y los cuadros con cruzamiento de variables que se desea obtener a partir
de la investigación. Ejemplos de tablas estadísticas:
55
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
60 más
o 21,7
Total 100,0
Nota: Fuente: Censo de Población y Vivienda
Es el documento en que se registran las informaciones referentes a las unidades investigadas. Para
preparar el cuestionario es necesario que se hayan definido con precisión los siguientes elementos:
• Objetivo de la investigación
• Método de recolección
• Procedimiento de recolección.
Los aspectos formales que se deben considerar en el diseño del cuestionario son: forma y tamaño, calidad
del papel, tipo de impresión, color de la impresión y del papel.
Forma y tamaño: la extensión del cuestionario depende del número y tipo de las preguntas y otros
elementos que se deben incluir en él (instrucciones, espacio para respuestas y códigos, etc.). Cualquiera
sea su extensión, debe tener una forma y tamaño que le den una apariencia agradable y que permitan que
las diferentes operaciones en que se utilice se puedan realizar cómodamente.
Calidad del papel: debe facilitar su lectura por parte del entrevistador o del entrevistado (si es de
autollenado). Además, debe garantizar la durabilidad del cuestionario, de modo que soporte sin
deteriorarse, el manipuleo a que será sometido en las diferentes operaciones.
Tipo de impresión: debe ser claro, agradable y de tamaño que permita ser leído sin esfuerzo. Conviene
evitar el uso de letras artísticas y la impresión de palabras en forma diagonal o vertical.
Color de la impresión y el papel: en algunos casos el color del papel del cuestionario se utiliza como código
para diferenciar unidades de información según determinadas características, o también para
56
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
identificar el destinatario de las diferentes copias. También puede hacer que su lectura y las diferentes
operaciones en que se utilice, resulten más o menos descansadas. Deben en lo posible utilizarse colores
claros y tratar que la combinación de colores que se elija para la tinta y el papel tenga buen contraste,
tanto con luz natural como con luz artificial y que a la vez no produzca cansancio por el reflejo.
En cuanto al contenido de las preguntas es necesario realizar las siguientes operaciones con cada una de
ellas.
Ejemplo: SEXO
Masculino 1
Femenino 2
Las preguntas abiertas son aquellas que admiten muchas respuestas posibles, siendo por ello
necesario dejar espacio suficiente para el registro de la respuesta y del código.
La redacción de las preguntas se puede hacer tal como deben ser planteadas al informante o
indicar sólo los elementos fundamentales de su contenido. De acuerdo con este criterio las
preguntas se clasifican en literales y guías.
57
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
¿Cuántos años cumplió en su último cumpleaños?
El siguiente ejemplo ilustra acerca de las variantes que pueden utilizarse para la redacción de
una pregunta sobre el personal ocupado en una empresa.
c) ¿Cuántas personas trabajan en este local para la empresa XXXX? (no olvide incluir entre las
personas a los propietarios que trabajan)
Menos de 1= trabajadores
10 o más trabajadores
e) La cantidad de personas que trabajan en este local para la empresa XXX es:
1 01
2a4 02
5a9 03
10 a19 04
20 a 49 05
50 a 99 06
100 a 499 07
500 a 999 08
1000 o más 09
f) Indique la cantidad de personas que realizaron labores para la empresa XXX en el último mes en
este local en las diferentes categorías que se detallan a continuación (incluya los que trabajan en
este local y los que lo hacen fuera pero reportan aquí):
58
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Propietarios o socios que trabajan
Familiares no remunerados
Personal dependiente permanente
Personal dependiente eventual
Personal de otras empresas afectado a la empresa XXX en este local
Total del personal.
g) Indique el total de personas que en el último año realizaron labores para la empresa XXX en este
local. No importa si las personas trabajaron como titulares o suplentes, a tiempo parcial o a
tiempo completo, si permanecen en la plantilla o si ya se retiraron de la empresa.
A continuación se plantean algunas pautas para la redacción y contenido de las preguntas del
cuestionario.
• Satisfacer el objetivo
2. Un cuestionario no es mejor que otro por ser más completo o extenso. Por el contrario,
es mejor cuanto más conciso. Existe una relación inversa entre la longitud del cuestionario
y la cantidad y calidad de la respuesta.
3. Incluir preguntas para las cuales se espera que el informante recuerde o tenga
registrada la respuesta.
5. Las preguntas deben ser redactadas de acuerdo con el nivel del informante. Las
personas encargadas de la redacción del cuestionario muchas veces utilizan términos
técnicos que pueden ser desconocidos por los informantes. Por ejemplo: en una encuesta
dirigida a comerciantes se les solicita "Listar los principales insumos de la empresa". No
todas las personas tienen la misma interpretación del significado de la palabra "insumos".
59
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
8. La pregunta no debe sugerir la respuesta. Este tipo de preguntas se conocen
corrientemente con el nombre de "preguntas cargadas". El informante puede, en sus
respuestas, ser influenciado por sentimientos tales como el deseo de prestigio, el temor
de que la respuesta pueda producirle algún perjuicio, el deseo de dar una respuesta para
agradar al entrevistador, con lo cual abreviará las molestias que le causa la entrevista.
60
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Definiciones
Datos son las observaciones recolectadas (como mediciones, géneros, respuestas de encuestas).
Estadística es un conjunto de métodos para planear estudios y experimentos, obtener datos y
luego organizar, resumir, presentar, analizar, interpretar y llegar a conclusiones basadas en los
datos.
Población es el conjunto completo de todos los elementos (puntuaciones, personas, medidas,
etcétera) que se va a estudiar. El conjunto es completo por que incluye a todos los sujetos que
se estudiarán.
Censo es el conjunto de datos de cada uno de los miembros de la población.
Muestra es un subconjunto de miembros seleccionados de una población.
Por ejemplo, una encuesta Gallup pregunto a 10878 adultos: “¿consume usted bebidas alcohólicas como
licor, vino, cerveza, o es totalmente abstemio?” Los 1087 sujetos de la encuesta constituyen una muestra:
en tanto que la población consisten el conjunto completo de los 202, 682,345 adultos estadounidenses.
Cada 10 años, el gobierno de Estado Unidos intenta obtener un censo de cada ciudadano, pero no lo logra
debido a que es imposible localizar a cada uno de ellos. Una polémica actual gira en torno al intento de
emplear métodos estadísticos sólidos para aumentar la exactitud del censo, aunque los aspectos políticos
constituyen un factor clave para que los miembros del Congreso se resistan a tal mejoría. Quizás algún día
algunos lectores de este libro sean miembros del Congreso y tengan la sabiduría de trasladar en censo al
siglo XXI.
Una actividad importante de este libro es demostrar cómo usar los datos muéstrales para obtener
conclusiones sobre poblaciones. Veremos que es sumamente importante obtener datos muéstrales que
sean representativos de la población de la población de la que se obtienen. Por ejemplo, si usted encuesta
a los alumnos que se graduaron de su universidad, y les pide que anoten su ingreso anual y que se lo envíen
por correo, es probable que las respuestas no sean representativas de la población de todos los alumnos.
Quienes tengan ingresos más bajos serán menos proclives a responder, y los que respondan
61
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
tal vez se sientan inclinados a exagerar. Al avanzar en este capítulo debemos enfocarnos en los siguientes
conceptos clave:
• Los datos muéstrales deben reunirse de una forma adecuada, como a través de un
proceso de selección aleatoria.
Ante todo, le pedimos que inicie su estudio de la estadística con una mente abierta. No dé por hecho que
el estudio de la estadística es comparable con un procedimiento inflexible. Según la experiencia del autor,
a menudo los estudiantes se sorprenden por la interesante naturaleza de la estadística, y también por el
hecho de que en realidad puedan dominar los principios básicos sin gran dificultad, incluso si no sobresalen
en otros cursos de matemáticas. Estamos convencidos de que con la asistencia a clases y la dedicación
constante, usted tendrá éxito al dominar los conceptos básicos de la estadística presentados en este curso.
Definiciones
Parámetro es una medición numérica que describe algunas características de una
población.
Estadístico es una medición numérica que describe algunas características de una muestra.
EJEMPLOS
1. Parámetro: en la ciudad de Nueva York hay 3250 botones para caminar, que los peatones emplean
en las intersecciones de tránsito. Se descubrió que el 77% de dichos botones no funciona (según datos del
articulo “For Exercise in New York Futility, Push Button”, de Michael Luo, New York Times). La cifra del 77%
es un parámetro porque está basada en la población de todos los 3250 botones para peatones.
2. Estadístico: con base en una muestra de 877 ejecutivos encuestados, se encontró que el 45% de
ellos no contrataría a alguien con un error ortográfico en su solicitud de empleo. Esta cifra del 45% es un
estadístico, ya que está basada en una muestra y no en la población completa de todos los ejecutivos.
62
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Algunos conjuntos de datos consisten en números (como alturas de 66 y 72 pulgadas); mientras que otros
son no numéricos (como los colores de ojos verde y café). Los términos datos cuantitativos y datos
cualitativos suelen utilizarse para distinguir entre ambos tipos.
DEFINICIONES
Los Datos cuantitativos consisten en números que representan conteos o mediciones.
Los Datos cualitativos (o categorías o de atributo) se dividen en diferentes categorías que
se distinguen por algunas características no numéricas.
EJEMPLOS
Cuando se trabaja con datos cuantitativos, es importante utilizar las unidades de medida apropiadas, como
dólares, horas, pies, metros, etcétera. Debemos ser especialmente cuidadosos para observar aquellas
referencias como “todas las cantidades están en miles de dólares” o “todos los tiempos están en
centésimas de segundo” o “las unidades están expresadas en kilogramos”. Ignorar unidades de medida
como estas nos llevaría a conclusiones incorrectas. La NASA perdió su Mars Climate Orbiter de $125
millones cuando la sonda se estrelló debido a que el programa de control tenía los datos de aceleración
en unidades inglesas, pero ellos incorrectamente consideraron que estaban en unidades métricas.
Los datos cuantitativos se describen con mayor detalle distinguiendo entre los tipos discreto y continuo.
DEFINICIONES
Los datos discretos: resultan cuando el número de valores posibles es un numero finito o un
número que “puede contarse” (es decir, el número de valores posibles es 0, 1, 2, etcétera).Los
datos continuos (numéricos) resultan de un infinito de posibilidades de posibles valores que
corresponden a alguna escala continua que cubre un rango de valores sin huecos,
interrupciones o saltos.
EJEMPLOS
1. Datos discretos: el número de huevos que ponen las gallinas son datos discretos porque
representan conteos.
2. Datos continuos: las circunstancias de leche que producen las vacas con datos continuos porque
son mediciones que pueden tomar cualquier valor dentro de un continuo. Durante un intervalo de tiempo
dado, una vaca produce una cantidad de leche que puede ser cualquier valor entre 0 y 5 galones. Es posible
obtener 2.343115 galones, porque la vaca no está restringida a cantidades discretas de 0, 1, 2, 3, 4, o 5
galones.
63
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Para contextualizar el informe Kinsey hay que investigadores estimaban que serían necesarias
tener en cuenta el cambio en las actitudes hacia 100.000 historias para completar el proyecto.
la sexualidad que provocaron en Estados Unidos
las ideas de Sigmund Freud, que se atrevió por Finalmente, el informe Kinsey incluyó historias
primera vez hablar con libertad de los problemas de 6.300 varones y 5.940 mujeres. Los datos
sexuales. Ante la creciente concienciación acerca fueron obtenidos a través de entrevistas a
de la importancia de la sexualidad, comenzaron a voluntarios. Kinsey se negó a realizar muestreos
realizarse estudios cuantitativos sobre el aleatorios porque alegaba que cuando las
comportamiento sexual. El trabajo de Kinsey personas seleccionadas se negaran a ser
presento dos diferencias importantes respecto entrevistadas se perdería la aleatoriedad. Para
de trabajos anteriores: la amplitud de la muestra asegurar la representatividad de la muestra se
y el interés por la exactitud de los datos. trabajó con unidades sociales o “muestras del
tipo 100 por 100”. Este método consistía en que
Kinsey y sus colaboradores intentaron acumular cuando se realizaban entrevistas a grupos
hechos objetivos sobre la sexualidad que organizados (ej. Asociaciones de mujeres o
pudieran representar a la población total de residentes de una institución particular) todos los
Estados Unidos. Para ello dividieron a la miembros del grupo tenían que estar de acuerda
población e 12 factores biológicos y económico- en aportar sus datos.
sociales: sexo, cultura y razas, estado civil, edad,
edad de comienzo de la adolescencia, grado de El uso de la entrevista personal como
instrucción, tipo de ocupación del sujeto, procedimiento de recogida de la información
profesión de los padres, acervo rural-urbano, estuvo directamente relacionado con el interés
grupos religiosos, adhesión religiosa y origen por la exactitud de los datos. Uno de los
geográfico. El estudio pretendía recabar series de principales objetivos era evitar los engaños. Para
datos que justificaran la descripción de tipos ellos se utilizó una entrevista estructurada como
sexuales para los distintos grupos de población preguntas directas y concisas. Se incluyeron
que pudiera incluirse en cada uno de los factores; preguntas de comprobación, es decir, preguntas
por ejemplo, el factor sexo incluiría dos grupos: relacionadas entre sí que marcaban tendencias a
hombres y mujeres. Estos lo largo de la elaboración de la historia. Si se
detectaban
64
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
incongruencias, por engaños o fallos en la sujeto, su edad y su nivel educativo.
memoria, el entrevistador indagaba más hasta
La entrevista más larga duro 17 horas y se
que la disconformidad podía explicarse o
realizó a un hombre de 63 años que había
eliminarse. Y si el entrevistador sospechaba que
guardado un registro detallado de su vida sexual.
el sujeto estaba mintiendo deliberadamente,
Este sujeto refirió, entre otros hechos, 600
ponían fin a la entrevista. Se limitó a seis el
relaciones homosexuales con niños, 200
número de entrevistadores, comprobando la
relaciones heterosexuales con niñas, relaciones
fiabilidad con comparaciones entre ellos. Cabe
con diferentes animales y elaboradas técnicas de
destacar que Kinsey obtuvo personalmente
masturbación. Su primer contacto heterosexual
7.36 (el 57,8) de las historias que componen el
había sido con su abuela y el primer homosexual
informe.
con su padre. Afirmó ser capaz de masturbarse
“Kinsey y sus colaboradores intentaron hasta eyacular en 10 segundos desde su estado
acumular hechos objetivos sobre la sexualidad de flacidez y, ante la incredulidad de los
que pudieran representar a la población total entrevistadores, lo demostró. Esta fue la única
de EE.UU”. demostración de un sujeto acerca de su historia.
Kinsey y sus colaboradores han sido muy
La entrevista básica consistía en 300 ítems criticados por utilizar los datos de este individuo
que podían ampliarse a 521. Los entrevistadores para describir la conducta sexual de los niños y no
conocían de memoria las preguntas y no había informar del caso a las autoridades.
ninguna referencia a las mismas en la hoja
utilizada en la entrevista. Las respuestas a las 300 “En buen parte, el gran impacto que tuvo el
preguntas básicas podían codificarse en una informe estuvo relacionada con los métodos
página. Por término medio, la duración de una utilizados”
entrevista con un sujeto adulto era de entre una
Una aportación novedosa de Kinsey y sus
hora y media a dos horas. Generalmente se
colaboradores fue que cuantificaron la
empezaba recabando información sobre la edad,
heterosexualidad y homosexualidad es un escala
el lugar de nacimiento, el nivel educativo,
continua de 0 a 6, basándose en la experiencia y
aficiones, profesiones de los padres, número de
reactividad heterosexual y homosexual en cada
hermanos y otros asuntos no sexuales. El primer
historia. Se asignó 0 en dicha escala a los
dato sexual que se recogía era aquel en el cual el
individuos cuyos contactos y experiencias
sujeto tenía la menor responsabilidad: el origen
sexuales tenían lugar exclusivamente con
de su educación sexual. Los primeros datos sobre
individuos del sexo opuesto y 6 a los individuos
actividades abiertamente sexuales comenzaban
exclusivamente homosexuales.
por los aspectos más remotos, como los juegos
sexuales de la preadolescencia. A partir de este
En el análisis estadístico se tuvo en cuenta el
momento, a sucesión de los temas variaba según
la posición social del
65
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
66
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
número de personas que participaban en las individuos representativos de un determinado
diversas actividades sexuales y el número de grupo. Consideraban que si los individuos eran
veces que se efectuaba un determinado acto examinados sin ningún prejuicio y de forma que
(dato de reiteración). Los datos reiteración se se incluyeran muestras amplias, sería posible
consideraban aproximaciones a los hechos conseguir un modelo que indicara la frecuencia
reales, ya que en su mayor parte provenían de las con la que las distintas características aparecen
estimaciones de los entrevistados, y se esperaba en cada grupo. Abordaron el estudio taxonómico
compensar el error incluyendo un gran número desde una perspectiva numérica. Solo las
de casos. Principalmente, para cada sujeto se técnicas estadísticas permitirían distinguir lo
calcularon porcentajes de reiteración del específico del general, y reconocer las diferencias
orgasmo para cada tipo de actividad sexual, y entre fenómenos corrientes y raros.
porcentajes de actividades (la parte de actividad
En el planteamiento de las bases estadísticas del
sexual total que se dedicó a cada tipo de
informe, los autores referencia a ciertas críticas
actividad sexual total que se dedicó a cada tipo
que han de recibido las técnicas estadísticas.
de actividad). Sobres estos porcentajes se
Concretamente indicaban que en algunos
calcularon medias, desviación típica, medianas,
círculos estas técnicas eran consideradas “frías”
coeficiente de correlación y curvas de frecuencia
e ineficaces para medir las emociones humanas,
acumulativa.
entre e as que se contaría la conducta sexual, ya
Los resultados del informe que acapararon más que podían proporcionar los recursos para
titulares en los medios de comunicación fueron calcular la media individual, pero en realidad no
los relativos a la homosexualidad masculina, y los existe el individuo promedio. Los autores del
relacionados con la actividad fuera del informe opusieron a tal crítica argumentando
matrimonio en el caso de la mujer. que precisamente la estadística “ayuda a
comprender al individuo aislado mostrándole su
En buena parte, el gran impacto que tuvo el relaciones con resto del grupo”.
informe estuvo relacionado con los métodos
utilizados. Kinsey y sus colaboradores intentaron En el estudio sobre la conducta sexual del varón
realizar un estudio taxonómico. Tuvieron en fue presentado como un informe preliminar.
cuenta los conocimientos acumulados en Pero a publicación del informe sobre la conducta
Biología sobre la variabilidad dentro de una sexual de la mujer que a Kinsey y su grupo les
misma especie y entre las distintas especies. Les fuera retirada la financiación en 1954.
interesaba medir las características particulares
que definen a los
67
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Kinsey murió dos años después, sin haber fundado no se desmoronó, pero sin su dirección
conseguido otros fondos para el trabajo. El nunca se completó el gran proyecto para el que
Instituto de Investigaciones Sexuales que había había sido diseñado.
68
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
El principal propósito de aplicar un cuestionario es recabar información concreta que sirve para realizar
estudios de carácter social, cultural o económico. Sin embargo, este proceso no es tan fácil, ya que los
encuestadores se pueden enfrentar a diversos obstáculos como contestaciones censuradas o inconclusas.
69
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
técnicas acerca del tema otro. Esta es una
enterarse del tema
de la encuesta como de circunstancia a cuidar, sobre
tratado.
la relación de esta sin todo en muestreos con
que además influya probabilidad proporcional al
A estos tres casos, referidos conscientemente o no tamaño donde las unidades
especialmente al en la respuestas ni muéstrales no tienen la
respondiente, se le puede atemorice al misma probabilidad de
agregar un cuarto, que será respondiente, ya que
aparecer, sino que las que
debido al diseño del esta también puede
son consideradas más
cuestionario y operación de la causar una no
relevantes para el estudio,
encuesta. respuesta.
dentro de la población tiene
Cuando el diseño del
una probabilidad mayor de
cuestionario no es el
Regresando al primer caso de estar en la muestra y si a esa
adecuado puede concluir al
no respuesta debida al unidad muestral no es
entrevistado a no responder
respondiente, que es el de posible aplicarle la encuesta,
por causarle con fusión los
ausencia, puede definirse el impacto sobre los
términos usados, aun cuando
como una no respuesta resultados del estudio será
conozcan el tema y no tengan
debida a la no localización de también mayor. El cuanto al
inconveniente en responder,
la persona que sería tamaño de la muestra,
e inclusive negarse a contestar
entrevistada. Cuando esta resulta relevante la ausencia
por temor el ridículo que le
ocurre puede recomendarse de un elemento en una
causa lo abstruso del
que, en primer lugar, se muestra de 30 que en una de
lenguaje. Esta es una de las
intente de nuevo la búsqueda 200 u otra de 1,000, ya que
fallas que deberá ser
tantas veces como considere representaría,
detectada por la prueba
necesario. respectivamente, el 3.33, 0 .5
piloto.
o el 0.1% de la respuesta
Esta consideración total, es decir, entre más
dependerá de tres factores: la elementos conforman la
En cuanto a la operación de la importancia específica del muestra menor será el
encuesta, el problema elemento no encontrado para impacto en el estudio de
principal –aunque no el único- los resultados de la encuesta, perder uno, aunque este es
es la fatal de capacitación de el número de elementos que un argumento que deberá
los conforman la muestra y la tomarse con el debido
entrevistados, que deben dispersión obtenida de los cuidado porque existen
estar aptos para: mismos medidas en términos múltiples situaciones que
de desviación estándar. pueden invalidarlo.
Aunque en general cada Finalmente, hay que estimar
elemento es importante, la dispersión que tienen los
• Convencer el precisamente ése que no ha elementos dentro de la
entrevistado de que sido encontrado tal vez lo sea población para juzgar el valor
participación es en especial por alguna razón, que cada uno de ellos pueda
importante para los lo que justifica el continuar tener en los resultados
fines del estudio. finales, si la desviación
• Responder dudas, tanto estándar y el coeficiente de
71
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
puede temer que su opinión socioeconómico o cantidad de no respuesta en
resulte en controversia con la religión. Aunque se hagan el muestreo definido y los
de sus jefes y que de aquí se con todos los tipos de respuestas que se
deriven consecuencias entrevistados, se hace encontraron.
desagradables para su énfasis en los que han 2. Si no hubiera sesgos,
bienestar social, económico e respondido, primero, para como es probable que
incluso físico, aunque haya ver qué tan comunes son suceda en los casos 1 y 2 de
una seguridad dada por el cada una de estas los tipos de no respuesta
entrevistador de la características en ellos y mencionados en
confidencialidad del estudio. obtener, si es posible, un recomendable aumentar el
patrón común a todos que tamaño de la muestra,
Sugerencias para el trato de tipifique a un grupo en siempre conservando el
la no respuesta especial y, segundo, con el rigor en la selección de
fin de hacer una unidades para compensar la
El problema mayor que se le
contrastación de esta clase merma que pudiera sufrirse
presenta al encuestador en
cuanto a la no respuesta en especial con los que por la no respuesta, sobre
general es el hecho de que es respondieron. todo si se prevé que será
muy posible que haya más de 2. Un análisis junto con una considerable. En este punto
una de las causas anteriores valoración, forzosamente hay que tomar en cuenta
para no contestar. Aquí solo el subjetiva de la causa de no que si bien la confiabilidad
entrevistador podrá respuesta, la actitud del del estudio y su nivel de
establecer bajo que entrevistado, los informes error se mantienen, el caso
clasificación se le incluye, ya que le aumenta, ya que se estaría
que, como se ha visto, el proporcionaron vecinos, contratando a más
tratamiento que se dará a conocidos o cualquier otro entrevistadores o pagando
cada caso será diferente y medio en caso de no más sueldos a los que ya se
siempre será consecuencia y haberlo encontrado, así tienen, así como el tiempo
dependerá de la subjetividad como sugerencias para de recolección y análisis de
del entrevistador. Será mejorar la técnica de la datos será mayor.
conveniente que cada entrevista y los defectos
entrevistador haga dos tipos encontrados en la misma. Por el contrario, cuando hay
de observaciones cuando no sesgos, como en el caso 3, se
Recomendaciones
encuentra respuesta a una deberán señalar claramente
entrevista: Por último, algunas las limitaciones derivadas de
recomendaciones para el caso la no respuesta. En este caso
1. Una descripción de los
de no respuesta. no es posible sustituir las
elementos visibles del
unidades porque constituyen
entrevistado, como el 1. Prever, a partir del por sí misma una clase que se
aspecto exterior de la muestreo piloto y del parte de la población que se
persona, el tipo de conocimiento de los estudia, por los que se tendrá
vivienda, el lenguaje en investigadores acerca del que señalar este hecho en las
que se expresa, sexo, edad tema, la posibilidad de conclusiones.
aproximada, etcétera, aparición de casos de nos
y si fuera posible, de su respuesta y de qué forma
profesión, familia, será tratada, estimar la
nivel
72
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
El cuestionario es el conjunto de preguntas diseñadas para generar los datos necesarios para alcanzar los
objetivos del proyecto de investigación; es un plan formal para recabar información de la unidad de análisis
objeto de estudio y centro del problema de investigación.
En general, un cuestionario consiste en un conjunto de preguntas respecto a una o más variables que se
van a medir.
Antes de iniciar la elaboración de un cuestionario, es necesario tener en claro los objetivos y las hipótesis
o preguntas de investigación que impulsan a diseñar el cuestionario. Además, es preciso tener cierta
seguridad de que la información puede conseguirse mediante los métodos de que se dispone y requiere
el objeto de estudio.
Naturaleza de la
información que se busca
(ejemplos: cantidad,
complejidad, accesibilidad)
73
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Para preparar un instrumento de obtención de datos, deben examinarse los siguientes aspectos básicos:
Dada la importancia que tiene el cuestionario en un proceso de investigación científica, porque es uno de
los medios más usados (a veces el único) para obtener la información de la investigación, a continuación
se presenta una guía general de aspectos que deben tenerse en cuenta en la elaboración de un
cuestionario.
Las preguntas de tipo abierto ofrecen diversas ventajas para el investigador. Permiten que las personas
entrevistadas indiquen sus reacciones generales ante un determinado aspecto o rasgo. Por ejemplo,
¿qué ventajas, si es que las hay, ofrece el uso del internet en el mundo actual? Además, propician la
obtención de información abundante o pueden sugerir posibilidades que no se incluyen en las preguntas
cerradas.
Las preguntas abiertas también plantean ciertos problemas: se dificulta el proceso de edición y
codificación, se hace difícil interpretar los patrones de datos y las frecuencias de las respuestas. El
encuestador muchas veces se ve en la necesidad de hacer interpretaciones de las respuestas para ubicarlas
en alguna categoría de clasificación, lo cual puede crear sesgos por parte del entrevistador, además de que
no son adecuadas para los cuestionarios de autoadministración.
74
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
• Preguntas de tipo cerrado. Son preguntas que le piden a la persona encuestada que elija la
respuesta en una lista de opciones.
Las ventajas de este tipo de preguntas es que se elimina el sesgo del entrevistador, muy clásico en las
preguntas de tipo abierto. Son fáciles de codificar y se obtienen respuestas muy concretas.
Las preguntas de tipo cerrado se subdividen en dos clases: preguntas dicotómicas y preguntas de opción
múltiple.
• Preguntas dicotómicas. El tipo más sencillo de preguntas cerradas es de opción dicotómica,
como las siguientes:
En ocasiones se agrega una opción neutra o la opción “sin opinión/no sabe” a las preguntas dicotómicas;
en otras, los entrevistadores anotan NS por “no sabe” o NR por “no responde”, cuando la opción neutra
no se incluye en el cuestionario.
Para algunos investigadores, las preguntas dicotómicas incurren en un error de medición considerable.
Como las alternativas están polarizadas, se omite la gran diversidad de posibilidades entre las opciones
extremas.
• Preguntas de opción múltiple. Como todas las preguntas de tipo cerrado, las preguntas de opción
múltiple proporcionan información limitada, ya se le pide al entrevistado que indique la alternativa que
exprese su opinión o en algunos casos es necesario indicar varias opciones.
¿Cuáles de los siguientes criterios considera fundamental para adquirir o comprar un producto de
vestuario? (Marque con una X la opción o criterio principal).
a. El precio
b. La marca
c. La exclusividad
d. La calidad
e. La disponibilidad
f. El diseño
Muy satisfactorio
Un poco satisfactorio
75
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Indiferente
Un poco insatisfactorio
Muy insatisfactorio
Como puede analizarse en los ejemplos anteriores, cada tipo de pregunta cerrada representa desventajas
específicas. En el caso de la forma dicotómica, las respuestas no comunican la intensidad de los
sentimientos del entrevistado. En algunas situaciones, la intensidad no es aplicable; por ejemplo:
Pero en otras, el entrevistado tiene fuertes sentimientos acerca del tema. Sin embargo, dicha intensidad
no se evidencia en la respuesta dicotómica; por ejemplo:
En esta respuesta no puede establecerse la intensidad del gusto por la marca de automóvil.
La pregunta múltiple con respuesta cerrada tiene dos desventajas adicionales: se requiere mayor tiempo
para elaborar la pregunta y se genera una gran diversidad de respuestas posibles. Otro problema
relacionado con cualquier lista es el sesgo de posición: los individuos suelen elegir la primera o la última
opción sin prestar atención a las intermedias o, al contrario, prestar mucha atención a las intermedias.
• Preguntas con respuesta a escala. Son aquellas preguntas básicamente dirigidas a medir la
intensidad o grado de sentimientos respecto a un rasgo o variable por medir, usualmente se les conoce
como escalas de medición de actitudes y entre las cuales la más usada es la escala de Likert.
5. Una vez se ha decidido el tipo o tipos específicos de preguntas y los formatos de respuesta, la
siguiente tarea es escribir las preguntas. Al respecto, deben considerarse los siguientes aspectos:
• Las preguntas deben se claras y comprensibles para los encuestados. La falta de claridad conlleva
confusiones y ambigüedades; por ejemplo. ¿compra algún producto en este almacén?, esta pregunta es
confusa, no delimita la frecuencia, ni el tipo de productos.
• Se deben evitar las preguntas tendenciosas. Una pregunta es tendenciosa cuando le presenta al
entrevistado una clave para orientar su respuesta; por ejemplo: ¡considera usted que el gobierno debe
estimular el consumo de bienes nacionales aunque éstos sean de menor calidad que los importados con
el propósito de evitar el desempleo?
• Se debe elaborar preguntas específicas para cada una de las variables que se van a medir con el
fin de evitar confusiones; por ejemplo: ¿qué opinión tiene del precio y de la calidad de los productos de la
76
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
marca JP? En este caso, es importante redactar una pregunta para conocer la actitud respecto al
77
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
precio y otra para la calidad, pero no una sola pregunta podría responder a una variable y no a las dos.
Además, estas preguntas generan inconformidad en el encuestado porque podría opinar sobre cada
variable por separado y no se le ofrece el espacio.
Según Malhotra:
• Las preguntas no deben redactarse de modo que la respuesta sea dependiente de suposiciones
implícitas acerca de lo que sucederá como consecuencia del contenido de la pregunta; por ejemplo:
¿está a favor de un presupuesto en el impuesto sobre el ingreso personal?
• Elaborar preguntas adaptando el lenguaje a las características de los entrevistados.
• Evaluar la penitencia de la pregunta. ¿Realmente es necesaria la pregunta? Esto puede lograrse
contrastando la pregunta con los objetivos de la investigación.
• Evaluar si el encuestado puede y quiere aportar la información que se le pide.
78
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
6. Establecer el flujo y la estructura del cuestionario. Una vez redactadas las preguntas, y
económicas que permitirán clasificar a los entrevistados.
En relación con el flujo de ítems o preguntas se recomienda:
• Iniciar con preguntas sencillas e interesantes.
• Formular primero las preguntas de tipo general.
• Formular las preguntas por temas afines o subtemas, de modo que el encuestado se concentre
en un solo tema o aspecto cada vez que se desplaza por el cuestionario.
7. Hacer la evaluación previa del cuestionario. El objetivo primario de la prueba previa es corroborar
que el cuestionario posee los criterios de confiabilidad y de validez. Esto se logra si se somete el
cuestionario al juicio de expertos en la elaboración de instrumentos de medición y recolección de datos y
de especialistas en el tema objeto de estudio y realizar una prueba piloto aplicando el instrumento a una
pequeña muestra de la población objeto de la investigación.
8. Elaborar el cuestionario definitivo teniendo en cuenta las observaciones del jurado y la experiencia
de prueba piloto.
CODIFICACIÓN DE RESPUESTAS
Cuando se aplica la versión definitiva de la escala los resultados se codifican de la misma manera que en
la escala de Likert, dependiendo del número de categorías de respuesta que se incluyan. Y al igual que la
escala Likert y el diferencial semántico, todos los ítems deben tener el mismo número de categorías de
respuesta. Este es un requisito de todas las escalas de actitud. Asimismo, se considera una respuesta
inválida a quien marque dos o más opciones para una misma afirmación. El escalograma de Guttman es
una escala estrictamente ordinal pero que se suele usar como si fuera de intervalo. Puede aplicarse
mediante entrevista (con uso de tarjetas que contengan las opciones o categorías de respuesta) o puede
ser auto administrativa.
Cuestionarios
Tal vez el instrumento más utilizado para recolectar los datos es el cuestionario. Un cuestionario consiste
en un conjunto de preguntas respecto a una o más variables a medir.
El contenido de las preguntas de un cuestionario puede ser tan variado como los aspectos que mide. Y
básicamente, podemos hablar de dos tipos de preguntas: cerradas y abiertas.
Las preguntas cerradas contienen categorías o alternativas de respuesta que han sido delimitadas. Es decir,
se presentan a los sujetos de posibilidades de respuesta y ellos deben circunscribirse a ellas. Pueden ser
dicotómicas (dos alternativas de respuesta) o incluir varias alternativas de respuesta. Ejemplos de
preguntas cerradas dicotómicas serían:
( ) Sí
79
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
( ) No
¿Durante la semana pasada vio la telenovela Los amantes?
( ) Sí
( ) No
Ejemplo de preguntas cerradas con varias alternativas de respuesta serían:
¿Cuánta televisión ves los domingos?
( ) No veo televisión
( ) Menos de una hora
( ) 1 0 2 horas
( ) 3 horas
( ) 4 horas
( ) 5 horas o más
Si usted tuviera elección, ¿preferiría que su salario fuera de acuerdo con su productividad en el
trabajo?
( ) Definitivamente sí
( ) Probablemente sí
( ) No estoy seguro
( ) Probablemente no
( ) Definitivamente no
Como puede observarse, en las preguntas cerradas las categorías de respuesta son definidas a
priori por el investigador y se le presentan al respondiente, quien debe elegir la opción que describa más
adecuadamente su respuesta. Las escalas de actitudes en forma de pregunta caerían dentro de la categoría
de preguntas cerradas.
Ahora bien, hay preguntas cerradas, donde el respondiente puede seleccionar más de una opción
o categoría de respuesta.
Ejemplo
Esta familia tiene:
¿Radio?
¿Televisión?
¿Videocasetera?
¿Teléfono?
¿Automóvil o camioneta?
Ninguno de los anteriores
80
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Algunos respondientes pudieran marcar una, dos, tres, cuatro o cinco opciones de respuesta. Las
categorías no son mutuamente excluyentes. Otro ejemplo sería la siguiente pregunta:
De los siguientes servicios que presta la biblioteca, ¿cuál o cuáles utilizaste el semestre anterior?
(Puede señalar más de una opción.)
De la sala de lectura:
No entré
A consultar algún libro
A consultar algún periódico
A estudiar
A pasar trabajos a máquina
A buscar a alguna persona
Otros, especifica
De la hemeroteca:
No entré
A consultar algún periódico
A usar las videocaseteras
A estudiar
A hacer trabajos
A sacar copias
A leer algún libro
Otro, especifique
No fui
A solicitar algún libro
A solicitar alguna tesis
A solicitar algún periódico
A solicitar diapositivas
A solicitar máquinas de escribir
A solicitar equipo audiovisual
A solicitar asesoría para localización de material
Otros, especifica
En otras ocasiones, el respondiente tiene que jerarquizar opciones. Por ejemplo: ¿cuál de los
siguientes conductores de televisión considera usted el mejor?, ¿cuál en segundo lugar?, ¿cuál en tercer
lugar?
LEM
BCC
MME
81
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Ejemplo
¿CUÁNTO LE INTERESA DESARROLLAR? (Indique de 1 a 10 en cada caso según sus
intereses.)
Cada cuestionario obedece a diferentes necesidades problemas de investigación, lo que origina que en
cada caso el tipo de preguntas sea diferente. Algunas veces se incluyen solamente preguntas cerradas,
otras veces únicamente preguntas abiertas y en ciertos casos ambos tipos de preguntas. Cada clase de
pregunta tiene sus ventajas y desventaja. Las cuales se mencionan a continuación.
Ejemplo
¿Las
Porpreguntas cerradas
qué asiste son fáciles de codificar y preparar para su análisis. Asimismo, estas preguntas
a psicoterapia?
¿De qué manera la directiva de la empresa ha logrado la cooperación del sindicato para el
proyecto de calidad?
Requieren de un menor esfuerzo por parte de los respondientes. Éstos no tienen que escribir o verbalizar
pensamientos, sino simplemente seleccionar la alternativa que describa mejor su respuesta. Responder a
un cuestionario son preguntas cerradas toma menos tiempo que contestar a uno con preguntas abiertas.
Si el cuestionario es enviado por correo, se tiene una mayor respuesta cuando es fácil de contestar y
requiere menos tiempo completarlo. La principal desventaja de las preguntas cerradas reside en que
limitan las respuestas de la muestra y, en ocasiones, ninguna de las categorías describe con exactitud lo
que las personas tienen en mente, no siempre se captura lo que pasa por la cabeza de los sujeto.
82
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Para poder formular preguntas cerradas es necesario anticipar las posibles alternativas de respuesta. De
no ser así es muy difícil plantearlas. Asimismo, el investigador debe asegurarse que los sujetos a los cuales
se les administrarán conocen y comprenden las categorías de respuesta. Por ejemplo, si preguntamos qué
canal de televisión es el preferido, determinar las opciones de respuesta y que los respondientes las
comprendan es muy sencillo. Pero si preguntamos sobre las razones y motivos que provocan es
preferencia, determinar dichas opciones es algo bastante más complejo.
Las preguntas abiertas son particularmente útiles cuando no tenemos información sobre las posibles
respuestas de las personas o cuando esta información es insuficiente. También sirven en situaciones donde
se desea profundizar una opción o los motivos de un comportamiento. Su mayor desventaja es que son
más difíciles de codificar, clasificar y preparar sus análisis. Además, pueden presentarse sesgos derivados
de distintas fuentes; por ejemplo, quienes tienen dificultadas para expresarse oralmente y por escrito
pueden no responder con precisión lo que realmente desean o generar confusión en sus respuestas. El
nivel educativo, la capacidad de manejo del lenguaje y otros factores pueden afectar la calidad de las
respuestas (Black y Champion, 1976). Asimismo, responder a preguntas “abiertas” requiere de un mayor
esfuerzo y tiempo.
La elección del tipo de preguntas que contenga el cuestionario depende del grado en que se puedan
anticipar las posibles respuestas, los tiempos de que se disponga para codificar y si se requiere una
respuesta más precisa o profundizar en alguna cuestión. Una recomendación para construir un
cuestionario es que se analice variable por variable qué tipo de pregunta o preguntas pueden ser más
confiables y válidas para medir a esa variable, de acuerdo con la situación del estudio (planteamiento del
problema, características de la muestra, análisis que se piensan efectuar, etcétera).
En ocasiones sólo basta una pregunta para recolectar la información necesaria sobre la variable a medir.
Por ejemplo, para medir el nivel de escolaridad de una muestra, basta con preguntar: ¿Hasta qué año
escolar curso? O ¿Cuál es su grado máximo de estudios? En otras ocasiones es necesario elaborar varias
preguntas para verificar la consistencia de las respuestas. Por ejemplo, el nivel económico puede medirse
preguntando: ¿cuál aproximadamente es su nivel mensual de ingresos? Y preguntando:
¿cuántos focos eléctricos tiene aproximadamente en su casa? Además de preguntar sobre propiedades,
inversiones, puesto que ocupa, la fuente principal de ingresos de la familia (generalmente, el padre),
etcétera.
Al respecto, es recomendable hacer solamente las preguntas necesarias para obtener la información
deseada o medir la variable. Si una pregunta es suficiente no es necesario incluir más. No tiene sentido. Si
se justifica hacer varias preguntas, entonces es conveniente plantearlas en el cuestionario. Esto último
ocurre con frecuencia en el caso de variables con varias dimensiones o componentes a medir, donde se
incluyen varias preguntas para medir las distintas dimensiones. Se tienen varios indicadores.
Ejemplo
La empresa Comunicometría, S.C., realizó una investigación para la Fundación Mexicana para
la Calidad Total, A.C. (1988), con el propósito de conocer las prácticas, técnicas, estructuras,
procesos y temáticas existentes en materia de Calidad total en México. El estudio fue de carácter
exploratorio y constituyó el primer esfuerzo por obtener una radiografía del estado de los
procesos de calidad en dicho país.
83
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
En esta investigación se elaboró un cuestionario que media el grado de en qué las organizaciones
mexicanas aplicaban diversas prácticas tendientes a elevar la calidad, la productividad y la calidad de vida
en el trabajo. Una de las variables importantes era el “grado en que se distribuía la información sobre el
proceso de calidad en la organización”. Esta variable se midió a través de las siguientes preguntas:
A. Por lo que respecta a los programas de información sobre calidad, ¿cuáles de las siguientes
actividades se efectúan en esta empresa?
B. Sólo a quienes distribuyen selectivamente datos sobre calidad. ¿A qué niveles de la empresa?
D. ¿Qué otras actividades se realizan en esta empresa para los programas de información sobre calidad?
En este ejemplo, las preguntas “B” y “C” se elaboraron para ahondar en los receptores o usuarios de los
datos en aspectos de control de calidad distribuidos selectivamente. Se justifica hacer estas dos preguntas,
pues ayuda a tener más información sobre la variable. Cuando se tienen varias preguntas para una misma
variable se dice que se tiene una “batería de preguntas”.
Siempre que se pretenda efectuar análisis estadísticos es necesario codificar las respuestas de los sujetos a
las preguntas del cuestionario, y debemos recordar que esto significa asignarles símbolos o valores
numéricos. Ahora bien, cuando se tienen preguntas cerradas, es posible codificar a priori o precodificar las
alternativas de respuesta e incluir esta Precodificación en el cuestionario (como lo hacíamos con las escalas
de actitudes).
84
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Su propia experiencia
Sus compañeros
Otra fuente
(Especificar)
En ambas preguntas, las respuestas van acompañadas de su valor numérico correspondiente, han sido
precodificadas. Obviamente en las preguntas abiertas no puede darse la codificación, la codificación se
realiza posteriormente, una vez que se tienen las respuestas. Las preguntas y alternativas de respuesta
precodificadas tienen la ventaja que su codificación y preparación para el análisis son más sencillas y
requieren menos tiempo.
Independientemente de que las preguntas sean abiertas o cerradas y de que sus respuestas estén
precodificadas o no, hay una serie de características que deben cubrirse al plantearlas:
A. Las preguntas deben ser claras y comprensibles para los respondientes. Deben evitarse
términos confusos o ambiguos y, como menciona Rojas (1981, p. 138), no es nada recomendable
sacrificar la claridad por comisión. Es indispensable incluir las palabras que sean necesarias
paraqué se comprenda la pregunta. Desde luego, sin ser repetitivos o barrocos. Por ejemplo, la
pregunta: ¿ve usted televisión? Es confusa, no delimita cada cuánto. Sería mucho mejor
especificar: ¿acostumbra usted ver televisión diariamente? O ¿cuántos días durante la última
semana vio televisión? Y después preguntar los horarios, canales y contenidos de los programas.
C. Las preguntas deben referirse preferentemente a un solo aspecto o relación lógica. Por
ejemplo, la pregunta: ¿acostumbra usted ver televisión y escuchar radio diariamente?, expresa
dos aspectos y puede confundir. Es mucho mejor dividirla en dos preguntas, una relacionada con
la televisión y otra relacionada con la radio.
D. Las preguntas no deben inducir las respuestas. (Rojas, 1981, p. 138). Preguntas
tendenciosas o que dan pie a elegir un tipo de respuesta deben de evitarse. Por ejemplo:
¿considera a Ricardo Hernández el mejor candidato para dirigir nuestro sindicato?, es una
pregunta tendenciosa, induce la respuesta. Lo mismo que la pregunta: ¿los trabajadores
mexicanos son muy productivos? Se insinúa la respuesta en la pregunta. Resultaría mucho más
conveniente preguntas: ¿Qué tan productivos considera usted, en general, a los trabajadores
mexicanos?
Por ejemplo, la pregunta: La Organización Mundial de la Salud ha realizado diversos estudios y concluyó
que el tabaquismo provoca diversos daños al organismo, ¿usted considera que fumar es nocivo para su
salud? Esquemas del tipo. “La mayoría de las personas opinan que: …”La iglesia considera …”, “Los padres
de familia piensan que…”, etcétera, no deben anteceder a una pregunta, sesgan las respuestas.
G. El lenguaje utilizado en las preguntas debe ser adaptado a las características del
respondiente (tomar en cuenta su nivel educativo, socioeconómico, palabras que maneja,
etcétera). Este aspecto es igual al que se comentó sobre las escalas de actitud.
86
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
¿Cómo deben ser las primeras preguntas de un cuestionario?
En algunos casos es conveniente iniciar con preguntas neutrales o fáciles de contestar, para que el
respondiente vaya adentrándose en la situación. No se recomienda comenzar como preguntas difíciles o
muy directas. Imaginemos un cuestionario diseñado para obtener opiniones en torno al aborto que
empiece con una pregunta poco sutil tal como: ¿Está de acuerdo en que se legalice el aborto en este país?
Sin lugar a duda sería un fracaso.
A veces los cuestionarios pueden comenzar con preguntas demográficas sobre el estado civil, sexo,
edad, ocupación, nivel de ingresos, nivel educativo, religión, ideología, puesto en una organización o algún
tipo de afiliación a un grupo, partido e institución. Pero en otras ocasiones es mucho mejor hacer este tipo
de preguntas al final del cuestionario, particularmente cuando los sujetos puedan sentir que se
comprometen al responder al cuestionario.
Cuando construimos un cuestionario es indispensable que pensemos en cuáles son las preguntas
ideales para iniciar. Éstas deberán lograr que el respondiente se concentre en el cuestionario.
Además de las preguntas y categorías de respuestas, un cuestionario está formado por instrucciones que
nos indican cómo contestar, por ejemplo:
Hablando de la mayoría de sus proveedores en qué medida conoce usted (MOSTRAR TARJETA UNO
Y MARCAR LA RESPUESTA EN CADA CASO).
¿Tiene este ejido o comunidad, ganado, aves o colmenas que sean de propiedad colectiva?
(CIRCULE LA RESPUESTA)
SÍ 1 No 2
87
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Ejemplos de cartas
Las instrucciones son tan importantes como las preguntas y es necesario que sean claras para los
usuarios a quienes van dirigidas. Y una instrucción muy importante es agradecer al respondiente por
haberse tomado el tiempo de contestar el cuestionario. También, es frecuente incluir una carátula de
presentación o una carta donde se expliquen los propósitos del cuestionario y se garantice la
confidencialidad de la información, esto ayuda a ganar la confianza del respondiente.
La manera en que pueden distribuirse las preguntas, categorías de respuesta e instrucciones es variada.
Algunos prefieren colocar las preguntas a la izquierda y las respuestas a la derecha.
Otros combinan diversas posibilidades, distribuyendo preguntas que miden la misma variable a través de
todo el cuestionario. Cada quien puede utilizar el formato que desee o juzgue conveniente, lo importante
es que sea totalmente comprensible para el usuario: que las instrucciones, preguntas y respuestas se
diferencien; que el formato no resulte visualmente tedioso y pueda leer sin dificultad.
No existe una regla al respecto; pero, como menciona Padua (1979), si es muy corto se pierde información
y si resulta largo puede resultar tedioso. En este último caso, las personas pueden negarse a responder o,
al menos, lo responderán en forma incompleta. El tamaño depende del número de variables y dimensiones
a medir, el interés de los respondientes y la manera como es administrado (de este punto se hablará en el
siguiente apartado). Cuestionarios que duran más de 35 minutos deben resultar tediosos a menos que los
respondientes estén muy motivados para contestar (v.g., cuestionarios de personalidad, cuestionarios
para obtener un trabajo). Una recomendación que puede ayudarnos a evitar un cuestionario más largo de
lo requerido es: “No hacer preguntas innecesarias o injustificadas”.
Las preguntas abiertas se codifican una vez que conocemos todas las respuestas de los sujetos a las cuales
se les aplicaron o al menos las principales tendencias de respuesta en una muestra de los cuestionarios
aplicados.
El procedimiento consiste en encontrar y darles nombre a los patrones generales de respuesta (respuestas
similares o comunes), listar estos patrones y después asignar un valor numérico o símbolo a cada patrón.
Así, un patrón constituirá una categoría de respuesta. Para cerrar las preguntas abiertas se sugiere el
siguiente procedimiento, basado parcialmente en Rojas (1981, pp. 150-151):
1. Seleccionar determinado número de cuestionarios mediante un método adecuado de
muestreo, asegurando la representativa de los sujetos investigados.
2. Observar la frecuencia con que aparece cada respuesta a la pregunta.
3. Elegir las respuestas que se presentan con mayor frecuencia (patrones generales de
respuesta.
4. Clasificar las respuestas elegidas temas, aspectos o rubros, de acuerdo con criterio
lógico, cuidando que sean mutuamente excluyentes.
5. Darle un nombre o título a cada tema, aspecto o rubro (patrón general de respuesta).
88
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
6. Asignarle el código a cada patrón general de respuesta.
Por ejemplo, en la investigación de Comunicometría (1988) se hizo una pregunta abierta: ¿De qué manera
la alta gerencia busca obtener la cooperación del personal para el desarrollo del proyecto de calidad?
Las respuestas fueron múltiples pero pudieron encontrarse los siguientes patrones generales de respuesta:
Número de
Categorías (patrones o respuestas con mayor frecuencia
Códigos frecuencia de
de medición)
medición
Involucrando al personal y comunicándose con él.
1 28
2 Motivación e integración. 20
3 Capacitación en general. 12
4 Incentivos/ recompensas. 11
Difundiendo el valor “calidad” a la filosofía de la
5 7
empresa.
6 Grupos so sesiones de trabajo. 5
7 Posicionamiento del área de calidad o equivalente 3
8 Sensibilización 2
9 Desarrollo de la calidad de vida en el trabajo 2
10 Incluir aspectos de calidad en el manual de inducción. 2
11 Enfatizar el cuidado de la maquinaria 2
12 Trabajando bajo un buen clima laboral. 2
13 Capacitación “en cascada” 2
14 Otras 24
Como varias categorías o patrones tenían solamente dos frecuencias, éstos a su vez pudieron reducirse
a:
Categorías
Al “cerrar” preguntas abiertas y ser codificadas, debe tenerse en cuenta que un mismo patrón de respuesta
puede expresarse con diferentes palabras. Por ejemplo, ante la pregunta. ¿Qué sugerencias podría hacer
para mejorar al programa Estelar? Las respuestas: “mejorar las canciones y la música”, “cambiar las
canciones”, “incluir nuevas y mejores canciones”, etc., pueden agruparse en la categoría o patrón de
respuesta “modificar la musicalización del programa”.
89
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Los cuestionarios pueden ser aplicados de diversas maneras:
C. Por entrevista telefónica. Esta situación es similar a la anterior, sólo que la entrevista no es
“cara a cara” sino a través del teléfono. El entrevistador le hace las preguntas al correspondiente
por este medio de comunicación.
Cuando se tiene población analfabeta, con niveles educativos bajos o niños que apenas comienzan a leer
o no dominan la lectura, el método más conveniente de administración de un cuestionario es por
entrevista. Aunque hoy en día ya existen algunos cuestionarios muy gráficos que usan escalas sencillas.
En algunos casos, con ejecutivos que difícilmente puedan dedicarle a un solo asunto más de 20 minutos,
se pueden utilizar cuestionarios autoadministrados o entrevistas telefónicas. Con estudiantes suelen
funcionar los cuestionarios autoadministrados.
Asimismo, algunas asociaciones hacen encuestas por correo y ciertas empresas envían cuestionarios a sus
ejecutivos y supervisores mediante el servicio interno de mensajería o por correo electrónico. Cuando el
cuestionario contiene unas cuantas preguntas (su administración toma entre 4 y5 minutos), la entrevista
telefónica es una buena alternativa.
90
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Ahora bien, sea cual fuera la forma de administración, siempre debe haber uno o varios supervisores que
verifiquen que se están aplicando correctamente los cuestionarios. Cuando un cuestionario o escala es
aplicado (a) de forma masiva suele denominarse “encuesta”.
Cuando se utiliza la entrevista telefónica se debe tomar en cuenta el horario. Ya que si hablamos sólo a
una hora (digamos en la mañana), nos encontraremos como unos cuantos subgrupos de la población (v.
g., amas de casa).
Cuando lo enviamos por correo o es autoadministrado directamente, las instrucciones deben ser muy
precisas, claras y completas. Y debemos dar instrucciones que motiven al respondiente para que continúe
contestando el cuestionario (v. g., ya nada más unas cuantas preguntas, finalmente).
Asimismo, cabe señalar que cuando se trata de entrevista personal, el lugar donde se realice es importante
(oficina, casa-habitación, en la calle, etc.). por ejemplo, Jaffe, Pasternak y Grifel (1983) realizaron un
estudio para comparar, entre otros aspectos, las respuestas obtenidas en dos puntos diferentes: en el
hogar y puntos de venta. El estudio se interesaba en la conducta del comprador y los resultados
concluyeron que se pueden obtener datos exactos de ambos puntos, pero la entrevista en los puntos de
compra-venta es menos costosa.
Las entrevistas personales requieren de una atmósfera apropiada. El entrevistador debe ser amable y tiene
que generar confianza en el entrevistado. Cuando se trata de entrevistados del sexo masculino, mujeres
simpáticas y agradables suelen resultar excelentes entrevistadoras. Quien responde a una entrevista debe
concentrarse en las preguntas y estar relajado. Y después de una entrevista debe concentrarse en las
preguntas y estar relajado. Y después de una entrevista debe prepararse un informe que indique si el sujeto
se mostraba sincero, la manera como respondió, el tiempo que duró la entrevista, el lugar donde se realizó,
las características del entrevistado, los contratiempos que se presentaron y la manera en que se desarrolló
la entrevista, así como otros aspectos que se consideren relevantes.
La elección del contexto para administrar el cuestionario deberá ser muy cuidadosa y dependerá del
presupuesto de que se disponga, el tiempo de entrega de los resultados, los objetivos de la investigación y
el tipo de respondiente (edad, nivel educativo, etcétera).
Estas maneras de aplicar un cuestionario pueden hacerse extensivas a las escalas de actitudes, sólo que es
mucho más difícil en el caso de que se administren por teléfono (pocas frases y alternativas claras de
respuestas).
Cuando los cuestionarios son muy complejos de contestar o aplicar, suele utilizarse un manual que explica
a fondo las instrucciones y cómo debe responderse o ser administrado.
Siguiendo los pasos para construir un instrumento de medición tendríamos la figura 9.17.
Un aspecto muy importante que es necesario mencionar, reside en que cuando se construye un
cuestionario (al igual que otros instrumentos de medición) se debe ser consistente en todos los aspectos.
Por ejemplo, si se decide que las instrucciones vayan en mayúsculas o algún tipo de letra especial, todas
las instrucciones deberán ser así. Si se refiere que los códigos de las categorías de respuestas van en
recuadro, todas deberán ajustarse a esto. Si no es consistente, algunos respondientes o entrevistadores
pueden desconcentrarse.
91
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Figura 9.17 Proceso para construir un cuestionario.
Evaluar la validez y
confiabilidad de cuestionarios
Determinar la
codificación de
Elaborar la primera
versión del
Entrenar encuestadores, si es
que se requerirán (o
Llevar a cabo
la prueba
Decidir el
Codificar contexto
las Elaborar la versión en que se
preguntas final del aplicará.
Aplicar
90
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
92
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
COMENTARIO
Uno de los problemas más fuertes en la enseñanza de la estadística es la apropiación de los conceptos, y
su posterior aplicación en la solución de los problemas de la administración. Ante esta realidad se ha
optado por iniciar con una lectura ligera, en un vocabulario cotidiano que plantea un tema de actualidad:
la economía mexicana, donde Sergio Sarmiento hace uso de una gran cantidad de datos estadísticos que
evidencian la necesidad de que cualquier lector cotidiano tenga un cierto conocimiento de la estadística.
Bajo la idea anterior, la Lectura 2 reafirma la imperiosa necesidad de que cualquier profesional del mundo
de las organizaciones emplee la estadística para solucionar una gran variedad de problemas que se
presentan en estos. El ejemplo de Good Tunes no sólo se queda a nivel de narrativa sino cuestiona al lector,
en este caso al estudiante sobre cómo podría aportar una solución a la problemática abordada.
La lectura de Kaufman (2009) es una referencia valiosa y muy reciente, pues son una serie de conceptos
pero de aplicación directa a los estudiantes del área administrativa e incluso empieza con las ventajas que
proporciona la estadística como una herramienta en la toma de decisiones en y en la vida en general.
Brinda una serie de ejemplos muy ilustrativos. Es conveniente señalar que se extrajo de un manual de un
curso que se imparte a administrativos de una empresa, sin embargo esto no le quita valor, sino por lo
contrario nos da la seguridad que es material adaptado a las necesidades del mundo real laboral.
Dada la relevancia que el tema del desarrollo sustentable ha tomado en todas las áreas del conocimiento,
la Lectura 4, establece el papel que la estadística juega para lograrlo. Por otro lado hay que recordar que
los estudiantes del curso de Estadística Aplicada a las Empresas I desarrollan una investigación sobre la
Responsabilidad Social Empresarial (RSE), por lo que esta lectura inicia al estudiante en el tema.
Adicionalmente, se ha agregado el tema de la “Disciplina Militar en el Trabajo” para que ambas den paso
a una reflexión y posterior discusión sobre la importancia de la disciplina en la estadística y la importancia
de esta en la toma de decisiones para el gobierno de cualquier país.
En el caso de las lecturas 7, 8, 9 y 10, es interesante observar que la historia, referente a cualquier hecho,
dependiendo de quién sea su recopilador o narrador tiene diferente concepciones.
La ESTADÍSTICA no es la excepción y si bien ésta es resultado de una serie de hechos y personajes, cada
uno de ellos le han añadido líneas con diferente tesitura.
En el caso de la lectura de Pastor hemos encontrado que es una lectura rica en anécdotas sobre todo
de la antigüedad, lo que proporciona un mayor encanto para el estudiante que encuentra a la historia
aburrida y cansada. También es el único autor que le da un mayor valor a la Estadística, al establecer la
relación de esta disciplina con la Investigación de operaciones y la Econometría.
Ruiz Muñoz (2003) expone de una manera muy sencilla y clara en base a ejemplos de la vida estudiantil
los conceptos, los hechos relevantes, la clasificación e incluso algunos errores en su interpretación, aunque
justo es mencionar que tiene algunas discrepancia con respecto a conceptos que plantean Wayne (2003)
y Runyon (1996), en el caso de este último, muy probablemente de la diferencia en la
93
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
formación y empleo de la estadística. A Runyon se le considera un autor de las ciencias sociales, mientras
que en la lectura 4 de Wayne (1997), incluso hasta en el planteamiento que se realiza sobre la aplicación
de los métodos estadísticos, incluyendo las definiciones empleadas por el autor.
Sin embargo, hay que reconocer que Runyon hace un recuento histórico de forma más detallada y
elocuente de la aportación que los personajes relevantes hacen a la historia de la ESTADÍSTICA y la
PROBABILIDAD, de manera que como autor histórico-estadístico podemos considerarlo más relevante.
Plantea una clasificación muy clara de los diversos momentos de esa historia y esto permite explicar el
porqué de la evolución de esta disciplina.
La lectura de Triola (2008), nos brinda un panorama general de la estadística a través de conceptos muy
sencillos, que si bien ya se habían tratado anteriormente en la lectura de Kaufman (2009), encontramos
que se complementan a través de los ejemplos brindados por Triola.
Saavedra en su artículo en la revista Índice, presenta los resultados encontrados por Kinsey en el Informe
de su mismo nombre, donde señalaba el comportamiento sexual del hombre (1948) y la gran polémica
que giró alrededor de la primer investigación que se realizó a través de una aplicación de encuesta, cabe
señalar que si bien ubica al estudiante en la realidad de la aplicación de una investigación discutida, existen
detractores que restan credibilidad a los resultados encontrados por Kinsey, por el poco rigor
metodológico empleado.
En la Lectura 13, Nolasco plantea los grandes problemas a los que se enfrenta el investigador al momento
de aplicar una encuesta, para realizar estudios específicamente del área administrativa. Cabe señalar que
es bastante rescatable las “Fases de una encuesta” que incluso enmarca en un recuadro, pues coincide con
las etapas de la investigación estadística.
En la Lectura 14 se ha añadido todo el capítulo 8 del libro de Augusto Bernal, dado que en gran medida el
éxito de cualquier investigación depende del diseño del instrumento de recolección de datos, en este caso
el cuestionario para la encuesta. Este material muestra a través de ejemplos y cuadros de flujo el proceso
seguido para el diseño del mencionado instrumento.
Finalmente, en “Más allá de las encuestas” se le presenta un panorama común en el caso de muchas casas
encuestadoras: el mal uso de la estadística. Con ello se pretende que el estudiante esté consciente de lo
que recibe a través de los medios de información y que por otro lado hagan consciencia sobre la falta de
ética al momento de manipular la información obtenida.
94
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
TABLAS Y GRÁFICAS
Muchas veces nos vemos enfrentados a una masa de datos que necesita ser resumida e interpretada. El
propósito de la estadística descriptiva es proveernos de herramientas gráficas y numéricas para esa tarea.
1.1. VARIABLES. La estadística trabaja con datos de característica variabilidad conocidos por ello como
variables. Las variables pueden ser clasificadas en variables cuantitativas y variables cualitativas.
Las variables cuantitativas también se conocen como variables propiamente dichas, mientras que
las cualitativas se conocen como atributos, clases o categorías. Una posterior división de las
variables cuantitativas es en continuas y discontinuas o discretas.
Discretos
Variables Cuantitativas
Continuos
El sexo de una persona es un atributo, mientras que la altura es una variable cuantitativa. Las variables
(cuantitativas) se miden, los atributos se cuentan. Por ejemplo, diremos que una clase de estadística tiene
19 estudiantes mujeres y 2 varones. El sexo de una persona es un atributo pero el número de estudiantes
de determinado sexo en una clase es una variable cuantitativa discreta. Por esta razón el análisis de
atributos a veces se llama análisis de conteos.
1.2. ESCALAS. Una clasificación de las escalas de medida que ha tenido gran aceptación en los
últimos tiempos es:
i. Escala nominal. La escala más rudimentaria es la nominal, donde los objetos se distinguen en
base a un nombre, muchas veces dado por un número. Por ejemplo en el sexo de personas, se puede
acordar un número para simbolizar a cada sexo, pero ese número es arbitrario y un investigador puede
definir hombre como 0 y mujer como 1, mientras que otro puede utilizar exactamente lo opuesto. Las
escalas nominales se usan en atributos.
95
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
ii. Escala ordinal. Las mediciones en una escala ordinal solo indican orden ("ranking"). Los objetos
en una escala ordinal se distinguen, pues, en base a la cantidad relativa de una característica que poseen.
Ejemplos de esto son los grados usados en la medición del estado de información de una población con las
categorías (pobre, regular, buena, excelente). Una escala es: 0, 1, 2, 3, 4, y 5, pero puede haber otras
diferentes que distingan igualmente el grado de información de las personas.
iii. Escala por intervalos. Cuando las diferencias entre objetos tiene sentido, es decir que la unidad
de medida es fija. Generalmente tienen un cero, aunque este es arbitrario, como en el caso de la
temperatura medida en grados centígrados, donde el cero no indica ausencia de temperatura. No tiene
sentido acá decir que una temperatura de 60 grados es doble que una de 30.
iv. Escala racional. Cuando, además de lo anterior, los cocientes (razones) de valores tienen
sentido la escala es racional. Un ejemplo es el peso, donde un objeto que pese 60 kg. pesa el doble de uno
que pesa 30 kg. El cero es absoluto en esta escala. Hay una jerarquía en la escala presentada, al bajar la
escala se pierde potencia del análisis, por lo que se sugiere que de hacerse voluntariamente se haga con
cuidado. Por otro lado, no siempre es fácil adjudicar inequívocamente una escala.
TABULACIÓN
Muchas veces, al comienzo de un trabajo de análisis de datos se cuenta con un gran volumen de
información en bruto. Una de las primeras tareas es organizar esa información y tabularla. El propósito de
la tabulación es resumir la información hasta llegar, a veces, a un par de valores (la media y la varianza
por ejemplo) que encierran toda la utilidad de la información.
1.3.1. Ejemplo de enfermería. Variables cualitativas. Ya dijimos que cuando la variable es cualitativa
se cuenta. Por tanto los valores se presentan en una tabla de frecuencias. Supongamos que estamos
trabajando con datos de estado civil de las encuestadas con la primera letra como código ¿cómo ven mejor
los datos Uds. ¿Así? C C D C C C C U V C V V C C V V V V S S D C C ¿o así?
Estado Frecuencia
civil
Casadas 11
Divorcia 2
das
Unión 1
libre
Viudas 7
Solteras 2
1.3.2. Variables cuantitativas discretas. Cuando la variable es Edad Frecue
cuantitativa discreta también los valores se tabulan naturalmente. Miremos ncia
estos datos de edad de muchachas en una encuesta: 12 12 13 11 11 11 13 10 1
12 14 12 13 14 14 11 12 11 13 12 11 10,¿ No quedan mejor así? 11 6
12 6
13 4
Cuando se pretendió trabajar con la edad en que las mujeres 14 3
contrajeron cáncer, encontramos: 65 75 42 77 76 52 59 61 82 48 80 72 71 56 74 65 76 56 52 65 72 70 48
49 58 y por tanto la tabla quedó:
96
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Edad al Frec
Lo anterior es impráctico: la tabla quedó casi tan grande como los datos contraer el uencia
que intenta resumir. Por lo tanto la investigadora resolvió usar categorías de cáncer
edad. Re-tabulando los datos en clases quedaron así: 42 1
48 2
Notemos que transformamos una variable cuantitativa en cualitativa. 49 1
Para determinar el número de clases, generalmente se toma la observación 52 2
más alta y más baja (la diferencia es el rango), se divide el rango en 5 a 20 56 2
clases. 58 1
59 1
Categorías Frecue
61 1
Edad al ncia
65 3
contraer el
70 1
cáncer
71 1
Menor a 50 4
72 2
51 a 60 6
74 1
61 a 70 5
75 1
71 a 80 9
76 2
Más de 80 1
77 1
80 1
82 1
234 225 234 225 234 204 225 231 245 202 213 222 231 245 193 202 213 222 229 243 254 193 202
213 220 229 243 254 193 200 211 218 227 243 254 265 184 191 197 211 216 227 240 250 263 274 145
177 188 197 209 216 227 236 247 256 272 288 304 210
97
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
2 2 240 7 0,1167 48 0,8000 242
36 45
2 2 250 5 0,0833 53 0,8833 251
46 55
2 2 260 3 0,0500 56 0,9333 261
56 65
2 2 270 2 0,0333 58 0,9667 273
66 75
2 2 280 0 0 58 0,9667
76 85
2 2 290 1 0,0167 59 0,9833 288
86 95
2 3 300 1 0,0167 60 1,0000 304
96 05
Tabla 1.2. Tabulación de los datos del ejemplo 1.3.
En la tabla 1.2 se presenta una forma habitual de tabular datos como esos en clases. Los valores entre 176
y 185 se consideran una clase, los entre 186 y 195 otra y así sucesivamente. Una columna muestra los
límites de cada clase, una segunda con la marca de la clase (es decir el valor que representa la clase,
generalmente el punto medio o semisuma de los límites de clase), y una tercera con la frecuencia absoluta
ni. Esta última es el número de observaciones comprendidas en cada clase. Un concepto relacionado es el
de frecuencias relativas, simbolizado por fi que es el número de observaciones de cada clase dividido por
el total de observaciones. La amplitud (o longitud) de clase es la diferencia entre los límites de una clase.
Muchas veces las clases son de igual amplitud, pero no tiene por qué ser así.
98
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
2 2 230 10 0,1667 41 0,6833
26 35
2 2 240 7 0,1167 48 0,8000
36 45
2 2 250 5 0,0833 53 0,8833
46 55
2 2 260 7 0,0500 56 0,9333
56 65
2 2 270 0,0333 58 0,9667
66 75
2 2 280 0 58 0,9667
76 85
2 2 290 0,0167 59 0,9833
86 95
2 3 300 0,0167 60 1,0000
96 05
99
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Existe una gran variedad de gráficos para representar información, los más conocidos son los diagrama de
barras, histogramas y diagramas de sectores, pero no son los únicos, vale la pena detenerse un momento
para ver algunos de los gráficos ideados por Tukey (1915-2000) como el "Box-and Whisker Plot" (Diagrama
de cajas) o el "Stem-and-Leaf Diagram" (Diagrama de tallo y hojas).
Cada dato representa su valor y, a la vez, ocupa un espacio de forma que obtenemos
simultáneamente la presentación de los datos y el perfil de una distribución en una
variable. Por otra parte, la información repetitiva se reduce al mínimo.
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una distribución
de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el
último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo).
Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles de
elaborar, presentan más información que estos.
Ejemplos:
Horarios de trenes
Basándome en un artículo de Juan C. Dürsteler, tomamos como ejemplo un horario de trenes
confeccionado a partir de un díptico de la línea Castelldefels-Barcelona/Sants recogido en la estación de
Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas más una columna "viuda" con el
tren de las 22:38. Un total de 91 campos con formato hh.mm cada uno, 455 caracteres.
5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38
6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20
6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32
6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37
6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50
100
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02
7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07
7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20
7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32
7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37
En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separación | y los minutos
de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce fácilmente de la longitud de
las filas y es, además, muy fácil ver en qué minutos de cada hora pasan típicamente los mismos.
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37 50
14 | 02 07 20 32 37 50
15 | 02 07 20 32 37 50
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38
Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se puede reducir
aún más el tamaño del gráfico, sin perder información y ganando en claridad.
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 11 12 | 02 07 32 37
13 14 15 16 17 18 19 20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38
Al final tenemos 59 campos de 2 dígitos, 118 caracteres más los separadores, es decir 4 veces menos dígitos
que con el horario original, menos espacio y más claridad.
Esto nos da idea de que una disposición apropiada de los datos puede ser doblemente informativa y que
la representación gráfica puede contribuir enormemente a la percepción de patrones y a la comprensión
de la naturaleza de los fenómenos.
Edad de 20 personas
101
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Supongamos la siguiente distribución de frecuencias
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un
diagrama de Tallos y Hojas.
Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que
reordenadas son 2, 3 y 4
A continuación efectuamos un recuento y vamos “añadiendo” cada hoja a su tallo
Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda
distribución:
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
De ella podemos elaborar sus diagramas de Tallos y Hojas y compararla con la anterior.
El diagrama de caja y bigotes es un resumen gráfico que permite visualizar, para un conjunto de datos, la
tendencia central, la dispersión y la presencia posible de datos atípicos. Para realizarlo se necesita calcular
la mediana, el primer cuartil, y el tercer cuartil de los datos.
102
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un
rectángulo, alineado horizontal o verticalmente.
Construcción
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido
intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la
mediana y por lo tanto su relación con los cuartiles primero y tercero (recordemos que el segundo cuartil
coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de
la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen un límite de
prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado
e identificado individualmente
Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un
colectivo de 20 personas.
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45
CÁLCULO DE CUARTILES
Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta
que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:
Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución es el valor de la variable que ocupa
el lugar central en un conjunto de datos ordenados. Como N/2 =10; la mediana es la media aritmética de
dicho valor y el siguiente:
Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso,
como 3N / 4 = 15, resulta
Q2=(39 + 39) / 2 = 39
103
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
DIBUJAR LA CAJA Y LOS BIGOTES
• La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las
edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50%
y el 75%.
• El bigote de la izquierda (Xmín, Q1) es más corto que el de la derecha; por ello el 25% de
los más jóvenes están más concentrados que el 25% de los mayores.
• El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está
comprendido en 14,5 años.
COMPARAR DISTRIBUCIONES
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de datos.
39 24 24 34 26 41 29 48 28 22
104
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Observamos que el desplazamiento de las gráficas de caja hacia la izquierda indica que el entrenamiento
ha dado resultado, ya que se tardan menos segundos en recorrer la misma distancia, siendo la diferencia
entre el máximo y el mínimo menor, como así también la diferencia intercuartílica.
Las puntuaciones de los equipos de la liga de la temporada 01/02 y 02/03 en primera división se pueden
comparar con un diagrama caja y bigotes, como aparece aquí,
105
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
106
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
En general, una vez que el profesor o investigador ha recabado información acerca de sus alumnos o de la
muestra elegida en su caso, a través de test, exámenes, cuestionarios o encuestas dispone, en principio,
de una lista de datos. Si se han observado pocos valores es posible que la simple inspección visual de los
mismos sea suficiente para poder describir el fenómeno estudiado. Pero esto no es nada frecuente.
Si queremos, por ejemplo, después de un examen saber cuál es la puntuación del estudiante típico, cuál
es el rango en que varían las puntuaciones, si los estudiantes se agrupan en las posiciones extremas o en
las centrales o están dispersos, entonces tendremos que poner en orden nuestros datos de forma que
podamos interpretarlos.
Un instrumento para conseguir esta ordenación de los datos es lo que llamamos distribución de
frecuencias, que además de esta función debe cumplir otras dos más: ofrecer la información necesaria
para hacer representaciones gráficas y facilitar los cálculos para obtener los estadísticos muestrales.
Una distribución de frecuencias es una representación de la relación entre un conjunto de medidas o clases
de medidas mutuamente exclusivas y exhaustivas y la frecuencia de cada una de ellas.
Para definir el término frecuencia que aparece, a su vez, en esta definición vamos a establecer una
notación: la letra X mayúscula representará a la variable con la que estamos trabajando. La letra X
mayúscula con subíndices, X1 X2 X3, servirá para representar un valor concreto de la variable X en el
107
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
sujeto 1,2,3, ...Cuando queramos referirnos a un valor concreto cualquiera de la variable X escribiremos
Xi. El número de elementos que componen la muestra será n.
Se llama frecuencia de un valor Xi, y se simboliza por fi al número de veces que se repite el valor Xi en la
muestra.
Ahora vamos a seguir los pasos para la construcción de una tabla de distribución de frecuencias con un
ejemplo sencillo.
Supongamos que un profesor pasa a sus alumnos una encuesta en la que, entre otras cosas, se les
pregunta por el número de hermanos. Las respuestas de sus treinta alumnos son:
1, 2, 1, 1, 3, 2, 1, 2, 2, 3, 1, 1, 1, 2, 1, 2, 2, 1, 1, 4, 4, 2, 2, 3, 4, 3, 1, 3, 1, 1
Para construir la tabla de distribución de frecuencias se inspeccionan en primer lugar los valores que toma
la variable. En este caso se trata de una variable discreta que sólo toma los valores 1, 2, 3 y 4. En segundo
lugar se cuenta cuántas veces aparece cada uno de ellos. Estos datos se colocan en una tabla de la forma
siguiente:
Valore Frecuen
s de la cia
variable
Xi fi
4 3
3 5
2 9
1 13
n=30
Una vez construida esta tabla y a pesar de su simplicidad, ya podemos extraer algunas conclusiones, por
ejemplo que las familias con un único hijo son las más frecuentes.
Si sumamos la frecuencia de éstas y la de las familias de dos hijos, 13 + 9 son 22 familias, que en tanto
por ciento sobre 30 representan el 73,3% de la muestra.
Este es un ejemplo de tabla de distribución de frecuencias muy simple debido fundamentalmente a que
la variable sólo toma cuatro valores diferentes.
Vamos a poner otro ejemplo algo más complejo: un profesor pasa un test de hábitos de estudio a sus
treinta alumnos, los resultados son los siguientes:
108
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
37, 72, 71, 65, 54, 78, 85, 42, 49, 63, 61, 32, 51, 33, 77, 93, 85, 83, 63, 55, 58, 46, 57, 73, 73, 68, 73,
91, 75, 77
El valor más pequeño es 32 y el mayor 93. Si construyésemos una tabla de distribución de frecuencias
como la anterior tendríamos una lista demasiado extensa (62 números) y muchas de las frecuencias serían
cero. En estos casos se recurre a lo que se denomina la agrupación en intervalos de clase, que consiste en
formar grupos de valores consecutivos de la variable y poner cada uno de estos grupos en cada fila, en
lugar deponer una sola puntuación.
Para agrupar las puntuaciones de la variable se suelen establecer estas dos reglas:
La siguiente pregunta es a partir de qué número empezamos a contar en la escala. A partir de un número
que sea múltiplo del tamaño de los intervalos de clase y que se aproxime lo más posible a la medida
observada menor.
En nuestro ejemplo 32 es el valor más pequeño y 30 el múltiplo de 5 más cercano, así que el primer
intervalo de clase contendrá las puntuaciones 30, 31, 32, 33 y 34 y el último 90, 91, 92, 93 y 94.
Según esta tabla de distribución de frecuencias agrupadas, la variable puntuación del test de hábitos de
estudio no puede tomar valores entre 44 y 45 o entre 59 y 60. Aunque en la práctica esto es así porque el
test usado para medir hábitos de estudio no tiene la precisión suficiente para obtener valores como
44,5 o 59,8, en teoría tenemos que considerar esta variable como continua en el intervalo, es decir, puede
tomar cualquier valor entre 30 y 94.
Así pues los límites exactos del intervalo 30-34 son 29,5-34,5, los del intervalo 35-39 son 34,5-39,5 y así
sucesivamente de forma que el límite superior exacto de un intervalo coincida con el límite inferior exacto
del siguiente. Por otra parte, a los límites de los intervalos que aparecen en la Tabla 2, les llamaremos
límites informados.
109
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Intervalos de clase fi
Xi
90-94 2
85-89 2
80-84 1
75-79 4
70-74 5
65-69 2
60-64 3
55-59 3
50-54 2
45-49 2
40-44 1
35-39 2
n=30
Tabla 2: Distribución de frecuencias
A partir de los límites informados o de los límites exactos se puede definir el punto medio del intervalo
como el punto que resulta de la suma del extremo superior y el extremo inferior dividida por dos, es decir,
como su media. Por ejemplo, el punto medio del intervalo 60-64 es el punto 62, resultado de (60 + 64) / 2
ó de (59,5 + 64,5) / 2.
Intervalos de Frecuencia
Punto
clase Límites exactos fi
medio
Xi
90-94 89,5-94,5 92 2
85-89 84,5-89,5 87 2
80-84 79,5-84,5 82 1
75-79 74,5-79,5 77 4
70-74 69,5-74,5 72 5
65-69 64,5-69,5 67 2
60-64 59,5-64,5 62 3
55-59 54,5-59,5 57 3
50-54 49,5-54,5 52 2
45-49 44,5-49,5 47 2
40-44 39,5-44,5 42 1
35-39 34,5-39,5 37 1
30-34 29,5-34,5 32 2
n = 30
En este momento volveremos a escribir nuestra tabla de distribución de frecuencias añadiendo los límites
exactos de los intervalos y sus puntos medios, para usarla más adelante en las representaciones gráficas.
110
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Una vez construida la tabla de distribución de frecuencias, a la que hemos añadido los límites exactos de
los intervalos y sus puntos medios, estamos en condiciones de hacer algunas representaciones gráficas
que nos ayudarán a interpretar la situación de los alumnos en cuanto al test de hábitos de estudio.
Hasta el momento hemos presentado una de las formas de representación y tabulación de datos, ahora
haremos referencia a la distribución de frecuencias acumuladas que se usa cuando se tiene interés en el
número de observaciones que se sitúan por debajo de un cierto punto de la escala de medición.
La frecuencia acumulada se calcula de forma inmediata a partir de la frecuencia de cada intervalo de clase.
Para el primero de estos, ambas frecuencias coinciden, para los siguientes, la frecuencia acumulada es
igual a su frecuencia más la acumulada del intervalo anterior. Así, la frecuencia acumulada del último
intervalo será igual al número de observaciones de la distribución.
Cuando trabajamos con variables distintas o con la misma variable medida en muestras de distinto tamaño
resulta difícil comparar las frecuencias absolutas. Una forma de resolver este problema es calcular los
porcentajes de frecuencias de cada intervalo de clase, ya que así compararemos dos distribuciones con
cien observaciones. De la misma forma se calculan porcentajes de frecuencias acumuladas.
Volvamos al ejemplo de los datos del test de hábitos de estudio, para construir la tabla de la distribución
de frecuencias acumuladas calculando los porcentajes de frecuencias acumuladas.
111
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
x i
X = i=1
n
Por ejemplo, las notas obtenidas por una clase de 20 alumnos en un examen de Historia y ordenadas
de menor a mayor son:
1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 7, 7, 8 y 9.
Su media se calcula:
(1+2+2+3+3+3+4+4+4+5+5+5+5+5+6+6+7+7+8+9 ) / 20 = 94 / 20 = 4,7
También podemos calcular la media a partir de la distribución de frecuencias:
xi f i
x= i=1
f
i =1
Veamos ahora cómo podemos usar la tabla de distribución de frecuencias, empleando los datos del
ejemplo, para aplicar la fórmula anterior del cálculo de la media. Como en el numerador aparece la suma
de los productos de cada puntuación por su frecuencia, añadimos una columna más a la tabla de
distribución de frecuencias en la que escribimos precisamente cada uno de estos sumandos. La media
112
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
será el cociente entre la suma de la tercera columna y la suma de la segunda de la siguiente Tabla 5. El
resultado para la media es:
94
X = = 4.7
20
Xi fi Xifi
9 1 9
8 1 8
7 2 14
6 2 12
5 5 25
4 3 12
3 3 9
2 2 4
1 1 1
Total 20 94
Xm f i i
X = i=1
f i
i=1
Hay que tener en cuenta que en las otras fórmulas el sumatorio se extendía a lo largo de todas las
puntuaciones observadas y a lo largo de las puntuaciones distintas observadas, respectivamente, en este
caso el sumatorio tiene tantos sumandos como intervalos de clase. Es decir, en esta expresión k representa
el número de intervalos de clase.
Para ilustrar el uso de esta fórmula, valiéndonos de las tablas de distribución de frecuencia, retomamos la
Tabla 3 de las puntuaciones de un test de hábitos de estudio pasado a 30 alumnos. A esta tabla añadimos
una columna que es el resultado de multiplicar cada punto medio del intervalo de clase por su frecuencia.
Así, la media será el resultado de dividir el total de esta columna entre el total de las frecuencias, tal como
aparece en la Tabla 6.
Xi Xmi fi Xmifi
90-94 92 2 184
85-89 87 2 174
80-84 82 1 82
75-79 77 4 308
70-74 72 5 360
65-69 67 2 134
113
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
60-64 62 3 186
55-59 57 3 171
50-54 52 2 104
45-49 47 2 94
40-44 42 1 42
35-39 37 1 37
30-34 32 2 64
Total 30 1940
Tabla 6: Distribución de frecuencias agrupadas en intervalos de clase para el cálculo de la media
Estos dos ejemplos nos sirven también para hacer una observación: nótese que la media no tiene por qué
coincidir con una puntuación observada, aunque se haya definido como una puntuación que "representa
a todas".
Otra interpretación de la media, desde el punto de vista físico, consiste en considerarla el centro de
gravedad de las puntuaciones. Si a lo largo de una barra pusiésemos una unidad de peso sobre cada valor
observado y tantas unidades como veces se haya observado el valor, entonces esa barra sólo estaría en
equilibrio si el fulcro estuviese colocado a la altura de la media.
2. La mediana
La mediana es un punto de la escala de medida que divide a la distribución en dos partes iguales, es decir,
la mitad de las puntuaciones son mayores que la mediana y la otra mitad son menores. Este índice se
representa por Md.
A la hora de calcularla podemos encontrarnos frente a puntuaciones directas o, por el contrario, frente a
una distribución de frecuencias agrupadas. Si estamos en el primer caso, a su vez nos podemos encontrar
ante un número impar de observaciones o ante un número par.
En primer lugar tenemos que ordenar las puntuaciones directas de menor a mayor, si su número, n, es
impar entonces la mediana es el lugar que ocupa la posición (n+1) / 2. Si n es par, la mediana es el punto
medio entre los dos valores centrales, que en este caso son el valor n / 2 y (n / 2) + 1.
donde:
- Li es el límite inferior exacto del intervalo crítico.
- I es la amplitud de los intervalos.
- ni es la frecuencia del intervalo crítico.
- n es el número de observaciones hechas.
- na es la frecuencia acumulada hasta Li.
Si tomamos como ejemplo para calcular la mediana el citado en el capítulo 2 referido a las notas
obtenidas por 20 alumnos en un examen de Historia, al ser un número par de observaciones que ya
114
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
están ordenadas de menor a mayor, buscamos las que ocupan los lugares 20 / 2 = 10 y (20/ 2) + 1 = 11 que
son en ambos casos un 5. El punto medio en este caso es (5 + 5) / 2 = 5. La mediana es la puntuación 5.
Supongamos ahora que queremos saber la mediana de las 11 puntuaciones siguientes: 7, 11, 6, 5, 7, 12,
9, 8, 10, 6 y 9. En primer lugar, las ordenamos de menor a mayor: 5, 6, 6, 7, 7, 8, 9, 9, 10, 11, 12. Ahora
buscamos la que ocupa la posición (11 + 1) / 2 = 6 que en este caso es 9. La mediana de estas 11
puntuaciones es 9.
El resultado de un test de conocimientos previos sobre Geografía realizado por 200 alumnos queda
reflejado en la siguiente tabla.
Xi fi fa
18-20 40 200
15-17 50 160
12-14 40 110
9-11 30 70
6-8 25 40
3-5 15 15
Tabla 7: Distribución de frecuencias agrupadas en intervalos y frecuencias acumuladas de las puntuaciones de
un test de conocimientos previos sobre Geografía.
Determinamos la mediana de las puntuaciones usando la Tabla 7. El intervalo crítico será aquél que cuya
frecuencia acumulada sea 100 o más, puesto que el 50% de 200 es 100. Por tanto el intervalo crítico es el
12-14, su límite inferior exacto es 11,5, la amplitud es 3, la frecuencia es 40 y la frecuencia acumulada
hasta ese intervalo es 70.
3 90
Md = 11.5 + (100 − 70 = 11.5 + = 13.75
40 40
También podemos estimar gráficamente la mediana utilizando el polígono de porcentajes de frecuencias
acumuladas. Para ello, se traza una paralela al eje de abscisas a la altura del 50% del de ordenadas hasta
interceptar el polígono y, desde este punto, una paralela al eje de ordenadas hasta interceptar el de
abscisas. Precisamente este punto de intersección será una estimación de la mediana porque el proceso
mencionado anteriormente no es más que una "búsqueda gráfica" del valor de la abscisa al que le
corresponde la ordenada 50. Dicho de otra forma, hemos buscado aquel punto que acumula el 50% de las
observaciones, tiene por debajo de sí el 50% de las mismas y, por tanto, el mismo porcentaje por encima
de sí. Y esta es la propiedad que define a la mediana. En la Figura 11 queda representado este proceso
para las puntuaciones de la Tabla 7.
115
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
100
80
60
40
20
0
1er trim.
Mediana=13.75
Figura 11: Estimación gráfica de la mediana para los datos de la Tabla 7.
3. La moda
La moda, que se representa por Mo, es la medida de tendencia central más fácil de calcular ya que se
define como el valor de la variable con mayor frecuencia. Sin embargo, no todas las distribuciones tienen
moda, ni todas tienen una única moda, por lo que es necesario hacer referencia a distintos casos que se
pueden presentar.
En primer lugar un caso que no ofrece ninguna duda: en el siguiente grupo de puntuaciones, 3, 4, 4, 5, 7,
9, 9, 9 y 10, la moda es 9. Sin embargo en este grupo: 1, 1,2, 2, 3, 3, 4 y 4 no hay moda, se dice que la
distribución es amodal porque todas las puntuaciones tienen la misma frecuencia.
Cuando dos puntuaciones adyacentes tienen la misma frecuencia y esta frecuencia común es mayor que
cualquier otra puntuación, la moda es el promedio de las dos puntuaciones adyacentes.
1, 1, 2, 2, 2, 3, 3, 3, 5 y 6
es el promedio de 2 y 3, es decir, 2.5
Si en un grupo de puntuaciones hay dos que no son adyacentes y tienen la misma frecuencia y esta
frecuencia común es mayor que la de cualquier otra puntuación existen dos modas. En el conjunto 5, 5, 6,
6, 6, 7, 8, 8, 8, 9, 9, hay dos modas 6 y 8. En este caso la distribución de frecuencias se llama bimodal.
En general, podemos decir que la moda es el valor de la variable que se encuentra por debajo del pico más
alto del polígono de frecuencias, con lo que queda definida para datos agrupados en intervalos de clase
como el punto medio del intervalo de mayor frecuencia y además, se pueden aplicar las mismas normas
anteriormente citadas respecto a las puntuaciones a los intervalos de clase.
Cuando estamos ante conjuntos de datos muy numerosos se consideran distribuciones bimodales cuando
presentan un polígono de frecuencias con dos picos, aun cuando las frecuencias
116
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
correspondientes a cada uno de ellos no sean exactamente iguales. En todo caso, si se quiere hacer alguna
distinción entre las modas, se suele hablar de moda absoluta, la que satisface la definición de moda, en
contraposición de moda relativa, la que se corresponde con otros picos de la distribución de frecuencias
menos elevados que la moda absoluta.
117
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Estas tendencias con frecuencia se pueden En este tipo de gráfico son muy importantes las
ilustrar mediante el uso de tablas y gráficas. Tres áreas de los rectángulos, porque no
gráficas que ayudan a ilustrar una distribución de representamos una barra correspondiente a un
frecuencias en forma gráfica son el histograma, punto, sino que el ancho de la barra representa a
el polígono de frecuencias y el polígono de nuestro intervalo. Así, si los intervalos son de la
frecuencias acumuladas. misma amplitud, la altura suele corresponder a la
frecuencia, pero si no es así, hay que modificar la
Histogramas altura para mantener la proporción entre la
El histograma es un gráfico muy similar al frecuencia y el área. Nuestro histograma sobre la
anterior, pero es el que utilizaremos para variable peso, que tenemos agrupada del
variables agrupadas por intervalos. Nosotros ejemplo anterior, podría tener el siguiente
construiremos un histograma para la variable aspecto.
peso. Se realiza, como el anterior, sobre ejes
118
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Frecuencia
Precio de
venta (miles
de $) Punto medio Frecuencia
13,5 0
15-18 16,5 8
18-21 19,5 23
21-24 22,5 17
24-27 25,5 18
27-30 28,5 8
30-33 31,5 4
33-36 34,5 2
Total 80
119
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Frecuencias
Gráfica 2-3 Polígono de frecuencia de los precios de venta de los 80 vehículos vendidos en Whitner Autoplex
Como dijimos antes, la clase de $15, 000 a Tanto el histograma como el polígono de
$18,000 está representada en el punto medio de frecuencia nos permiten tener un panorama
$16,500. Para construir un polígono de rápido de las principales características de la
frecuencias, muévase en dirección horizontal en información (altas, bajas, puntos de
la gráfica hasta el punto medio, $16,5 y luego en concentración, etcétera). Aunque las dos
sentido vertical hasta 8, la frecuencia de clases, y representaciones son similares en su propósito,
coloque un punto. Los valores X y Y de este punto el histograma tiene la ventaja de que representa
se llaman coordenadas. Las coordenadas del cada clase como un rectángulo, en el que la altura
punto siguiente son X=$19,5 y Y=23. El proceso de la barra rectangular representa el número de
se continúa para todas las clases. Luego, los cada clase. A su vez el polígono de frecuencia
puntos se conectan en orden. Es decir, el punto tiene una ventaja sobre el histograma. Nos
que representa la clase más baja se une a aquel permite compara directamente dos o más
que representa la segunda clase, y así distribuciones de la frecuencia.
sucesivamente.
Supongamos que la Señora Ball de Auto USA
En la Gráfica 2-3, observe que para completar el quiere comparar el lote Whitner Autoplex en
polígono de frecuencia se suman los puntos Raytown, Missouri, con un lote similar, Fowler
medios $13,5 y $37,5 al eje X para “anclar” el Auto Mall en Grayling, Michigan. Para hacerlo se
polígono en cero frecuencias. Estos dos valores construyen dos polígonos de frecuencia, uno
$13,5 y $37,5, se calcularon al sustraer el arriba del otro, como en la Gráfica 2-4. En esta
intervalo de clase de $3,0 del punto medio más gráfica, es evidente que el precio de venta típico
bajo ($16,5) y sumando $3,0 al punto medio más de los vehículos es más alto en el lote en Grayling,
lato ($34,5) en la distribución de frecuencias. Michigan.
120
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Frecuencias
Gráfica 2-4 Distribución de los precios de venta de los vehículos en Whitner Autoplex y Fowler Auto Mall.
El número total de frecuencias en las dos distribuidoras es casi igual, de modo que es posible una
comparación directa. Si las diferencias en el número total de frecuencias es muy grande, la conversión de
las frecuencias en relativas y luego la representación de ambas distribuciones permitirán una comparación
más clara.
121
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Estadística Descriptiva
La estadística descriptiva tiene por objeto fundamental describir y analizar las características de un
conjunto de datos, obteniéndose de esa manera conclusiones sobre las características de dicho conjunto
y sobre las relaciones existentes con otras poblaciones, a fin de compararlas.
Para poder describir esos datos es necesario organizar la información. La forma más sencilla y común de
hacerlo es a través de una distribución de frecuencias.
A veces las categorías de las distribuciones de frecuencias son tantas que es necesario resumirlas.
Al elaborar el reporte de resultados, una distribución se presenta con los elementos más informativos para
el lector y la descripción de los resultados.
En la Tabla 4.2. Se muestra un ejemplo en el caso de un estudio exploratorio sobre los motivos de los niños
celayenses para elegir a su personaje favorito.
122
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Tabla 4.2. Ejemplo de una distribución de frecuencias con todos sus En relación a la estadística
elementos descriptiva, nos provee de todos sus
medidas; medidas que cuando
Categorías Frecuencias Porcentaje Porcentaje quieran ser aplicadas al universo
acumulado total, no tendrán la misma exactitud
que tienen para la muestra, es decir
Divertidos 142 72.1 72.1 al estimarse para el universo vendrá
dada con cierto margen de error;
Buenos 10 5.1 77.2
esto significa que el valor de la
Tiene poderes 23 11.7 88.9 medida calculada para la muestra, en
el oscilará dentro de cierto límite de
Son fuertes 19 9.6 98.5 confianza, que casi siempre es de un
95% a 99% de los casos.
No Contestaron 3 1.5 1.5
Una medida descriptiva de la
TOTAL 197 100.0 100.0
población se denomina parámetro.
Por lo general los parámetros se
denotan con letras griegas. Una medida descriptiva de una muestra se llama estadístico y suele denotarse
con letras romanas.
La diferenciación entre los términos parámetro y estadístico es importante sólo con el uso de la
estadística inferencial.
La base para la estadística inferencial es la capacidad para tomar decisiones acerca de parámetros sin
tener un censo completo de la población.
A menos que los parámetros se calculen directamente de la población, el experto en estadística nunca
sabe con certeza si los estimados o inferencias hechos a partir de muestras son verdaderos.
En un esfuerzo por estimar el nivel de confianza en el resultado del proceso, los estadísticos usan
expresiones de probabilidad.
123
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Cuando se va a realizar un análisis estadístico se deben tomar en cuenta otros factores importantes como
el tipo de medición, cuantitativa o cualitativa, método de muestreo, aleatorio o no aleatorio, etc., por ello
es importante que establezcamos como se obtiene la información con la cual se trabaja.
Calcular X para
estimar
POBLACIÓN MUESTRA
(parámetro) (estadístico)
Seleccionar
una muestra al azar
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos
al análisis descriptivo de los mismos.
Para variables categóricas, como el sexo o el lugar de origen, se quiere conocer el número de casos en cada
una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo
en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha
de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:
Un tipo de medida que se utiliza para describir lo anterior es la medida de tendencia central.
Las medidas de tendencia central dan información acerca de la parte central, o media, de un grupo de
números. Las medidas de tendencia central más comunes son la media, mediana y moda.
MEDIA
La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas
es su promedio.
124
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
La media aritmética es el promedio de un grupo de números; se calcula al sumar todos los números y
dividirlos entre el total de ellos. Debido a que la media aritmética tiene tanto uso, casi todos los expertos
en estadística la llaman simplemente media.
La media poblacional se representa con la letra griega mu (). La media muestral se representa con x .
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80.
Más formalmente, si denotamos por (X1, X2, ...,Xn) los n datos que tenemos recogidos de la variable en
cuestión, el valor medio vendrá dado por:
MEDIANA
La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de dicho valor
y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que
se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará
a su vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a
la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.
MODA
Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo éste el
valor de la variable que presenta una mayor frecuencia.
125
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Las medidas de tendencia central dan información acerca de puntos particulares de un conjunto de datos.
No obstante, algunos investigadores pueden usar otro grupo de herramientas analíticas para describir un
conjunto de datos.
Estas herramientas son medidas de variabilidad, que describen la dispersión de un conjunto de datos. Con
el uso de medidas de variabilidad en conjunción con medidas de tendencia central es posible obtener una
descripción numérica más completa de los datos.
VARIANZA
De todas ellas, la varianza (S2) de los datos es la más utilizada. Este método utiliza el cuadrado de las
desviaciones a partir de la media. El resultado es la varianza, una importante medida de variabilidad.
La varianza es el promedio del cuadrado de desviaciones alrededor de la media aritmética para un conjunto
de números. La varianza de población está denotada por 2.
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene
como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.
Sx 2=
DESVIACIÓN ESTÁNDAR
La desviación estándar o típica es la medida de variabilidad preferida. Se utiliza como entidad separada y
como parte de otros análisis, por ejemplo para calcular intervalos de confianza y en pruebas de hipótesis.
126
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa
para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.
Por tanto, la medida que se utiliza es la cuasi desviación típica, dada por:
Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas expresiones.
En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como denominador n, el valor
sería 20.678. A efectos de cálculo lo haremos como n-1 y el resultado sería 21,79.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es
una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades
que necesitamos para realizar inferencias a la población.
Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza
y desviación típica:
• Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy
alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación
típica lo serán.
• Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son
iguales a 0.
RANGO O AMPLITUD
El rango (R) es la diferencia entre el valor más grande de un conjunto de datos y el valor más pequeño.
Aun cuando por lo general es un solo valor numérico, algunos investigadores definen el rango como el par
ordenado de números más grande y más pequeño (más pequeño, más grande).
Es una medida burda de variabilidad que describe la distancia a los límites exteriores del conjunto de datos.
Refleja esos valores extremos porque se construye a partir de ellos.
R= 80-15 =65.
Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será
detectado.
127
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
COEFICIENTE DE VARIACIÓN
CV=
Es una medida de dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por
la media y multiplicando el cociente por 100.
Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más grupos.
Así, por ejemplo: tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su
desviación típica (s) = 10,44
La TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviación
típica de 21,3.
Si comparamos las desviaciones típicas observamos que la desviación típica de la tensión arterial es mucho
mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por
lo que calculamos los coeficientes de variación:
CV de la variable peso =
CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
MEDIDAS DE FORMA
Las medidas de forma son herramientas que se pueden usar para describir la forma de una distribución de
datos. En esta sección, examinamos dos medidas de forma: sesgo y curtosis.
128
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
SESGO
Media M M Media
Media
Mediana Mediana Mediana
Moda
Una distribución de datos en los que la mitad derecha es una imagen reflejada de la mitad izquierda es
simétrica.
Un ejemplo de una distribución simétrica es la distribución normal o curva de campana, la cual se presenta
con más detalle posteriormente.
El sesgo se presenta cuando una distribución es asimétrica o carece de simetría. La distribución en la gráfica
1 no tiene sesgo porque es simétrica. La gráfica 2 muestra una distribución que esta sesgada a la izquierda
o negativamente sesgada y la gráfica 3 muestra una distribución que esta sesgada a la derecha o
positivamente sesgada.
En una distribución unimodal (distribución con un solo pico o moda) que esté sesgada, la moda es el vértice
(punto más alto) de la curva y la mediana es el valor del medio.
La media tienda a estar ubicada hacia la cola de la distribución, porque la media es afectada por todos los
valores, incluyendo los extremos. Una distribución en forma de campana o normal con la media, mediana
o moda, todos en el centro de la distribución, no tiene sesgo.
La Figura 4.3 muestra la relación de la media, mediana y moda para diferentes tipos de sesgo.
COEFICIENTE DE SESGO
Al experto en estadística Karl Pearson se le da el crédito de idear por lo menos dos coeficientes de sesgo
que se pueden usar para determinar el grado de sesgo en una distribución.
Aquí presentamos uno de estos coeficientes, conocido como coeficiente de sesgo o de Pearson, el cual
compara la media y mediana en vista de la magnitud de la desviación estándar.
129
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Nótese que si la distribución es simétrica, la media y la mediana son del mismo valor y por tanto el
coeficiente de sesgo es igual a cero.
3( − Me )
SK =
Donde :
Sk = coeficiente de sesgo
µ=Media poblacional
Me= mediana
Supongamos, por ejemplo, que una distribución tiene una media de 29, una mediana de 26 y una
desviación estándar de 12.3. El coeficiente de sesgo se calcula como:
GRAFICACIÓN DE DATOS
Las distribuciones de frecuencias, especialmente cuando utilizamos los porcentajes, pueden presentarse
en forma de histogramas o gráficas de otro tipo.
POLÍGONO DE FRECUENCIAS
Los polígonos de frecuencia relacionan las puntuaciones con sus respectivas frecuencias. Es más bien
130
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
propio de un nivel de medición por intervalo o de razón.
131
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Los polígonos se construyen sobre los puntos medio de los Día Tiempo
intervalos. (mins)
Lunes 90
Ejemplo: Carmen es una estudiante de Maestría en Educación Martes 100
Preescolar. Como una manera de controlar su tiempo de estudio, Miércoles 150
Jueves 110
ella lleva un registro diario del tiempo que pasa estudiando: Viernes 120
Sábado 170
Domingo 140
En un Sistema de Coordenadas Rectangulares, ubica en las abscisas los días y en las ordenadas los
tiempos. Une los puntos con líneas rectas.
Los extremos deben bajar hasta la recta de las abscisas en los puntos del “día anterior” y del “día
siguiente” ello se debe a que el Polígono de Frecuencias es un diagrama cerrado. Figura 4.4.
Los polígonos de frecuencias representan curvas útiles para describir los datos. Nos indican hacia donde
dónde se concentran los casos (personas, organizaciones, segmentos de contenido, mediciones de
polución, etc.) en la escala de la variable.
HISTOGRAMA.
El Histograma es muy parecido al Polígono de frecuencias pero se forma con rectángulos contiguos. La
altura de cada rectángulo es la ordenada de cada punto. Figura 4.5.
132
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
133
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
COMENTARIO
Indiscutiblemente sobre esta temática podemos Escudero plantean la construcción de una tabla
encontrar un número incalculable de lecturas, en orden descendente, algo poco común en la
probablemente algunas más completas, sin mayoría de la bibliografía, sin embargo es
embargo, se eligieron estos autores prudente que el estudiante esté consciente de
básicamente por dos razones: el empleo de un que puede encontrarse ante esta alternativa, sin
vocabulario muy sencillo, consideremos a quién que las medidas de tendencia central y de
va destinada la antología, que sin demeritar la variación sufran ninguna alteración. La lectura 8
importancia en el manejo de los conceptos se de los mismos autores, muestra las fórmulas
logra un entendimiento más claro. empleadas para las medidas de tendencia central
e incluso detalla su notación y empleo a través de
La Lectura 15 de Salvarrey (2000) presenta la ejemplos. Cabe hacer notar que esta notación es
clasificación de las variables aleatorias de una la de empleo común en el curso por lo que se
manera muy clara a través de ejemplo y facilita su comprensión, factor determinante
remitiéndonos inmediatamente al empleo de la para incluirse en este documento.
escala que se puede emplear a partir de ellas,
que en muchas ocasiones es difícil de La lectura de Marchal y Whaten (2005), se
comprender para el estudiante, con lo cual incluyó considerando que es un buen ejemplo del
facilita su interpretación. Pocas lecturas y empleo de gráficas comunes a la Estadística y que
autores tratan la organización de datos a través muestra la interpretación y comparación en su
del diagrama de “tallo y hojas”, Pastor en su lectura, Gráfica 2-4 del material, que se vienen a
Capítulo III, brinda una conceptualización muy reforzar con la última lectura, de Levin, de esta
clara que se ve enriquecida con el manejo de los unidad.
ejemplos que proporciona. Adicionalmente la
explicación de la construcción del diagrama de Hay que señalar que se tomó el material de Levin,
“caja y bigotes” es muy ilustrativa. ya que el manejo de las fórmulas permite
familiarizarse rápidamente al estudiante con una
En el caso del libro de los autores Bueno y simbología que posteriormente tendrá que hacer
Escudero (2007) se incluyó en la antología el propia y también que aunque el material podría
Capítulo 2 y 3 del texto, lecturas 16 y 17 haber sido más amplio, sólo se pretendió dar un
respectivamente de este documento. Si bien panorama completo de las medidas descriptivas
todas las lecturas mencionan como se puede más comunes ya que se verán más ampliamente
construir una tabla de frecuencias para organizar en etapas posteriores del programa del curso.
los datos cuantitativos, Bueno y
134
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
En el capítulo anterior nos hemos interesado por el análisis y descripción de una sola variable. Para ello
hemos definido un proceso de reducción de la información inicialmente disponible. Esta reducción ha dado
como resultado la construcción de una tabla estadística donde se daba la distribución de frecuencias de la
variable. Posteriormente se ha analizado la forma, se han definido medidas de tendencia central, medidas
de dispersión, de simetría y curtosis. También se ha estudiado el problema de la concentración. Pero este
análisis es de tipo unidimensional, pues de todos los caracteres de los elementos de una población solo
nos ha preocupado observar un de ellos que, por lo regular, siempre ha sido de tipo cuantitativo. Pero qué
duda cabe que los elementos de una población cualquiera gozan de más de un carácter susceptible de ser
observado. En este sentido, imaginemos que los elementos observados son las empresas. En ellas se puede
observar de forma conjunta los beneficios y los costes de las mismas o cualquier otro par de caracteres.
Así podríamos pensar en los gastos en publicidad y sus beneficios, o los costes y el número de empleados.
El número de ejemplos que podríamos dar es tan amplio que no merece la pena seguir mencionándolos.
El objetivo de este capítulo será similar al del anterior, pero ahora buscando el análisis conjunto de dos
variables o análisis bidimensional. Para ello se procederá a la observación de dos características de todos
los elementos de una población. Inicialmente supondremos que esas características son de naturaleza
cuantitativa. El resultado de esa observación conjunta será la definición de dos variables a las que
llamaremos X e Y, las cuales pueden ser discretas o continuas, y nuestra primera preocupación será la de
presentar de forma conjunta las frecuencias de los pares de valores de esas variables (xi,yj). El instrumento
que se utiliza para alcanzar ese objetivo es lo que se conoce como tabla de doble entrada, tabla de
correlaciones o tabla de contingencia. Esta última denominación se reserva especialmente para los casos
de caracteres cualitativos. De todas las denominaciones que hemos señalado, usaremos la de tabla de
doble entrada, pues la denominación de tabla de correlaciones tiene un significado que va más allá de la
mera representación numérica de la distribución conjunta de frecuencias.
Una tabla de doble entrada no es más que la representación de (xi, yj, nij) en la forma que se muestra en
la Tabla 1.
135
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
La lectura del contenido de esta tabla sería el siguiente. El valor nij nos da la frecuencia conjunta con la
que se presentan el valor xi de X y el valor yj de Y. A su vez ni1 da la frecuencia conjunta de xi y de yi. De
forma similar habría que leer e interpretar el resto de las frecuencias conjuntas que son las que están
dentro del cuerpo central de la tabla, es decir, las que llevan un doble subíndice alfanumérico.
136
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Mención aparte merecen la última fila y la última columna. A esa fila y a esa columna se les conoce como
distribuciones marginales de Y y de X, respectivamente. Se trata de la distribución de frecuencias de cada
una de las variables tomadas por separado. Así pues la distribución marginal de X vendría dada por los
pares (xi, ni.), mientras que la marginal de Y vendría dada por los pares (yj, n.j), es decir:
Además de las marginales, para una tabla de doble entrada, se pueden definir también las distribuciones
condicionadas, que también son de tipo unidimensional. Estas hay que darlas en términos de una
condición previa. En este sentido se tendría la distribución de los valores de la variable X condicionada a
que la variable Y tome un valor concreto. De igual forma se podría hacer para la variable Y con respecto a
los posibles valores de X. Si se define la condicionada de X, entonces los valores que puede tomar esta
variable son los mismos que los de su marginal. Lo único que varía son sus frecuencias, que se
representarán por ni/j. A su vez, si de lo que se trata es de la condicionada de Y, los valores de esta
distribución son los de la marginal de Y, pero las frecuencias son distintas y se representa por nj/i. Estas
nuevas distribuciones aparecen en la Tabla 3.
La distribución condicional no es única, al el contrario de lo que ocurre con la marginal. Habrá tantas como
valores pueda tomar la variable condicionante. Así, para variables continuas el número de distribuciones
condicionales será infinito.
Todas y cada una de estas nuevas distribuciones univariantes que se han definido es posible tratarlas con
los instrumentos de análisis definidos en las lecciones anteriores.
Además, aunque la tabla de doble entrada que se ha diseñado antes lo es para variables de tipo
cuantitativo, también es posible hablar de tablas de doble entrada para variables de tipo cualitativo o
mixto, en cuyo caso se les conoce como tablas de contingencia. Por otro lado, en la Tabla 1 se recogen dos
variables discretas con frecuencias unitarias o mayores que la unidad. Sin embargo ese diseño de tabla de
doble entrada es también válido para el caso de variables continuas. Bastaría con sustituir los valores
puntuales de cada variable por intervalos.
137
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
COMENTARIO
Dentro de la estadística descriptiva es Sánchez, en su Capítulo 3, presenta de
frecuente trabajar con datos cuantitativos y manera muy clara la tabla de doble entrada,
cualitativos; sin embargo la mayor parte de los también conocida como tabla de contingencias
autores rara vez presentan las herramientas que permite resumir la información cualitativa ya
propias para presentar información de tipo sea en valor absoluta o en porcentaje.
cualitativa.
138
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
1. Introducción
Se indicaba en el capítulo anterior que cuando un experimento aleatorio se repite un gran número de
veces, los posibles resultados tienden a presentarse un número muy parecido de veces, lo cual indica que
la frecuencia de aparición de cada resultado tiende a estabilizarse.
El concepto o idea que generalmente se tiene del término probabilidad es adquirido de forma intuitiva,
siendo suficiente para manejarlo en la vida corriente.
Nos interesa ahora la medida numérica de la posibilidad de que ocurra un suceso A cuando se realiza el
experimento aleatorio. A esta medida la llamaremos probabilidad del suceso A y la representaremos por
p(A).
El concepto de probabilidad no es único, pues se puede considerar desde distintos puntos de vista:
139
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Sea un experimento aleatorio cuyo correspondiente espacio muestral E está formado por un número n
finito de posibles resultados distintos y con la misma probabilidad de ocurrir {e1, e2, ... , en}.
n1+n2+…+nk=n
Las probabilidades de los sucesos A1, A1, ..., An son:
n2
n
p(A1 ) = ,..., p(A2 ) = n … p(Ak ) = n
es decir, que la probabilidad de cualquier Regla de Laplace para E finitos suceso A es igual al cociente
entre el número de casos favorables que integran el suceso A y el número de casos posibles del espacio
muestral E. p(A) =
• Siendo A={e1, e2, ... , ek} el suceso formado por k sucesos elementales siendo k≤n tendremos:
No.casosfavorables
No.casosposibles
La probabilidad verifica las siguientes condiciones:
• La probabilidad de cualquier suceso es siempre un número no negativo entre 0 y 1
,
• La probabilidad del suceso imposible es 0
0
p() =
• La probabilidad de la unión de varios sucesos incompatibles o excluyentes A1, A1, ..., Ar es igual a
la suma de probabilidades de cada p(A1+ ... +Ar) = p(A1 )+ p(A2 ) ... + p(Ar ) uno de ellos.
140
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Esta definición clásica de probabilidad fue una de las primeras que se dieron (1900) y se atribuye a Laplace;
también se conoce con el nombre de probabilidad a priori pues, para calcularla, es necesario conocer,
antes de realizar el experimento aleatorio, el espacio muestral y el número de resultados o sucesos
elementales que entran a formar parte del suceso.
Para resolver estos casos, se hace una extensión de la definición de probabilidad, de manera que se pueda
aplicar con menos restricciones, llegando así a la definición frecuentista de probabilidad.
La definición frecuentista consiste en definir la probabilidad como el límite cuando n tiende a infinito de la
proporción o frecuencia relativa del suceso.
n( A)
Cuando el número n de repeticiones se hace muy grande la frecuencia relativa converge hacia un valor
que llamaremos probabilidad del suceso A.
Es imposible llegar a este límite, ya que no podemos repetir el experimento un número infinito de veces,
pero si podemos repetirlo muchas veces y observar como las frecuencias relativas tienden a
estabilizarse.
Esta definición frecuentista de la probabilidad se llama también probabilidad a posteriori ya que sólo
podemos dar la probabilidad de un suceso después de repetir y observar un gran número de veces el
experimento aleatorio correspondiente. Algunos autores las llaman probabilidades teóricas.
Tanto la definición clásica como la frecuentista se basan en las repeticiones del experimento aleatorio;
pero existen muchos experimentos que no se pueden repetir bajo las mismas condiciones y por tanto no
puede aplicarse la interpretación objetiva de la probabilidad.
140
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
En esos casos es necesario acudir a un punto de vista alternativo, que no dependa de las repeticiones, sino
que considere la probabilidad como un concepto subjetivo que exprese el grado de creencia o confianza
individual sobre la posibilidad de que el suceso ocurra.
Se trata por tanto de un juicio personal o individual y es posible por tanto que, diferentes observadores
tengan distintos grados de creencia sobre los posibles resultados, igualmente válidos.
La definición axiomática de la probabilidad es quizás la más simple de todas las definiciones y la menos
controvertida ya que está basada en un conjunto de axiomas que establecen los requisitos mínimos para
dar una definición de probabilidad.
La ventaja de esta definición es que permite un desarrollo riguroso y matemático de la probabilidad. Fue
introducida por A. N. Kolmogorov y aceptada por estadísticos y matemáticos en general.
Definición
Dado el espacio muestral E y la α-Algebra A=P(E) diremos que una función p: A → [0,1 ] es una
probabilidad si satisface los siguientes axiomas de Kolmogorov:
Teorema I
La probabilidad del suceso imposible es nula p( Ø) = 0
• Si para cualquier suceso A resulta que p(A)=0 diremos que A es el suceso nulo, pero esto no
implica que A= Ø
• Si para cualquier suceso A resulta que p(A)=1 diremos que A es el suceso casi seguro, pero esto
no implica que A= E
Teorema II
Para cualquier suceso Ae A=P(A) se verifica que:
141
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
La probabilidad de su suceso complementario es p(Ā) = 1 - p(A)
Teorema III
La probabilidad P es monótona no decreciente, es decir:
A, B e A=P(A) con A B p(A) ≤ p(B) y además p(B - A) = p(B) - p(A)
Teorema IV
Para cualquier suceso A e A=P(A) se verifica que: p(A) ≤ 1
Teorema V
Para dos sucesos cualesquiera A, B e A=P(A) se verifica que: p( AB ) = p(A) + p(B) - p( A∩B)
Esta propiedad es generalizable a n sucesos:
= p( A ) − p( A A A ) +... + (− 1) p( A)
Teorema VI
Para dos sucesos cualesquiera A,B A=P(A) se verifica que: p( AB ) ≤ p(A) + p(B)
Esta propiedad es generalizable a n sucesos:
i p( A
Teorema VII
Dada una sucesión creciente de sucesos A1, A2, ... , An (abreviadamente representado por An e
verifica que:
p( A ) = p(lim A ) = p
Teorema VIII
Dada una sucesión decreciente de sucesos A1, A2, ... , An (abreviadamente representado por {
An↓}) e verifica que:
p( A ) = p(lim A ) = p
7. Probabilidad Condicionada
Hasta ahora hemos introducido el concepto de probabilidad considerando que la única información sobre
el experimento era el espacio muestral. Sin embargo hay situaciones en las que se incorpora información
suplementaria respecto de un suceso relacionado con el experimento aleatorio, cambiando su
probabilidad de ocurrencia.
El hecho de introducir más información, como puede ser la ocurrencia de otro suceso, conduce a que
determinados sucesos no pueden haber ocurrido, variando el espacio de resultados y cambiando sus
probabilidades.
Definición
142
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Sea B un suceso tal que B A=p(A)
P( A B)
p(B / A) = P( A)
La probabilidad condicionada cumple los tres axiomas de Kolmogorov:
P( A B)
• ∀B ∈ A= P(E) p(B / A)= P( A) 0
P( A E)
• P(E/A)=
P( A) =1
p
Regla de Multiplicación de Probabilidades o Probabilidad Compuesta
p(A1 )
Sean n sucesos A1, A2, ..., An A=P(A) y tales i=1 .Se verifica que:
que
P(A1 A2…An)=p(A1)p(A2/A1)p(A3/A1A2)…P(An/A1…An-k)
9. Teorema de la probabilidad Compuesta o Producto
Sean n sucesos disjuntos A1, A2, ..., An A=P(A) tales que p( Ai )>0 i=1,2, ...,n y tales que forman un
sistema completo de sucesos. Para cualquier suceso B A=P(A) cuyas probabilidades condicionadas son
conocidas p( B/Ai ), se verifica que:
Sean n sucesos disjuntos A1, A2, ..., An∈ A=P(A) tales que p( Ai )>0 i=1,2, ...,n y tales que forman un
sistema completo de sucesos. Para cualquier suceso B∈ A=P(A) se verifica que:
p( Ai ) p(B / Ai )
p( A ) p(B / A )
i i
p (Ai / B)= i=1
y aplicando el teorema de la probabilidad total: p(Ai / B)=
143
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
p( Ai ) p(B / Ai )
p(B)
Sistema completo de sucesos A1, A2, ..., An Se denominan hipótesis.
Las probabilidades i=1,2, ...,n p( Ai )>0 Se denominan probabilidades a priori ya que son las que se
asignan inicialmente a los sucesos Ai
Las probabilidades p( B/Ai )>0 i=1,2, ...,n Se denominan verosimilitudes del suceso B admitiendo la
hipótesis Ai
Las verosimilitudes p( B/Ai ) nos permiten modificar nuestro grado de creencia original p( Ai )
obteniendo la probabilidad a posteriori p( Ai / B ).
144
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
4.1. Probabilidad
La probabilidad mide la mayor o menor posibilidad de que se dé un determinado resultado (suceso)
cuando se realiza un experimento aleatorio.
La probabilidad toma valores entre 0 y 1 (o expresados en tanto por ciento, entre 0% y 100%):
Uno de los métodos más utilizados es aplicando la Regla de Laplace: define la probabilidad de un suceso
como el cociente entre casos favorables y casos posibles.
a) Probabilidad de que al lanzar un dado salga el número 2: el caso favorable es tan sólo uno (que
salga el dos), mientras que los casos posibles son seis (puede salir cualquier número del uno al
seis). Por lo tanto:
b) Probabilidad de que al lanzar un dado salga un número par: en este caso los casos favorables
son tres (que salga el dos, el cuatro o el seis), mientras que los casos posibles siguen siendo seis.
Por lo tanto:
145
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
c) Probabilidad de que al lanzar un dado salga un número menor que 5: en este caso tenemos
cuatro casos favorables (que salga el uno, el dos, el tres o el cuatro), frente a los seis casos posibles.
Por lo tanto:
d) Probabilidad de que nos toque el "Gordo" de Navidad: tan sólo un caso favorable, el número
que jugamos (¡qué triste...¡), frente a 100.000 casos posibles. Por lo tanto:
Merece la pena ... Por cierto, tiene la misma probabilidad el número 45.264, que el número
00001, pero ¿cuál de los dos comprarías?
Para poder aplicar la Regla de Laplace el experimento aleatorio tiene que cumplir dos requisitos:
a) El número de resultados posibles (sucesos) tiene que ser finito. Si hubiera infinitos resultados, al
aplicar la regla "casos favorables / casos posibles" el cociente siempre sería cero.
b) Todos los sucesos tienen que tener la misma probabilidad. Si al lanzar un dado, algunas caras
tuvieran mayor probabilidad de salir que otras, no podríamos aplicar esta regla.
A la regla de Laplace también se le denomina "probabilidad a priori", ya que para aplicarla hay que conocer
antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas
probabilidades.
¿Y si el experimento aleatorio no cumple los dos requisitos indicados, qué hacemos?, ¿ponemos una
denuncia?
No, no va a ser necesario denunciar a nadie, ya que en este caso podemos acudir a otro modelo de cálculo
de probabilidades que se basa en la experiencia (modelo frecuentista):
Cuando se realiza un experimento aleatorio un número muy elevado de veces, las probabilidades de los
diversos posibles sucesos empiezan a converger hacia valores determinados, que son sus respectivas
probabilidades.
Ejemplo: si lanzo una vez una moneda al aire y sale "cara", quiere decir que el suceso "cara" ha aparecido
el 100% de las veces y el suceso "cruz" el 0%.
Si lanzo diez veces la moneda al aire, es posible que el suceso "cara" salga 7 veces y el suceso "cruz" las 3
restantes. En este caso, la probabilidad del suceso "cara" ya no sería del 100%, sino que se habría reducido
al 70%.
Si repito este experimento un número elevado de veces, lo normal es que las probabilidades de los sucesos
"cara" y "cruz" se vayan aproximando al 50% cada una. Este 50% será la probabilidad de estos sucesos
según el modelo frecuentista.
En este modelo ya no será necesario que el número de soluciones sea finito, ni que todos los sucesos
tengan la misma probabilidad.
146
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Ejemplo: si la moneda que utilizamos en el ejemplo anterior fuera defectuosa (o estuviera trucada), es
posible que al repetir dicho experimento un número elevado de veces, la "cara" saliera con una frecuencia,
por ejemplo, del 65% y la "cruz" del 35%. Estos valores serían las probabilidades de estos dos sucesos
según el modelo frecuentista.
A esta definición de la probabilidad se le denomina probabilidad a posteriori, ya que tan sólo repitiendo
un experimento un número elevado de veces podremos saber cuál es la probabilidad de cada suceso.
Al definir los sucesos hablamos de las diferentes relaciones que pueden guardar dos sucesos entre sí, así
como de las posibles relaciones que se pueden establecer entre los mismos. Vamos a ver ahora cómo se
refleja esto en el cálculo de probabilidades.
a) Un suceso puede estar contenido en otro: entonces, la probabilidad del primer suceso será menor
que la del suceso que lo contiene.
Ejemplo: lanzamos un dado y analizamos dos sucesos: a) que salga el número 6, y b) que salga un
número par. Dijimos que el suceso a) está contenido en el suceso b).
P(B) = 3 / 6 = 0,50
Por lo tanto, podemos ver que la probabilidad del suceso contenido, suceso a), es menor que la
probabilidad del suceso que lo contiene, suceso b).
b) Dos sucesos pueden ser iguales: en este caso, las probabilidades de ambos sucesos son las mismas.
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que salga
múltiplo de 2. Las soluciones coinciden en ambos casos.
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
c) Intersección de sucesos: es aquel suceso compuesto por los elementos comunes de los dos o más
sucesos que se intersectan. La probabilidad será igual a la probabilidad de los elementos comunes.
P(A B) = 2 / 6 = 0,33
147
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
d) Unión de dos o más sucesos: la probabilidad de la unión de dos sucesos es igual a la suma de las
probabilidades individuales de los dos sucesos que se unen, menos la probabilidad del suceso intersección
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga número par, y b) que el resultado
sea mayor que 3. El suceso unión estaría formado por los siguientes resultados: el 2, el 4, el 5 y el 6.
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
P (A B) = 2 / 6 = 0,33
Por lo tanto,
e) Sucesos incompatibles: la probabilidad de la unión de dos sucesos incompatibles será igual a la suma
de las probabilidades de cada uno de los sucesos (ya que su intersección es el conjunto vacío y por lo tanto
no hay que restarle nada).
Ejemplo: lanzamos un dado al aire y analizamos dos sucesos: a) que salga un número menor que 3, y b)
que salga el número 6.
P(A) = 2 / 6 = 0,333
P(B) = 1 / 6 = 0,166
Por lo tanto,
Ejemplo: lanzamos un dado al aire. el suceso (A) es que salga un número par, luego su complementario,
suceso (B), es que salga un número impar.
P(A) = 3 / 6 = 0,50
148
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
P(B) = 3 / 6 = 0,50
Ejemplo: seguimos con el ejemplo anterior: a) que salga un número par, y b) que salga un número impar.
La probabilidad del suceso unión de estos dos sucesos será igual a:
P(A) = 3 / 6 = 0,50
P(B) = 3 / 6 = 0,50
Por lo tanto,
Para aplicar la Regla de Laplace, el cálculo de los sucesos favorables y de los sucesos posibles a veces no
plantea ningún problema, ya que son un número reducido y se pueden calcular con facilidad:
Por ejemplo: Probabilidad de que al lanzar un dado salga el número 2. Tan sólo hay un caso favorable,
mientras que los casos posibles son seis.
Probabilidad de acertar al primer intento el horóscopo de una persona. Hay un caso favorable y 12 casos
posibles.
Sin embargo, a veces calcular el número de casos favorables y casos posibles es complejo y hay que aplicar
reglas matemáticas:
Por ejemplo: 5 matrimonios se sientan aleatoriamente a cenar y queremos calcular la probabilidad de que
al menos los miembros de un matrimonio se sienten junto. En este caso, determinar el número de casos
favorables y de casos posibles es complejo.
Las reglas matemáticas que nos pueden ayudar son el cálculo de combinaciones, el cálculo de
variaciones y el cálculo de permutaciones.
a) Combinaciones:
Determina el número de subgrupos de 1, 2, 3, etc. elementos que se pueden formar con los "n" elementos
de una nuestra. Cada subgrupo se diferencia del resto en los elementos que lo componen, sin que influya
el orden.
Por ejemplo, calcular las posibles combinaciones de 2 elementos que se pueden formar con los números
1, 2 y 3.
Se pueden establecer 3 parejas diferentes: (1,2), (1,3) y (2,3). En el cálculo de combinaciones las parejas
(1,2) y (2,1) se consideran idénticas, por lo que sólo se cuentan una vez.
b) Variaciones:
149
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Calcula el número de subgrupos de 1, 2, 3, etc. elementos que se pueden establecer con los "n" elementos
de una muestra. Cada subgrupo se diferencia del resto en los elementos que lo componen o en el orden
de dichos elementos (es lo que le diferencia de las combinaciones).
Por ejemplo, calcular las posibles variaciones de 2 elementos que se pueden establecer con los números
1, 2 y 3.
Ahora tendríamos 6 posibles parejas: (1,2), (1,3), (2,1), (2,3), (3,1) y (3,3). En este caso los subgrupos (1,2)
y (2,1) se consideran distintos.
c) Permutaciones:
Calcula las posibles agrupaciones que se pueden establecer con todos los elementos de un grupo, por lo
tanto, lo que diferencia a cada subgrupo del resto es el orden de los elementos.
Por ejemplo, calcular las posibles formas en que se pueden ordenar los números 1, 2 y 3.
Hay 6 posibles agrupaciones: (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) y (3, 2, 1)
¿Cómo se calculan?
El término " n ! " se denomina "factorial de n" y es la multiplicación de todos los números que van desde
"n" hasta 1.
Por ejemplo: 4 ! = 4 * 3 * 2 * 1 = 24
La expresión "Cm,n" representa las combinaciones de "m" elementos, formando subgrupos de "n"
elementos.
Es decir, podríamos formar 210 subgrupos diferentes de 4 elementos, a partir de los 10 elementos.
150
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
La expresión "Vm,n" representa las variaciones de "m" elementos, formando subgrupos de "n" elementos.
En este caso, como vimos en la lección anterior, un subgrupo se diferenciará del resto, bien por los
elementos que lo forman, o bien por el orden de dichos elementos.
Es decir, podríamos formar 5.040 subgrupos diferentes de 4 elementos, a partir de los 10 elementos.
La expresión "Pm" representa las permutaciones de "m" elementos, tomando todos los elementos. Los
subgrupos se diferenciarán únicamente por el orden de los elementos.
Vamos a analizar ahora que ocurriría con el cálculo de las combinaciones, de las variaciones o de las
permutaciones en el supuesto de que al formar los subgrupos los elementos pudieran repetirse.
Por ejemplo: tenemos bolas de 6 colores diferentes y queremos formar subgrupos en los que pudiera
darse el caso de que 2, 3, 4 o todas las bolas del subgrupo tuvieran el mismo color. En este caso no
podríamos utilizar las fórmulas que vimos en la lección anterior.
a) Combinaciones con repetición: Para calcular el número de combinaciones con repetición se aplica la
siguiente fórmula:
Ejemplo: C'10,4 son las combinaciones de 10 elementos con repetición, agrupándolos en subgrupos de 4,
en los que 2, 3 o los 4 elementos podrían estar repetidos:
151
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Es decir, podríamos formar 715 subgrupos diferentes de 4 elementos.
b) Variaciones con repetición: Para calcular el número de variaciones con repetición se aplica la
siguiente fórmula:
Ejemplo: V'10,4 son las variaciones de 10 elementos con repetición, agrupándolos en subgrupos de 4
elementos:
c) Permutaciones con repetición: Para calcular el número de permutaciones con repetición se aplica la
siguiente fórmula:
Son permutaciones de "m" elementos, en los que uno de ellos se repite " x1 " veces, otro " x2 " veces y así
... hasta uno que se repite " xk " veces.
Ejemplo: Calcular las permutaciones de 10 elementos, en los que uno de ellos se repite en 2 ocasiones y
otro se repite en 3 ocasiones:
152
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
COMENTARIO
La Teoría de la Probabilidad es un tema muy El autor también consideró las reglas que se
complejo, pese a que forma parte de nuestras consideran para la obtención de las
actividades diarias -¿quién no ha participado probabilidades aplicables a los diferentes tipos.
alguna vez en un volado o ha lanzado algunos Por último, muestra el empleo del Teorema de
dados?- Gran parte de esa complejidad se debe a Bayes remarcando su importancia en la
los postulados y axiomas que la fundamentan, ni probabilidad subjetiva.
mencionar la notación del lenguaje de conjuntos
que creemos superado en los primeros Pese a las ventajas mencionadas de la primer
semestres de cualquier programa educativo. lectura, se recomienda que para aquellos
alumnos que tienen dificultades con los
La Lectura 21 de Ruíz Muñoz hace un algoritmos, realicen primero la Lectura 22 donde
planteamiento muy claro, mejor que el realizado Webster ejemplifica los conceptos de una
por Webster, de los principales Axiomas y manera muy clara, para posteriormente regresar
Teoremas sobre los cuales se fundamenta la a realizar la Lectura 21 y que esta sea más clara.
Teoría de la Probabilidad. Si bien parte de la
conceptualización de la PROBABILIDAD CLÁSICA El documento de Webster también incluye una
hace uso del lenguaje de conjuntos más común. revisión de técnicas de conteo, apartado 4.3 que
Es notable que aunque el autor no presentó se recomienda que se realice con calculadora en
ejemplos, su valor, razón por la cual se mano para realizar la comprobación de las
seleccionó, radica en que resume todo el marco operaciones e identificar las funciones que se
fundamental de la teoría, sin agobiar al lector incluyen en ella.
ante un exceso de información
153
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
TEMA 5. DISTRIBUCIONES DE PROBABILIDAD
Recordemos inicialmente que existen las variables aleatorias, siendo aquellas que se asocian a la
ocurrencia de un fenómeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la
probabilidad asociada a cada uno de tales valores puede ser organizada como una distribución de
probabilidad, la cual es la distribución de las probabilidades asociadas a cada uno de los valores de la
variable aleatoria.
Las distribuciones de probabilidad pueden representarse a través de una tabla, una gráfica o una fórmula,
en cuyo caso tal regla de correspondencia se le denomina función de probabilidad.
Por ejemplo: Consideremos a la variable aleatoria X como la cantidad de águilas observadas cuando se
lanzan dos volados. El espacio muestral es el conjunto {AA, AS, SA, SS} y se puede ver que la variable X puede
tomar como valores 0, 1 y 2.
X P(X=x)
0 ¼
2/4
1
2 ¼
154
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Las propiedades de las distribuciones de variables discretas son dos, y que posteriormente, al hablar de
las distribuciones de variables continuas se repetirán de manera muy similar:
1. 0 ≤ P(X=x) ≤ 1.
Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el valor de la
probabilidad, pero en la realidad esto no ocurre, es decir que no sabemos la probabilidad y lo que se
hace es trabajar con estimaciones. Precisamente esto nos lleva a modelos teóricos que estiman los
resultados, los principales son los que a continuación se presentan.
En una distribución de frecuencias para datos agrupados se calculaba la media utilizando la fórmula
155
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Por ejemplo: Consideremos la variable X del ejemplo de águilas observadas en dos lanzamientos de
monedas. Es decir, X tal que su distribución de probabilidad sea:
X P(X=x)
0 ¼
1 ½
2 ¼
Entonces, para calcular su media se realiza:
Similarmente, la varianza se definió como, y haciendo un tratamiento análogo anterior tenemos que
para que, finalmente, la varianza de una distribución de probabilidad de una variable discreta sea:
La distribución binomial
Consideremos los llamados ensayos Bernoulli, éstos son aquellos experimentos cuyo resultado es uno de
dos posibles y mutuamente excluyentes, a los que se denominarán éxito y fracaso.
Entonces se tiene lo que se denomina experimento binomial, donde el número de ensayos se denota con
n, la probabilidad de éxito con p y la de fracaso con q. Hay que notar que las probabilidades de éxito y de
fracaso están relacionadas de la siguiente manera: p+q=1.
156
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Por ejemplo: Consideremos un examen con tres preguntas de opción múltiple, con cuatro
opciones, y que será contestado al azar.
Tenemos ahora la variable aleatoria X que representará el número de respuestas correctas, siendo sus
posibles valores: 0, 1, 2, y 3.
Para calcular la distribución de probabilidad correspondiente, consideraremos como E los éxitos y como F
los fracasos (el subíndice indica el número de pregunta). Así pues, tenemos que:
P(X=2) = P[(E1E2F3)(E1F2E3) = 9
/64 = 3·(3/4)1·(1/4)2
(F1E2E3)]
X P(X=x)
0 0.422
1 0.422
2 0.141
3 0.016
157
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
En general, si se tienen n ensayos Bernoulli con probabilidad de éxito p y de fracaso q, entonces la
distribución de probabilidad que la modela es la distribución de probabilidad binomial y su regla de
correspondencia es:
Por otro lado, la desviación estándar de una distribución probabilística binomial con parámetros n y p es:
Por ejemplo: Consideremos la distribución resultante de aplicar los exámenes del ejemplo anterior. Sus
parámetros son n=3 y p=0.25, entonces la media de la distribución es:
m = (3)•(0.25) = 0.75
Esto quiere decir que si se aplicara este examen, en teoría, el promedio de aciertos sería de 0.75 (casi de
un acierto) con una dispersión de 0.75.
Sin embargo, se pueden realizar aproximaciones y describir la probabilidad a través de modelos teóricos
de probabilidad cuya gráfica es una línea continua, a diferencia de las variables discretas que le
corresponde un histograma.
Para clarificar cómo se realiza esta aproximación al modelo teórico consideremos el siguiente caso:
Se han registrado los tiempos que le tomó a una empresa de mensajería entregar 190 paquetes con
destinatarios diferentes dentro de una misma ciudad. Los datos se han agrupado en una distribución de
frecuencias considerando intervalos de cinco días como sigue:
158
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
(5,10) 31
(10,15) 17
(15,20) 12
(20,25) 10
(25,30) 5
Supongamos que un posible cliente, conociendo esta información, quisiera saber qué probabilidad tiene
de que su paquete sea entregado en dos días. El problema es que al manejar intervalos de cinco días
estamos suponiendo que dentro de cada intervalo los datos se distribuyen uniformemente, cosa que no
es real.
Tiempo de No. de
Podríamos aumentar la muestra y seguir recogiendo información para entrega paquetes
hacer una distribución de frecuencias similar a la anterior, pero se (días) (frec.)
tendría el mismo problema: dentro de cada intervalo se está (0,3) 93
presuponiendo que los datos se distribuyen uniformemente. (3,6) 30
Otra posible solución es reducir la amplitud de los intervalos, de tal (6,9) 18
suerte que podríamos tomar una amplitud de tres días por intervalo y
hacer la siguiente distribución de frecuencias: (9,12) 13
(12,15) 9
Al seguir reduciendo la amplitud a dos días se obtiene la distribución: (15,18) 8
Tiempo de No. de (18,21) 6
entrega paquetes (21,24) 6
(días) (frec.)
(24,27) 4
(0,2) 76 Y al reducirla a intervalos de un día se (27,30) 3
(2,4) 29 tiene la distribución:
(4,6) 18
(6,8) 13
(8,10) 10
(10,12) 8
(12,14) 6
(14,16) 6
(16,18) 5
(18,20) 4
(20,22) 4
(22,24) 4
(24,26) 3
(26,28) 2
(28,30) 2
159
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Ahora, veamos. Lo que le interesa al futuro cliente es la probabilidad de Tiempo de No. de
que se haga una entrega en un cierto tiempo, por lo que habría que entrega paquetes
considerar las frecuencias relativas y, como antes, reducir la amplitud de (días) (frec.)
los intervalos. Con esto se obtendrían las siguientes distribuciones de
(0,1) 51
frecuencias:
(1,2) 25
Intervalos de cinco días
(2,3) 17
Intervalo frec. frec.
(3,4) 12
rel.
(4,5) 10
(0,5) 115 0.605
(5,6) 8
(5,10) 31 0.163
(6,7) 7
(10,15) 17 0.089
(7,8) 6
(15,20) 12 0.063
(8,9) 5
(20,25) 10 0.053
(9,10) 5
(25,30) 5 0.026
(10,11) 4
Y podríamos graficar tal información en histogramas para poder ver cómo (11,12) 4
se aproximan, si es que ocurre, los valores a una curva continua: (12,13) 3
(13,14) 3
(14,15) 3
(15,16) 3
(16,17) 3
(17,18) 2
(18,19) 2
(19,20) 2
(20,21) 2
(21,22) 2
(22,23) 2
(23,24) 2
(24,25) 2
(25,26) 1
(26,27) 1
(27,28) 1
donde las barras rosas (y la línea roja) corresponden a los intervalos de 828,29) 1
cinco días; las barras y línea azules, a los intervalos de tres días; las barras (29,30) 1
y línea amarillas, a los intervalos de dos días; y las barras y líneas verdes,
a los intervalos de un día.
Se han incluido de una vez las líneas que unen los puntos medios de las barras del histograma porque se
puede ver que las barras de las frecuencias relativas se "achaparran" y las líneas graficadas están tan
separadas del lado izquierdo (en este caso) que no se puede hablar de una aproximación continua a una
sola línea.
160
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Una posible solución es utilizando la densidad del intervalo, que se va a definir como el cociente de la
frecuencia relativa entre la amplitud del intervalo:
Existe la función de densidad de una distribución de probabilidad, de donde se deriva esta definición de
densidad del intervalo.)
De esta manera, a las distribuciones de
frecuencias anteriores se les puede añadir la
columna correspondiente a la densidad:
El resultado es una línea continua que es la gráfica de una cierta función denominada función de densidad
de la distribución probabilística.
Ahora, considerando la manera en que se definió la densidad de un intervalo como:
Entonces, despejando en el primer cociente la frecuencia relativa e igualando con esta segunda
expresión obtenemos que probabilidad del evento = (densidad del intervalo) · (amplitud del intervalo)
Es decir, que la probabilidad de que ocurra un evento corresponde al área de las barras del histograma
hecho tomando en cuenta la densidad de los intervalos; y que cuando tales intervalos tienen una amplitud
que tiende a cero, y la gráfica se convierte en la curva continua de la función de densidad, entonces la
probabilidad de que un evento ocurra en un intervalo (a,b) es el área bajo la curva de la función en ese
intervalo:
161
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Esto se puede explicar de la siguiente manera: si, como ya dijimos, la probabilidad (frecuencia relativa) es
igual a la densidad del intervalo por la amplitud del intervalo, entonces no importa qué tan grande sea la
densidad de tal intervalo porque, como ya también se dijo, por ser variable continua la amplitud del
intervalo tiende a cero y, por tanto, la probabilidad es igual a cero.
162
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
• Gamma. Se utiliza para estudiar variables
cuya distribución puede ser asimétrica.
aunque resulta más cómodo el uso de las tablas que casi todos los libros y formularios proveen.
Sin embargo, las tablas de los libros corresponden a la distribución normal con m=0 y s=1, por lo que en
casos en que los parámetros sean diferentes, entonces hay que realizar una transformación.
Propiedades de la curva de distribución normal
Las propiedades de la curva son básicamente seis, y su demostración está basada en conceptos de
cálculo:
1. Los valores de la curva son positivos.
2. La curva es simétrica con respecto al valor de la media.
3. La curva tiene un valor máximo en el valor de la media.
4. La curva tiene puntos de inflexión en aquellos valores de x para los cuales a la media se le
suma o se le resta una desviación estándar.
5. La curva, en sus extremos izquierdo y derecho, tiende a acercarse infinitamente al valor
cero, es decir, el eje de las abscisas es asíntota horizontal.
6. El área bajo la curva es la unidad.
163
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
Up to this point we have been speaking of distributions as though they were all cut from the same fabric.
In fact, they are cut from several different kinds of fabric, and the closer we get to the subject matter of
inferential statistics, the more critically important it becomes to understand exactly what general type of
distribution you are dealing with in any particular context. The most general distinction among
distributions pertains to whether they are empirical or theoretical.
An empirical distribution is one composed of some set of variates—that is, values of Xi—that have either
been observed or are capable in principle of being observed. If you were to measure the level of serum
cholesterol of 100 adult Canadian males, the resulting 100 values of Xi would constitute an empirical
distribution. If you were to speak of the distribution of serum cholesterol levels among adult Canadian
males in general, that too would be an empirical distribution, even though you might not have observed
all or even most of the multitudinous Xi values of which this distribution is composed.
A theoretical distribution, on the other hand, is one that is derived from certain basic facts, principles, or
assumptions, by logical and mathematical reasoning involving a complex sequence of conditional
statements of the general form "If such-and-such is true, then so-and-so must also be true." In general,
the procedures of inferential statistics begin with one or more empirical distributions and conclude by
making reference to a theoretical probability distribution.
Lest the term theoretical conjure up images in your mind of ivory-tower impracticality, please be assured
that our interest here is no mere intellectual exercise. In fact, theoretical distributions of the type that
allow us to make rational judgments concerning probability are what lie at the very heart of the whole
enterprise of inferential statistics. They are what make inferential statistics inferential, rather than merely
descriptive; they are also what make the study of statistical methodology worth the bother. Although we
will not be able to say much about theoretical probability distributions until we have covered some basic
concepts of probability, there is one particular species of theoretical distribution that we will be referring
to before that time, so you will need to have at least a general sense of it. Actually, it is a form of
distribution that you have probably already encountered in some previous context, perhaps under its
popular and unofficial title, the bell-shaped curve. Its official name is the normal distribution.
164
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
The general outlines of the normal distribution are shown in Figure 2.6. Although the curve that you see
in this graph looks as though it might be a smoothed polygon outlining an empirical frequency distribution,
it is in fact a mathematical abstraction, generated by a formula known as the normal probability density
function. You will not need to be able to generate it yourself, nor will you need to do any of the higher
mathematics required to work out its detailed properties and implications. That has already been done for
us, long ago, by the pioneers of statistical theory. For present purposes, you can think of this graph as
representing an abstract frequency distribution.
The vertical axis in the graph delineates relative frequencies, which could be scaled as either percentages
or proportions, and the horizontal axis represents units of z—that is, distances from the mean of the
distribution, with each unit of z equal to one standard deviation. The mean of the distribution (z=0) stands
precisely at its center, and plus-and-minus one standard deviation (+1z and —1z) fall precisely at the points
where the curved outline of the distribution on either side of the mean changes from convex to concave.
The range between +1 and —1 standard deviation encompasses approximately two-thirds (68.26%) of the
total distribution, with equal portions (34.13%) falling between the mean and — 1 standard deviation
and between the mean and +1 standard deviation. The remaining 31.74% falls in equal portions of 15.87%
to the left of —1 standard deviation and to the right of +1 standard deviation. These are only some of the
more immediately visible properties of the normal distribution. We will save the others for a more
thorough discussion in later chapters.
This particular theoretical distribution first arose in the eighteenth and nineteenth centuries in connection
with the attempt to specify the probabilities, or odds, that are involved in certain games of chance. At first
it was purely theoretical and of no particular interest to anyone apart from gamblers and mathematicians.
But with the passage of time, it became increasingly clear that the general shape of the theoretical
distribution tends to be closely approximated by the distributions of a very large number of real-world
empirical variables. So here you have it in the proverbial nutshell—a mathematical abstraction inspired
by frivolous games of chance, which nonetheless turns out to be applicable to a very wide range of
scientifically interesting real-world phenomena. You will see numerous examples of the applicability of this
and other theoretical probability distributions as we proceed.
The particular point on which the applicability of these theoretical distributions is focused is in the
relationship between populations and samples. The statistical distinction between populations and
165
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
samples are basically the distinction between all and some. If you were to measure all instances of some
particular variable, the result would be a population distribution. If you were to measure only a limited
subset of the instances of that variable and take those measures to be representative of the entire set of
instances, the result would be a sample distribution. Thus, if our distribution of N=12 exam scores comes
from a class that has exactly 12 students in it, and if we are interested in nothing other than how this
particular class of 12 students performed on this particular exam, then what we are dealing with is the
distribution of the entire population of the instances in which we happen to be interested.
Suppose, however, that the class actually has 60 students in it, and that the instructor, after grading the
first 12 exams, takes a moment to examine the distribution of this limited subset of scores in order to get
a sense of how the 60 students in general did on the exam. In this case, the exam scores of all 60 students
(even though most of the exams have not yet been graded) would constitute the population distribution,
and the 12 exam scores of the subset would constitute a sample distribution that the instructor takes to
be representative of this population.
Alternatively, suppose that the instructor, who plans to give slightly modified versions of this particular
exam to other classes over the next several years, examines the distribution of all 60 exam scores in the
current class to get a sense of how students in general will do on the exam in subsequent years. In this
case the 60 exam scores are not a population, but rather a sample taken to be representative of a
considerably larger population, namely, the as-yet nonexistent scores of an as-yet undetermined number
of students who will be taking the exam in subsequent editions of the course.
The distinction is important enough to bear repeating: a population includes all instances of the particular
variable in which you happen to be interested, irrespective of whether all these instances have actually
been observed; while a sample includes only a limited subset of the population, selected in such a way as
to insure that it is representative of the totality of the population. And while we are at it, please note
carefully that this technical statistical sense of population is not limited to populations of people. You can
also have populations of cats, rats, mice, lice, jonquils, junipers, paramecia, erythrocytes, galaxies, water
molecules, hydrogen atoms, and electrons. Indeed, any type of empirical fact at all can be thought of as
constituting a population, providing that the reference is to all instances of it. Thus, you could speak not
only of the population of tree squirrels in a locality, but also of the population of tree squirrel nests, or of
the populations of heights or sizes of tree squirrel nests.
When the great 18th century chemist Lavoisier showed precisely how hydrogen and oxygen combine to
form water, he was not interested just in this, that, or the other particular sample of hydrogen, or oxygen,
or water, but in the entire population of water molecules and the entire population of instances—past,
present, and future—in which hydrogen and oxygen might combine in certain proportions and under
certain conditions of temperature and barometric pressure. When Newton, about a century earlier,
examined the effect of earth-moon gravitational interactions upon oceanic tides, he was not interested
just in this, that, or the other particular sample of gravitational effects, but in the entire population of
gravitational interactions.
Although the scope of scientific research has broadened very considerably since the days of Newton and
Lavoisier, the central aim and strategy remain the same. The overarching aim of the various sciences is to
figure out the general facts and principles that pertain to their respective domains of phenomena. But the
populations of phenomena to which these general facts and principles refer are typically too large or
otherwise inaccessible to be examined in their totality, so they are instead examined by way of systematic
sampling. The essential task of inferential statistics is to determine what can reasonably be
166
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
concluded about an entire domain of phenomena—a population—on the basis of having examined only a
limited sample of instances drawn from that domain. As you will see later in considerable detail, the key
to accomplishing this task is provided by the theory of probability.
Up to this point we have been like a runner doing warm-up exercises, preparing to run, but not yet actually
running. Now the warm-up period is over and the race is about to begin. At first the effort might seem
more strenuous, but once you find your stride, I think you will discover that the running flows much more
smoothly than the warm-up. We begin in Chapter 3 by performing some full-blown statistical analyses in
connection with a concept that you have certainly already encountered elsewhere under the label of
correlation. Historically, this was one of the first forms of statistical analysis to be developed (ca. 1846—
1896), and it remains to this day one of the most often and productively employed statistical instruments
of scientific research.
167
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
COMENTARIOS
Las decisiones estadísticas que el futuro comprensión. El documento de Larios (1998)
egresado realizará están basadas en la estadística aporta una serie de ejemplos de manera paralela
inferencial y por ello es fundamental que sean a la teoría, facilitando su comprensión, y en su
evaluadas en términos de distribución de exposición de la distribución normal las gráficas y
probabilidades. Sin embargo, hemos observado tablas son bastante ilustrativas sobre el
en la experiencia, que el tema en sí implica un fenómeno que se estudia. Finalmente, este autor
grado de dificultad mayor que el de la estadística presenta de manera ágil los diversos tipos de
descriptiva. distribución probabilística, caracterizando cada
distribución y proporciona su
Una distribución de probabilidad indica toda la fundamentación matemática de los diversos
gama de valores que pueden representarse como resultados.
resultado de un experimento. Una distribución
de probabilidad es similar a la distribución de Por último, la lectura en inglés de Lowry (2009),
frecuencias relativas. Pero, en vez de describir el con un lenguaje sencillo, partiendo desde
pasado, describe la probabilidad que un evento conceptos de la probabilidad, introduce al
se realice en el futuro, constituye una estudiante a los conceptos más comunes en el
herramienta fundamental para la prospectiva, tema de las Distribuciones y especialmente,
puesto que se puede diseñar un escenario de plantea la Distribución Normal con el manejo del
acontecimientos futuros considerando las valor de Z.
tendencias actuales de diversos fenómenos
naturales. Precisamente esta es la razón que El apartado sobre las distribuciones empíricas,
implica un grado de dificultad mayor. tanto para la población como para la muestra, es
manejado con un ejemplo muy común para
Ante la realidad anterior, la selección de lecturas nuestros estudiantes.
se sustentó en la facilidad de lectura y
168
ANTOLOGÍA DE ESTADÍSTICA APLICADA A LAS EMPRESAS I
COMENTADA
2023
BIBLIOGRAFÍA
169