Documentos de Académico
Documentos de Profesional
Documentos de Cultura
3.1 Variables…………………………………………………………………………………….…..12
3.2 Muestreo………………………………………………………………..………………….……16
3.3 Ordenamiento de datos y análisis de información………………………………………….18
4. Probabilidad………………………………………………………………………………………….…26
4.5 Riesgo…………………………………………………………………………………………...32
Cierre ....................................................................................................................................... 41
1
Guía de navegación
En este documento encontrarás gran cantidad de información, lo cual demanda generar estrategias de
aprendizaje, para analizarla y que te apropies de los conocimientos haciéndolos útiles para tu entorno.
Por ello, te proporcionamos la siguiente guía de navegación para darle un mejor uso al contenido, con la
presentación de los siguientes iconos que te permitirán relacionar cada uno de estos elementos.
Cuando veas este icono, será momento de conocer algo más Acerca de lo
que estás leyendo en ese momento, es decir, de profundizar sobre el
contenido de tu lectura.
2
UNIDAD I. LA ESTADÍSTICA DESCRIPTIVA Y LOS FENÓMENOS
NATURALES Y PROCESOS SOCIALES
Presentación
En esta unidad revisarás todo lo relacionado a los principios básicos de estadística y probabilidad, y a
partir de ello desarrollarás las competencias necesarias que plantea el perfil de egreso en la Educación
Media Superior, es decir, para que logres aplicar de manera efectiva tus conocimientos, habilidades y
actitudes en situaciones o problemas concretos.
Propósito formativo
Analizar fenómenos naturales y procesos sociales de tu entorno mediante el uso de conceptos básicos
de la probabilidad y estadística (tipos de eventos, variables, muestreo, gráficas) para reconocer los
diferentes tipos de distribución de la información y explicar el comportamiento de dichos fenómenos y
procesos en un determinado contexto, en un ambiente de respeto y tolerancia.
Aprendizajes esperados
• Argumentar la posibilidad de ocurrencia de algunos fenómenos naturales y procesos sociales de
tu entorno, mediante el uso de los tipos de distribución de probabilidad.
• Interpretar tablas y gráficas que representen la información de los hechos o fenómenos naturales
y procesos sociales vinculados dentro de tu contexto.
• Interpretar y explicar el funcionamiento de fenómenos naturales y procesos sociales dentro de tu
contexto local y regional a través de modelos de estadística descriptiva.
• Analizar y sintetizar las observaciones estadísticas para llegar a conclusiones lógicas.
• Determinar y analiza los tipos de variables en la interpretación y explicación de fenómenos
naturales y procesos sociales.
• Identificar fenómenos naturales y procesos sociales de tu contexto con el uso de técnicas de
muestreo para la obtención de datos que permitan interpretar y explicar dichos fenómenos que
ocurren en tu entorno.
• Reconocer el aula como una comunidad de aprendizaje en la que cada alumno aporta
conocimiento.
Punto de partida
Te has detenido a preguntarte…
¿Qué es la estadística y la probabilidad?
¿En qué situaciones se puede hacer uso de ellas?
¿Qué tan relacionadas están con los juegos de azar?
En esta unidad podrás ir respondiendo estas preguntas, ¡Adelante!
3
1. Nociones y conceptos básicos de estadística y probabilidad
4
y cómo distinguirlas cuantificando la altura, el peso, la longevidad o cantidad de años de vida de las
personas. También argumentó que la cantidad de suicidios y la duración de los matrimonios podían ser
exponentes de los “errores” en los que incurre una sociedad determinada al no aplicar el castigo
adecuado a los delitos, así como procurar la preservación de la familia. Con el tiempo su método tuvo
mayor aplicación y avanzó en explicaciones certeras (Revista Índice, 2006).
Pero fue Émile Durkheim (1858-1917, Francia) quien aplicó de forma rigurosa los principios de la
estadística en la explicación de procesos sociales como el suicidio. En su obra Las reglas del método
sociológico, editada en 1895, señaló que los hechos sociales pueden
ser tratados como objetos; es decir, la cuantificación de procesos
sociales ayuda al científico social a eliminar prejuicios y permite
encontrar lo que está detrás de situaciones denominadas “normales”
y “anormales”. Para Durkheim, el trasfondo de los procesos sociales
puede ser demostrado en términos estadísticos, en un contexto
histórico específico en el que acontece el proceso en cuestión. Así, el
observador puede conocer y medir los elementos que determinan
diferentes procesos contextuales y cuantitativos de lo que analiza
(Durkhiem, 1979). Asimismo, en esea publicación, demostró que el
principal grupo que decide suicidarse era el de los varones; de
acuerdo con la cuantificación que realizó de las morgues en Francia,
la religión y la edad son características asociadas al suicidio. Los
hombres adultos mayores de 25 años católicos tenían mayor
cantidad de muertes por suicidio.
Con el paso del tiempo, la estadística ha consolidado ciertos principios que le permiten llegar a
conclusiones cada vez más acertadas, parte de ello se debe a su rigor en la manera en que recaba y
procesa la información. Sus principios básicos son: el análisis y conocimiento del contexto de los datos,
la fuente de los datos, el método de muestreo y la significancia estadística y práctica.
- El principio de contexto y fuente están relacionados, ya que ambos tienen el objetivo de conocer
y analizar dónde, cuándo y quién nos proporciona la información numérica recabada.
5
Tip de aprendizaje
¿Cuál de ellos da cuenta de utilizar la estadística de manera adecuada para obtener sus
resultados?
6
1. Todos los sujetos de un estudio deben dar su consentimiento y ser informados de la finalidad de
la encuesta y del uso de su información.
2. Todos los datos de los individuos serán confidenciales; ningún estudio puede hacer pública la
información privada.
3. El bienestar de los sujetos siempre debe estar por encima de los beneficios que el estudio brinda
a la sociedad.
Tip de aprendizaje
- El último principio hace referencia a los tipos de significancia en los estudios estadísticos, es decir,
un estudio con significancia estadística es el que demuestra, mediante una serie de pruebas y
procedimientos matemáticos, que un estudio tiene efectos importantes que se deben considerar en la
toma de decisiones, mientras que la significancia práctica consiste en reconocer que una investigación
apoyada en el análisis estadístico tiene efectos importantes en la vida cotidiana.
Por ejemplo: La dieta del doctor Atkins (Adelgazar rápido, 2016), la cual prescribe dejar de comer harinas
y carbohidratos para bajar de peso, fue puesta a prueba por la investigación de Michael L. Dasinger
(Dasinger et al., 2003). El autor concluyó que las 40 personas que aceptaron tomar registros diarios de su
peso durante un año, siguiendo la dieta de Atkins, lograron perder 950 gramos de peso. Sin embargo,
aunque los procedimientos matemáticos indican que dichos gramos tienen significancia estadística, no
establece una significancia práctica, porque perder menos de un kilo en un año con esa dieta, no
funciona para las personas estudiadas y ese peso pudo haberse perdido con otra dieta.
7
Tip de aprendizaje
Busca en internet un caso similar al ejemplo anterior, donde la dieta logre tener significancia
práctica y significancia estadística.
Por lo tanto, la estadística es una herramienta científica que permite demostrar el efecto de procesos
naturales y sociales. Los datos estadísticos no son verdaderos ni válidos por sí mismos. Los números no
mienten, pero pueden ayudar a engañar si omiten y ocultan los principios antes mencionados.
8
En cualquier evento aleatorio relacionado tanto con los fenómenos naturales como en los procesos
sociales, siempre existe la incertidumbre de lo que ocurrirá, como en los juegos de azar, por ello ha sido
importante encontrar una forma de lograr cuantificar la oportunidad de que suceda un evento aleatorio
y por ello se creó la probabilidad, misma que asigna a la posibilidad de que ocurra un evento aleatorio
en un valor numérico entre 0 y 1 (o entre 0 y 100 si se habla de porcentajes); es decir, si el valor asociado
a la ocurrencia de cierto evento es 1, quiere decir que es totalmente seguro que ocurra o que su
probabilidad de ocurrencia sea de 100%. Si el valor es 0, indica que es imposible su realización, es decir,
tiene el 0% de probabilidad de ocurrencia. Si la probabilidad de ocurrencia fuera 1/6, podríamos decir
que existe 16.6% de probabilidad de que ocurra.
En esta unidad, hablaremos sobre las características generales de las medidas de tendencia central y
más adelante se retomarán con mayor detalle; por ahora es importante tener presente que son medidas
estadísticas que, generalmente, se ubican en la parte central de un conjunto de datos y resumen en un
solo valor a un conjunto de valores. Pretenden resumir la información obtenida de la muestra para tener
mejor conocimiento de la población, en las cuales ahondaremos más adelante.
- Media, es la suma de un conjunto de datos dividida por el número total de dichos datos; por ejemplo:
cuatro niños decidieron comprar un balón y cada uno dio las siguientes cantidades: $45, $20, $20,
$30. ¿Cuánto dinero debió poner cada uno para que hubieran dado la misma cantidad?
Debieron dar $28.75, este valor representa la media o el promedio.
- Mediana, corresponde al valor que deja el mismo número de valores antes y después de él, en un
conjunto de datos; por ejemplo:
En un salón de clases, los estudiantes obtuvieron las siguientes calificaciones:
{5, 4, 8, 10, 9, 1, 2}
Hay que ordenar las calificaciones, en este caso, de menor a mayor y tenemos:
{1, 2, 4, 5, 8, 9, 10}
El 5 corresponde a la media porque es el valor central en el conjunto de datos.
- Moda, indica el valor que se repite más veces en el conjunto de datos. En caso de existir dos valores
que se repitan el mismo número de veces, habría dos modas; por ejemplo:
Un grupo de amigos va al cine el siguiente número de veces:
{2, 0, 2, 3, 1, 1, 2, 3, 1, 1, 3}
9
La moda es 1, la mayoría del grupo de amigos va una vez al cine durante el mes. Por otro lado, también
contamos con las medidas de dispersión, las cuales sirven para medir el grado de variabilidad de cierta
cantidad de datos respecto a la media. Dicho en otros términos, las medidas de dispersión pretenden
evaluar en qué medida los datos difieren entre sí; a mayor valor de la medida de dispersión, podemos
decir que hay más variabilidad.
- Varianza, su función es detectar las variaciones de cada valor en un conjunto de datos, respecto
a su media; sin embargo, eleva el valor al cuadrado para amplificar las diferencias entre los
datos obtenidos. Se representa por la letra griega:
𝜎 #
Ejemplo:
Vamos a suponer que el gerente de una empresa de alimentos desea saber qué tanto varían los pesos
de los empaques de uno de sus productos (en gramos), por lo que opta por seleccionar de manera
aleatoria cinco unidades de estos para pesarlos. Los productos tienen los siguientes pesos: {490, 500, 510,
515, 520} gramos, respectivamente.
Por lo que su media es:
'()*+))*+,)*+,+*+#) #+-+
𝑋% = +
= + = 507
La varianza sería:
(490 − 507)# + (500 − 507)# + (510 − 507)# + (515 − 507)# + (520 − 507)#
𝜎# =
(5 − 1)
10
Retomando los datos del ejemplo anterior, la desviación estándar sería:
𝜎 = √145 = 12.04 ≅ 12
De esta forma, ambos tipos de medidas usadas en conjunto permiten describir un conjunto de datos
entregando información acerca de su posición y su dispersión.
Los procedimientos para obtener las medidas estadísticas difieren levemente dependiendo de la forma
en que se encuentren los datos. Si los datos se encuentran ordenados en una tabla estadística diremos
que se encuentran agrupados y si los datos no están en una tabla hablaremos de datos no agrupados.
Entonces, para que una calificación tenga significado hay que contar con elementos de referencia
generalmente relacionados con ciertos criterios estadísticos. Las medidas de tendencia central (media,
mediana y moda) sirven como puntos de referencia para interpretar las calificaciones que se obtienen
en una prueba u otro tipo de casos que veremos más adelante.
https://es.khanacademy.org/math/probability/data-distributions-
a1/summarizing-center-distributions/e/mean_median_and_mode*
11
3. Técnicas de conteo y agrupación en clases para la determinación de probabilidades
3.1 Variables
Para comprender la manera en que se agrupan los datos cuando se determinan probabilidades, es
importante que sepamos el tipo de datos con el que trabajaremos ya que los fenómenos naturales y
procesos sociales cuentan con características específicas que pueden ser estudiadas.
En los fenómenos naturales, por ejemplo, si consideramos la llegada de huracanes a México, podríamos
medir la erosión hídrica o la frecuencia de aparición durante determinado periodo de tiempo,.En los
procesos sociales, por ejemplo, podemos considerar el analfabetismo o podríamos medir la cantidad por
entidad federativa, por edad o por sexo. Este tipo de características podemos llamarlas variables. Dado
que estos eventos son aleatorios, cambian dependiendo del momento en que se miden; la
cantidad de huracanes, así como de personas en condiciones de analfabetismo cambian
dependiendo del tiempo y espacio en el que se observen.
Para lograr estudiar la variabilidad de dichas medidas,
Una variable dependiente es aquella
existen distintos métodos estadísticos, herramientas y cuyos valores dependen de los que
técnicas que permiten predecir el comportamiento de tome la otra variable; en una función se
suele representar por y; por lo tanto, se
dichos eventos y para ello, es importante distinguir entre
encuentra en el eje de las ordenadas.
los distintos tipos de variables.
La estadística utiliza datos cuantitativos para desarrollar sus formas de medición y cálculo. Sin embargo,
en la vida cotidiana no están a nuestra disposición todos los datos numéricos de los problemas y objetos
de investigación; por ejemplo, no existen datos precisos de la cantidad de smartphones que tienen las
personas que viven en la Ciudad de México, no hay datos exactos de las personas que
separan la basura en orgánica e inorgánica en el Estado de México, entre otros ejemplos.
En muchos casos es necesario que el investigador genere su
propia información según el objeto de estudio y los objetivos
Una variable independiente es
que se proponga, por supuesto, es posible consultar los datos
aquella cuyo valor no depende
de ninguna otra variable y es del Instituto Nacional de Estadística y Geografía (INEGI) u otras
representado en una función fuentes confiables, pero no siempre responderán a los intereses
por x, encontrándose así en el específicos de cada investigación. Además de lo anterior, si ya
eje de las abscisas, pues tiene
cambios en diferentes casos. se tiene la información necesaria para realizar un análisis
estadístico, es necesario revisar que responda a los objetivos y a
las definiciones deseadas.
12
Por ello, en estadística, las variables y las formas en las que pueden ser recuperadas y analizadas deben
pasar por una primera fase de definición; es decir, el investigador debe conocer si sus variables son
cuantitativas o cualitativas; así como es indispensable conocer si las variables principales son continuas
o discretas. Asimismo, es necesario establecer cuál es la variable dependiente (VD) y cuáles serán las
variables independientes (VI).
Las variables, por su grado de asociación, pueden ser divididas en dependientes e independientes. Las
primeras son las que se desean probar si tienen cambio o no y las VI son las que se modifican en
diferentes casos. Por ejemplo, al establecer la relación entre la efectividad de titulación y las tareas no
entregadas a tiempo por semana, edad y género. O bien, al establecer la relación entre cometer una
infracción de tránsito, tomando en cuenta las variables de edad, género y años de conductor. Como
muestra la tabla, regularmente la VD es representada con la letra “Y” y las variables independientes con
la letra “X”.
Variables
Dependiente Independiente
Y= Efectividad en el logro X1= Tareas no entregadas a tiempo por semana
de titulación de alumnos
X2= Edad
de preparatoria
X= Género
Y = Incidencia en X1= Edad
infracciones de tránsito X2= Género
X3= Años de conductor
Como podemos observar, las VD son los eventos que deseamos poner a prueba. Las independientes
cambiarán según las características de cada persona.
Después de establecer las variables independientes es indispensable observar la forma que tienen. En
estadística es un procedimiento común indicar si las variables consisten en elementos cuantitativos o no
cuantitativos, como se ejemplifica en la siguiente figura.
13
Discretas
Variables cuantitativas
Continuas
Tipos de variables
Nominales
Variables cualitativas
Ordinales
Cuantitativa, es la que se expresa mediante un número, por tanto, se pueden realizar operaciones
aritméticas con ella. Podemos distinguir dos tipos:
- Discreta, es aquella que sólo puede tomar un número finito de valores entre dos valores
cualesquiera de una característica; por ejemplo, el número de hermanos de 5 amigos: 2, 1, 0, 1, 3.
- Continua es aquella que puede tomar un número infinito de valores entre dos valores
cualesquiera de una característica; por ejemplo, la altura de los 5 amigos: 1.73, 1.82, 1.77, 1.69, 1.75.
Cualitativas, se refiere a las características o cualidades que no pueden ser medidas con números.
Podemos distinguir dos tipos:
- Nominal, presenta modalidades no numéricas que no admiten un criterio de orden; por ejemplo:
el estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo.
- Ordinal, presenta modalidades no numéricas, en las que existe un orden; por ejemplo: la nota en
un examen: aprobado, notable o sobresaliente.
14
Ejemplos de variables
3.2 Muestreo
La estadística puede dar explicaciones generales para una población
específica o bien, explicaciones generalizables; es decir, una muestra El muestreo es un
cuyos resultados es posible hacerlos extensibles a la población total conjunto de técnicas
diseñadas con la finalidad
que nos interesa. Estas dos situaciones son las más problemáticas en
de determinar qué parte
la vida real, porque no siempre es posible tener los datos de toda una de la población debe
población; por supuesto, el hacerlo depende del tamaño de la examinarse.
15
una empresa en, por ejemplo, una semana. Por supuesto no es el total de lo que produce una empresa
en el total de años que lleva en operación, pero sí es una población del total de mercancías elaboradas
en un periodo de tiempo específico y que tiene características únicas.
Los métodos de muestreo se refieren a diferentes formas de recolectar información para generar una
muestra. En general, hay dos grandes grupos: el muestreo aleatorio y el muestreo sistemático. Ambos
métodos de tienen sus ventajas y limitaciones. Por otra parte, ninguno de los métodos es descartable; en
todo caso, eso depende de los recursos y de los objetivos que sean buscados por el investigador. La
diferencia entre ambos métodos de muestreo depende del contexto y los rasgos de la población que se
estudiará.
Como observamos en la tabla, el muestreo aleatorio tiene mejores posibilidades para generalizar los
datos. Si 200 tornillos tienen fallas visibles en su acabado, se puede indicar que la población total de los
5,000 tornillos tiene fallas. En el caso de la encuesta sobre el uso de zapatos de tacón, los resultados de
la muestra son específicos para las personas encuestadas y no son generalizables. Sin embargo, puede
decirse que las mujeres encuestadas en ese tiempo y espacio tienen ciertos rasgos específicos,
particularmente para las personas que contestaron el cuestionario. No se pueden extender esos datos a
todas las mujeres que acuden a las plazas comerciales.
16
3.3 Ordenamiento de datos y análisis de información
Una vez aclarados los tipos de variables, podemos iniciar con el ordenamiento de datos, donde el primer
paso implica reconocer el tipo de variables. Posteriormente, el investigador procede a iniciar el análisis
de variables por separado o bien todas al mismo tiempo. Eso dependerá de la cantidad de información
con la que se trabaje y de los objetivos que tenga la investigación, con apoyo de procedimientos
estadísticos.
El ordenamiento de los datos es indispensable para poder darle un tratamiento estadístico consistente
a los datos que son de utilidad para conocer fenómenos naturales y sociales.
Por medio de los métodos como el muestreo, un investigador puede obtener una gran cantidad de datos
en relación al fenómeno que esté estudiando; sin embargo, los datos por sí solos no proporcionan
información sobre el fenómeno, por lo que es necesario pasarlos por un proceso que los sintetice o
resuma de manera que sea más sencillo interpretarlos, entenderlos y usarlos. Las tablas de distribución
de frecuencias son la herramienta para organizar y tratar los datos de manera que permitan observar la
forma de su distribución, en ellas, los valores de la variable, es decir, los datos (𝑥@ ) son organizados de
manera ascendente o descendente junto con las frecuencias (𝑓@ ) de cada dato. O sea, el número de veces
que el dato es observado dentro de una tabla. La tabla puede ser para datos no agrupados, así como para
datos agrupados o de intervalos de clase.
17
Frecuencia absoluta (𝑓@ ). Es el número de veces que aparece un determinado dato 𝑥@ en el estudio. La
suma de las frecuencias absolutas siempre es igual al número total de datos que se estén considerando.
Usualmente el número total se representa por la letra 𝑁 mayúscula y el número total de variables a
considerar se denota por 𝑛 minúscula. Entonces:
𝑓, + 𝑓# + ⋯ + 𝑓E = 𝑁
Frecuencia relativa (𝑓𝑟@ ). En este tipo de frecuencia se hace la proporción de la frecuencia absoluta y el
número total de datos. La suma de las frecuencias relativas es igual a 1.
𝑓@
𝑓𝑟@ =
𝑁
Frecuencia acumulada (𝑓𝑎@ ). Es la suma de las frecuencias absolutas de todos los valores inferiores o
iguales al valor considerado. Por ejemplo, si hay 8 datos ordenados de menor a mayor, 𝑥, , 𝑥# , … , 𝑥J y se
quiere saber el valor de la frecuencia acumulada del dato 5, la operación sería: 𝑓𝑎+ = 𝑓, + 𝑓# + 𝑓- + 𝑓' + 𝑓+
𝑓𝑎@
𝑓𝑟𝑎@ =
𝑁
Nota: En algunas ocasiones las frecuencias relativas y las relativas acumuladas se presentan en
porcentajes, para lo cual basta con multiplicar esas cantidades por 100%.
En un salón al que asisten 30 alumnos se les preguntó cuántos vasos de refresco consumieron en la
semana anterior a la aplicación del cuestionario. Las respuestas obtenidas de los alumnos fueron las
siguientes:
{5, 6, 3, 1, 0, 4, 3, 1, 5, 5, 3, 2, 1, 2, 3, 2, 3, 4, 4, 1, 4, 1, 1, 3, 3, 1, 0, 0, 0, 2}
El primer paso para el tratamiento de los datos es agruparlos en orden ascendente, como se hizo a
continuación:
{0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6}
18
De esta manera, la tabulación de distribución es más sencilla, puesto que es fácil contabilizar cuántas
veces se repite cada valor. La siguiente tabla incluye los diferentes tipos de frecuencia, a la vez que se
expone la forma de calcularlas:
Total 30 1.00 30
Nota: si realizamos la operación en las frecuencias relativas es posible que la suma no sea exactamente
1, esto se debe al error que se causa por redondear el resultado de la división. Usualmente éste es un
resultado aproximado y se ajusta según sea necesario.
Una vez teniendo la tabla de distribuciones de frecuencias es natural preguntarse acerca de la utilidad
de ésta, pues en ella es muy sencillo identificar información sobre el conjunto de los datos. Pero, ¿qué
tipo de información? Por ejemplo, de la tabla anterior se pueden desprender, entre otras, las siguientes
afirmaciones:
1. Dado que la cantidad de alumnos que tomó 5 o más vasos de refresco es de 4 y se tienen 30
datos, se puede decir que la mayoría consumió menos de 5 vasos de refresco. El porcentaje de
alumnos que tomó menos de 5 vasos de refresco es de 87%.
2. El porcentaje de alumnos que tomó 5 vasos de refresco es de 29%.
3. Ningún alumno tomó más de 6 vasos de refresco en la semana.
Como puedes notar la información es presentada de manera más entendible si se realiza una tabla. En
realidad, a lo que se dio importancia fue a dicha respuesta no a quién pertenecía. Para esta tabla la
variable no era el niño, sino la cantidad de vasos que tomaba, y de ésta se extrajo la información.
19
Dado que la cantidad de variables es pequeña, se pudo registrar cada una de ellas. Existen casos en que
esto resulta inapropiado para trabajar, aunque no hay una regla precisa de cuándo considerar todas las
variables o cuándo agruparlas. Se recomienda que si el número total de datos 𝑁 es mayor de 50 o si el
recorrido de la serie de datos es mayor de 20, entonces se use el esquema agrupado de datos. En la
siguiente sección se estudia la distribución con datos agrupados.
En este caso la tabulación de los datos está ordenada en clases y aparece la frecuencia de cada una; es
decir, los datos originales de varios valores cercanos en el conjunto se combinan para formar lo que se
llama intervalo de clase. Por ejemplo, en lugar de tomar la edad exacta de personas, pueden tomarse
intervalos de edad: de 0 a 5 años, de 6 a 10, entre otros.
Es más conveniente usar la distribución agrupada cuando las variables tomen valores continuos; es decir,
la variable puede tomar cualquier valor entre dos números dados al realizar un experimento. Por ejemplo,
cuando se están considerando mediciones de longitud de algunos objetos, esta magnitud puede variar
sólo milímetros entre los objetos y no tendría caso tabular los que tienen exactamente la misma medida.
Es más útil saber cuántos objetos tienen una longitud que oscila en un cierto tamaño, como puede ser
entre 1 y 3 centímetros.
Para realizar la organización en clases se necesita un arreglo determinado de las observaciones, y para
lograrlo se requiere seleccionar los intervalos de clase. Esta selección depende de los datos o del
fenómeno a estudiar; sin embargo, el método más usual para el tratamiento de la información puede
contener los siguientes puntos:
Donde 𝑥RíE , 𝑥RáT son los datos de menor y mayor valor numérico respectivamente.
3. El siguiente punto útil es definir la cantidad de clases, el número de clases (𝑁𝑐) debe tener un
tamaño razonable para poder interpretar la información en la tabla. Existen varios métodos para
determinar este número:
a. Método de raíz, consiste en sacar la raíz cuadrada del número de datos (𝑛) que se tengan
y redondearlo hasta el siguiente entero en caso de que no sea exacta: 𝑁𝑐 = √𝑛.
20
b. Método de Sturges, consiste en la elaboración de la siguiente operación matemática para
obtener el número de clases: 𝑁𝑐 = 1 + 3.3(𝑙𝑜𝑔,) 𝑛 ). Se requiere de la operación de 𝑙𝑜𝑔,) 𝑛 ,
el cual es el logaritmo en base 10 del número de datos. Para realizar la operación puedes
hacer uso de una calculadora científica o visitar el enlace
http://www.wolframalpha.com/input/?i=log10(); la operación es sencilla y sólo se escribe
dentro del paréntesis el valor del número que quieres calcular. La página arroja el
resultado (además proporciona información adicional que requiere de más estudio sobre
los temas siguientes para entenderlo mejor).
4. Una vez que se sabe cuántas clases hay, es necesario determinar el tamaño que tendrá cada clase,
denominado amplitud de clase (𝐴𝑐), de manera que todos los datos que se tengan pertenezcan
a alguna de ellas. Para esto se realiza la operación:
𝑅
𝐴𝑐 =
𝑁𝑐
5. Definir los límites superior (𝐿𝑠) e inferior (𝐿𝑖) de cada clase para que sean claras al momento de
poner los datos.
6. Para evitar ambigüedades en el reparto de los datos se consideran los límites reales de clase como
sigue:
Límite real inferior (𝐿𝑟𝑖) = 𝐿𝑖 − 0.5
Límite real superior (𝐿𝑟𝑠) = 𝐿𝑠 + 0.5
7. Las frecuencias en cada clase, las frecuencias relativas, las frecuencias acumuladas y las
frecuencias relativas acumuladas de cada clase se determinan igual que los datos no agrupados.
8. Se determina la marca de clase (𝑚@ ) como el punto medio de la amplitud de clase:
𝐿𝑖 + 𝐿𝑠
𝑚@ =
2
21
Para mostrar la forma de organizar los datos por medio de clases, consideraremos el siguiente ejemplo:
En un hospital son registradas las personas que ingresaron diariamente a visitar a alguno de los pacientes.
El registro fue realizado por 40 días y se obtuvieron los siguientes datos:
{30, 35, 15, 21, 18, 32, 39, 20, 19, 20, 20, 34, 13, 13, 20, 35, 30, 17, 30, 31, 10, 32, 22, 14, 30, 36, 23, 14, 20, 34, 20,
28, 20, 16, 31, 38, 22, 12, 28, 13}
Para realizar la tabla de frecuencias y analizar esta información, es necesario organizar los datos en orden
ascendente:
{10, 12, 13, 13, 13, 14, 14, 15, 16, 17, 18, 19, 20, 20, 20, 20, 20, 20, 20, 21, 22, 22, 23, 28, 28, 30, 30, 30, 30, 31, 31, 32,
32, 34, 34, 35, 35, 36, 38, 39}
Los datos toman demasiados valores, algunos de los cuales sólo aparecen una vez. Esta observación
implica que una tabla de datos no agrupados puede no ser apropiada para seguir con la organización de
datos, por lo tanto, hay que considerar usar los intervalos de clase y sus respectivas frecuencias. Para ello,
se encuentran los valores necesarios:
w #(
Amplitud de clase: 𝐴𝑐 = xy = z
≈ 4.8 ≈ 5
22
Tip de aprendizaje
¿Qué afirmaciones podrías hacer con respecto a la cantidad de personas que visitaban a los
pacientes del hospital?, ¿para qué podría ser de utilidad esta información?
Si bien las tablas de distribuciones ya son una forma más clara de organizar los datos que se tienen,
también es importante presentar la información de manera más visual, esto es por medio de gráficas
que revisaremos más adelante.
Por medio de los métodos como el muestreo, un investigador puede obtener una gran cantidad de datos
en relación al fenómeno que esté estudiando. Sin embargo, los datos por sí solos no proporcionan
información sobre el fenómeno, por lo que es necesario pasarlos por un proceso que los sintetice o
resuma de manera que sea más sencillo interpretarlos, entenderlos y usarlos.
Existen desde tablas y gráficas sencillas que permiten presentar e interpretar la información como en los
siguientes ejemplos:
Dos estudiantes realizaron un experimento que consistió en lanzar un dado. El primer estudiante
se dispuso a lanzar un dado 600 veces y registrar las apariciones de los dados en la siguiente tabla
de frecuencias.
Números 1 2 3 4 5 6
Frecuencia 97 99 98 92 96 118
El otro estudiante lanzó simultáneamente dos dados 600 veces y sumo los números obtenidos.
En este caso su espacio muestral es: {2,3,4,5,6,7,8,9,10,11,12}. Los resultados que obtuvo fueron los
siguientes:
Suma 2 3 4 5 6 7 8 9 10 11 12
23
Para poder analizar mejor sus resultados, construyeron las gráficas de barras con las frecuencias
correspondientes:
Como vemos, las gráficas son muy diferentes. En una de ellas aparece casi el mismo número de veces en
todos los eventos; y en la otra, hay ciertos valores que aparecen con más frecuencia que otros. Esto se
debe a la probabilidad que cada evento tiene. En estadística, la probabilidad teórica, para una variable
aleatoria discreta, se determina dividiendo la cantidad de resultados favorables del evento x entre la
cantidad de resultados totales. La probabilidad de tal evento se denota P(x).
24
La presentación anterior nos permite observar la frecuencia de ciertos fenómenos aleatorios, pero
también existen las tablas de distribución de frecuencias que son la herramienta para organizar y tratar
los datos que permiten observar la forma de su distribución, en ellas, los valores de la variable, es decir,
los datos (𝑥@ ) son organizados de manera ascendente o descendente junto con las frecuencias (𝑓@ ) de
cada dato. Es decir, el número de veces que el dato es observado dentro de una tabla. La tabla puede ser
para datos no agrupados, así como para datos agrupados o de intervalos de clase.
¡Ya lo tienes!
4. Probabilidad
Uno de los procedimientos para asignar una probabilidad a un evento aleatorio es considerar a ésta como
la razón entre el número de casos (sucesos) favorables y el número total de casos (sucesos posibles). Si
nombramos “A” a un evento aleatorio, la probabilidad del evento aleatorio “P (A)” se obtiene como esta
razón, donde “k” es el número de casos favorables que caracterizan el evento y “n” es el número de casos
posibles que caracterizan el fenómeno bajo estudio, a esto le llamaremos enfoque clásico. Es válida si
no existen evidencias que lleven a pensar que algunos eventos aleatorios relacionados con el fenómeno
en cuestión, puedan tener mayores oportunidades o posibilidades de ocurrencia sobre los demás.
Puede usarse en ejemplos como el siguiente: determinar la probabilidad de que exactamente dos de los
tres nacimientos registrados en un hospital sean varones.
25
Para resolverlo, primero es necesario identificar correctamente el espacio muestral.
El espacio muestral consta de ocho diferentes combinaciones y sólo tres responden exactamente a la
probabilidad buscada: dos, de los tres nacimientos registrados, sean varones. Por lo tanto, usando el
método clásico, queda de la siguiente forma.
-
P (2 varones en 3 nacimientos) = = 0.37
J
La solución por medio del método de frecuencias relativas es: la probabilidad de que un auto tenga un
accidente es igual al número de automóviles accidentados entre el número total de accidentes.
26
El enfoque subjetivo consiste en observar los resultados de eventos
pasados y agregar elementos del contexto que puedan afectar el
El enfoque subjetivo
resultado que es analizado, pero sin usar procedimientos matemáticos.
consiste en proponer
Puede ser utilizado en ejemplos como el siguiente: ¿cuál es la una probabilidad sin
probabilidad de quedar atrapado en un elevador? En estos casos no hay usar procedimientos
matemáticos.
datos previos, tampoco es posible calcular un espacio muestral, así que,
se recurre a la experiencia propia y nos percatamos de que nunca
hemos quedado atrapados en un elevador. Sólo sabemos de algunos comentarios de personas, por lo
tanto, estimamos que hay una probabilidad de 1 en 10,000; es decir, existe un 0.0001 de quedar atrapado
en un elevador. La probabilidad sólo es estimada con base en datos de nuestra experiencia.
Mi mundo y yo
En la vida cotidiana, la probabilidad y la estadística tienen múltiples usos e implicaciones, dentro del
campo de las ciencias biológicas, cuando se hacen predicciones sobre la población mundial o en una
región dada para el año 2050, por ejemplo, o sobre la posibilidad de extinción de las ballenas. Se están
usado estudios probabilísticos de modelos de crecimiento de poblaciones, de igual forma que cuando
se hacen estimaciones de la extensión de una enfermedad o de la esperanza de vida de un individuo.
En la agricultura se utilizan estos modelos para prever el efecto del uso de fertilizantes o pesticidas,
evaluar el rendimiento de una cosecha o las consecuencias de la extensión de una epidemia, nube tóxica,
etcétera.
En el ámbito de la psicofisiología, observamos el efecto del azar sobre el coeficiente intelectual, así como
en los tipos diferentes de caracteres o capacidades de los individuos.
El mundo físico nos hallamos inmersos en situaciones cambiantes; por ejemplo, los fenómenos
meteorológicos, la duración, intensidad, extensión de las lluvias, tormentas o granizos; las temperaturas
máximas y mínimas, la intensidad y dirección del viento son variables aleatorias.
27
En el Gobierno, a cualquier nivel, local, nacional o de organismos internacionales, se necesitan tomar
múltiples decisiones que dependen de fenómenos inciertos y sobre los cuales se necesita información,
por este motivo, la administración precisa de la elaboración de censos y encuestas. Desde los resultados
electorales hasta los censos de población hay muchas estadísticas cuyos resultados afectan las
decisiones de gobierno y todas estas estadísticas se refieren a distintas variables, entre las más
importantes citaremos: el índice de precios al consumo, las tasas de población activa, emigración e
inmigración, estadísticas demográficas, producción de los distintos bienes, comercio, etc., de las que
diariamente escuchamos sus valores en las noticias.
El azar está presente en la vida cotidiana en muchos contextos en los que aparecen nociones de
incertidumbre, riesgo y probabilidad; como ejemplo de esto, tenemos el pronóstico del tiempo, realizar
inversiones monetarias, esperar un diagnóstico médico y nosotros podemos tomar decisiones, emitir
juicios y realizar predicciones de todo ello.
Por otro lado, seguramente hemos escuchado la frase “atente a las consecuencias”, cuyo significado se
refiere a la incertidumbre cuando no sabemos qué pasará en determinada situación de la cual tenemos
un poco de información; nos detenemos a pensar, informarnos, actuar y todo ello deja como resultado –
saber a qué atenerse– o certidumbre.
28
4.4 Tipos de eventos en el estudio de la probabilidad
Existen dos maneras de clasificar los sucesos que analiza un investigador: eventos determinísticos y
eventos aleatorios. Los eventos determinísticos consisten en sucesos predecibles con total precisión; por
ejemplo, es posible predecir que al reunir 5 manzanas con 4 naranjas se obtendrá una cantidad de 9
unidades. Los eventos determinísticos dejan poco que discutir en cuanto a lo que va suceder.
¿Cuántos enteros se formarán al sumar 34+68?, ¿es un resultado que ofrece incertidumbre?; es decir,
¿puede existir un resultado entre 1 y 100? Al sumar tres cuartos más seis octavos se obtiene un resultado
de doce octavos, lo que permite formar un entero y dos cuartos:
3 6 6 + 6 12 2
+ = = =1
4 8 8 8 4
Para ese tipo de eventos, las matemáticas y la estadística han desarrollado un cúmulo de teorías y
procedimientos con los cuales puede calcularse la probabilidad de que suceda o no el evento indicado.
La primera forma para organizar el análisis de eventos aleatorios consiste en separarlos en tres formas:
evento, evento simple y espacio muestral.
29
Un evento es cualquier conjunto de resultados. Un evento simple es un resultado que no puede
desglosarse en eventos simples. El espacio muestral está compuesto por todos los eventos posibles, es
decir, son todos los resultados que ya no pueden desglosarse más.
{1, 2, 3, 4, 5, 6}
{Cara, Cruz}
Sencillo, ¿verdad?
4.5 Riesgo
El término riesgo se utiliza en general para situaciones que involucran incertidumbre, en el sentido de
que el rango de posibles resultados para una determinada acción es en cierta medida significativo; el
hecho de que ocurra un suceso puede cambiar la probabilidad de los demás.
𝑃(𝐴 ∩ 𝐵)
𝑝 (𝐴|𝐵 ) =
𝑃 (𝐵)
Al 25% de tus amigos le gusta la fresa y el chocolate, mientras que al 60% le gusta el chocolate. ¿Cuál es
la probabilidad de que a un amigo que le guste el chocolate y también la fresa?
Solución:
Vamos a trabajar con 2 eventos: que a un amigo le guste la fresa y que a un amigo le guste el chocolate.
• Evento A: que a un amigo le guste la fresa: 𝑃 (𝐴) = ?
• Evento B: que a un amigo le guste el chocolate: 𝑃 (𝐵) = 60%.
• Evento A y B: que a un amigo le guste la fresa y el chocolate: 𝑃 (𝐴 ∩ 𝐵)= 25%.
30
Ahora calculamos la probabilidad de que a un amigo le guste la fresa, dado que le gusta el chocolate.
𝑃 (𝐴 ∩ 𝐵)
𝑃 (𝐴| 𝐵) =
𝑃 (𝐵)
25
𝑃 (𝐴| 𝐵) = = 0.4167 = 41.67%
60
La probabilidad de que a un amigo le guste la fresa dado que le gusta el chocolate es del 41.67%.
https://proyectodescartes.org/iCartesiLibri/materiales_didacticos/EstadisticaProbabilidadI
nferencia/Probabilidad/5_1ConceptoProbabilidadCondicionada.html*
Como vimos con anterioridad, la probabilidad está presente en los fenómenos sociales y procesos
sociales y también cuenta con un tratamiento específico de la información. Ya sabemos que la
probabilidad es el cálculo de que un evento futuro suceda o no. Comúnmente la probabilidad es
expresada con un número decimal entre cero y uno, en el caso de los extremos, lo cual mide la ocurrencia
de un resultado o evento. Si el número es cercano a cero, el resultado no es fácil de obtener y, al contrario,
los resultados con probabilidad cercana a uno son casi seguros de obtener.
Para manejar mejor los términos en la probabilidad conviene considerar las siguientes definiciones:
31
Al repetir varias veces un experimento es posible contabilizar las ocurrencias de cada uno de los eventos
en el espacio muestral y tabular las frecuencias, así como graficar.
De manera concreta, una variable aleatoria es una función que va de los eventos en el espacio muestral
a los números reales. Usualmente, son representadas con letras mayúsculas 𝑋 o 𝑌 y también es común
que una variable aleatoria tenga un significado de algún tipo, tal como físico o geométrico. Observa que,
aunque se llame variable aleatoria en realidad es una función; sin embargo, es el nombre que se
considera convencionalmente apropiado, pero siempre es conveniente tener clara su naturaleza.
Si la variable aleatoria toma un número finito o numerable de valores es llamada discreta y si toma una
cantidad infinita no numerable de valores es continua, como se vio en la Unidad 1.
Como puedes ver, las gráficas son muy diferentes. En una de ellas aparece casi el mismo número de veces
en todos los eventos; y en la otra, hay ciertos valores que aparecen con más frecuencia que otros. Esto se
debe a la probabilidad que cada evento tiene. En estadística, la probabilidad teórica, para una variable
aleatoria discreta se determina al dividir la cantidad de resultados favorables del evento 𝑥 entre la
cantidad de resultados totales. La probabilidad de tal evento se denota 𝑃(𝑥).
Distribución de probabilidad
Es la asignación de probabilidades a los valores de la variable aleatoria, denotado por 𝑃(𝑥@ ), y que
cumplen con:
a) 0 ≤ 𝑃(𝑥@ ) ≤ 1
b) ∑E@”, 𝑃(𝑥@ ) = 1
Para poder estudiar mejor tanto las variables aleatorias como las distribuciones de probabilidad son
necesarias algunas definiciones que se presentan a continuación:
Esperanza o valor esperado es el valor promedio que se obtendría si el experimento se repitiera una
cantidad infinita de veces. Para calcularlo podemos expresarlo de la siguiente forma: {𝑥, , 𝑥# , … , 𝑥E }. Es el
conjunto de los valores que toma la variable aleatoria 𝑋, con su respectiva probabilidad 𝑃(𝑥@ ), entonces
el valor esperado de 𝑋 es:
32
Varianza de un conjunto de datos {𝑥, , 𝑥# , … 𝑥E } es el promedio de los cuadrados de las diferencias entre
la media aritmética y cada uno de los datos, es decir:
(𝑥, − 𝑥̅ )# + ⋯ + (𝑥E − 𝑥̅ )#
𝜎=
𝑛
La importancia de conocer estos valores es que pueden establecerse como los datos que distan de la
media a partir de la desviación estándar. Esta propiedad se enuncia en el teorema de Chebyshev:
Teorema de Chebyshev se usa para cualquier conjunto finito de números y para cualquier número real
ℎ > 1, se tiene la fracción:
1
1−
ℎ#
Con este teorema se puede asegurar, por ejemplo, que para un conjunto finito de datos al menos 75%
de ellos distan de la media a lo más dos veces la desviación estándar. Pues:
1 3
1− #
= = 0.75
2 4
Distribución binomial
33
Para explicar mejor este tipo de distribución, se muestra el siguiente ejemplo:
Se considera la variable aleatoria 𝑋. Lo que hace esta variable es asignar el número de águilas
obtenidas luego de lanzar una moneda 5 veces (el evento tiene dos resultados posibles: águila o
sol). Para este experimento, el espacio muestral son todos los grupos de 5 ceros y unos, donde el
1 representa águila y 0 el sol. Por ejemplo, un evento posible es (0,1,0,1,1) y, entonces, la variable
aleatoria es 𝑋(0,1,0,1,1) = 3. La probabilidad de cada evento es:
𝑛
𝑃(𝑋 = 𝑘) = ž Ÿ 𝑝 (1 − 𝑝)E¡ , 𝑘 = 0, 1, 2, … , 𝑛
𝑘
VARIABLE ALEATORIA X
0.3125 0.3125
0.15625 0.15625
0.03125 0.03125
0 1 2 3 4 5
34
,
En cada lanzamiento de la moneda la probabilidad de obtener águila es 𝑝 = #, entonces el valor esperado,
5 1 1
𝐸[𝑋] = 𝑛𝑝 = = 2.5, 𝑣[𝑋] = 𝑛𝑝(1 − 𝑝) = 5 ª « ª « = 1.25, 𝜎 = √1.25 = 1.1180
2 2 2
Según el teorema de Chebyshev es posible afirmar que la probabilidad de obtener un valor entre 0.264 y
4.736 es de al menos 75%. De acuerdo a la tabla, los valores entre 0.264 y 4.736 son 1,2,3,4 y la suma de las
probabilidades para obtener esos números es:
Se puede ver que la probabilidad que resulta es mucho más de lo que estima el teorema de Chebyshev.
Esto se debe frecuentemente a que la distribución tiene una tendencia central.
Distribución de Poisson
Es de las distribuciones más comunes en la vida real. Y es usada para representar el número de eventos
de poca frecuencia que ocurren en el tiempo o en el espacio. Para este tipo de distribución es necesario
saber el número promedio de eventos que ocurren en un intervalo de tiempo o espacio, como:
¬ -® ¯°
La distribución de Poisson es una función de probabilidad descrita de la siguiente forma 𝑃(𝑥) = ,
T!
donde 𝑃(𝑥) es la probabilidad de 𝑥 apariciones y 𝜆 es el número promedio de eventos que ocurren por
periodo de tiempo o unidad de espacio. La manera de representar la distribución de Poisson es la misma
que la binomial, por medio de una gráfica de barras donde la altura de las columnas representa la
probabilidad asociada a cada valor de 𝑋. Para este caso puede ser simétrica o presentar sesgo; es decir,
cargarse más hacia un lado u otro, lo cual depende de λ.
Para explicar un poco más el desarrollo de una distribución de Poisson considera el siguiente ejemplo:
En la Liga Mexicana de Futbol, hasta la Jornada 15, el equipo que encabezaba la tabla de posiciones era
el Monterrey. En los primeros 15 partidos que disputó logró anotar 34 goles. Se pueden plantear las
siguientes preguntas para hacer una investigación: ¿Qué probabilidad hay de anotar 3 goles más? ¿Cuál
sería la probabilidad de que en su próximo partido el equipo logre anotar a lo más 2 goles?
35
En este caso puede darse el valor de goles por cada partido. En promedio se anotaron 2.27 goles por cada
90 minutos de juego. Entonces, 𝜆 = 2.27. La variable aleatoria 𝑋 es el número de goles anotados por
partido. De manera que la probabilidad de anotar 3 goles es:
𝑒 (¡#.#Š) 2.27-
𝑃(𝑋 = 3) = = 0.201409
3!
Para saber la probabilidad de anotar como máximo dos goles se deben considerar las probabilidades de
cada uno de los eventos y sumarlas, es decir:
Los resultados anteriores dicen que existe una probabilidad de un 20% de que el equipo anote 3 goles.
Sin embargo, hay 60% de posibilidades de que anote 0, 1 o 2 goles en su siguiente partido.
En el caso de una distribución de Poisson, tanto la media como la varianza coinciden con el valor de 𝜆.
Tip de aprendizaje
Los puntos, goles o canastas en un encuentro deportivo son un buen ejemplo de un fenómeno al
que puede ajustarse una distribución de probabilidad de Poisson. Estudia los resultados de tu
equipo favorito (o el equipo que elijas) de cualquier deporte y analiza la probabilidad de obtener
varios resultados en su siguiente juego. Puedes mejorar el intervalo de tiempo si cuentas con la
información, por ejemplo, de canastas en básquetbol por cada cuarto o carreras por entrada en
béisbol, con lo que puedes calcular la probabilidad de anotaciones en el próximo intervalo de
tiempo.
36
Distribución normal
Ésta es una de las distribuciones más usadas cuando se trata del estudio con características cuantitativas
de poblaciones de individuos, como edades, peso, estaturas, entre otras. En principio, este tipo de
distribución es usada para variables aleatorias continuas. Es sencillo considerar variables discretas como
continuas, como son la altura o el peso de las personas. Cuando se tiene una distribución continua cada
elemento tiene la misma probabilidad de ocurrencia 0, por lo que al trabajar este tipo de variables se
debe determinar la probabilidad de que se tome un valor dentro de un cierto intervalo. La distribución
normal tiene una gráfica en forma de campana, conocida como campana de Gauss o simplemente
gaussiana, en honor a Carl Friedrich Gauss, quien hizo muchos estudios al respecto. La función que define
la distribución normal es:
1 , T¡¶ ¸
ž Ÿ
𝑓(𝑥) = 𝑒 ¡# ·
𝜎√2𝜋
0.4
0.3
0.2
0.1
4 2 2 4
37
Para determinar la propiedad de caer en un intervalo es necesario obtener el área bajo la gráfica de la
función en el intervalo que se necesita. Basados en la misma regla de las distribuciones de probabilidad
se debe cumplir que la probabilidad del espacio muestral Ω debe ser 𝑃(Ω) = 1, entonces el área bajo la
función debe ser 1. Si se construye una función que describa variables aleatorias no negativas y cuya área
bajo la gráfica sea 1 se denominan funciones de densidad de probabilidad.
Para trabajar de manera práctica conviene Distancia de la media Porcentaje de datos (%)
recordar la siguiente tabla para la distribución
𝒅𝒊𝒔𝒕 ≤ 𝝈 68
de los datos:
𝒅𝒊𝒔𝒕 ≤ 𝟐𝝈 95
𝒅𝒊𝒔𝒕 ≤ 𝟑𝝈 99.7
De acuerdo con las propiedades de la distribución normal, 68% de los datos distan de la media a lo más
en una desviación estándar; 95% están cerca de la media en, a lo más dos desviaciones estándar; y la
mayoría de todos los datos, en 99.7%, distan a lo más en 3 desviaciones estándar de la media. Con esta
información se pueden hacer afirmaciones respecto del comportamiento de los datos, como en el
siguiente ejemplo:
38
Se ha observado que la distribución de las calificaciones en una escuela tiene un comportamiento
aproximadamente normal. Si el promedio de calificación es de 6.5 y la desviación estándar es de 1.3,
entonces es posible afirmar que aproximadamente:
Cierre
En esta primera unidad aprendimos un poco de historia acerca de la estadística y la probabilidad, así
como algunos ejemplos de casos en los que podemos ver su aplicación; asimismo, hablamos sobre la
manera en que los investigadores buscan muestras de la población de interés para recabar opiniones o
datos específicos que después son reportados a nivel nacional como los censos y que se apoyan de las
medidas de tendencia central para realizar análisis y tomar decisiones.
39
Referencias por unidad
- Durkheim, Émile, Las reglas del método sociológico, Buenos Aires, Pléyade, 1979.
- Gutiérrez, Segundo, Probabilidad, posibilidad, verdad e incertidumbre, Estadística española, [en
línea], 1984, pp. 5-22,
http://estadisticamigable.blogspot.com/2009/11/probabilidad-posibilidad-verdad-e.html
- SAGE, Glossary of the Social and Behavioral Sciences, Nueva York, SAGE Publications, 2009.
40