Está en la página 1de 52

4

SEMESTRE

Estadística y
Probabilidades
Tecnologías de la Información

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


EVOLUCIÓN DE LA ESTADÍSTICA EN EL TIEMPO

La Estadística, como todas las ciencias, no surgió de improviso, sino mediante un proceso largo
de desarrollo y evolución, desde hechos de simple recolección de datos hasta la diversidad y
rigurosa interpretación de los datos que se dan hoy en día.

La palabra estadística proviene del latín “statisticus” que significa “del Estado”; es decir,
correspondiente al gobierno. Por mucho tiempo, la estadística se refería a información numérica
sobre los estados o territorios políticos. Como se conoce hoy en día, requirió de varios siglos para
desarrollarse y de la intervención de muchas personas, teniendo como impulso la resolución de
problemas prácticos planteados por la dinámica social de la época y teniendo siempre como objeto
de estudio a la variación, es decir, la motivación la ha constituido el análisis de los valores que
toman las diferentes variables de estudio a través de las cuales se analiza una población.

La historia de la estadística se puede resumir en tres etapas. A continuación, se presentan los


aspectos más importantes de cada una:

Primera Etapa: Los Censos

Desde que los pueblos se organizaron como Estados, sus gobernantes necesitaron estar
informados sobre aspectos relativos a la cantidad o distribución de la información, nacimientos o
defunciones, producción agrícola o ganadera, bienes muebles, bienes inmuebles, efectivos
militares, etc., con el objeto de recaudar impuestos o de analizar las condiciones de vida de la
población, la estadística se convierte entonces en un importante instrumento del Estado.

Desde el momento en que se constituye una autoridad política, la necesidad de realizar inventarios
de una forma regular a la población y las riquezas existentes en el territorio está ligada a la
conciencia de soberanía y a los primeros esfuerzos administrativos.

Génesis de la Estadística: Con base en los descubrimientos y sus evidencias sobre la recolección
de datos referentes a población, bienes y producción, los orígenes de la estadística se remontan a
civilizaciones muy antiguas tales como la Babilónica (5,000 años a.C.), Egipcia (3,000 años a.
C.), China (2,200 años a.C.), Hindú (400 años a.C.), Romana (400 años a.C.), Griega (300 años
a.C.). No hay que olvidar que fue un censo lo que motivó el viaje de José y María a Belén, trayecto
en el cual nace Jesús.

Por más de mil años, posteriores a la caída del imperio romano de occidente, se puede decir que,

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


salvo excepciones (Guillermo el conquistador, recopiló el libro del Gran Catastro, un documento
de la propiedad, extensión y valor de las tierras de Inglaterra, y los trabajos similares impulsados
por Carlomagno en Francia), no se presentaron avances significativos en el desarrollo de la
estadística.

El primer censo del que se tiene noticia en México, data del año 1,116, cuando el rey Chichimeca
Xólotl ordenó que fueran contados todos sus súbditos, totalizando 3,200,000 personas. En 1794,
según noticias enviadas al Virreinato, la Intendencia de Sonora, contaba con 20,473 varones y
17,832 mujeres, o sea un total de 38,305 individuos.

Segunda Etapa: De la descripción de los conjuntos a la Aritmética


Política

La estadística da un gran salto cualitativo a mediados del siglo XVII,


debido a que los datos recopilados empiezan a ser utilizados por los
bancos y por las nacientes compañías de seguros europeas; por otro lado,
se inventa en Inglaterra el concepto de “Aritmética Política” y se
empiezan a “matematizar” otras disciplinas, que hasta entonces eran sólo
descriptivas, tales como la demografía, la economía y las ciencias
sociales.

Para los aritméticos políticos, la estadística era el arte de gobernar, su


John Graunt
función era de servir de ojos y oídos al gobierno. En esta época proliferan
(1620-1674)
las tablas numéricas, lo cual permitió observar la frecuencia de distintos
sucesos y el descubrimiento de leyes estadísticas. Son ejemplos notables los estudios de John
Graunt sobre tablas de mortalidad y esperanza de vida, y los de Edmund Halley para resolver el
problema de las rentas vitalicias de las compañías de seguros.

John Graunt encabeza una tendencia conocida como Estadística Investigadora. Buscaban fijar en
números los fenómenos sociales y políticos cuyas leyes empíricas procuraban. Para su tiempo esto
fue atrevido, casi imposible; pero el mérito de ellos es de ser los primeros en buscar las leyes
cuantitativas que rigen la sociedad.

Gracias a Vito Seckendorff, y sobre todo de German Conring al que se le considera como fundador
de la Estadística: la descripción de los hechos notables de un Estado. Conring perfeccionó y
mejoró notablemente la tendencia nueva, sistematizando los conocimientos y los datos. El mejor
de sus seguidores fue Godofredo Achenwall, quien consolidó definitivamente los postulados de
esta nueva ciencia y también de haberle dado el nombre de Estadística.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Tercera Etapa: Estadística y Cálculo de Probabilidades

Otro impulso más al desarrollo de la estadística y la probabilidad


es debido a los trabajos realizados por Jakob Bernoulli y Siméon
Denis Poisson sobre las leyes de los grandes números. Este
teorema fue el primer intento para deducir medidas estadísticas a
partir de probabilidades individuales. El problema de ajustar
modelos matemáticos a datos recopilados, recibió gran interés
por extraordinarios matemáticos, durante los siglos XVIII y XIX,
tales como Leonard Euler, Thomas Simpson, Joseph Louis
Lagrange, Adrien Legendre. En particular Karl Friedrich Gauss
y Pierre Simon de Laplace desarrollaron la teoría de los errores
en las mediciones y junto con Legendre, la teoría de los mínimos
cuadrados, la estadística logra con estos descubrimientos, una Karl Friedrich Gauss
relevancia científica creciente. (1777-1855)

Poco a poco se han creado sociedades e institutos estadísticos para organizar los datos
seleccionados; la primera de ellas surge en Francia en 1800. Esto ha permitido comparar las
estadísticas de cada país con relación a los demás, con el propósito de saber qué factores influyen
en el crecimiento económico. Esto promovió el surgimiento del primer congreso internacional de
estadística, efectuado en Bruselas en 1853 y organizado por Lambert Adolphe Jaques Quetelet,
quien aplica la estadística a las ciencias sociales e implementa el método estadístico de su época
a las diversas ramas de la ciencia.

En 1882 se creó en nuestro país la Dirección General de Estadística (DGE), el antecedente de lo


que hoy es el INEGI. El decreto en cuestión hacía constar que esta oficina debía encargarse de
“pedir, compilar, clasificar y publicar periódicamente, por cuadros comparativos, todos los datos
concernientes a este ramo”, refiriéndose a los de fomento, colonización, industria y comercio.

Con el objetivo de homogenizar los métodos utilizados en la recopilación y procesamiento de la


información, así como en la interpretación de resultados, nace en 1885, el Instituto Internacional
de Estadística, que invita a los gobiernos de todos los países, al uso correcto de la estadística en la
solución de problemas económicos y sociales.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Una vez sentadas las bases de la teoría de la probabilidad, el nacimiento de la estadística moderna
y su empleo en el análisis de experimentos, se puede situar en los trabajos de Francis Galton,
concibiendo el método de regresión y correlación, y Karl
Pearson, que publicó en 1892 el libro The Grammar of Science,
un clásico en la filosofía de la ciencia y fue él quien ideó el
conocido test de chi2. Pero es Ronald Arnold Fisher, sin lugar a
dudas, la figura más influyente de la estadística moderna,
situándola como una poderosa herramienta para la planificación
y análisis de experimentos. Fue pionero en el desarrollo de
numerosas técnicas de análisis estadísticos y en la introducción
de métodos para la estimación de parámetros, desarrolló la
teoría de muestras pequeñas bajo normalidad, que con el
Ronald Arnold Fisher nombre de análisis de varianza y covarianza, tuvo un gran
(1890-1962)
impacto en la teoría y aplicación de la estadística. Su libro
Statistical Methods for Research Workers publicado en 1925 ha sido probablemente el libro de
estadística más utilizado durante mucho tiempo.

Un ejemplo evidente que muestra que los desarrollos de la estadística han surgido como respuesta
a necesidades prácticas, son los trabajos desarrollados por William Sealy Gosset abordando
problemas sobre variedades de cebada y concibiendo su famosa distribución “t de Student”, sus
trabajos fueron completados y formalizados por Fisher. El hijo de Karl Pearson, Egon Pearson y
el matemático Jerzy Neyman pueden considerarse los fundadores de las pruebas modernas de
contraste de hipótesis.

Es importante citar la participación activa y fructífera de matemáticos y estadísticos rusos que


con su aportación e influencia han permitido desarrollar y formalizar los métodos y teorías de la
probabilidad y la estadística, cabe destacar las figuras de Pafnut Chebychev y Andrei Markov y
posteriormente, Alexander Khinchi y Andrey Kolmogorov. Actualmente se puede decir que la
Estadística es la ciencia que proporciona métodos para recopilar, organizar, presentar, resumir,
analizar e interpretar información y poder tomar decisiones con cierto grado de confiabilidad.

Hoy, la Estadística, junto con el cálculo de probabilidades, constituyen una rama fundamental de
las matemáticas, con aplicaciones en casi todas las actividades humanas: física, astronomía,
biología, genética, medicina, agricultura, química, y muchas más; en todas estas ciencias se hacen
predicciones, encuestas, controles de calidad, estimaciones o verificaciones de hipótesis con
respecto a parámetros poblacionales, todo ello ha permitido lograr avances científicos y
tecnológicos; que a través de los años, han coadyuvado al desarrollo y bienestar social.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Importancia de la Ciencia

Los conceptos y argumentos de la estadística se utilizan en la actualidad en un gran número de


ocupaciones. Las técnicas estadísticas constituyen una parte integral de las actividades de
investigación en distintas áreas del saber humano. La persona que comprenda los conceptos
estadísticos y su metodología obtendrá mejor provecho de ellos.

La estadística día con a día gana terreno en su aplicación en toda actividad humana por simple
que ésta sea.

La estadística se aplica en los programas de Gobierno, Ingeniería, Agronomía, Economía,


Medicina, Biología, Psicología, Pedagogía, Sociología, Física, Astronomía, Educación, etcétera;
no hay alguna ciencia que no la requiera o profesión que no la aplique.

A continuación, se citan algunos ejemplos de la utilidad de la estadística:

1. En las agencias gubernamentales, tanto federales, estatales o municipales utilizan la


estadística para realizar planes y programas para el futuro.

2. En el campo de la ingeniería se aplica en muchas de sus actividades tales como:

• La planeación de la producción.
• El control de calidad.
• Las ventas.
• El almacén.

3. En la Sociología se aplica para comparar el comportamiento de grupos socioeconómicos


y culturales y en el estudio de su conducta.

4. En el campo económico su uso es fundamental para informar el desarrollo económico de


una empresa o de un país que da a conocer los índices económicos relativos a la
producción, a la mano de obra, índices de precios para el consumidor, las fluctuaciones
del mercado bursátil, las tasas de interés, el índice de inflación, el costo de la vida,
etcétera. Todos estos aspectos que se estudian, se reportan e informan, no solamente
describen el estado actual de la economía sino que trazan y predicen el camino de las
futuras tendencias. Así mismo sirve a los encargados de las agencias, para tomar

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


decisiones acertadas en sus operaciones.

5. En el campo demográfico la Estadística se aplica en los registros de los hechos de la vida


diaria, tales como:
• Nacimientos.
• Defunciones.
• Matrimonios.
• Divorcios.
• Adopciones.

6. En materia de población los datos aportan una buena ayuda para fijar la política de
estímulos al control de la natalidad, dirigir la inmigración o emigración, establecer los
planes de lucha contra las enfermedades epidémicas o plagas que azotan los campos,
etcétera.

7. En el campo educativo la Estadística contribuye al conocimiento de las condiciones


fisiológicas, psicológicas y sociales de los alumnos y de los profesores. Al
perfeccionamiento de los métodos de enseñanza, de evaluación, a la efectividad de
programas de tutorías, la necesidad de reformas curriculares en función de los
requerimientos sociales reales, etc.

8. En la industria la utilizan para el control de calidad, la implementación de incentivos a la


producción, entre otros.

9. En la agricultura, se emplea en actividades como experimentos sobre la reproducción de


plantas y animales entre otras cosas. También se usa la Estadística para determinar los
efectos de clases de semillas, insecticidas y fertilizantes en el campo.

10. En la Biología se emplean métodos estadísticos para estudiar las reacciones de las plantas
y los animales ante diferentes períodos ambientales y para investigar la herencia. Las leyes
de Mendel sobre la herencia en donde los factores hereditarios se atribuyen a unidades
llamadas genes y al estudio sistemático de los cruzamientos entre individuos portadores
de genes diferentes, lo que ha permitido precisar de qué manera los genes se separan o se
reúnen en las generaciones sucesivas. La verificación de las hipótesis formuladas por
Mendel y sus continuadores necesitó el empleo de la Estadística.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


11. En la medicina, los resultados que se obtienen sobre la efectividad de fármacos se
analizan por medio de métodos estadísticos. Los médicos
investigadores se ayudan del análisis estadístico para
evaluar la efectividad de tratamientos aplicados. La
Estadística también se aplica en el establecimiento y
evaluación de los procedimientos de medida o clasificación
de individuos con el propósito de establecer la especificidad
y sensibilidad a las enfermedades. En el Sector Salud, los
técnicos de la salud la utilizan para planear la localización y el tamaño de los hospitales
y de otras dependencias de sanidad. También se aplica en la investigación sobre las
características de los habitantes de una localidad, sobre el diagnóstico y la posible fuente
de un caso de enfermedad transmisible; sobre la proporción de personas enfermas en un
momento determinado, de ciertos padecimientos de una localidad, sobre la proporción de
enfermos de influenza en dos grupos, uno vacunado contra el padecimiento y el otro no.
También se aplica en cualquier otro tipo de investigación similar a éste.

12. En la Psicología se aplican los conceptos y técnicas de la estadística para medir y


comparar la conducta, las actitudes, la inteligencia y las aptitudes de las personas.

13. En los negocios se pueden predecir los volúmenes de venta, medir las reacciones de los
consumidores ante los nuevos productos, probar la efectividad de una campaña
publicitaria.

14. En la Física se utiliza la Estadística para obtener datos y probar hipótesis.

15. En el Deporte se ocupa para determinar el impacto de una nueva dieta alimenticia en el
rendimiento de atletas o someter a prueba la efectividad de dos o más técnicas de
ejercitación y práctica de un deporte.

16. El Mundo Político, todo intento de buen gobierno exige, dejando a un lado los
presupuestos ideológicos, algo tan simple y complejo a la vez como es el conocer sobre
qué realidad se gobierna; exige el estar perfectamente informado de las posiciones
objetivas de partida para desde ellas, tomar las medidas adecuadas a fin de dirigir la
sociedad a esa meta Es claro que cuanto más, correcto y veraz sea este conocimiento de
la realidad, las medidas de gobierno serán también más correctas., el conocimiento de la
realidad para los fines del buen gobierno pasa por su cuantificación, o que es equivalente,
por la obtención de estadísticas.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


División de la Estadística

La Estadística es el estudio científico relativo al conjunto de métodos y técnicas encaminados a


al análisis de fenómenos conocidos e inciertos a través de la obtención, representación y análisis
de observaciones numéricas o categóricas, así como inferir generalizaciones acerca de las
características para los colectivos de interés y tomar las decisiones más acertadas en el campo de
su aplicación.

Su clasificación en el campo de la ciencia se detalla como sigue:

1. Estadística Paramétrica: estudia modelos específicos de distribución donde deben cumplirse


ciertos supuestos acerca de los parámetros de la población en función de una muestra
investigada, supuestos obligatorios a cumplirse ya que la validez de los resultados de una
investigación que utiliza técnicas paramétricas depende de su comprobación.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Este grupo prioritario de la Estadística se subdivide en:

Estadística Descriptiva: Ciencia que recopila, organiza e interpreta la información


numérica ó cualitativa. Tiene como propósito presentar resúmenes de un conjunto de
datos y poner de manifiesto sus características principales, mediante representaciones
tabulares o gráficas y complementándolos con medidas descriptivas de centralización,
dispersión o de posición. Los datos se usan para fines comparativos, y no se utilizan
principios de la teoría de la probabilidad. El interés se centra en describir el conjunto dado
de datos y no se plantea el extender las conclusiones a otros datos diferentes o bien, a una
población.

Estadística Inferencial: Conjunto de técnicas que se utiliza para obtener conclusiones


que sobrepasan los límites del conocimiento aportado por los datos, busca obtener
información de un colectivo mediante un metódico procedimiento del manejo de datos
de la muestra. En sus particularidades la Inferencia distingue la estimación de
parámetros y las pruebas de hipótesis con respecto a características estadísticas de una
población.

Dentro de cada una de las subdivisiones adjuntas se presentan grupos de estudio


univariados, bivariados y multivariados haciendo referencia a la manipulación de una,
dos y tres o más variables en adelante respectivamente.

2. Estadística no Paramétrica: se encarga del estudio de distribuciones no específicas y no


requiere de la comprobación de supuestos sobre los parámetros de la población; sin embargo
previo a la aplicación de técnicas no paramétricas se comprueba la existencia de aleatoriedad
de las observaciones captadas en una muestra.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Terminología Estadística

Unidad Estadística:

Elemento indivisible del cual se obtiene el carácter cuantitativo o cualitativo, se refiere al objeto
principal de la investigación que pueden ser los seres vivos, objetos o situaciones experimentales.
Ejemplo:

Estudiantes, vehículos, lluvia.

Colectivo o Población:

Conjunto de unidades estadísticas con alguna característica en común.


Ejemplo:

Estudiantes de la carrera de Tecnologías de la Información.

Colectivo estadístico:

Conjunto de unidades estadísticas con alguna característica en común delimitados en tiempo y


espacio.
Ejemplo:

Estudiantes de la carrera de Tecnologías de la Información


en el período mayo 2020 – octubre 2020.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Muestra:

Subconjunto representativo de la población estadística tomada para estudiar las características de


la misma. Al número de elementos de la muestra se le llama tamaño de la muestra.
Ejemplo:

Estudiantes de cuarto semestre de la carrera de Tecnologías de la Información


en el período mayo 2020 – octubre 2020.

Parámetro:

Medida calculada a partir de todos los caracteres extraídos de un colectivo.


Ejemplo:

Promedio de edad de los estudiantes de la carrera de Tecnologías de la Información


en el período mayo 2020 – octubre 2020.

Estadístico:

Medida calculada a partir de todos los caracteres extraídos de una muestra.


Ejemplo:

Promedio de edad de los estudiantes de cuarto semestre de la carrera de Tecnologías de la


Información en el período mayo 2020 – octubre 2020.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Datos y Variables

Carácter o Dato: Es una característica observada o medida en una unidad estadística, los
caracteres pueden ser: cualitativos (categóricos), o cuantitativos (numéricos).
Ejemplo

El conjunto de caracteres induce una Variable, por tanto, al presentar dos tipos de caracteres se
generan a la par dos tipos de variables cualitativas (conjunto de caracteres categóricos o cadenas
de texto) y cuantitativas (conjunto de caracteres numéricos). El conjunto de caracteres se conoce
como dominio de la variable.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Las variables son herramientas fundamentales para el análisis estadístico ya que la información
se realiza sobre los valores de las variables.

Variables Cualitativas

Conocidas como mudables estadísticas, son aquellas cuyos caracteres son del tipo categórico, es
decir, indican categorías, etiquetas alfanuméricas o "nombres".
Ejemplo

Tipo de deporte: Fútbol, Basquetbol, Volibol, Natación, Beisbol


Grado escolar: Primaria, Secundaria, Bachillerato, Maestría, Doctorado

Según el número de caracteres, las variables cualitativas se clasifican en:

Dicotómicas El dominio de la variable admite dos caracteres únicamente. Ejemplo

Sexo: Hombre, Mujer


Estado de un artefacto: Bueno, Malo

Politómicas El dominio de la variable admite tres o más caracteres. Ejemplo

Semestre: Primero, Segundo, Tercero, Cuarto, etc.


Etnia: Montubio, Mestizo, Indígena, Blanco, etc.

Variables Cuantitativas

Conocidas como variables estrictamente estadísticas son aquellas cuyos caracteres son del tipo
numérico.
Ejemplo

Peso (kg): 65, 70, 58, 45


Ingresos ($): 420.34, 1020, 2130.75, 670

Las variables cuantitativas se clasifican en:

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Discretas: variables que entre uno y otro valor que puedan tomar, quedan espacios vacíos.
En lo general, toman valores enteros. Ejemplo

Número de hermanos: 1, 3, 4, 8, 0
Cantidad de alumnos por semestre: 34, 45, 28, 23

Continuas: son aquellas que toman cualquier valor numérico entero, fraccionario o,
incluso, irracional. Teóricamente, se cubren todos los posibles valores en un intervalo. Este
tipo de variable se obtiene principalmente a través de mediciones y está sujeta a la precisión
de los instrumentos de medición. Ejemplo

Estatura de los alumnos (cm): 160, 155, 148, 167


Calificación en una prueba (pts): 15.5, 13, 20, 18.7

En general cuando se habla de variables se presenta el siguiente resumen:

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Escalas de Medida

La selección de la prueba estadística depende de varios factores, y uno de ellos es la escala de


medida de una variable. En seguida se describe los cuatro métodos de medición: nominal, ordinal,
de intervalo y de razón.

Escala nominal o clasificatoria

Se dice que una variable cualitativa se mide mediante una escala nominal, o es de tipo nominal,
si sus valores son etiquetas o atributos y no existe un orden entre ellos. Cada uno de los caracteres
agrupa a un grupo mutuamente excluyente y la única relación implicada es la de equivalencia (=).
Ejemplos

Género: masculino, femenino


Estado civil: soltero, casado, viudo, divorciado

Escala ordinal o de rango

Se dice que una variable cualitativa se mide mediante una escala ordinal, o es de tipo ordinal, si
sus valores son etiquetas o atributos, pero existe un cierto orden entre ellos. Cada uno de los
caracteres agrupa a un grupo mutuamente excluyente y la relación implicada es la de equivalencia
(=) dentro de cada grupo y la de mayor que (>) entre grupos.
Ejemplos

Nivel de Instrucción: Primaria, Secundaria, Pregrado, Maestría, PhD


Autoridades de una institución: Docente, Director, Vicedecano, Decano, Rector

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Escala de intervalo

Se dice que una variable cuantitativa se mide mediante una escala de intervalo si existe una noción
de distancia entre los valores de la variable, aunque no se pueden realizar operaciones numéricas
y el cero en el dominio de la variable es relativo.
Ejemplos

Temperatura: 0º C, indica el punto de congelación del agua.


Talla de Ropa: Talla 0, es la talla de ropa para recién nacidos.

Escala de razón

Se dice que una variable cuantitativa se mide mediante una escala de razón si los valores de la
variable tienen un sentido físico y existe el cero absoluto.
Ejemplos

Distancia recorrida en un viaje (km): 0 km, indica la ausencia de desplazamiento


Consumo de agua (ltrs): 0 ltrs, no hubo consumo de agua

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


ESTADÍSTICA DESCRIPTIVA

La estadística descriptiva es un conjunto de técnicas y procedimientos estadísticos que ayudan a


recopilar, organizar, analizar y representar la información de un conjunto de datos. A
continuación, se muestran los elementos utilizados en cada sección.

Distribuciones de Frecuencias

Herramientas utilizadas para el resumen de los datos almacenados en variables cualitativas o


cuantitativas en tablas de frecuencias, de manera que se ponga de manifiesto la localización,
dispersión de las observaciones.

1. Distribución estadística unitaria

La información de la variable medida en las unidades estadísticas se dispone a través de un vector


fila o un vector columna ya sea para el caso de una variable cualitativa o cuantitativa,
generalmente a esta forma de mostrar los caracteres de la variable se lo conoce como datos en
bruto.

𝐗𝒊
𝐱𝟏
𝐱𝟐

𝐱𝐤

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Ejemplo

Memoria RAM
Computador Computador Sistema Operativo
(GB)
1 8 1 Windows
2 4 2 Linux
3 6 3 Windows
4 4 4 Windows

El conjunto de distribuciones estadísticas unitarias forma una matriz de datos de dimensión k*p,
donde k son las unidades estadísticas y p son las variables.

i 𝐗𝟏 𝐗𝟐 𝐗𝟑 ⋯ 𝐗𝐩
1 x11 x12 x13 ⋯ x1p
2 x21 x22 x23 ⋯ x2p
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
k xk1 xk2 xk3 ⋯ xkp

Ejemplo

Tiempo de duración de la batería Memoria RAM Sistema


Computador Marca
(horas) (GB) Operativo
1 10 8 Windows HP
2 10 4 Linux Dell
3 8 6 Windows Mac
4 12 4 Windows Asus

Una de las pruebas a ejecutar sobre las matrices de datos es el análisis de confiabilidad ya que la
mayoría de estas se forman luego de la aplicación y tabulación de encuestas o entrevistas, las
técnicas de confiabilidad evalúan la confiabilidad de las preguntas descritas en los cuestionarios
y una de las más conocidas es el Alpha de Cronbach.

Alpha de Cronbach

El coeficiente Alfa de Cronbach es un modelo de consistencia interna, basado en el promedio de


las correlaciones entre los ítems. Entre las ventajas de esta medida se encuentra la posibilidad de
evaluar cuánto mejoraría (o empeoraría) la fiabilidad de la prueba si se excluyera un determinado
ítem (pregunta), para el cálculo de la medida solo se evalúan aquellas preguntas cuyas respuestas
son categorías de escala nominal u ordinal (variables cualitativas).

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


El mayor valor teórico del Alfa de Cronbach.es 1, si el instrumento asocia una medida de 0.6 se
considera un instrumento aceptable; sin embargo, para estudios de medicina o del área de salud
se sugiere que la fiabilidad del instrumento sea por lo menos 0.8.

Luego de evaluar la fiabilidad en una encuesta de 5 preguntas con el uso de SPSS, se muestra la
siguiente tabla.

Se observa que el valor de alfa es de 0.597, se encuentra por debajo, pero ya veremos que existen
posibilidades de elevar la fiabilidad del índice.

“Alfa de Cronbach si se elimina el elemento”, equivale al valor de Alfa si eliminamos cada uno
de los ítems. Así, por ejemplo, si eliminamos el ítem 3, el Alfa mejoraría a 0.762.

2. Distribución estadística de frecuencias sin clases

Esta distribución es muy usada cuando el tamaño de la muestra (n) es muy grande y se requiere
resumir la información de una variable cualitativa o cuantitativa. Para la construcción de la tabla
resumen asociada a una variable cuantitativa, es necesario que los caracteres se encuentren
ordenados de forma ascendente, en el caso de tratarse de una variable cualitativa se mantendrá el
orden jerárquico apropiado si la escala de medida de la variable es ordinal.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa
Variable
Absoluta Relativa Acumulada Acumulada
X
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
n1
𝐱𝟏 n1 f1 = N1 = n1 F1 = f1
n
n2
𝐱𝟐 n2 f2 = N2 = N1 + n2 F2 = F1 + f2
n
⋮ ⋮ ⋮ ⋮ ⋮
nk
𝐱𝐤 nk fk = Nk = N𝑘−1 + nk Fk = Fk−1 + f𝑘
n
Total n 1

La frecuencia absoluta del caracter 𝐱 𝐢 es el número de veces que aparece repetido el caracter en
la recopilación de datos y se lo representa por 𝐧𝐢 ; además de la suma de la columna se obtiene el
tamaño de la muestra

𝐧 = ∑ 𝐧𝐢
𝐢=𝟏

La frecuencia relativa del caracter 𝐱 𝐢 es el cociente entre la frecuencia absoluta del caracter 𝐱 𝐢 y
el número total de datos n. Se representa por 𝐟𝐢 y, evidentemente, es la proporción de aparición
de cada caracter con respecto al total.

𝐧𝐢
𝐟𝐢 =
𝐧

Además,

∑ 𝐟𝐢 = 𝟏
𝐢=𝟏

En relación a las frecuencias acumuladas, cumplen dos propiedades triviales como consecuencia
de las sumas acumulativas de las frecuencias absolutas 𝐧𝐢 y frecuencias relativas 𝐟𝐢 donde se
produce que:

𝐍𝐤 = 𝐧 𝐲 𝐅𝐤 = 𝟏

Ejemplos

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Variable Cuantitativa

Número de Usuarios en
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
Barrio Facebook
1 148 12 0,286 12 0,286
2 155 15 0,357 27 0,643
3 160 10 0,238 37 0,881
4 167 5 0,119 42 1,000
Total 42 1,000

Variable Cualitativa

Marcas de
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
Computadores
Hp 11 0,733 11 0,733
Dell 2 0,133 13 0,867
Asus 1 0,067 14 0,933
Samsung 1 0,067 15 1,000
Total 15 1.000

De las tablas presentes se puede analizar varios puntos de información por ejemplo conocer el
porcentaje de caracteres específicos:

Variable Cuantitativa: El barrio 2 alberga el 35.7% de usuarios afiliados a Facebook


Variable Cualitativa: La marca de computador más usada en el mercado es Hp con un 73,3%

3. Distribución estadística de frecuencia con clases

Esta distribución es usada para resumir la información de una variable cuantitativa continua, a
través de clases o intervalos. La construcción de la tabla cuenta con el siguiente procedimiento.

a. Calcular el Rango de los caracteres

R = X máx − Xmín

b. Determinar el número de intervalos o clases

k = √n

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


c. Calcular la amplitud de la clase

R
A =
k

El límite inferior de la primera clase es igual al carácter mínimo de la variable y el límite superior
de la última clase debe ser igual al carácter máximo de la variable. Esta observación garantiza que
todos los caracteres de la variable se encuentren formando parte de las tabulaciones.

Li1 = Xmín y Lsk = X máx

Frecuencia Frecuencia Frecuencia Absoluta Frecuencia Relativa


Clases o Intervalos
Absoluta Relativa Acumulada Acumulada
𝐋𝐢 𝐋𝐬
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
n1
𝐋𝐢𝟏 Ls1 n1 f1 = N1 = n1 F1 = f1
n
n2
𝐋𝐬𝟏 Ls2 n2 f2 = N2 = N1 + n2 F2 = F1 + f2
n
⋮ ⋮ ⋮ ⋮ ⋮ ⋮
nk
𝐋𝐬𝐤−𝟏 Lsk nk fk = Nk = N𝑘−1 + nk Fk = Fk−1 + f𝑘
n
Total n 1

Ejemplo

Tiempos de Simulación
𝐧𝐢 𝐟𝐢 𝐍𝐢 𝐅𝐢
(minutos)
140 143 8 0,160 8 0,160
143 146 5 0,100 13 0,260
146 149 13 0,260 26 0,520
149 152 3 0,060 29 0,580
152 155 10 0,200 39 0,780
155 158 8 0,160 47 0,940
158 161 3 0,060 50 1
Total 50 1

De manera semejante a la distribución anterior en la tabla de frecuencias con intervalos de la


variable Tiempo de Simulación se puede observar que el 26% de tiempos se encuentran ene le
intervalo de 146 a 149 minutos.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


DATOS NO AGRUPADOS

Representaciones Gráficas

Las representaciones gráficas muestran de forma rápida el comportamiento de la variable y


permiten transmitir de manera más sencilla los resultados hallados. Cuando los caracteres de
variables cuantitativas se encuentran sin agrupación se pueden construir diagramas de caja y
diagramas de puntos.

1. Diagramas de caja

El diagrama de caja es una presentación visual que describe al mismo tiempo varias características
importantes de un conjunto de datos, tales como el centro, la dispersión, la simetría o asimetría y
la identificación de observaciones atípicas. Este gráfico es el más adecuado para analizar la
información de una variable cuantitativa.

Este gráfico se puede construir de forma manual a partir del uso de las medidas de posición no
central y a través de software estadístico.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


2. Diagramas de puntos

Un diagrama de puntos es una forma de resumir la información de una variable cuantitativa cuyo
dominio almacene hasta un máximo de 30 caracteres dispuestos en una recta numérica.
Este gráfico permite analizar:

• La localización general de las observaciones.


• La dispersión de las observaciones.
• La presencia de observaciones inusuales o valores atípicos.
• El tipo de distribución de la variable según su disposición debajo de campanas.

Según el agrupamiento de los caracteres en la recta numérica los puntos pueden ajustarse a
distribuciones Platicúrtica, Mesocúrtica y Leptocúrtica

Se aconseja utilizar el gráfico para representar hasta un máximo de 30 caracteres ya que con una
mayor cantidad de información se tiende a confundir el tipo de distribución a la que se ajusta una
variable.

Ejemplo
Graficar un diagrama de puntos para la variable Tiempo de duración de las baterías (horas)

Tiempo de duración de la batería


(horas)
19
22
35
18
17

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Tiempo de duración de la batería

La gráfica indica que los datos están agrupados cerca de las 18 horas y su recorrido va desde el
17 hasta 35 horas, el carácter 35 horas puede ser considerado como atípico por encontrase alejado
de los demás tiempos de duración.

Pruebas de Normalidad

Para la comprobación del ajuste de una variable cuantitativa a una ley de probabilidad normal
existen varias maneras de inspeccionar la normalidad univariante y para ello seguido se muestran
las siguientes técnicas:

1. Pruebas Gráficas

Gráfico de Probabilidad Normal

Un gráfico cuantil cuantil permite observar cuan cerca está la distribución de un conjunto
de datos a alguna distribución ideal o comparar la distribución de dos conjuntos de datos.
La forma del gráfico debería ser idealmente una línea recta específica; sin embargo si los
puntos se disponen en forma de "U" o con alguna curvatura, ello se debe a que la
distribución es asimétrica, mientras que si se presentan en forma de "S" significará que los
datos son heterogéneos

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Diagrama de Caja

El diagrama de caja permite inspeccionar de forma robusta el ajuste de una variable a una
ley de probabilidad normal, tras el análisis de la presencia de asimetría. Existirá asimetría
positiva si la mediana está más cerca de la parte inferior de la caja y asimetría negativa si
la mediana está más cerca de la parte superior de la caja, tomando en cuenta que cuanto
más larga sea la caja y los bigotes, el conjunto de datos contará con mayor variabilidad,
contrario a los detalles anteriores si la mediana fracciona la caja en partes iguales y los
bigotes muestran la misma longitud entonces la variable es simétrica lo que es sinónimo de
presencia de normalidad

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


2. Contraste de Kolmogorov Smirnov

Este contraste compara la función de distribución empírica muestral con la teórica de una
población normal, de manera que se rechazaría la hipótesis nula de normalidad cuando el valor
experimental del estadístico (que sería la mayor diferencia registrada entre ambas funciones) es
significativamente grande. Este contraste no resulta muy apropiado para estudios de medicina y
economía ya que sin importar el tamaño de muestra casi la totalidad de variables analizadas siguen
una ley normal a pesar que los contrastes gráficos muestren lo contrario. No se muestra el
procedimiento de esta prueba ya que sigue el mismo modelo de la siguiente técnica.

3. Contraste de Kolmogorov Smirnov con la corrección de Lilliefors

Con efectos de corregir el problema anterior, Lilliefors propuso una nueva tabla de valores críticos
en donde los intervalos de aceptación se redujeron con el fin de ajustar de mejor manera a las
variables, la potencia de esta prueba radica en el análisis de variables con tamaño de muestra
superior a 50 datos. Su contraste se detalla a continuación:

a. Planteamiento de Hipótesis
H0: La variable X se ajusta a una distribución normal
H1: La variable X no se ajusta a una distribución normal

b. Nivel de Significancia
α = 0.05

c. Estadístico de Prueba
D = máx (|Fi − ∅(Zi )| o |Fi − 1 − ∅(Zi )|)

d. Región de Rechazo
D ≥ Dn,∝ Rechazar H0
valor p ≤ α Rechazar H0

e. Decisión

Se indica si la variable en análisis se ajusta o no a la distribución normal

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


4. Contraste de Shapiro Wilk

Esta prueba mide el grado de ajuste a una recta de las observaciones de la muestra (x1, x2,
x3, … , xn) representadas en un gráfico de probabilidad normal. Es el más adecuado cuando el
tamaño de muestra es pequeño (inferior o igual a 50) y no requiere que los parámetros de la
distribución estén especificados. Su contraste se detalla a continuación:

a. Planteamiento de Hipótesis
H0: La variable X se ajusta a una distribución normal
H1: La variable X no se ajusta a una distribución normal

b. Nivel de Significancia
α = 0.05

c. Estadístico de Prueba

b2
W= ̅)2
∑ni=1(xi − X

El término b = ∑ki=1 ai [X (n−i+1) − Xi ] siendo ai el valor de los coeficientes


que se encuentran tabulados en la tabla A; mientras que [X(n−i+1) − Xi ]son
las diferencias sucesivas que se obtienen al restar el primer valor al último
valor, el segundo al penúltimo

d. Región de Rechazo
W ≤ W∝,n Rechazar H0
valor p ≤ α Rechazar H0

e. Decisión

Se indica si la variable en análisis se ajusta o no a la distribución normal

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


5. Contraste de Anderson Darling

Esta prueba evalúa el ajuste a cualquier distribución de probabilidades mediante la comparación


entre una distribución empírica y una distribución teórica definida en la hipótesis nula. Su
contraste se detalla a continuación:

a. Planteamiento de Hipótesis
H0: La variable X se ajusta a una distribución normal
H1: La variable X no se ajusta a una distribución normal

b. Nivel de Significancia
α = 0.05

c. Estadístico de Prueba
n
1
A2 = −n − S donde S = ∑(2i − 1)[ln F(Yi ) + ln (1 − F(Yn+1−i) ))]
n
i=1

Donde n es el número de observaciones, F(Y) es la distribución de


probabilidades acumulada normal con media y varianza especificadas a partir
de la muestra y Yi son los datos obtenidos en la muestra, ordenados
ascendentemente.

d. Región de Rechazo
A2 ≥ A2T Rechazar H0
valor p ≤ α Rechazar H0

Esta prueba no dispone de tablas para todos los casos. A continuación, se


presenta los valores críticos asociados a los posibles niveles de significancia
al momento de contrastar normalidad.

α 0.1 0.05 0.025 0.01


A2T 0.631 0.752 0.873 1.035

e. Decisión

Se indica si la variable en análisis se ajusta o no a la distribución normal

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


DATOS AGRUPADOS

Representaciones Gráficas

Existen representaciones gráficas que permiten sintetizar la información de variables que se


encuentran distribuidas en tablas de frecuencias con y sin intervalos como los que se muestran a
continuación:

1. Diagramas de barras

El diagrama de barras es un gráfico de uso estricto para variables cualitativas, los caracteres se
exhiben mediante rectángulos, del mismo ancho, cada uno de los cuales representa una categoría
particular. La longitud (y por lo tanto el área) de cada rectángulo es proporcional al número de
casos en la categoría que representa. Si los caracteres son nominales, las categorías se pueden
colocar en cualquier orden; pero si los caracteres son ordinales, las categorías deben estar
ordenadas. Para la construcción del gráfico se requiere de la siguiente información

Variable Cualitativa Frecuencia Absoluta Frecuencia Relativa


X 𝐧𝐢 𝐟𝐢
𝐱𝟏 n1 f1
𝐱𝟐 n2 f2
⋮ ⋮ ⋮
𝐱𝐤 nk fk
Total n 1

Con el gráfico de barras se distinguen las características más frecuentes de un proceso; mente se

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


presentan en un proceso. También, tiene la ventaja de que se pueden realizar gráficos de barras
agrupadas, con el objetivo de realizar comparaciones.

Ejemplo
En un estudio de investigación de mercados se requiere conocer cuál es la marca de computador
que mayor demanda presenta en el mercado de consumidores, para ello se solicitó el análisis de
las marcas Mac, Hp, Asus, Toshiba y Samsung. Construir un diagrama de barras para identificar
la mayor marca de demanda.

Marca del Computador 𝐧𝐢 𝐟𝐢


Hp 135 0.41
Mac 76 0.23
Asus 53 0.16
Samsung 43 0.13
Toshiba 19 0.05
326 1

La marca de computador más usado es Hp, sin embargo, entre la marcas Asus y Samsung
mantienen una demanda semejante.

2. Diagramas de sectores

Al igual que el diagrama de barras el gráfico de sectores solo se usa para resumir variables
cualitativas que no almacenen una cantidad superior a 6 categorías, para su construcción se
necesita de la siguiente información:

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Variable Cualitativa Frecuencia Absoluta Frecuencia Relativa Ángulo
X 𝐧𝐢 𝐟𝐢 ∡𝐢
𝐱𝟏 n1 f1 ∡1
𝐱𝟐 n2 f2 ∡2
⋮ ⋮ ⋮ ⋮
𝐱𝐤 nk fk ∡k
Total n 1 360

Un gráfico de sectores es un círculo dividido en segmentos, donde el área de cada uno de los
sectores es proporcional a la frecuencia relativa de esa categoría. El ángulo central de la categoría
es igual a ∡i = fi ∗ 360

Ejemplo
En un estudio de control de calidad se requiere conocer cuál es la marca de computador más usado
en el mercado de consumo. Construir un diagrama de sectores para identificar la marca de mayor
demanda

Marca del Computador 𝐧𝐢 𝐟𝐢 ∡𝐢


Hp 135 0.42 150
Mac 76 0.23 84
Asus 53 0.16 59
Samsung 43 0.13 48
Toshiba 19 0.06 19
326 1 360

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


El gráfico de sectores confirma la misma información que el diagrama de barras donde se
visualiza por segunda ver que la marca de computador más usado es Hp y que las marcas Asus y
Samsung mantienen una demanda semejante.

3. Histogramas

Un histograrna es un conjunto de rectángulos que resumen la información de una variable


cuantitativa continua, cada uno de los cuales representa un intervalo de agrupación. Sus bases son
iguales al intervalo de clase empleado en la distribución de frecuencias y las alturas son
proporcionales a la frecuencia absoluta o relativa de la clase.

Clases Frecuencia Absoluta Marca de Clase


𝐧𝐢 𝐜𝐢
𝑳𝐢𝟏 𝐿s1 n1 c1
𝑳𝒔𝟏 𝐿𝑠2 n2 c2
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk ck
Total n

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Dentro del gráfico de puede analizar las medidas de tendencia central, en torno a la moda, permite
identificar el número de modas presentes en la variable, en cuanto a las medidas de dispersión se
visibiliza la mayor o menor dispersión de los caracteres y se tiende a distinguir con facilidad la
presencia o ausencia de simetría en la variable.

Ejemplo
En la última etapa del proceso de producción de quesos se pesaron las unidades que están listas
para la distribución al público. Resuma la información recolectada a través de un histograma.

Pesos 𝐜𝐢
𝐧𝐢
(gr)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275

Histograma
300,0000
Frecuencia Relativa

250,0000
200,0000
150,0000
100,0000
50,0000
0,0000
1300,0 1500,0 1700,0 1900,0
Marca de clase

El histograma de los pesos de queso indica que no es una variable simétrica, y cuenta con tan solo
una moda, la longitud de las barras anticipa la presencia de grande variación entre los pesos.

4. Gráfico de Dispersión

El diagrama de dispersión es un gráfico bivariado que permite estudiar las relaciones entre dos
variables cuantitativas X e Y. El diagrama muestra estos pares como una nube de puntos para
análisis de las relaciones entre:

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


• Dos factores o causas relacionadas con la calidad.
• Dos problemas de calidad.
• Un problema de calidad y su posible causa.

Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma de las nubes.

• Una relación positiva entre X e Y significa que los valores crecientes de X están asociados
con los valores crecientes de Y.
• Una relación negativa entre X e Y significa que los valores crecientes de X están asociados
con los valores decrecientes de Y.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


MEDIDAS DE TENDENCIA CENTRAL

Entre las medidas características de una distribución destacan las llamadas medidas de
centralización, que nos indicarán el valor promedio de los datos, o en torno a qué valor se
distribuyen estos. Si la variable se muestra a través de una distribución estadística de frecuencias
unitarias (datos sin agrupar) las medidas de tendencia se calculan según las fórmulas siguientes:

Media Aritmética

Cuando se cuenta con una muestra de tamaño n, donde la variable cuantitativa X toma los valores
x1 , x2 , x3 , … , x𝑘 . La media aritmética x̅, es la suma de los caracteres de la variable dividida para
su el tamaño de muestra. Su función es:

x1 + x 2 + x 3 + ⋯ + x 𝑘
x̅ =
n
equivalente a
∑ki=1 xi
x̅ =
n

Donde xi son los caracteres de la variable y n es el tamaño de muestra.

La media aritmética es una medida dimensional y representa el punto central del dominio de la
variable cuantitativa. No es una medida significativa ante la presencia de valores atípicos.

Ejercicio
Calcular el promedio del número de usuarios en Twiter por manzana tomados de un estudio del
uso de redes sociales.

Número de usuarios en Twiter


(personas)
19
22
35
18
17

19 + 22 + 35 + 18 + 17
x̅ = = 22 personas
5

El promedio del número de usuarios en Twiter por manzana es de 22 personas

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Mediana

Supongamos nuevamente que tenemos una colección de n caracteres x1 , x2 , x3 , … , xn


condensados en una variable cuantitativa X, esta variable debe ser ordenada de forma ascendente
x1 ≤ x2 ≤ x3 ≤ … ≤ x𝑘 incluyendo las repeticiones para proceder al cálculo de la medida.

La mediana es el valor central del dominio de la variable cuantitativa y separa al conjunto de


caracteres ordenados en dos partes iguales. Es una medida significativa ante la presencia de
valores atípicos.

Su función depende de la cantidad de caracteres en la variable:


a. Si el tamaño de muestra n es par la mediana se calcula como sigue:

(x(n) + x (n)+1)
2 2
x̃ =
2

n n
Donde x es el carácter ordenado que se ubica en la posición y ( ) + 1 (n es el tamaño
2 2

de la muestra)

Ejercicio
Calcular el promedio del número de usuarios en Twiter por manzana tomados de un
estudio del uso de redes sociales.

Número de usuarios en Twiter


(personas)
19
22
35
18

Variable ordenada

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Número de usuarios en Twiter
(personas)
18
19
22
35

(x 4 +x 4 )
(2) (2)+1 (x2 + x3 ) (19 + 22)
x̃ = = = = 20.5 ~ 21 personas
2 2 2

La mediana del número de usuarios en Twiter por manzana es de 21 personas

b. Si el tamaño de muestra n es impar la mediana se calcula como sigue:

x̃ = x(n−1)+1
2

n−1
Donde x es el carácter ordenado que se ubica en la posición (n es el tamaño de
2

muestra)

Ejercicio
Calcular la mediana del número de usuarios en Twiter por manzana tomados de un estudio
del uso de redes sociales.

Número de usuarios en Twiter


(personas)
19
22
35
18
17

Variable ordenada

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Número de usuarios en Twiter
(personas)
17
18
19
22
35

x̃ = x(5−1)+1 = x3 = 19 personas
2

La mediana del número de usuarios en Twiter por manzana es de 19 personas

Moda

La moda es el valor que aparece con mayor frecuencia en el conjunto de datos. A diferencia de la
media y mediana, la moda se puede calcular tanto para variables cuantitativas como cualitativas.

Ejemplos

Memoria RAM
Computador Computador Sistema Operativo
(GB)
1 8 1 Windows
2 4 2 Linux
3 6 3 Windows
4 4 4 Windows

La moda de la variable cuantitativa “Memoria RAM” es 4GB, en cuanto a la variable cualitativa


“Sistema Operativo” el caracter más frecuente es Windows.

Consideraciones:

• En el caso de no existir un caracter con frecuencia mayor al resto, la variable en análisis


es amodal.
• La moda puede existir y ser única, como en los ejemplos anteriores caracterizando a una
variable como unimodal, sin embargo, pueden existir dos o más modas, es decir, pueden
existir dos o más valores que aparecen con la misma frecuencia máxima en el conjunto
de datos. En este caso se dice que la variable es bimodal o multimodal, según sea el caso.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


La variable cuantitativa presenta simetría perfecta, sinónimo de ajuste a una ley de probabilidad
normal si la
Media = Mediana = Moda

Si la Media > Mediana > Moda la variable tiene problemas de asimetría positiva.
Si la Media < Mediana < Moda la variable tiene problemas de asimetría negativa.

Cuando los variables se muestran a través de distribuciones de frecuencias con y sin intervalos,
el cálculo de las medidas de tendencia central sigue el siguiente proceso

1. Media Aritmética

• Si la variable se muestra a través de una distribución estadística de frecuencias sin clases


la media aritmética se calcula por:

Variable Frecuencia Absoluta


X 𝐧𝐢
𝐱𝟏 n1
𝐱𝟐 n2
⋮ ⋮
𝐱𝐤 nk
Total n

∑𝑘𝑖=1 xi ∗ ni
x̅ =
n

Donde xi son los caracteres de la variable, ni son las frecuencias absolutas y n es el tamaño
de muestra.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Ejemplo
En una planta de producción de chips se contabilizaron el número de defectos en cada
chip, con la información recolectada se solicita calcular la media de los defectos hallados
en los productos.

Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107

(0 ∗ 25) + (1 ∗ 43) + (2 ∗ 27) + (3 ∗ 12) 133


x̅ = = = 1.24 ~ 1 defecto
107 107

La planta de producción encontró un promedio de un defecto por chip.

• Si la variable se muestra a través de una distribución estadística de frecuencias con clases


la media aritmética se calcula por:

Clases Frecuencia Absoluta Marca de Clase


𝐧𝐢 𝐜𝐢
𝑳𝐢𝟏 𝐿s1 n1 c1
𝑳𝒔𝟏 𝐿𝑠2 n2 c2
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk ck
Total n

∑𝑘𝑖=1 ci ∗ ni
x̅ =
n

Donde ci es la marca de clase de la variable, ni son las frecuencias absolutas y n es el


tamaño de muestra.

lim. inferiori + lim. superior𝑖


ci =
2

Ejemplo
En la última etapa del proceso de producción de chips se mide la longitud de los chips

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


que están listos para la distribución al público. Calcular la longitud promedio de los
chips

Longitud 𝐜𝐢
𝐧𝐢
(mm)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275

(1300 ∗ 100) + (1500 ∗ 85) + (1700 ∗ 55) + (1900 ∗ 35) 133


x̅ = = = 1518.1 mm
275 275

La longitud promedio de los chips fue de 1518.1 mm.

2. Mediana

• Si la variable se muestra a través de una distribución estadística de frecuencias sin clases


la mediana empieza su cálculo al identificar la clase mediana definida por:

n
Clase mediana =
2

El valor registrado para la clase mediana se busca en la columna de la frecuencia


absoluta acumulada.

Frecuencia Absoluta
Variable Frecuencia Absoluta
Acumulada
X 𝐧𝐢
𝐍𝐢
𝐱𝟏 n1 N1
𝐱𝟐 n2 N2
⋮ ⋮ ⋮
𝐱𝐤 nk Nk
Total n

Y es que el valor de la mediana 𝐱̃ es el carácter que se ubica en el reglón de la frecuencia


absoluta acumulada Ni previamente identificada.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Ejemplo
En una planta de producción de chips se contabilizaron el número de defectos en cada
chip, con la información recolectada se solicita hallar la mediana de los defectos hallados
en los productos.

Número de
𝐧𝐢 𝐍𝐢
Defectos
0 25 25
1 43 68
2 27 95
3 12 107
Total 107

107
Clase mediana = = 53.5
2

x̃ = 1 defecto
La planta de producción encontró como mediana, un defecto por chip.

• Si la variable se muestra a través de una distribución estadística de frecuencias con clases


la mediana empieza su cálculo al identificar la clase mediana definida por:

n
Clase mediana =
2

El valor hallado se buscará en la columna de la frecuencia absoluta acumulada Ni

Frecuencia Absoluta
Clases Frecuencia Absoluta
Acumulada
𝐧𝐢
𝐍𝐢
𝑳𝐢𝟏 𝐿s1 n1 N1
𝑳𝒔𝟏 𝐿𝑠2 n2 N2
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk Nk
Total n

n
− Ni−1
2
x̃ = Li + A
ni

Donde Li es el límite inferior de la clase mediana, Ni−1 es la frecuencia absoluta


acumulada anterior a la clase mediana, ni es la frecuencia absoluta de la clase mediana
y A es la amplitud de la clase.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Ejemplo
En la última etapa del proceso de producción de chips se mide la longitud de los chips
que están listos para la distribución al público. Hallar la longitud mediana de los chips

Longitud
𝐧𝐢 𝐍𝐢
(mm)
1200 1400 100 100
1400 1600 85 185
1600 1800 55 240
1800 2000 35 275
Total 275

275
Clase mediana = = 137.5
2

275
− 100
2
x̃ = 1400 + ∗ 200
85

La longitud mediana de los chips fue 1488.23mm

3. Moda

• Si la variable se muestra a través de una distribución estadística de frecuencias sin clases


la moda es el carácter que asocia la mayor frecuencia absoluta.

Ejemplo
En una planta de producción de chips se contabilizaron el número de defectos en cada
chip, con la información recolectada se solicita hallar la moda de los defectos hallados en
los productos.

Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107

La planta de producción encontró que la cantidad de defectos más frecuentes en los chips
fue 1.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


• Si la variable se muestra a través de una distribución estadística de frecuencias con clases
la moda se calcula tras identificar la clase modal (frecuencia absoluta mayor)

Frecuencia Absoluta
Clases Frecuencia Absoluta
Acumulada
𝐧𝐢
𝐍𝐢
𝑳𝐢𝟏 𝐿s1 n1 N1
𝑳𝒔𝟏 𝐿𝑠2 n2 N2
𝑳𝒔𝟐 𝐿𝑠3 n3 N3
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk Nk
Total n

d1
Mo = Li + A
d1 + d2

Donde Li es el límite inferior de la clase modal, d1 es la diferencia entre la Ni de la clase


modal y Ni−1 , d2 es la diferencia entre la Ni+1 y Ni de la clase modal y A es la amplitud
de la clase.

Ejemplo
En la última etapa del proceso de producción de chips se mide la longitud de los chips
que están listos para la distribución al público. Calcular la moda de la longitud de los
chips

Longitud
𝐧𝐢 𝐍𝐢
(mm)
1200 1400 100 100
1400 1600 85 185
1600 1800 55 240
1800 2000 35 275
Total 275

d1 = 100 − 0 = 100 y d2 = 185 − 100 = 85

100
Mo = 1200 + ∗ 200 = 1270.17mm
100 + 85

La longitud modal de los chips fue de 1270.17mm.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


MEDIDAS DE DISPERSIÓN

Las medidas de dispersión indican la variabilidad de los caracteres en torno a su valor promedio
(generalmente la media aritmética), de tal forma que se puede detectar si los caracteres se
encuentran muy o poco esparcidos en torno al valor central.

Varianza

La varianza es una medida adimensional, definida por el promedio de la distancia al cuadrado de


cada uno de los datos xi respecto de la media x̅. Se calcula de la forma siguiente:

∑ki=1(xi − x̅)2
s2 =
n−1

Es importante considerar que cuando la función se divide para n -1 se están analizando muestras,
y si se divide para n el análisis es para la población.

Ejercicio
Calcular la varianza del número de usuarios en Twiter por manzana tomados de un estudio del
uso de redes sociales.

Número de usuarios
en Twiter
(personas)
19
22
35
18
17

(19 − 22)2 + (22 − 22)2 + (35 − 22)2 + (18 − 22)2 + (17 − 22)2
s2 = = 54.7
5−1

Observación: la media para el desarrollo del ejercicio fue calculado en el apartado de medidas de tendencia central

La varianza del número de usuarios en Twiter por manzana es de 54.7

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Desviación estándar

A la raíz cuadrada positiva de la varianza se le llama desviación estándar o desviación típica, y se


le denota por la letra s. Así, para su cálculo se usa la siguiente fórmula:

∑ki=1(xi − x̅)2
𝑠=√
n−1

Esta medida dimensional permite analizar el grado de alejamiento entre cada uno de los
caracteres de la variable con respecto a la media aritmética.

Ejercicio
Calcular la desviación estándar del número de usuarios en Twiter por manzana tomados de un
estudio del uso de redes sociales.

Número de usuarios
en Twiter
(personas)
19
22
35
18
17

(19 − 22)2 + (22 − 22)2 + (35 − 22)2 + (18 − 22)2 + (17 − 22)2
𝑠=√ = 7.39 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠
5−1

Observación: la media para el desarrollo del ejercicio fue calculado en el apartado de medidas de tendencia central

La desviación estándar del número de usuarios en Twiter por manzana fue de 7 personas lo que
indica que la media del número de usuarios en Twiter puede variar entre 22 ± 7 personas

Rango

El rango de una variable cuantitativa X formada por x1 , x2 , x3 , … , xk caracteres se define como la


longitud entre el carácter mínimo y el máximo, su función viene dada por:

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


R = Xmáx − Xmín

Esta medida se utiliza para el cálculo aproximado de la desviación estándar bajo los siguientes
criterios

R R
s≈ si n ≤ 16 s≈ si 16 < n ≤ 100
√n 4

R R
s≈ si 100 < n ≤ 400 s≈ si n > 400
5 6

Ejercicio
Calcular el rango del número de usuarios en Twiter por manzana tomados de un estudio del uso
de redes sociales.

Número de usuarios
en Twiter
(personas)
19
22
35
18
17

R = 35 − 17 = 18 personas

La amplitud del número de usuarios en Twiter por manzana fue de 18 personas

Coeficiente de Variación

Sea X una variable cuantitativa formada por x1 , x2 , x3 , … , xk caracteres donde x


̅ es su media y s
su desviación estándar, el coeficiente de variación se define por:

s
CV = ∗ 100

El coeficiente de variación calculado para una única variable permite identificar si los caracteres
son homogéneos o heterogéneos. Si el CV es mayor al 20% los caracteres serán heterogéneos.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


Por otro lado sirve para comparar la dispersión de dos o más conjuntos de datos de variables
cuantitativas.

Ejercicio
Calcular el coeficiente de variación del número de usuarios en Twiter por manzana tomados de
un estudio del uso de redes sociales.

Número de usuarios
en Twiter
(personas)
19
22
35
18
17

7 personas
CV = ∗ 100 = 31.8%
22 personas

La variable número de usuarios en Twiter almacena datos heterogéneos.

Cuando los variables se muestran a través de distribuciones de frecuencias con y sin intervalos,
el cálculo de las medidas de dispersión sigue el siguiente proceso

1. Desviación estándar

• Si la variable se muestra a través de una distribución estadística de frecuencias sin clases


la desviación estándar se calcula por:

Variable Frecuencia Absoluta


X 𝐧𝐢
𝐱𝟏 n1
𝐱𝟐 n2
⋮ ⋮
𝐱𝐤 nk
Total n

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


∑ki=1 ni (xi − x̅)2
𝑠=√
n−1

Ejemplo
En una planta de producción de chips se contabilizaron el número de defectos, con la
información recolectada se solicita calcular la desviación estándar de defectos hallados
en los productos.

Número de
𝐧𝐢
Defectos
0 25
1 43
2 27
3 12
Total 107

x̅ = 1 defecto

25(0 − 1)2 + 43(1 − 1)2 + 27(2 − 1)2 + 12(3 − 1)2


s=√ = 10 defectos
107 − 1

La planta de producción encontró una desviación de 10 defectos con respecto a la media


por lo que el número de defectos en chips puede variar entre 1 ± 10 defcctos (en casos como
este el intervalo inferior se descarta ya que no existen -9 defectos y se considera como 0).

• Si la variable se muestra a través de una distribución estadística de frecuencias con clases


la desviación estándar se calcula por:

Clases Frecuencia Absoluta Marca de Clase


𝐧𝐢 𝐜𝐢
𝑳𝐢𝟏 𝐿s1 n1 c1
𝑳𝒔𝟏 𝐿𝑠2 n2 c2
⋮ ⋮ ⋮ ⋮
𝑳𝐬𝐤−𝟏 𝐿sk nk ck
Total n

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.


∑ki=1 ni (ci − x̅)2
𝑠=√
n−1

Ejemplo
En la última etapa del proceso de producción de quesos se pesaron las unidades que están
listas para la distribución al público. Calcular la desviación estándar del peso de los
quesos.

Pesos
𝐧𝐢 𝐜𝐢
(gr)
1200 1400 100 1300
1400 1600 85 1500
1600 1800 55 1700
1800 2000 35 1900
Total 275

x̅ = 1518.1 gr

100(1300 − 1518.1)2 + 85(1500 − 1518.1)2 + 55(1700 − 1518.1)2 + 35(1900 − 1518.1)2


s=√
275 − 1

s = 206.72 gr

La planta de producción encontró una desviación de 206.72 gr con respecto a la media por
lo que el promedio del peso transportado puede variar entre 1518.1 ± 206.72 gr.

Observación:

Las fórmulas del rango y coeficiente de variación no sufren cambios por lo no existe necesidad
de proponer nuevas fórmulas para sus cálculos, en cuanto a la varianza no se la estudia en este
apartado considerando que es una medida adimensional.

Estadística y Probabilidades Ing. Alexandra Marcatoma Tixi Msc.

También podría gustarte