Está en la página 1de 21

INSTITUTO TECNOLÓGICO NACIONAL DE MÉXICO

TECNOLÓGICO DE CAMPECHE

CARRERA: INGENIERÍA INDUSTRIAL

Nombre de la asignatura:

Clave de la asignatura:

Grupo:

Nombre del trabajo:

Alumno: Didier Gaspar Dzib Avilez.

Matrícula: 22470126.
Unidad 4.

Docente:

San Francisco de Campeche, Campeche, México.

Fecha:

1
¿Qué es la Estadística moderna? ¿Por qué estudiarla?

La Estadística moderna es una disciplina matemática que se enfoca en la


recopilación, análisis, interpretación y presentación de datos para comprender
patrones, tendencias y relaciones en diferentes fenómenos. Utiliza métodos
avanzados y herramientas estadísticas, como el análisis multivariado, modelos de
regresión, técnicas de muestreo y métodos
de inferencia, para extraer información
significativa de los datos y tomar decisiones
informadas en diversos campos como la
ciencia, la industria, la medicina y la
investigación social. La Estadística moderna
también abarca la utilización de software y
tecnologías computacionales para analizar
datos de manera eficiente y precisa.

Es una ciencia que enseña a una persona a pensar de forma lógica, por lo tanto,
consigue desarrollar habilidades para la resolución de operaciones y tomar
decisiones. Algunos de los temas más predominantes para niños de primaria
deben ser: fracciones, operaciones simples, sumas.

Partes en que se divide la estadística moderna para su estudio:

La estadística para su mejor estudio se ha dividido en dos ramas las cuales son:
estadística descriptiva y estadística inferencial.

★ ESTADÍSTICA DESCRIPTIVA: Consiste en la presentación de datos en forma


de tablas y gráficas. Esta comprende cualquier actividad para resumir o
describir los mismos factores pertinentes adicionales, esto se refiere a no
intentar nada que vaya más allá de los datos.
★ ESTADÍSTICA INFERENCIAL: Se deriva de las observaciones hechas solo a
una parte de un conjunto numeroso de elementos; implicando así que su
análisis requiera de generalizaciones que van más allá de los datos, como
consecuencia la característica más importante del crecimiento de la

2
estadística ha sido un cambio en el énfasis de los métodos que sirven para
generalizarlas. En otras palabras, la estadística inferencial investiga y analiza
una población partiendo de una muestra tomada.

El método científico en la Estadística:

El método científico en la Estadística es un enfoque sistemático para formular


preguntas, diseñar experimentos o estudios, recopilar datos, analizarlos mediante
técnicas estadísticas y llegar a conclusiones objetivas basadas en la evidencia
numérica. Se basa en la observación, la formulación de hipótesis, la recopilación
de datos, el análisis y la interpretación de resultados, y se aplica para generar
conocimiento confiable y fundamentado en el campo de la Estadística.

Métodos para la obtención de datos:

Hay muchas maneras de recolectar información en una investigación. El método


elegido por el investigador depende de la pregunta de investigación que se
formule. Algunos métodos de recolección de información incluyen encuestas,
entrevistas, pruebas, evaluaciones fisiológicas, observaciones, revisión de
registros existentes y muestras biológicas.

● Encuesta: Una encuesta es una serie de preguntas dirigidas a los participantes en


la investigación. Las encuestas pueden ser administradas en persona, por
correo, teléfono o electrónicamente. También pueden administrarse a un
individuo o a un grupo.
● Entrevista: Una entrevista es una interacción que involucra al investigador y a un
participante en que las preguntas se formulan en persona, por teléfono o incluso
de manera electrónica . Durante una entrevista, se hacen preguntas para obtener
información detallada sobre el participante acerca del tema de estudio.
● Prueba: Una prueba es una forma o una tarea física o mental para la cual se ha
determinado un estándar normal, o para la cual se conoce las respuestas
correctas. El desempeño de un participante en una prueba es comparado contra
estos estándares y/o respuestas correctas. Las pruebas son usadas en la
investigación para determinar la aptitud, habilidad, conocimiento, estado de salud

3
física o mental del participante en comparación a la población en general. Las
pruebas pueden ser administradas en persona, por escrito o por un medio
electrónico.
● Evaluaciones Fisiológicas: Son medidas en que las características físicas de un
participante son registradas, como la presión arterial, ritmo cardíaco o fortaleza
física. En una investigación relacionada con la salud, la evaluación fisiológica
puede utilizarse para determinar el estado de salud de un participante antes,
durante o después de ser parte en un estudio.
● Observaciones: Las observaciones son registros tomados que no requieren
participación. Estos registros se hacen mientras los participantes están
involucrados en conductas rutinarias y se utilizan como un indicador de lo que los
participantes hacen, en lugar de apoyarse completamente en los relatos de
participantes sobre su propia conducta.
● Revisión de Registros: La revisión de registros tiene lugar cuando un investigador
examina y extrae información de documentos que contienen datos sobre el
participante. Los registros revisados en una investigación pueden ser públicos o
privados. Ejemplo de ello es un investigador recolectando información acerca de
un padecimiento a partir de los historiales médicos de los pacientes.
● Muestras Biológicas: Las muestras biológicas son sustancias que son tomadas de
una persona y se utilizan para medir información fisiológica. Un ejemplo sería
hacer un examen de sangre para determinar el contenido de azúcar en un
paciente diabético.

4
¿En qué consiste el principio “BEBS” (Basura Entra, Basura Sale) o “GIGO”
(en inglés)?

El principio "BEBS" (Basura Entra, Basura Sale) es un acrónimo que hace


referencia a la idea de que la calidad de la salida de un sistema informático está
determinada por la calidad de la entrada que recibe. En otras palabras, si se
introduce información incorrecta, incompleta o defectuosa en un sistema, la salida
también será incorrecta, incompleta o defectuosa. Este principio se aplica a
diferentes aspectos de la informática y la programación, y subraya la importancia
de garantizar que los datos de entrada sean precisos y adecuados para obtener
resultados confiables y útiles.

El término "GIGO" es la sigla en inglés de "Garbage In, Garbage Out", que es


equivalente al principio "BEBS" en español. Esta expresión se utiliza para enfatizar
cómo la calidad de los resultados de un sistema computacional está
intrínsecamente ligada a la calidad de los datos que se le proporcionan como
entrada. Si se alimenta un sistema con información incorrecta o de baja calidad,
los resultados generados por ese sistema también serán de baja calidad o
incorrectos.

Tanto el principio "BEBS" como el término "GIGO" destacan la importancia de la


integridad de los datos de entrada y la necesidad de realizar validaciones y
controles para asegurarse de que los datos sean precisos y apropiados antes de
utilizarlos en un proceso informático.

¿Cómo recolectar datos?

● Observación: Si lo que deseas es conocer el comportamiento de tu objeto de


estudio de forma directa, hacer una observación es una de las mejores
técnicas. Es una forma discreta y sencilla de inspeccionar datos sin depender
de un intermediario. Este método se caracteriza por no ser intrusivo y requiere
evaluar el comportamiento del objeto de estudio por un tiempo continuo, sin
intervenir.

5
● Cuestionarios o encuestas: Consiste en obtener datos directamente de los
sujetos de estudio a fin de conseguir sus opiniones o sugerencias. Para lograr
los resultados deseados con esta técnica es importante tener claros los
objetivos de tu investigación.

Los cuestionarios o encuestas brindan información más amplia; sin embargo,


debes aplicarlos cuidadosamente. Para ello tienes que definir qué tipo de
cuestionario es más eficiente para tus propósitos. Algunos de los más populares
son:

Cuestionario abierto: se usa para conocer a profundidad la perspectiva de las


personas sobre un tema específico, analizar sus opiniones y obtener información
más detallada.

Cuestionario cerrado: sirve para obtener gran cantidad de información, pero las
respuestas de las personas son limitadas.

● Focus group: Este método cualitativo consiste en una reunión en la que un


grupo de personas opinan sobre un tema en específico. Una de las cualidades
de esta herramienta es la posibilidad de obtener diversas perspectivas sobre un
mismo tema para llegar a la solución más adecuada.
● Entrevistas: Este método consiste en recopilar la información formulando
preguntas. A través de la comunicación interpersonal, el emisor obtiene
respuestas verbales del receptor sobre un tema o problema en específico.
● Formularios de contacto: Un formulario en un sitio web es una gran fuente de
datos que los usuarios aportan de manera voluntaria. A tu marca le sirve para
conocer su nombre, correo electrónico, ubicación, entre otros datos relevantes;
también te ayudan a segmentar el mercado para que generes mejores
resultados de conversión.
● Fuentes abiertas: Para entender aún más tu negocio acude a fuentes abiertas
para obtener datos valiosos. Encuentra información pública y gratuita en
páginas gubernamentales, universidades, instituciones independientes,
organizaciones sin fines de lucro, grandes compañías, plataformas de análisis
de datos, agencias, revistas especializadas, entre otras.

6
● Historial de conversaciones: Guardar las conversaciones que se generan en el
chat de tu sitio web, en las redes sociales, chatbots, correos electrónicos,
incluso llamadas y videollamadas con los clientes es también una técnica
eficiente de recolección de datos.

Tipos de datos estadísticos:

● Cualitativos: Este tipo de datos no son cuantificables y se pueden expresar tanto


con palabras como con números. Hacen referencia a características de aquello
que está siendo estudiado. Pueden clasificarse a su vez en:
➔ Nominales: Los datos nominales son aquellos que expresan con un nombre
una cualidad que no tiene por qué ser ordenable.
➔ Ordinales: Expresan una cualidad a través de un dato que es posible
ordenar a través de una escala previamente definida.
● Cuantitativos: Estos datos son expresados en números y sí que pueden medirse.
Pueden ser a su vez:
➔ Discretos: Los valores que pueden tomar vienen dados entre intervalos
finitos de datos. Es decir, las opciones de este tipo de datos están limitadas
a una serie de valores (Pensemos en los números enteros).
➔ Continuos: Estos datos se extraen de un intervalo de valores totalmente
infinito, por lo que el número de datos diferentes que se puede obtener es
ilimitado.

7
Propiedades que describen una serie numérica de datos:

Las propiedades clave que describen una serie numérica de datos son:

● Media: Representa el promedio de los valores.


● Mediana:Es el valor central cuando los datos se ordenan.
● Moda: El valor más frecuente en los datos.
● Varianza: Mide la dispersión de los valores respecto a la media.
● Desviación Estándar: Indica la dispersión promedio de los valores.
● Rango: Diferencia entre el valor máximo y mínimo.
● Percentiles: Dividen los datos en porciones según su posición.
● Cuartiles: Divisiones específicas en cuartos de los datos.
● Valores Atípicos: Valores extremos que difieren del resto.
● Distribución: La forma en que los valores se distribuyen.
● Covarianza y Correlación: Relación entre conjuntos de datos.

Estas propiedades proporcionan información esencial sobre la tendencia central,


dispersión y relación de los datos en una serie numérica.

Datos no agrupados, medidas de tendencia central:

Las medidas de tendencia central para datos no agrupados son un conjunto de


indicadores estadísticos que van a mostrar hacia qué valores se agrupan los datos
numéricos, es decir, son medidas estadísticas que buscan resumir en un solo
valor un conjunto de valores.

● Media Aritmética: También conocida simplemente como "promedio", se calcula


sumando todos los valores en un conjunto de datos y dividiéndolos por la
cantidad total de valores. Es una medida de tendencia central que puede
verse afectada por valores extremadamente altos o bajos, lo que se conoce
como "valores atípicos" o "outliers".

8
● Media Ponderada: Similar a la media aritmética, pero en este caso, se asigna
un peso a cada valor antes de calcular la media. Esto significa que algunos
valores pueden tener más influencia en el resultado final que otros. Se calcula
multiplicando cada valor por su peso correspondiente, sumando estos
productos y luego dividiendo entre la suma total de los pesos.
● Mediana: Es el valor que divide el conjunto de datos en dos partes iguales: la
mitad de los valores estarán por encima de la mediana y la otra mitad por
debajo. Para calcularla, primero debes ordenar los datos de menor a mayor y
luego encontrar el valor que está en la mitad de la lista. Si hay un número
impar de valores, la mediana será ese valor exacto; si el número de valores es
par, la mediana será el promedio de los dos valores centrales.
● Moda: Es el valor que más se repite en un conjunto de datos. Puede haber
una moda (monomodal) si solo hay un valor que se repite con mayor
frecuencia, o incluso varios valores que se repiten con la misma frecuencia
máxima (multimodal). También es posible que no haya una moda si todos los
valores son diferentes.

Estas medidas son útiles para resumir y comprender las características centrales
de un conjunto de datos. Dependiendo de la distribución de los datos y el contexto
del análisis, diferentes medidas pueden ser más apropiadas para resaltar ciertos
aspectos.

Comparación entre la Media, Mediana y moda (ventajas y desventajas)

Ventajas de la media:

● Es sencilla de calcular la razón por la cual es la medida de tendencia más usada.


● Es estable con un número grande de observaciones.
● A la hora de realizar su cálculo, hace uso de todos los datos posibles.
● Es de gran utilidad en procedimientos estadísticos.
● Es susceptible a cualquier cambio en los datos, funcionando de esta manera
como un detector de variaciones en datos.

9
Desventajas:

● Suele ser sensible a valores demasiado altos o demasiado bajos.


● Es imposible realizar cálculos de tipo cualitativo o datos que tengan clases de
extremo abierto, bien sean inferiores como superiores.
● Debemos evitar emplearla en distribuciones que sean asimétricas.

Ventajas de la moda:

● No requiere de cálculos.
● Se puede emplear tanto en cálculos cualitativos como cuantitativos.
● No se ve para nada influenciada por algún valor extremo.
● Puede ser de gran utilidad cuando tenemos valores distintos en
agrupaciones.
● Se pueden calcular en clases de extremo abierto.

Desventajas:

● Es difícil de interpretar los datos si tiene más de tres modas, o más.


● Si tenemos un conjunto de datos reducido su valor no tiene utilidad.
● Si hay datos que se repiten no suele existir.
● No usa toda la información de datos disponibles.
● Generalmente se encuentra demasiado lejos de la mitad de los datos obtenidos.

Ventajas de la mediana:

● Es fácil de calcular si el número de datos no es tan grande.

10
● Su influencia por valores extremos es nula, ya que sólo lo influyen los
valores centrales.
● Se puede aplicar para realizar un cálculo de datos cuantitativos, hasta
datos con clase extrema abierta.
● Admite la escala ordinal. Convirtiéndola en la medida de tendencia
central más representativa en toda clase de variables.

Desventajas:

● No se hace uso de toda la información que tenemos al realizar su


cálculo.
● Para utilizarla debemos ordenar toda la información primero.
● No hace una ponderación de los valores antes de determinarla.
● Los valores extremos tienen probabilidades de ser importantes.

Datos no agrupados, medidas de dispersión:


Los datos no agrupados son el conjunto de datos que no se ha clasificado y se es
presentado en su forma de aparición en una tabla de datos donde cada valor se
representa de forma individual. Por lo general este conjunto comprende una
cantidad de elementos menor a 30.

11
● Rango: El rango es la diferencia entre el valor máximo y el valor mínimo en un
conjunto de datos. Proporciona una idea de la amplitud total de los valores. Es
una medida simple y directa, pero puede verse fuertemente influenciada por
valores atípicos y no considera la distribución intermedia de los datos.
● Varianza: La varianza mide la dispersión de los valores respecto a la media
aritmética. La varianza es útil para entender cuánto varían los valores
individuales en relación con la media, pero debido a que las diferencias se
elevan al cuadrado, su interpretación puede ser menos intuitiva.
● Desviación Estándar: La desviación estándar es la raíz cuadrada de la
varianza. Mide la dispersión promedio de los valores en relación con la media.
La desviación estándar se expresa en las mismas unidades que los datos
originales, lo que la hace más interpretable que la varianza.
● Coeficiente de Variación: El coeficiente de variación es una medida de
dispersión relativa que se calcula dividiendo la desviación estándar por la
media aritmética, y luego multiplicando por 100 para expresarlo como un
porcentaje. Esta medida es especialmente útil cuando deseas comparar la
dispersión entre conjuntos de datos que tienen diferentes escalas y medias.
Un coeficiente de variación más bajo indica una menor dispersión en relación
con la media.

El manejo de grandes cantidades de datos:


El manejo de grandes cantidades de datos, también conocido como Big Data, se
refiere al proceso de recolectar, almacenar, procesar y analizar conjuntos de datos
masivos y complejos que superan la capacidad de herramientas y enfoques
tradicionales. Implica el uso de tecnologías y estrategias especializadas para
obtener información valiosa, patrones y conocimientos significativos a partir de
estos datos voluminosos y heterogéneos. De otra manera se puede decir que la
recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro
de los datos permiten que las empresas se muevan mucho más rápidamente, sin
problemas y de manera eficiente. También les permite eliminar las áreas
problemáticas antes de que los problemas acaben con sus beneficios o su
reputación.

12
Datos agrupados, medidas de tendencia central:

Los datos agrupados son conjuntos de datos que han sido organizados en
categorías o grupos, en lugar de tratarse como valores individuales. Las medidas
de tendencia central son estadísticas utilizadas para describir el valor central o
típico de un conjunto de datos. Estas medidas incluyen la media aritmética
(promedio), la mediana y la moda, y proporcionan una idea de dónde se
concentran los valores en un conjunto de datos agrupados.

Datos agrupados, medidas de dispersión:


Los datos agrupados son conjuntos de datos que han sido organizados en
intervalos o categorías, en lugar de tratarse como valores individuales. Algunas
medidas de dispersión para datos agrupados son:

● Varianza Agrupada: Es una estimación de la variabilidad en los datos


agrupados. Se calcula tomando en cuenta los intervalos y la frecuencia con la
que ocurren en lugar de considerar los valores individuales.
● Desviación Estándar Agrupada: Es la raíz cuadrada de la varianza agrupada.
Indica cuánto se alejan los valores agrupados de la medida central en función
de los intervalos y sus frecuencias.
● Rango Intercuartílico Agrupado (RIQ): Es la diferencia entre el tercer cuartil y
el primer cuartil en un conjunto de datos agrupados. Proporciona una medida
de dispersión que se concentra en el rango intermedio de los datos.
● Coeficiente de Variación Agrupado: Similar al coeficiente de variación para
datos no agrupados, se calcula dividiendo la desviación estándar agrupada

13
por la media agrupada y multiplicando por 100. Permite comparar la dispersión
relativa entre conjuntos de datos agrupados.

Estas medidas de dispersión consideran la distribución de los datos en intervalos y


proporcionan una visión de cómo se esparcen los valores dentro de esos
intervalos.

Datos agrupados, medidas de posición:


Las medidas de posición son aquellas en donde puedes dividir los datos en dos
partes iguales, llamada mediana, lo puedes dividir en cuatro partes iguales
llamado cuartiles, en diez partes iguales llamados deciles y en percentiles dividir
en 100 partes iguales.

Los Cuantiles: (cuartiles, deciles, percentiles) son medidas de localización, su


función es informar del valor de la variable que ocupará la posición (en tanto por
cien) que nos interese respecto de todo el conjunto de variables. Podemos decir
que los Cuantiles son unas medidas de posición que dividen a la distribución en un
cierto número de partes de manera que en cada una de ellas hay el mismo
número de valores de la variable.

Cuartiles: Los cuartiles son los tres valores que dividen al conjunto de datos
ordenados en cuatro partes porcentualmente iguales

Deciles: Los deciles son ciertos números que dividen la sucesión de datos
ordenados en diez partes porcentualmente iguales. Son los nueve valores que
dividen al conjunto de datos ordenados en diez partes iguales, son también un
caso particular de los percentiles, ya que podemos definir Decil como "percentil"
cuyo valor que indica su proporción es un múltiplo de diez. Percentil 10 es el
primer decil, percentil 20 el segundo decil, etc”

Percentiles o centiles: Los percentiles son, tal vez, las medidas más utilizadas
para propósitos de ubicación o clasificación de las personas cuando atienden
características tales como peso, estatura, etc. Los percentiles son ciertos números
que dividen la sucesión de datos ordenados en cien partes porcentualmente

14
iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de
datos ordenados. Sencillamente Percentil es el valor del recorrido de una variable,
bajo el cual se encuentra una proporción determinada de la población.

Rango intercuartílico: En estadística descriptiva, se le llama rango intercuartílico o


rango intercuartil, a la diferencia entre el tercer y el primer cuartil de una
distribución. Es una medida de la dispersión estadística. A diferencia del rango, se
trata de un estadístico robusto.

Las distribuciones de frecuencias, frecuencias relativas y de porcentajes:

Una distribución de frecuencia relativa describe los porcentajes del número total
de observaciones correspondiente a cada categoría. Una distribución de
frecuencia relativa no nos indica cuál es el número de observaciones en cada
categoría, sino cuál es el porcentaje de observaciones en cada categoría.

Los conceptos clave en estadísticas descriptivas


para organizar y resumir datos son las
distribuciones de frecuencia, las frecuencias
relativas y los porcentajes. A continuación se
ofrece una explicación detallada sobre cada uno
de estos conceptos:

La distribución de frecuencias consiste en


organizar los datos en categorías o intervalos y determinar cuántas veces aparece
cada valor o intervalo en el conjunto completo. Es particularmente beneficioso al
tratar con conjuntos grandes, ya que permite visualizar la distribución general de
los valores.

Las frecuencias relativas se refieren a las proporciones o fracciones que indican


cuántas veces ocurre un valor o intervalo en relación con el tamaño total del
conjunto de datos. Estos cálculos se obtienen dividiendo la cantidad absoluta de
uno de estos valores por el tamaño total del conjunto. Al expresar estas
frecuencias como porcentajes relativos, podemos visualizar cómo están
distribuidos los datos y evitamos trabajar con cantidades absolutas.

15
Los porcentajes son utilizados para representar las frecuencias relativas como un
valor proporcional a 100. Se realiza la multiplicación de las frecuencias relativas
por 100, lo cual nos proporciona el correspondiente porcentaje. Este método
facilita una comprensión más intuitiva acerca de la proporción que cada valor o
intervalo representa en relación al total del conjunto de datos.

Los histogramas, el polígono de frecuencias o de porcentajes y la curva de


porcentaje acumulado u ojiva

Un Histograma es la representación gráfica de una tabla de frecuencias. El


histograma puede ser: de frecuencias absolutas, de frecuencias relativas, de
frecuencias absolutas acumuladas y de frecuencias relativas acumuladas.

Más profundamente, el histograma de frecuencias es una representación visual de


los datos en donde se evidencian fundamentalmente tres características: forma,
acumulación o tendencia posicional y dispersión o variabilidad.

16
Un Polígono de Frecuencia es el nombre que recibe una clase de gráfico que se
crea a partir de un histograma de frecuencia. Los histogramas emplean columnas
verticales para reflejar las frecuencias, los polígonos de frecuencia se forman
uniendo los puntos más altos de cada una de las columnas del Histograma.

Podemos observar que el polígono de frecuencia es la línea roja que une el


centro de cada barra del histograma. Sólo se ha dejado el histograma para una
mayor comprensión del concepto que se desea ilustrar.

Una Ojiva se utiliza para representar la frecuencia acumulada. Similar al Polígono


de frecuencia, se forma o se construye uniendo los puntos más altos de cada
columna pero de un Histograma que representa las Frecuencias Acumuladas.

Al estar construido en función de las frecuencias acumuladas permite ver cuántas

observaciones se encuentran por encima o debajo de ciertos valores, en lugar de


solo exhibir los números asignados a cada intervalo.

17
En este caso la Ojiva es la línea azul, pero se ha dejado el Histograma, por dos
razones: (1) Para visualizar un histograma de Frecuencias Acumuladas; y, (2)
Para tener una visión más clara de lo que representa la Ojiva.

En este ejemplo se visualiza claramente lo que se conceptualizó antes, por


ejemplo, se puede ver rápidamente que hay 8 secciones con 39 alumnos o menos.

Cabe destacar que las Ojivas también se pueden hacer a la inversa, comenzando
con la mayor y terminando con la menor frecuencia.

Estos 3 tipos de gráficos son muy útiles y son fáciles de interpretar cuando
estamos trabajando con tablas de frecuencia.

Importancia de la forma de los datos:

Esencial en una distribución estadística, la forma de los datos desempeña un


papel fundamental al proporcionar detalles clave sobre su naturaleza. Además,
tiene el poder de influir tanto en la interpretación como en la toma de decisiones
asociadas a ellos. La descripción de esta forma considera cómo se encuentran
distribuidos los valores dentro del rango posible y puede otorgarnos valiosa
información acerca de patrones, tendencias o características relevantes presentes
en estos datos.

¿Cómo se ubican las medidas de tendencia central dependiendo de la forma?

18
➔Simétrica: Una distribución es simétrica cuando los valores se distribuyen de
manera equitativa a ambos lados de su punto central (generalmente la media,
mediana o moda). En una distribución simétrica, el lado izquierdo y el lado
derecho son similares en forma y tamaño.
➔Asimétrica: Una distribución es asimétrica cuando no es simétrica. En este caso,
los valores se acumulan más hacia uno de los lados de la distribución, lo que
resulta en una apariencia desigual. Puede ser asimétrica positiva (cola larga en el
lado derecho) o asimétrica negativa (cola larga en el lado izquierdo).
➔Sesgada: El sesgo se refiere a la dirección hacia la cual se inclina la distribución.
Una distribución sesgada hacia la derecha (positivamente sesgada) tiene una
cola larga en el lado derecho y tiende a tener valores más bajos en el lado
izquierdo. Una distribución sesgada hacia la izquierda (negativamente sesgada)
tiene una cola larga en el lado izquierdo y valores más bajos en el lado derecho.

En resumen, la ubicación relativa de la media, la mediana y la moda en una


distribución está influenciada por la forma de la distribución y cómo se distribuyen
los valores a lo largo del eje de los datos.

Uso de polígonos para comparar grupos datos:

Los polígonos se utilizan para comparar grupos de datos al representar las


distribuciones de frecuencia de manera suave y continua. Superponer varios
polígonos en un gráfico permite visualizar las diferencias y similitudes entre los
grupos, ayudando a identificar tendencias, comparar medidas de tendencia central
y entender cómo se distribuyen los datos en cada grupo.

Medidas de forma:

Las medidas de forma son indicadores estadísticos que describen la forma de una
distribución de datos. Dos medidas comunes de forma son la curtosis y la
asimetría.

➔Curtosis: La curtosis se define como la medida de cuán concentrados están los


valores en las colas de una distribución, comparada con una distribución normal.
Si la curtosis es alta, esto indica que hay más valores extremos y pesados en las

19
colas en relación a una distribución normal. Por otro lado, si la curtosis es baja
quiere decir que las colas son más ligeras. Una distribución con alta curtosis se le
llama leptocúrtica mientras que aquella con baja curtosis se denomina
platicúrtica.
➔Asimetría: La medida de asimetría evalúa la falta de simetría en una distribución,
es decir, qué tanto se inclina hacia un lado. Una asimetría positiva (a la derecha)
indica que hay más valores altos y extendidos en la cola de la distribución. Por
otro lado, una asimetría negativa (hacia izquierda) señala mayor presencia de
valores bajos en dicha cola. Cuando los valores están uniformemente
equilibrados sin favoritismos por algún extremo se consideran simétricos con
cercan í a cero su grado de asimetría composición global

Estas medidas contribuyen a una mejor comprensión de la forma y rasgos de una


distribución de datos, suministrando información adicional más allá de las
medidas tradicionales como media y desviación estándar.

Teorema de Chebyshev:

En probabilidad, la desigualdad de Chebyshov (también escrito de Chebychev)


es un resultado que ofrece una cota inferior a la probabilidad de que el valor de
una variable aleatoria con varianza finita esté a una cierta distancia de su
esperanza matemática. La desigualdad recibe su nombre del matemático ruso
Pafnuti Chebyshov.

En la literatura, a este tipo de desigualdades, cuya característica es la


comparación de la probabilidad de la cola de la distribución y su valor esperado,
se le conoce como desigualdades tipo Chebyshev.

Estas desigualdades son la herramienta básica para demostrar resultados como la


ley de los grandes números, entre otros. Además de que tienen aplicaciones en
estadística, así como en otras áreas de las matemáticas.

El teorema de Chebyshev indica que para cualquier k> 1, al menos 1- 1/k 2 de los
datos está dentro de k desviaciones estándar de la media. Como se ha indicado,

20
el valor de k debe ser mayor que 1. Utilizando esta fórmula y conectando el valor
2, obtenemos un valor resultante de 1- 1/2 2, que es igual al 75%.

Gráficas para datos cualitativos o categóricos:

❖ Gráfica de barras y gráfica de pastel

https://youtu.be/K9ICF8bl7vM

21

También podría gustarte