Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y estadística
Introducción
2
En este trabajo se trataran los múltiples conceptos desde lo que es la estadística hasta
otro conceptos como lo son los datos cuantitativos y cualitativos, como estos se vinculan
con la estadística, aprovechando así la información previa a esta que los alumnos ya
conocen más la que se aprenderá próximamente conociendo cada uno de estos temas
desde luego y como no solo se vinculan con la estadística sino con la vida cotidiana y más
que nada en la época actual la cual es de múltiple desarrollo tales como científicos,
tecnológicos, entre otros dando utilización de esta.
Índice
3
¿Qué es la estadística moderna? ¿Por qué estudiarla?, partes de la estadística y el método
científico de la estadística 4y5
Métodos para la obtención de datos, principio “BEBS” (GIGO en inglés) (basura entra
basura sale), ¿Cómo recolectar datos?, tipos de datos estadísticos y Propiedades que
describen una serie numérica de datos 6
8 Medidas de dispersión para cantidades pequeñas de datos: rango, varianza, desviación
estándar, coeficiente de variación.
Rango: En estadística descriptiva se denomina rango estadístico (R) o recorrido
estadístico, a la diferencia entre el valor máximo y el valor mínimo; por ello, comparte
unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto
mayor es el rango, más dispersos están los datos de un conjunto.
Por ejemplo, para una serie de datos de carácter cuantitativo, como lo es la estatura
medida en centímetros, tendríamos:
es posible ordenar los datos como sigue:
donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De
este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es
lo mismo
En nuestro ejemplo, con cinco valores, nos da que R= 185-155 = 30
•Varianza: esta medida se basa en la cuantificación de las distancias delos datos con
respecto al valor de la media.
por ejemplo: en los casos en que la variable mide una distancia en kilómetros, su varianza
se expresa en kilómetros al cuadrado.
•Desviación estándar: es la raíz cuadrada positiva de la varianza. La
desviación estándar muestral o desviación típica o error maestral, está
expresada en las mismas unidades de medición que los datos de la muestra.
•Coeficiente de variación: Es un número que se usa para comparar la variabilidad de los
datos de diferentes grupos.
9 El manejo de grandes cantidades de datos
Medidas de posición, Cuantíales: cuartiles, Deciles, Percentiles, Rango intercuartilico.
Medidas de posición
Las medidas de posición relativa se llaman en general cuantiles y se pueden clasificar en
tres grandes grupos: Cuartiles, Deciles, percentiles.
Las medidas de posición como los cuartiles, quintiles y percentiles dividen a una
distribución ordenada en partes iguales.
Para calcular las medidas de posición es necesario que los datos estén ordenados de
menor a mayor.
a - Los Cuartiles (Qn): son los tres valores de la variable de una distribución que la dividen
en cuatro partes iguales, es decir, al 25%, 50% y 75%. Para calcular el valor de uno de los
cuatro Cuartiles, se utiliza la fórmula:
Qk = k (N/4)
En donde:
Qk = Cuartil número 1, 2, 3 ó 4
N = total de datos de la distribución.
Se advierte que la posición del segundo cuartil corresponde a la ubicación de la mediana,
es decir que el segundo cuartil será siempre igual a la mediana.
b - Los Deciles: Corresponden a los 9 valores que dividen a estos en 10 partes iguales, es
decir, al 10%, al 20%... y al 90%. Los Deciles se designan por D1, D2,..., D9
c- Los percentiles (Pn): son los noventa y nueve valores de la variable de una distribución
que la dividen en cien partes iguales, es decir, al 1%, al 2%... y al 99% de los datos. Los
percentiles se designan por P1, P2,... P99
Para calcular medidas de posición podemos considerar lo siguiente:
El primer cuartil (Q1) es el valor de la variable que supera a lo más el 25 % de los datos y
es superado por a lo más el 75 % de ellos en la distribución ordenada de menor a mayor.
El segundo cuartil (Q2) es un valor que supera a lo más el 50 % de los datos y es superado
por a lo más el 50 % de ellos, es decir, Q2 coincide con la mediana. El tercer cuartil (Q3) es
un valor que supera a lo más al 75 % de los datos y es superado por algo más el 25 % de
ellos.
El percentil p (Pp) es un valor de la variable tal que el p% de la muestra está por debajo y
el (100p) % está sobre.
10 Para calcular el percentil Pk correspondiente al k% de los datos se puede utilizar la
siguiente fórmula:
Donde:
Li es el límite inferior del intervalo donde se encuentra el k% de los datos.
ai es la amplitud del intervalo donde se encuentra el k% de los datos.
fi es la frecuencia absoluta del intervalo donde se encuentra el k% de los datos.
Fi-1 es la frecuencia acumulada anterior al intervalo donde se encuentra el k% de los
datos.
n es el total de datos.
En estadística descriptiva, se le llama rango intercuartílico o rango intercuartil, a la
diferencia entre el tercer y el primer cuartil de una distribución. Es una medida de la
dispersión estadística. A diferencia del rango, se trata de un estadístico robusto.
11 Los histogramas
El histograma es aquella representación gráfica de estadísticas de diferentes tipos. La
utilidad del histograma tiene que ver con la posibilidad de establecer de manera visual,
ordenada y fácilmente comprensible todos los datos numéricos estadísticos que pueden
tornarse difíciles de entender. Hay muchos tipos de histogramas y cada uno se ajusta a
diferentes necesidades como también a diferentes tipos de información.
Los histogramas son utilizados siempre por la ciencia estadística. Su función es exponer
gráficamente números, variables y cifras de modo que los resultados se visualicen más
clara y ordenadamente. El histograma es siempre una representación en barras y por eso
es importante no confundirlo con otro tipo de gráficos como las tortas. Se estima que por
el tipo de información brindada y por la manera en que ésta es dispuesta, los histogramas
son de especial utilidad y eficacia para las ciencias sociales ya que permiten comparar
datos sociales como los resultados de un censo, la cantidad de mujeres y/o hombres en
una comunidad, el nivel de analfabetismo o mortandad infantil, etc.
Para un histograma existen dos tipos de informaciones básicas (que pueden ser
complementados o no de acuerdo a la complejidad del diseño): la frecuencia de los
valores y los valores en sí. Normalmente, las frecuencias son representadas en el eje
vertical mientras que en el horizontal se representan los valores de cada una de las
variables (que aparecen en el histograma como barras bi o tridimensionales).
Existen diferentes tipos de histogramas. Los histogramas de barras simples son los más
comunes y utilizados. También están los histogramas de barras compuestas que permiten
introducir información sobre dos variables. Luego están los histogramas de barras
agrupadas según información y por último el polígono de frecuencias y la ojiva porcentual,
ambos sistemas utilizados normalmente por expertos. Trabajar con histogramas es muy
12 simple y seguramente proveerá con una mejor comprensión de diferente tipo de datos e
información.
Polígono de frecuencia
Polígono de frecuencia es el nombre que recibe una clase de gráfico que se crea a partir
de un histograma de frecuencia. Estos histogramas emplean columnas verticales para
reflejar frecuencias): el polígono de frecuencia es realizado uniendo los puntos de mayor
altura de estas columnas.
OJIVA
Concepto:
La ojiva es un polígono de frecuencias acumuladas, es decir, en las abscisas se colocan los
límites superiores de cada intervalo de clase y en las ordenadas se coloca la frecuencia
acumulada (absoluta o relativa) de la clase.
La ojiva es útil para: Calcular el número o el porcentaje de observaciones que
corresponden a un intervalo determinado de la variable
Calcula los percentiles de la distribución de los datos
13 Características de las ojivas:
Muestran frecuencias acumuladas.
Se prefiere para el tratamiento de datos cuantitativos.
El punto de inicio equivale a una frecuencia de 0.
El punto final equivale al 100% de los datos.
Interpretando la información en las ojivas
Dada su ventaja de representar frecuencias acumuladas, las ojivas se convierten en una
herramienta vital para el análisis estadístico.
Importancia de la forma de datos
La importancia de los datos estadísticos se funda en el hecho de que sirven para evaluar la
tendencia futura de un fenómeno determinado. En efecto, luego de un análisis
concienzudo, los datos estadísticos pueden revelar en alguna medida que esperar a futuro
en algún área de la actividad humana. Es por ello que la forma de recopilación de dichos
datos es fundamental, buscando en todo momento que sean representativos de un
universo más grande. Algunas de las aplicaciones de este procedimiento estadístico en
función de datos recopilados pueden referir al ámbito de la política, de las finanzas, del
mercadeo, etc.
14 simetría, asimetría o sasgada (medidas de tendencia central)
La simetría (del griego σύν "con" y μέτρον "medida") es un rasgo característico de formas
geométricas, sistemas, ecuaciones y otros objetos materiales, o entidades abstractas,
relacionada con su invariancia bajo ciertas transformaciones, movimientos o intercambios.
En condiciones formales, un objeto es simétrico en lo que concierne a una operación
matemática dada si el resultado de aplicar esa operación o transformación al objeto, el
resultado es un objeto indistinguible en su aspecto del objeto original. Dos objetos son
simétricos uno al otro en lo que concierne a un grupo dado de operaciones si uno es
obtenido de otro por algunas operaciones (y viceversa). En la geometría 2D las clases
principales de simetría de interés son las que conciernen a las isometrías de un espacio
euclídeo: traslaciones, rotaciones, reflexiones y reflexiones que se deslizan. Además de
simetrías geométricas existen simetrías abstractas relacionadas con operaciones
abstractas como la permutación de partes de un objeto.
MEDIDA DE ASIMETRÍA
Diremos que una distribución es simétrica cuando su mediana, su moda y su media
aritmética coinciden.
Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o
relativas) descienden más lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos
que la distribución es asimétrica a la izquierda.
Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es
el Coeficiente de Asimetría de Pearson:
Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la
derecha y negativo cuando existe asimetría a la izquierda.
Figura 5-1
El Coeficiente de asimetría, se representa mediante la ecuación matemática,
Ecuación 5-9
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, (
) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta
ecuación se interpretan:
(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la
misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir
por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (±
0.5).
(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir
más en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir
más en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que
separa la aglomeración de los valores con respecto a la media.
2. CURTOSIS
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
16
Figura 5-2
Para calcular el coeficiente de Curtosis se utiliza la ecuación:
Ecuación 5-10
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la media
de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se
interpretan:
(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante
difícil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los
valores cercanos (± 0.5 aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un
coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de
suma importancia ya que para la mayoría de los procedimientos de la estadística de
inferencia se requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribución normal radica en el supuesto que el 95% de los
valores se encuentra dentro de una distancia de dos desviaciones estándar de la media
aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y
después le restamos a la media dos desviaciones, el 95% de los casos se encontraría
dentro del rango que compongan estos valores.
Figura 5-3
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las
principales medidas de Estadística Descriptiva; es de gran importancia que los lectores
profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el
desconocimiento de los conceptos estadísticos.
Las definiciones plasmadas en este capítulo han sido extraídas de los
libros Estadística para administradores escrito por Alan Wester de la editorial McGraw-
Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe
editores (Octava edición). No necesariamente tienes que guiarte por estos libros ya que
en las librerías encontraras una gran variedad de textos que pueden ser de bastante
utilidad en la introducción a esta ciencia.
17 Diagramas para datos cualitativos o categóricos
DIAGRAMA CIRCULAR
DIAGRAMA DE BARRAS
Para respuestas categóricas cualitativas en el que solo interviene una barra para
cada clase. Su trazo se realiza ubicando en el eje horizontal de la gráfica los nombres
que identifican cada una de las clases. En el eje vertical se usa una escala de
frecuencias, una de frecuencias relativas o una de porcentuales. Luego, con una barra de
un ancho fijo trazada sobre cada indicador de clase llegamos a la altura que corresponde
al tipo de frecuencia escogido. Las barras se separan a fin de señalar que cada clase es
una categoría independiente. Los espacios entre las barras deben corresponder a la
mitad del ancho de una barra.
18
Este tipo de gráfica se usa cuando las diferentes categorías de datos se componen
de otras clases , de tal forma que cada barra se pueda subdividir y representar cada una
de estas clases .Así mismo, entre las categorías y sus componentes se compara valores.
También se le conoce como barras agrupadas. Se puede hacer uso de barras
horizontales o de barras verticales; su escogencia depende de lo que se pretenda ilustrar
para que facilite su visualización.
19
Gráfica que muestra datos de forma visual utilizando barras horizontales o verticales cuyas
longitudes son proporcionales a las cantidades que representan. Se pueden utilizar
cuando un eje no puede tener una escala numérica.
Definición: gráfica de pastel. Gráfica circular que utiliza radios para dividir un círculo en
sectores de manera que las áreas de los sectores son proporcionales a las cantidades
representadas.
20
Bibliografías
Links:
http://www.estadisticaparatodos.es/historia/histo_esta.html
https://www.importancia.org/estadistica.php
http://dieumsnh.qfb.umich.mx/estadistica/clasificac.htm
https://fdesnedecor.wordpress.com/2008/06/05/la-estadistica-dentro-del-metodo-
cientifico/
https://es.scribd.com/document/330710923/Borra-Dor-Final-Estadistica
http://www.portaleducativo.net/octavo-basico/830/Medidas-de-posicion
http://www.definicionabc.com/tecnologia/histograma.php
https://www.importancia.org/datos-estadisticos.php
http://www.tuveras.com/estadistica/estadistica02.htm
http://www.spssfree.com/curso-de-spss/analisis-descriptivo/medidas-de-distribucion-curtosis-
21
asimetria.html
http://elzhifestadistica.blogspot.mx/2012/05/graficas-estadisticas.html
http://www.mathematicsdictionary.com/spanish/vmd/full/p/piechart.htm