Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DATOS Y ESTADÍSTICAS
PROBABILIDAD→Calculo que evalúa las posibilidades que existen de que una cosa
suceda, va de 0 a 1, siendo 1 la probabilidad de 100% de que algo suceda y 0 el 0% de que
algo suceda.
● Escala ordinal: Los datos se ordenan en categorías que tienen un orden específico,
pero la diferencia entre los valores no se puede medir con precisión. En la imágen se
puede tomar esta clasificación en la variable MORNINGSTAR RANK, el orden importa
pero no se sabe cuánto mejor es un nivel en comparación con otro.
● Escala de intervalo: Esta escala mide la diferencia entre dos valores, y la distancia
entre cada valor es igual.Tiene un punto de referencia arbitrario que no es el 0, ya
que en ningún momento se considera la ausencia del producto o de lo que se este
analizando.
FUENTES DE DATOS→
Fuentes existentes: En algunos casos los datos necesarios para una aplicación en
particular ya existen, es decir, ya han sido recabados. En el registro interno de la empresa
hay datos sobre empleados, producción, ventas, clientes, etc. Además existen
organizaciones dedicadas a la recopilación de datos que pueden servir de proveedores por
medio de acuerdos o vendiendolos. Otro medio por el que obtener información es internet el
cuál puede ofrecer gran variedad y cantidad de información, también se debe tener en
cuenta a agencias gubernamentales como medio de obtención de datos.
Estudios estadísticos: Se clasifican en experimentales u observacionales.
● Experimentales→Se identifica primero la variable de interés, luego se toma una o
más variables y se analiza cómo el cambio en estas afectan a la variable central.
● Observacionales→El método más usado es la encuesta, primero se diseñan las
preguntas basadas en la información que quiero obtener y luego se elige una
muestra, esta muestra se refiere a una fracción del total.
Los errores ocurren con frecuencia durante la adquisición de los datos. El uso a ciegas de
cualquier dato con que se cuenta o el uso de los que se adquirieron con poco cuidado
puede conducir a información y a decisiones erróneas. Por tanto, emprender acciones para
adquirir datos precisos ayuda a garantizar que la información sea confiable y valiosa para la
toma de decisiones.
ESTADÍSTICA DESCRIPTIVA→
La información estadística que se presenta en una forma fácil de comprender para el lector
a través de tablas, gráficas o números son denominados como estadística descriptiva.
TABLA
La imágen muestra un gráfico de barras, es una forma más visual de representar los
porcentajes calculados en la tabla anterior.
HISTOGRAMA
Estos gráficos son útiles para visualizar la distribución de datos y entender la forma en la
que están agrupados. Permite identificar con facilidad la concentración de valores alrededor
de ciertos puntos además de detectar presencia de valores atípicos.
INFERENCIA ESTADÍSTICA→
MINERÍA DE DATOS→
CAPÍTULO 2
PRESENTACIONES TABULARES Y GRÁFICAS
La FRECUENCIA señala en este listado de 50 nombres, las veces que aparece cada uno.
FRECUENCIA RELATIVA→ Esto es un cálculo elaborado con la siguiente fórmula:
Divide la frecuencia con la que aparece el nombre en el listado por la cantidad de nombres
en el listado, 50 en el ejemplo.
Con los datos cuantitativos se debe ser más cuidadoso al definir las clases que no se
superponen y que se utilizarán en la distribución de la frecuencia, existen tres pasos para
definir las clases de una distribución de frecuencia con datos cuantitativos, estos son:
1. Determinar el número de clases que no se superponen.
2. Definir el ancho de cada clase.
3. Determinar los límites de clase.
LÍMITES DE CLASE→ Cada elemento de datos debe pertenecer solo a una de las clases,
Límite inferior es el menor valor asignado a la clase mientras que el límite superior todo lo
contrario. En la elaboración de distribuciones de frecuencia para datos cualitativos no se
necesita especificar los límites de clase, debido a que cada elemento de datos corresponde
de manera natural a una clase separada. Por otro lado, los datos cuantitativos necesitan los
límites de clase para poder determinar a dónde pertenece cada valor de datos.
PUNTO MEDIO DE CLASE→ Valor medio entre límites de clase superior e inferior.
La forma de calcular la frecuencia relativa y la frecuencia porcentual es igual que con datos
cualitativos.
Uno de los usos más importantes del histograma es proporcionar información acerca de la
forma de una distribución, a continuación se presentarán cuatro formas de distribución
distinta y una breve descripción de cada una.
● PANEL D:Este histograma está muy sesgado a la derecha, podría estar basado en
la cantidad de compras hechas por clientes a lo largo de un día.
DISTRIBUCIONES ACUMULADAS→Muestra el número de elementos de datos con valores
menores o iguales que el lí mite de clase superior de cada clase.
Es parecida a las tablas que veníamos viendo, solo que esta va acumulando las frecuencias
hasta llegar a los valores límites.Cabe destacar que la frecuencia relativa acumulada
siempre será 1.0 y la porcentual acumulada 100%.
OJIVA→Es la gráfica de una distribución acumulada, no importa que tipo de frecuencia sea,
y muestra los valores sobre el eje horizontal.
Esto no es un diagrama de tallo y hoja, es solo una tabla de aptitudes hechas a 50 personas de un
cuestionario de 150 preguntas mostrando cuántas contestaron correctamente.
Para desarrollar un diagrama de tallo y hoja, se colocan los dígitos principales de cada valor
a la izquierda de la vertical y a la derecha el último dígito, basado en la tabla antes
mencionada así quedaría el diagrama de tallo y hoja.
La izquierda de la vertical representa el tallo mientras que cada dígito de la derecha son
hojas. Además si se girara este gráfico se podría formar algo muy parecido al histograma,
sin embargo este último tiene desventajas con respecto al de tallo y hoja.
1. Es más difícil de elaborar a mano.
2. Muestra menos información ya que no muestra los datos actuales.
Pero además otras de las ventajas con la que cuenta es que el número de tallos no es fijo,
entonces podemos representarlo de otra manera, en el ejemplo de a continuación los
valores de hojas que sean 0, 1, 2, 3, 4 irán en una fila y los de 5, 6, 7, 8, 9 irán en otro.
*Hasta ahora solo se ha demostrado poder hacer diagramas de este tipo con hasta 3 cifras,
que ocurriría si estas fueran mayor?.
Para entender esto se considera la primera fila, tallo 15 y su hoja asociada 6, da como
resultado 156. La unidad de hoja es 10, lo que se hará es multiplicar por el número antes
obtenido, en este caso, 156 * 10 = 1560. En la tabla no hay ningún valor que sea 1560, esto
se debe a que se le es imposible representar muchas veces valores exactos pero sí
aproximados. Esto está pensado para tablas donde hay números con muchos dígitos. Para
diagramas donde la unidad de hoja no se muestra, se sobreentiende que es 1.
En la siguiente imágen se muestra los métodos que se usan para cada tipo de dato.
CAPÍTULO 3
ESTADÍSTICA DESCRIPTIVA: MEDIDAS NUMÉRICAS
Se presentarán varias medidas numéricas que proporcionan otras opciones para una misma
tarea.
Aquí está claro que la mediana es 46, ya que la cantidad de números es 5 (impar).
En este caso la cantidad de números es 12 (par), lo que se debe hacer en este caso es
encontrar los dos valores del medio, en este caso 3490 y 3520. A continuación llevar a cabo
el siguiente cálculo:
MODA→Una tercera medida de posición, es el valor que ocurre con mayor frecuencia. Para
que se entienda más fácilmente este hecho ocurre cuando un número en particular se repite
más que los demás, ahí se produce una moda. Pero si dos números se repiten más que los
demás pero entre ellos la misma cantidad de veces, se dice que son bimodales. Si esto
mismo llegará a pasar con más de dos números se denominarían multimodales.
Otro ejemplo:
CUARTILES→ A veces es recomendable dividir los datos en cuatro partes. Cada una
contiene un 25% o ¼ de los datos. Los puntos de división son los que se conocen como
cuartiles.
Ejemplo de procedimiento:
El objetivo final de los cuartiles es dividir los datos en 4 partes.
Medidas de variabilidad