Está en la página 1de 13

Estudiante: Keury Domínguez García.

Matricula: 21-EICN-1-073.
Sección: 0314.
Maestro: Carlos Morban.

Buscar el concepto de cada palabra.


Análisis exploratorio de datos: Hay varias formas en que las
presentaciones de tallo y hojas suelen modificarse para satisfacer
necesidades específicas; sin embargo, aquí no se entrará en esos detalles,
pues el objetivo es mostrar tan solo una de las técnicas relativamente
nuevas, que se presentan con el título general de análisis exploratorio de
datos.

Coeficiente de variación: Con esta fórmula podemos encontrar el


s
coeficiente de variación, v= x .100 % .

Ejemplo Las mediciones hechas con un micrómetro del diámetro de un


cojinete de bolas tienen una media de 3.92 mm y una desviación estándar
de 0.0152 mm, en tanto que las mediciones realizadas con otro
micrómetro de la longitud sin estirar de un resorte tienen una media de
1.54 pulgadas y una desviación estándar de 0.0086 pulgadas. ¿Cuál de
esos dos instrumentos de medición es relativamente más preciso?
Para el primer micrómetro, el coeficiente de variación es
s
Coeficiente de variación. v= x .100 % .

V=
0.0152 3.92
· 100 = 0.39%
V=
0.0086 1.54
· 100 = 0.56%

Convención de puntos externos: Esta es usada para evitar una


dificultad en las búsquedas de los datos.

Cuartil: además de la mediana, que divide en mitades un conjunto de


datos, se pueden considerar otros puntos de división. Cuando un conjunto
ordenado de datos se divide en cuartos, a los puntos de división resultante
se les llama cuartiles muestrales. El primer cuartil, Q1, es un valor que
tiene un cuarto, o 25%, de las observaciones por debajo de su valor. El
primer cuartil también es el 25º percentil muestral P0.25. De manera más
general, el 100 p-pésimo percentil muestral se define del modo siguiente.

Datos brutos: Los datos en bruto, es decir, los datos no procesados, se


refiere a una colección de números, caracteres y es un término relativo, el
procesamiento de los datos se produce comúnmente por etapas, y los
"datos elaborados" de una etapa se puede considerar a los "datos brutos"

Densidad: Con la densidad podemos tener una idea del área total de una
unidad.

Desviación de la media: si un conjunto de números x1, x2,, xn tiene


media x, a las diferencias.
x1 − x, x2 − x,, xn − x
se les llama desviaciones de la media.

Desviación estándar: Los datos son tiempos de demora en minutos,


pero s2 tiene la unidad (minuto)2. En consecuencia, se define la
desviación estándar de n observaciones x1, x2,..., xn como la raíz cuadrada
de su varianza; a saber.
La desviación estándar es, por mucho, la medida de variación
generalmente más útil. su ventaja sobre la varianza es que se expresa en
las mismas unidades que las observaciones.

Diagrama de caja: La información de resumen contenida en los


cuartiles se destaca en una presentación gráfica llamada diagrama de caja.
La mitad central de los datos, que se extiende desde el primero hasta el
tercer cuartil, se ilustra mediante un rectángulo.
Diagrama de caja modificado: Un diagrama de caja modificado
identifica los valores atípicos y reduce su efecto sobre la forma del
diagrama de caja. La línea exterior se extiende a la observación más
grande solo si no está muy alejada del tercer cuartil, esto es, para que la
línea se extienda.

Diagrama de Pareto: ordena cada tipo de falla o defecto de acuerdo


con su frecuencia, ayuda a los ingenieros a identificar defectos
importantes y sus causas.

Diagrama de puntos: resume visualmente la información de que el


torno, por lo general, funciona con rapidez. En los capítulos 13 y 15 se
desarrollarán diseños y métodos experimentales eficientes, con la
finalidad de identificar los principales factores causales que contribuyen a
la variabilidad en una respuesta como la rapidez de corte.

Distribución acumulada: Hay muchas formas alternativas de


distribuciones en las que a veces se agrupan los datos. Las más relevantes,
entre estas, son las distribuciones acumuladas “menor o igual a”, “menor
que”, “mayor que” o “mayor o igual”. Una distribución acumulada “menor
o igual a” presenta el número total de observaciones que son menores
que los valores dados o iguales a estos. Dichos valores deben ser fronteras
de clase, con una convención adecuada de puntos extremos, cuando los
datos se agrupen en una distribución de frecuencias.

Distribución acumulada empírica: Función de Distribución


Empírica para Datos Continuos Agrupados. Como para los datos discretos,
la función de distribución empírica para datos continuos agrupados es una
función de las frecuencias relativas acumuladas. ... Esto nos permitirá
conservar tanta información como sea posible acerca de la forma de los
datos.

Distribución categórica: si los datos están agrupados, según cierta


cualidad o atributo, a tal distribución se le conoce como distribución
categórica.
Distribución de frecuencias: es una tabla que divide un conjunto de
datos en un número adecuado de clases (categorías), que muestra
también el número de elementos que pertenecen a cada clase. Dicha tabla
sacrifica parte de la información contenida en los datos. En vez de conocer
el valor exacto de cada elemento, tan solo se sabe que pertenece a cierta
clase.

Distribución numérica: esto es, distribuciones de frecuencias donde


los datos están agrupados de acuerdo con su tamaño.

Distribución porcentual: si es deseable comparar distribuciones de


frecuencias, quizá sea necesario (o al menos ventajoso) convertirlas en
distribuciones porcentuales. tan solo divida cada frecuencia de clase entre
la frecuencia total (el número total de observaciones en la distribución) y
multiplique por 100; de esta forma, se indica qué porcentaje de los datos
cae en cada clase de la distribución.

Distribución porcentual acumulada: Lo mismo que le sucede a la


distribución porcentual, le pasa a esta.

Etiqueta de tallo: los números a la izquierda de la línea vertical son las


etiquetas de tallo.

Frecuencia de clase: Una vez establecidas las clases, se cuenta el


número de observaciones en cada clase, llamadas frecuencias de clase.

Frontera de clase: son los puntos extremos de los intervalos que


especifican cada clase.

Grafica de barras: Los datos se presentan, como un caso especial de


una gráfica.

Grafica de pastel: Las distribuciones categóricas con frecuencia se


presentan gráficamente mediante gráficas de pastel, donde un círculo se
divide en sectores proporcionales en tamaño a las frecuencias (o
porcentajes) con las que los datos se distribuyen entre las categorías.

Histograma: La forma más usual de presentación gráfica de una


distribución de frecuencias es el histograma.
Histograma de densidad: El área del rectángulo representa, entonces,
la frecuencia relativa para la clase y el área total del histograma es 1. a
este se le llama histograma de densidad.

Hoja: Cada número a la derecha de la línea vertical es una hoja.


Intervalo de clase: al intervalo común entre cualesquiera marcas de
clase sucesivas se les refiere como el intervalo de clase de la distribución.
note que el intervalo de clase también se determina con la diferencia
entre cualesquiera fronteras de clase sucesivas.

Límite de clase: decidir desde dónde hasta dónde irá cada clase.
Marca de clase: Lo anterior ocasionaría dificultades cuando se quieren
dar más descripciones de los datos, pero se evitarían al representar cada
observación en una clase por su punto medio, llamado marca de clase .

Máximo y Mínimo: ofrecen, además, información concerniente a la


cantidad de variabilidad presente en un conjunto de datos. En conjunto,
describen el intervalo que contiene todos los valores observados, cuya
longitud es el rango = máximo – mínimo.

Media: se define como la suma de las observaciones dividida entre el


tamaño de la muestra.

Media aritmética: Entre las más populares se encuentran la media


aritmética y la mediana, aunque en ocasiones se utilizan otros tipos de
“promedios” para fines especiales.
La media aritmética (o, de forma más sucinta, media) se define como la
suma de las observaciones dividida entre el tamaño de la muestra.

Media muestral: Para destacar que esta se basa en un conjunto de


observaciones, a menudo x se refiere como la media muestral.

Media ponderada: donde wi es un peso que indica la importancia


relativa de la i-ésima observación. Esta se encuentra con una formula.
Mediana: la mediana, aunque en ocasiones se utilizan otros tipos de
“promedios” para fines especiales.

Ojiva: representa una distribución acumulada “menor que”.


Percentil: El 100 p-ésimo percentil muestral es un valor tal que al menos
100p% de las observaciones están en este valor, o por debajo de él, y al
menos 100(1 – p) % están en este valor, o por arriba de él.

presentación de cinco tallos: La presentación resultante de tallo y


hojas se llama presentación de cinco tallos.

presentación de doble tallos: repite cada tallo. Las hojas 0, 1, 2, 3 y 4


se unirían al primer tallo, y las hojas 5, 6, 7, 8 y 9 al segundo. Por lo tanto,
para las lecturas de humedad de la página 21 se tendría una presentación
de tallo doble:

presentación de tallos y hojas: En el último paso, las hojas se


escriben en orden ascendente. Los tres números en la primera fila son 12,
15 y 17. a esta tabla se le llama presentación de tallo y hojas o
simplemente presentación tallo-hojas.

Primer cuartil: El primer cuartil, Q1, es un valor que tiene un cuarto, o


25%, de las observaciones por debajo de su valor.

Rango: máximo – mínimo se debe tener cuidado al interpretar el rango,


pues una sola observación grande o pequeña podría inflar su valor
significativamente.

Rango intercuartílico: La cantidad de variación en la parte media de los


datos se describe con el rango intercuartílico = tercer cuartil – primer
cuartil = Q3 – Q1.

Tallo: La columna de la izquierda forma el tallo.


Valor atípico: a tal observación inusual un valor atípico. Por lo general,
los valores atípicos merecen más atención. ¿Hubo un error de registro, se
perdieron neutrinos en ese largo intervalo de tiempo o hubo dos
explosiones separadas en la supernova? En física, preguntas importantes
podrían depender de la interpretación correcta de este valor atípico .
Variación absoluta: La desviación estándar y la varianza son medidas
de variación absoluta, es decir, miden la cantidad de variación real en un
conjunto de datos y dependen de la escala de medición.

Variación relativa: Para comparar la variación en varios conjuntos de


datos, por lo general es deseable usar una medida de variación relativa.

Varianza: La Varianza es una medida de dispersión que se utiliza para


representar la variabilidad de un conjunto de datos respecto de la media
aritmética de los mismo. Así, se calcula como la suma de los residuos
elevados al cuadrado y divididos entre el total de observaciones.

Varianza Muestral: La varianza muestral, s2, es en esencia el promedio


de los cuadrados de las desviaciones de la media, x, que se define con la
siguiente fórmula.

También podría gustarte