Está en la página 1de 42

Universidad de Oriente

Núcleo de Sucre

Departamento de Sociología

Computación Aplicada

Saileth Rodríguez C.I: 23.923.905

Juliana Rodríguez C.I 25.558.296

Distribución de frecuencias: En estadística, se le llama distribución de frecuencias a la


agrupación de datos en categorías mutuamente excluyentes que indican el número de
observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de
datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que
se pueda ver el número existente en cada clase. Una distribución de frecuencias es un
formato tabular en la que se organizan los datos en clases, es decir, en grupos de valores
que describen una característica de los [datos] y muestra el número de observaciones del
conjunto de datos que caen en cada una de las clases.

Frecuencia absoluta: La frecuencia absoluta es el número de veces que aparece un


determinado valor en un estudio estadístico. Se representa por fi.

La suma de las frecuencias absolutas es igual al número total de datos, que se representa
por N.

Para indicar resumidamente estas sumas se utiliza la letra griega Σ (sigma mayúscula) que
se lee suma o sumatoria.
Frecuencia relativa: La frecuencia relativa es el cociente entre la frecuencia absoluta de un
determinado valor y el número total de datos.

Se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.

Frecuencia acumulada

La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores


inferiores o iguales al valor considerado.

Se representa por Fi.

Frecuencia relativa acumulada

La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un


determinado valor y el número total de datos. Se puede expresar en tantos por ciento.

Ejemplo

Durante el mes de julio, en una ciudad se han registrado las siguientes temperaturas
máximas:

32, 31, 28, 29, 33, 32, 31, 30, 31, 31, 27, 28, 29, 30, 32, 31, 31, 30, 30, 29, 29, 30, 30, 31,
30, 31, 34, 33, 33, 29, 29.

En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la


segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.

xi Recuento fi Fi ni Ni
27 I 1 1 0.032 0.032

28 II 2 3 0.065 0.097

29 6 9 0.194 0.290

30 7 16 0.226 0.516

31 8 24 0.258 0.774

32 III 3 27 0.097 0.871

33 III 3 30 0.097 0.968

34 I 1 31 0.032 1

31 1

Este tipo de tablas de frecuencias se utiliza con variables discretas.

El histograma es aquella representación gráfica de estadísticas de diferentes tipos. La


utilidad del histograma tiene que ver con la posibilidad de establecer de manera visual,
ordenada y fácilmente comprensible todos los datos numéricos estadísticos que pueden
tornarse difíciles de entender. Hay muchos tipos de histogramas y cada uno se ajusta a
diferentes necesidades como también a diferentes tipos de información.

Los histogramas son utilizados siempre por la ciencia estadística. Su función es exponer
gráficamente números, variables y cifras de modo que los resultados se visualicen más
clara y ordenadamente. El histograma es siempre una representación en barras y por eso
es importante no confundirlo con otro tipo de gráficos como las tortas. Se estima que por
el tipo de información brindada y por la manera en que ésta es dispuesta, los histogramas
son de especial utilidad y eficacia para las ciencias sociales ya que permiten comparar
datos sociales como los resultados de un censo, la cantidad de mujeres y/o hombres en
una comunidad, el nivel de analfabetismo o mortandad infantil, entre otras.

Para un histograma existen dos tipos de informaciones básicas (que pueden ser
complementados o no de acuerdo a la complejidad del diseño): la frecuencia de los
valores y los valores en sí. Normalmente, las frecuencias son representadas en el eje
vertical mientras que en el horizontal se representan los valores de cada una de las
variables (que aparecen en el histograma como barras bi o tridimensionales).

Existen diferentes tipos de histogramas. Los histogramas de barras simples son los más
comunes y utilizados. También están los histogramas de barras compuestas que permiten
introducir información sobre dos variables. Luego están los histogramas de barras
agrupadas según información y por último el polígono de frecuencias y la ojiva porcentual,
ambos sistemas utilizados normalmente por expertos. Trabajar con histogramas es muy
simple y seguramente proveerá con una mejor comprensión de diferente tipo de datos e
información.

Media aritmética es el promedio o medición de tendencia central de uso más común. Se


calcula sumando todas las observaciones de una serie de datos y luego dividiendo el total
entre el número de elementos involucrados.10

La expresión algebraica puede describirse como:

Para simplificar la notación se usa convencionalmente el término:1


donde:

= media aritmética de la muestra

= sumatoria de todos los valores de Xi

La mediana

La mediana es el valor medio de una secuencia ordenada de datos. Si no hay empates, la


mitad de las observaciones serán m9enores y la otra mitad serán mayores. La mediana no
se ve afectada por ninguna observación extrema de una serie de datos. Por tanto, siempre
que esté presente una observación extrema es apropiado usar la mediana en vez de la
media para describir una serie de datos.

Para calcular la mediana de una serie de datos recolectados en su forma sin procesar,
primero debemos poner los datos en una clasificación ordenada. Después usamos la
fórmula de punto de posicionamiento:

Para encontrar el lugar de la clasificación ordenada que corresponde al valor de la


mediana, se sigue una de las dos reglas:
Si el tamaño de la muestra es un número impar, la mediana se representa mediante el
valor numérico correspondiente al punto de posicionamiento, la observación ordenada es
(n+1)/2.

Si el tamaño de la muestra es un número par entonces el punto de posicionamiento cae


entre las dos observaciones medias de la clasificación ordenada. La mediana es el
promedio de los valores numéricos correspondientes a estas dos observaciones medias.

La moda

La moda o modo es el valor de una serie de datos que aparece con más frecuencia. Se
obtiene fácilmente de una clasificación ordenada. A diferencia de la media aritmética, la
moda no se ve afectada por la ocurrencia de los valores extremos.

Ejemplo: Los valores siguientes son las calificaciones de un alumno durante todo el año

7; 8; 9; 7; 9; 8; 8; 8; 7; 8

Podemos afirmar entonces que el modo es igual a 8, dado que es el valor que aparece con
más frecuencia.

El rango medio

El rango medio es el promedio de las observaciones menores y mayores de una serie de


datos.

El rango medio a menudo es usado como una medición de resumen tanto por analistas
financieros como por reporteros meteorológicos, puesto que puede proporcionar una
medición adecuada, rápida y simple para caracterizar toda una serie de datos, como por
ejemplo todo una serie de lecturas registradas de temperatura por horas durante todo un
día.

El eje medio

Como última medida de tendencia central, mencionamos al eje medio, que es el promedio
del primer y tercer cuartiles de una serie de datos. Es decir:

Eje medio: (Q1 + Q2) / 2

Siendo Q1 y Q2, el primer y segundo cuartil. En conclusión podemos decir que es una
medición de resumen usada para zanjar problemas potenciales introducidos por los
valores extremos de los datos.

Medidas de variación: Rango, desviación estándar y coeficiente de variación Medidas de


Variación Amplitud Diferencia entre los valores mayor y menor de un conjunto de datos
obtenidos en una medición. Coeficiente de variación Equivale a la desviación típica
expresada en porcentaje respecto de la media aritmética. Es la desviación típica partido
por la media aritmética. Desviación estándar Medida de la dispersión de una distribución
de frecuencias respecto de su media. Equivale a la raíz cuadrada de la varianza. Se expresa
s si corresponde a una muestra de la población Rango Medida equivalente a la amplitud
Valor Z Medida del número de desviaciones estándar que un valor se aleja de la media Z=
(xi - X) / s o Z= (xi - x ) / n Varianza Medida de la variación de una serie de observaciones
respecto de la media. Equivale a la dispersión respecto de la media en una serie i- x) 2 /n si
corresponde a la población total o sigma (xi- X)2 /(n-1) si corresponde a una muestra de
esa población, siendo X la media, n el tamaño de la población o de la muestra y xi cada
uno de los valores. 1.2.1 Varianza. Existe otro mecanismo para solucionar el efecto de
cancelación para entre diferencias positivas y negativas. Si elevamos al cuadrado cada
diferencia antes de sumar, desaparece la cancelación: Esta fórmula tiene una desventaja,
y es que sus unidades no son las mismas que las de las observaciones, ya que son
unidades cuadradas. Esta dificultad se soluciona, tomando la raíz cuadrada de la ecuación
anterior: Varianza Es otra de las variaciones absolutas y la misma se define como el
cuadrado de la desviación típica; viene expresada con las mismas letras de la desviación
típica pero elevada al cuadrado, así S2 y s2. Las fórmulas para calcular la varianza son las
mismas utilizadas por la desviación típica, exceptuando las respectivas raíces, las cuales
desaparecen al estar elevados el primer miembro al cuadrado. Varianza Denotando por
x1,...,xk los datos o las marcas de clase, llamaremos varianza a siendo a la media de la
distribución. Al valor se le denomina cuasivarzanza. VARIANZA. Una medida de dispersión
mucho más común, que se calcula al promediar los cuadrados de las desviaciones
individuales a partir de la media, es la media de desviaciones cuadráticas o la varianza. La
varianza es una medida de dispersión promedia de un conjunto de datos. Para una
población se construye al tomar la diferencia entre cada valor observado y la media
poblacional, elevando al cuadrado cada una de estas desviaciones y luego hallando la
media aritmética de los valores cuadrados. Para una muestra, una expresión casi análoga
se construye con la ayuda de su media. Para una población Para una muestra EJEMPLO
Calcule la varianza para una población de N = 5 valores: 2, 2, 4, 7 y 15. SOLUCION La tabla
que muestra la forma en que la varianza se calcula para datos poblacionales,
procedimiento por demás tedioso cuando el número de observaciones es grande. Los
programas modernos para computadora efectúan con suma rapidez este tipo de
operación. Tabla PROBLEMAS PRACTICOS Por desgracia hay dos problemas prácticos
relacionados con el uso de concepto de varianza. Primero la varianza tiende a ser un
número grande en comparación con las observaciones cuya dispersión haya de
describirse. Cuando las observaciones originales son iguales a unos pocos miles de
millones, su varianza puede ser igual a muchos cientos de miles de millones. En segundo
término, y más grave es que la varianza, siendo un número elevado al cuadrado no se
expresa en las mismas unidades que los valores observados en sí. Pero también hay
buenas noticias: ambas dificultades conceptuales se pueden vencer de un solo golpe al
trabajar con la raíz cuadrada de la varianza, concepto el cual vemos en seguida. 1. 2. 2
Desviación estándar.

VARIANZAY DESVIACIÓN ESTÁNDAR La varianza se asemeja a la desviación media absoluta


en que se basa en la diferencia entre cada valor del conjunto de datos y la media del
grupo. Pero se distingue de ella en un muy importante aspecto: cada diferencia se eleva al
cuadrado antes de sumarse. En el caso de una población, la varianza se representa con
V(X) o, más habitualmente, con la letra griega minúscula o2 ("sigma cuadrada"). La
fórmula es A diferencia de lo que ocurre con las demás estadísticas muestrales ya
expuestas, la varianza de una muestra no equivale exactamente, en términos de cálculo, a
la varianza de una población. El denominador de la fórmula de la varianza muestral es un
tanto distinto. En esencia, en esta fórmula se incluye un factor de corrección, a fin de que
la varianza muestral sea un estimador insesgado de la varianza de la población. La
varianza muestral es representada por s2 ; su fórmula es En general, es difícil interpretar
el significado del valor de una varianza, porque las unidades en las que se le expresa son
valores elevados al cuadrado. Debido en parte a esta razón, es más frecuente el uso de la
raíz cuadrada de la varianza, representada por la letra griega a (o por s en el caso de una
muestra) y llamada desviación estándar. Las fórmulas son: Desviación estándar de la
población: Desviación estándar de la muestra: La desviación estándar es particularmente
útil en conjunción con la así llamada distribución normal. Hoja de trabajo para el cálculo
de la desviación estándar de la población de los datos de ventas (u= 10.5).

CÁLCULOS SIMPLIFICADOS DE LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR Las fórmulas se


llaman fórmulas de desviaciones, porque en cada caso deben determinarse las
desviaciones específicas de los valores individuales respecto de la media. Sin embargo, se
han derivado ya otras fórmulas, matemáticamente equivalentes pero que no requieren de
la determinación de cada desviación. Dado que por lo general estas fórmulas son más
fáciles de utilizar en la realización de cálculos, se llaman fórmulas de cálculo. Las fórmulas
de cálculo son: Varianza de la población: Desviación estándar de la población: Varianza de
la muestra: Desviación estándar de la muestra: Tabla Hoja de trabajo para el cálculo de la
desviación estándar de la población de los datos de ventas Desviación típica o estándar Es
la medida de dispersión más utilizada en las investigaciones por ser la más estable de
todas, ya que para su cálculo se utilizan todos los desvíos con respecto a la media
aritmética de las observaciones, y además, se toman en cuenta los signos de esos desvíos.
Se le designa con la letra castellana S cuando se trabaja con una muestra y con la letra
griega minúscula s (Sigma) cuando se trabaja con una población. Es importante destacar
que cuando se hace referencia a la población él número de datos se expresa con N y
cuando se refiere a la muestra él número de datos se expresa con n. La desviación típica
se define como: Interpretación de la desviación estándar La desviación típica como
medida absoluta de dispersión, es la que mejor nos proporciona la variación de los datos
con respecto a la media aritmética, su valor se encuentra en relación directa con la
dispersión de los datos, a mayor dispersión de ellos, mayor desviación típica, y a menor
dispersión, menor desviación típica. Desviación estándar de la población. La desviación
estándar de la población es simplemente la raíz cuadrada de la varianza de la población.
Como la varianza es el promedio de las distancias al cuadrado que van desde las
observaciones a la media, la desviación estándar es la raíz cuadrada del promedio de las
distancias al cuadrado que van desde las observaciones a la media. La desviación estándar
está en las mismas unidades que las que se usaron para medir los datos. La raíz cuadrada
de un número positivo puede ser tanto positiva como negativa. Cuando tomamos la raíz
cuadrada de la varianza para calcular la desviación estándar, los estadísticos solamente
consideran la raíz cuadrada positiva. Para calcular la varianza o la desviación estándar,
construimos una tabla utilizando todos los elementos de la población. Usos de la
desviación estándar. La desviación estándar nos permite determinar, con un buen grado
de precisión, dónde están localizados los valores de una distribución de frecuencias con
relación a la media. El teorema de Chebyshev dice que no importa qué forma tenga la
distribución, al menos 75% de los valores caen dentro de + 2 desviaciones estándar a
partir de la media de la distribución, y al menos 89% de los valores caen dentro de + 3
desviaciones estándar a partir de la media. Con más precisión:  Aproximadamente 68%
de los valores de la población cae dentro de + 1 desviación estándar a partir de la media. 
Aproximadamente 95% de los valores estará dentro de + 2 desviaciones estándar a partir
de la media.  Aproximadamente 99% de los valores estará en el intervalo que va desde
tres desviaciones estándar por debajo de la media hasta tres desviaciones estándar por
arriba de la media.

CUARTILES
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro
partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente
la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto
(25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual
o por debajo del cual quedan las tres cuartas partes (75%) de los datos.

Datos Agrupados

Como los cuartiles adquieren su mayor importancia cuando contamos un número grande
de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos
en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de
datos agrupados es la siguiente:

k= 1,2,3

Donde:

Lk = Límite real inferior de la clase del cuartil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.

fk = Frecuencia de la clase del cuartil k

c = Longitud del intervalo de la clase del cuartil k

Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo


siguiente:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es
decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el
75% de las observaciones.

Fórmula de Q1, para series de Datos agrupados:

Donde:

L1 = limite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase

El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor


valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son
mayores que la mediana y el 50% son menores.

Fórmula de Q2, para series de Datos agrupados:

Donde:

L1 = limite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.


Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase

El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos,
es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las
observaciones.

Fórmula de Q3, para series de Datos agrupados:

Donde:

L1 = limite inferior de la clase que lo contiene

P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase.

Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del
percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil.

Para Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes
fórmulas:

- El primer cuartil:

Cuando n es par:
Cuando n es impar:

Para el tercer cuartil

Cuando n es par:

Cuando n es impar:

DECILES

Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes
porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos
ordenados en diez partes iguales, son también un caso particular de los percentiles. Los
deciles se denotan D1, D2,..., D9, que se leen primer decil, segundo decil, etc.

Los deciles, al igual que los cuartiles, son ampliamente utilizados para fijar el
aprovechamiento académico.

Datos Agrupados

Para datos agrupados los deciles se calculan mediante la fórmula.


k= 1,2,3,... 9

Donde:

Lk = Límite real inferior de la clase del decil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k

c = Longitud del intervalo de la clase del decil k

Otra fórmula para calcular los deciles:

El cuarto decil, es aquel valor de la variable que supera al 40%, de las observaciones y es
superado por el 60% de las observaciones.

El quinto decil corresponde a la mediana.

El noveno decil supera al 90% y es superado por el 10% restante.

Donde (para todos):

L1 = limite inferior de la clase que lo contiene


P = valor que representa la posición de la medida

f1 = la frecuencia de la clase que contiene la medida solicitada.

Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.

Ic = intervalo de clase.

Fórmulas Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes
fórmulas:

Cuando n es par:

Cuando n es impar:

Siendo A el número del decil.

CENTILES O PERCENTILES

Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o
clasificación de las personas cuando atienden características tales como peso, estatura,
etc.

Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien
partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes
iguales el conjunto de datos ordenados. Los percentiles (P1, P2,... P99), leídos primer
percentil,..., percentil 99.

Datos Agrupados

Cuando los datos están agrupados en una tabla de frecuencias, se calculan mediante la
fórmula:
k= 1,2,3,... 99

Donde:

Lk = Límite real inferior de la clase del decil k

n = Número de datos

Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.

fk = Frecuencia de la clase del decil k

c = Longitud del intervalo de la clase del decil k

Otra forma para calcular los percentiles es:

Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa
y nueve por ciento restante.

El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es


superado por el 40% de las observaciones.
El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.

Fórmulas Datos No Agrupados

Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes
fórmulas:

Para los percentiles, cuando n es par:

Cuando n es impar:

Siendo A, el número del percentil.

Es fácil ver que el primer cuartil coincide con el percentil 25; el segundo cuartil con el
percentil 50 y el tercer cuartil con el percentil 75.

3. EJEMPLO

Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la siguiente tabla:

Salarios No. De fa

(I. De Clases) Empleados (f1)

200-299 85 85

300-299 90 175

400-499 120 295

500-599 70 365
600-699 62 427

700-800 36 463

Como son datos agrupados, se utiliza la fórmula

Siendo,

La posición del primer cuartil.

La posición del 7 decil.

La posición del percentil 30.

Entonces,

El primer cuartil:

115.5 – 85 = 30.75

Li = 300, Ic = 100 , fi = 90

El 7 decil:
Posición:

324.1 – 295 = 29.1

Li = 500, fi = 70

El percentil 30

Posición:

138.9 – 85 = 53.9

fi = 90

Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $
334; que bajo 541.57 gana el 57%de los empleados y sobre $359.88, gana el 70% de los
empleados.
Medidas de localización

Aunque una distribución de frecuencias es ciertamente muy útil para tener una idea
global del comportamiento de los datos, es generalmente necesario resumir los datos aún
más, calculando algunas medidas descriptivas. Estas medidas son valores que se
interpretan fácilmente y nos sirven para un análisis más profundo que el obtenido por
medio de resúmenes gráficos y tabulares.

En esta sección calcularemos medidas de localización, es decir, medidas que buscan cierto
lugar del conjunto de datos; cuando el lugar buscado es el centro de los datos les
llamamos medidas de tendencia central, entre las que veremos: la media, la moda y la
mediana. La media muestral de un conjunto de n observaciones n x , x ,...x 1 2 de una
variable X , la denotaremos por x y la calcularemos mediante la fórmula: n x x n i  i   1
No existe una regla general acerca de cuántos decimales reportar en el resultado de este
cálculo, pero no tiene sentido alejarse mucho del número de decimales que poseen los
datos. Podemos tomar un decimal más que éstos.

Nótese que la media sólo tiene sentido para datos a nivel de intervalo o de razón y que el
valor de la media muestral puede variar de muestra a muestra. La mediana de un
conjunto de n observaciones ordenadas n x , x ,...x 1 2 es el valor que divide el conjunto de
datos en dos partes iguales. Podemos denotar a la mediana por x ~ ( x tilde). Para
encontrar la posición o lugar dónde buscar la mediana en un conjunto de n observaciones
calcularemos: Posición de la mediana = (n 1)/ 2 Así, cuando n es impar, la posición de la
mediana coincide con el lugar de uno de los datos. Si n es par, se localizará en medio de
los dos datos centrales. La moda de un conjunto de n observaciones n x , x ,...x 1 2 es el
valor que se repite con mayor frecuencia. La podemos denotar por x ˆ . Mientras que la
mediana se aplica a datos ordenados, la moda puede aplicarse a datos nominales. Por
ejemplo, si deseamos calcular la media, la moda y la mediana de los datos 12, 14, 15, 17,
18, 18 y 22, tendríamos: La media es x  (12 14 ... 22)/7 16.57 . Como la posición de
la mediana es (7+1)/2 = 4, la mediana es 17 ~ x  . Y, finalmente, la moda sería el 18, esto
es, x ˆ  18 . 2 Existen otras medidas de localización para datos ordenados, como son los
cuartiles, deciles y percentiles. Los cuartiles dividen en cuartos una distribución de
frecuencias.

Los denotaremos por 1 2 q ,q y . q3 El segundo cuartil coincide con la mediana. Los deciles
los denotaremos por 1 2 9 d ,d ,...d y son valores que dividen una distribución de
frecuencias en diez partes iguales. El quinto decil coincide con la mediana. Los percentiles
se denotarán por 1 2 99 p , p ,...p y son valores que dividen una distribución de
frecuencias en cien partes iguales. Podemos encontrar fórmulas análogas a la de
localización de la mediana, para localizar los otros cuartiles, los deciles y los percentiles:
Posición de q1  (n 1)/ 4 Posición de q3  3(n 1)/ 4 Posición de d7  7(n 1)/10 Posición
de p85  85(n 1)/100 Hay que recordar que los cálculos anteriores nos dan la posición
donde debemos buscar las medidas anteriores. Ya encontrada la posición, existen algunos
criterios para asignar el valor correspondiente a la medida buscada.

Por ejemplo, si la posición del percentil 85 es el lugar 23.42, algunos toman el dato que
está en el lugar 23, otros el que se encuentra en el lugar 24 y otros el dato 23 más 0.42
veces la diferencia que existe entre el dato 24 y el dato 23, aunque esto último sólo tiene
sentido cuando los datos se miden a nivel de intervalo.

Al utilizar paquetería estadística se puede observar que puede haber diferencias en estos
cálculos, y es debido a esa razón. Lo mismo se puede observar en el cálculo de cuartiles en
las calculadoras. Podemos también calcular las medidas de centralización cuando tenemos
los datos agrupados en una tabla de frecuencias.

Si denotamos por mi la marca de clase del i-ésimo intervalo y i f su frecuencia absoluta,


entonces la media aritmética se calculará como: n m f x k i  i i   1 Donde n es el
tamaño total de la muestra y k es el número de intervalos en la tabla. Con respecto a la
moda, aunque existen algunas fórmulas para calcularla en una tabla de frecuencias,
podemos tomarla simplemente como la marca de clase del intervalo con mayor
frecuencia. Una de las fórmulas más usadas es la siguiente, que toma en cuenta las
frecuencias de las clases contiguas a la clase modal: x L c               1 2 1 ˆ
donde 3 L es la frontera inferior de la clase modal, 1 = frecuencia de la clase modal –
frecuencia de la clase anterior, 2 = frecuencia de la clase modal – frecuencia de la clase
siguiente, c = longitud del intervalo de clase. Para calcular la mediana, supondremos que
los datos se distribuyen en una forma continua. Así, la mediana es aquel dato que
corresponde a la mitad de la frecuencia total, o sea n/2, es decir, que deja la mitad de
frecuencias por arriba y la otra mitad por debajo. Para ejemplificar su cálculo, que
básicamente es una interpolación, consideremos la tabla de frecuencias, que se muestra a
continuación: Fronteras de clase Marcas de clase Frecuencias absolutas Frecuencias
relativas Frecuencias absolutas acumuladas Frecuencias relativas acumuladas 3.55-5.45
4.5 1 1/40 1 1/40 5.45-7.35 6.4 2 2/40 3 3/40 7.35-9.25 8.3 9 9/40 12 12/40 9.25-11.15
10.2 9 9/40 21 21/40 11.15-13.05 12.1 14 14/40 35 35/40 13.05-14.95 14.0 3 3/40 38
38/40 14.95-16.85 15.9 2 2/40 40 1 En esta tabla la frecuencia total n es de 40, de modo
que buscaremos la mediana en el dato número 40 / 2  20 . Si nos fijamos en las
frecuencias absolutas acumuladas, encontraremos que la mediana está en el cuarto
intervalo, ya que hasta el tercero llevamos una frecuencia acumulada de 12. Usando
interpolación lineal, la mediana será 9.25 8 / 911.15 9.25 10.93; ~ x     o sea , ~ 2 c
f F n x L          donde L es la frontera inferior de la clase mediana, n es el número
de datos de la muestra, F es la frecuencia acumulada antes de la clase mediana, f es la
frecuencia de la clase mediana, c es la longitud del intervalo de clase. Usando un
procedimiento similar, se pueden calcular los otros cuartiles, los deciles y los percentiles.
La media aritmética y la moda de la tabla anterior serían: x  (4.5)(1)  (6.4)(2) ...
(15.9)(2)/ 40 10.67 4 x ˆ  12.1 o x ˆ 11.74, Según se tome la marca de clase o se utilice
la fórmula para obtener la moda. Elección de una medida de tendencia central o de
localización El cálculo de la moda, mediana o media aritmética es puramente mecánico y
actualmente esto se hace con mayor rapidez en las computadoras e incluso en las
calculadoras. Sin embargo, la elección entre estas tres medidas y su interpretación puede
algunas veces requerir detenidas reflexiones. A continuación se presentan algunas
consideraciones que deben estar presentes en mente cuando se esté haciendo frente a la
elección: 1. En un grupo pequeño de datos la moda puede ser completamente inestable.
Por ejemplo la moda del grupo (1,1,1,3,5,7,7,8) es 1; pero si uno de los unos se cambia por
0 y el otro por 2, la moda se convierte en 7. 2. La media se ve influida por el valor de cada
puntuación del grupo de datos. Si una puntuación cualquiera cambia por c unidades, se
cambiaría en la misma dirección por c/n unidades. Por ejemplo, si 100 se suma a la tercera
puntuación mayor en un grupo de 10, la media del grupo se aumentara en 10 unidades. 3.
La mediana no se afecta por un cambio en el valor mayor o menor. Por ejemplo, en un
grupo de 50 puntuaciones o datos la mediana no cambiaría si la puntuación mayor se
triplica. 4. Algunos grupos de puntuaciones o datos simplemente no manifiestan
tendencia central alguna en forma significativa, siendo a menudo engañoso calcular una
medida de tendencia central. Esto es particularmente cierto para grupos de datos con más
de una moda. Por ejemplo en la siguiente situación: Un investigador en desarrollo
curricular, sostiene que se pueden construir pruebas de rendimiento compuestas por 8
ítems de elección múltiple que separan a los estudiantes entre los que han adquirido el
concepto de suma de dos números y en los que no lo han adquirido. Los que lo
adquirieron se representan con las puntuaciones 6,7,8, y los que no lo adquirieron se
representan con puntuaciones de 0,1, y 2. Supongamos que un grupo de estudiantes da
lugar a las puntuaciones que se presentan en el siguiente histograma de frecuencias que a
continuación se presenta. 0 1 2 3 4 5 6 7 8 frecuencia Puntuacion es 5 La media de las
puntuaciones representadas, estaría en el rango de 3 a 5 a pesar de que nadie obtuvo
ninguna de esas puntuaciones. La mediana del grupo esta aproximadamente en el mismo
rango. En este caso ni la media aritmética ni la mediana representan adecuadamente a
este grupo de puntuaciones o datos, tal vez la medida adecuada sea la moda, mas
precisamente bimodal, ya que una moda sería 0 y la otra sería el 8. 5. La moda es posible
localizarla tanto en variables cuantitativas, como cualitativas; la mediana también, si la
variable cualitativa es de escala ordinal. 6. La medida de tendencia central en grupos de
puntuaciones con valores extremos se mide probablemente mejor por la mediana, si
puntuaciones o datos son unimodales. Como indicamos previamente, cada dato en un
grupo influye en la media. Así, un valor extremo puede alejar a la media de un grupo de su
valor inicial, de lo que generalmente se considera como la región central. Por ejemplo, si
nueve personas tienen ingresos mensuales que fluctúan de $4500 a $ 5200 con un
promedio de $4900 y el ingreso de una décima persona es de $20000, el ingreso promedio
del grupo de las 10 personas es de $6410, Este valor no representa adecuadamente a
ninguno de los grupos. La mediana sería en este caso preferible como medida de
tendencia central. 7. En grupos unimodales de datos o puntuaciones simétricas la
mediana, moda y media aritmética son iguales. Como se ilustra en la figura siguiente: 8. En
el caso de que las puntuaciones o los datos tengan una marcada asimetría o sesgo como el
que se ilustra en la siguiente figura, la moda será menor que mediana y esta a la vez,
menor que media aritmética. En el caso de existir sesgo en la dirección contraria entonces
la media aritmética será menor que la mediana y esta a su vez menor que la moda. # de
estudiantes Calificaciones 50 55 60 65 70 75 # de personas peso 6 II Algunas Medidas de
Dispersión Puesto que esperamos que las características que medimos en la muestra
reflejen de alguna manera las características de la población, mediremos la variabilidad en
la muestra para entender la variabilidad que existe en la población. Como medidas de
variabilidad estudiaremos el rango muestral, el rango intercuartílico, la varianza, la
desviación estándar y el coeficiente de variación. El rango muestral ya lo hemos calculado
anteriormente al construir tablas de frecuencias, y es la diferencia entre el dato mayor y el
menor. El rango intercuartílico, como su nombre lo indica, es la diferencia entre el tercer y
el primer cuartil. Si lo denotamos por RI, tenemos que RI  q3  q1 . La varianza muestral
de un conjunto de n observaciones n x , x ,...x 1 2 de una variable aleatoria X , se denota
por 2 s y se calcula mediante la fórmula: 1 ( ) 1 2 2     n x x s n i i Se utilizará como
denominador n 1 en lugar de n , pues, como estimador de la varianza poblacional,
cuando se divide entre n 1 tiene la propiedad de ser insesgado, es decir, de dar valores
cuyo promedio es la varianza poblacional, como se verá en el capítulo cuatro. Cuando el
cálculo de la varianza muestral se hace en calculadora, sin utilizar las funciones
estadísticas que muchas de éstas tienen, es más rápido y seguro utilizar cualquiera de las
fórmulas siguientes, que fueron obtenidas simplificando la fórmula de la definición de
varianza e implican un número menor de operaciones.   1 1/ 2 1 1 2 2            
         n x n x s n i i n i i o bien 1 1 2 2 2     n x nx s n i i La desviación
estándar de un conjunto de datos es simplemente la raíz cuadrada positiva de la varianza.
La denotaremos por s, y entonces   1 1 2     n x x s n i i La varianza y la desviación
estándar son medidas de variación absoluta y dependen de la escala de medición; sin
embargo, hay ocasiones en que se necesita comparar la variación de diferentes conjuntos
de datos y se requiere una medida de variación relativa, como el coeficiente de variación,
en el que la desviación estándar se expresa como un porcentaje de la media. Lo
calcularemos así: 7 Coeficiente de variación = (100) x s Por ejemplo, calculemos el rango,
el rango intercuartílico, la varianza y la desviación estándar del siguiente conjunto de
datos: 12, 14, 16, 19, 19, 20 y 23. xmax  23, xmin  12 , q1  14 , q3  20 ; entonces rango
 2312 11, RI  20 14  6, x  17.6,         14.28 6 2247 15129 / 7 6 12 14 ... 23 12
... 23 / 7 1 1/ 2 2 2 2 1 2 1 2 2                        n x n x s n i n i i i y,
así, la desviación estándar es la raíz cuadrada positiva de 14.28, esto es, s  3.8. Por otra
parte, el coeficiente de variación sería: Coeficiente de variación = (100) 21.6%. 17.6 3.8
(100)   x s Como ya vimos en la sección anterior, podemos calcular la media y los
cuartiles en una tabla de frecuencias. De igual manera podemos calcular la varianza y, por
lo tanto, la desviación estándar y el coeficiente de variación. La fórmula que utilizaremos
para la varianza en una tabla de frecuencias es:                      2 1 1 2
2 1 1 1 i k i i k i i i m f n m f n s donde, como se dijo anteriormente, mi y i f son la marca de
clase y la frecuencia absoluta del i-ésimo intervalo, k es el número de intervalos de clase y
n es el número de datos. Así como contamos con medidas de localización y de dispersión,
que nos describen ciertas características de una distribución de frecuencias, existen otras
medidas que nos pueden ayudar a distinguir cuestiones como simetría o grado de
apuntamiento de una distribución. Una distribución que no es simétrica, sino que se
extiende más hacia uno de los extremos o colas, se denomina sesgada. Si la cola más larga
se extiende a la derecha, se dice que la distribución está sesgada a la derecha, mientras
que si la cola más larga se extiende a la izquierda, se dice que la distribución está sesgada
a la izquierda. El sesgo se puede calcular utilizando los momentos de una variable
aleatoria o de una distribución, 8 pero podemos calcular una medida alternativa de sesgo
que emplea conceptos que ya hemos manejado. Esta medida se calcula como: )/ , ~ Sesgo
 3(x  x s se llama segundo coeficiente de sesgo de Pearson y toma valores entre –1 y 1.
Valores negativos indicarán un sesgo a la izquierda y valores positivos, un sesgo a la
derecha. Otra característica de la forma de una distribución se llama curtosis y nos indica
el grado de apuntamiento de la distribución. Si la distribución es parecida a una
distribución normal, que tiene una forma conocida también como “campana de Gauss”, se
le llama mesocúrtica. Si la distribución presenta un apuntamiento más alto que el de una
distribución normal, se le llama leptocúrtica y en el caso de presentar menos
apuntamiento que la distribución normal, se le llama platicúrtica. Al igual que el sesgo, la
curtosis se puede calcular usando momentos de una variable aleatoria, pero por ahora
usaremos una fórmula que involucra conceptos ya utilizados. Así, tenemos que el
coeficiente de curtosis percentílico es:   . 2 90 10 3 1 p p q q K    Con este coeficiente
de curtosis, cuyos valores se encuentran entre 0 y 1, una distribución es mesocúrtica si K 
0.263, leptocúrtica si K  0.263 y platicúrtica si K  0.263. Para muestras provenientes de
una distribución normal, el sesgo y la curtosis no tomarán necesariamente el mismo valor,
sino que fluctuarán debido a la variación muestral.

La tabla de contingencia es un medio particular de representar simultáneamente dos


carácteres observados en una misma población, si son discretos o continuos reagrupados

en clases. Los dos carácteres son e , el tamaño de la muestra es . Las modalidades

o clases de se escribirán , las de , . Se denota:

el efectivo conjunto de y : es el número de individuos para los

cuales toma el valor e el valor ,


el efectivo marginal de : es el número de individuos para los

cuales toma el valor ,

el efectivo marginal de : es el número de individuos para los

cuales toma el valor .

Se representan estos valores en una tabla de doble entrada, llamada tabla de


contingencia:

II PARTE.

BM SPSS es un paquete de análisis estadístico que se conocía anteriormente como SPSS


(Paquete estadístico para las ciencias sociales) y PASW (Software de análisis predictivo).
SPSS cubre una amplia gama de análisis univariados y multivariados y actualmente llega a
la versión 20.0. PSPP es una alternativa gratuita de código abierto para el SPSS.
Desarrollado exclusivamente por programadores voluntarios, el PSPP comparte gran parte
de la funcionalidad de su homólogo propietario, pero sin costo.

La licencia
IBM SPSS es un producto comercial. Los individuos e instituciones pueden comprar uno de
un gran número de paquetes SPSS, desde el paquete estándar que ofrece análisis básicos
hasta los de predicción más avanzada y herramientas de modelado. Las licencias deben
ser renovadas anualmente a un costo adicional. PSPP, por otro lado, es totalmente
gratuito y de código abierto, que tiene otras ventajas aparte del costo; el código fuente
puede ser independientemente verificado para su exactitud, y cualquiera es libre de
modificarlo y agregarlo.

Funcionalidad

El IBM SPSS se ha desarrollado durante un largo período de tiempo para apoyar una gran
variedad de análisis estadísticos. Como se ha señalado anteriormente, sin embargo, el
problema es que el cliente tiene que pagar extra para conseguir el que él quiere. La lista
de procedimientos del PSPP está creciendo, pero aún palidece en comparación con el
SPSS. Sin embargo, sí cubre la mayoría de las pruebas básicas, incluyendo las pruebas t,
ANOVA, regresión, análisis factorial y los equivalentes correspondientes de estas pruebas
no paramétricas.

Compatibilidad

La versión para Windows de SPSS ha sido establecida hace tiempo, y en años recientes
han sido lanzadas versiones compatibles con Mac OS X y Linux. La última versión, v20.0.0,
es compatible con Windows XP, Vista y 7 y una serie de distribuciones de Linux. PSPP es
principalmente un programa de Linux, pero puede ejecutarse en Windows utilizando el
entorno MinGW y bajo Mac OS a través de la utilización de Darwin o GNU-Darwin, los
programas que permiten aplicaciones de Linux para funcionar en la MAC.

Consideraciones

PSPP es una posible alternativa al SPSS para personas que necesitan procedimientos
básicos de análisis, pero no puede superar al SPSS. Esto se debe a que es gratuito y similar
en uso al SPSS, por lo que cualquier persona con experiencia en el SPSS puede utilizar el
PSPP inmediatamente. PSPP también tiene grandes límites en los casos y variables, lo que
permite grandes conjuntos de datos a ser analizados. Sin embargo, debido a que el PSPP
soporta sólo unos pocos procedimientos en este momento, SPSS sería preferible cuando
se necesite una gama más amplia de análisis o los análisis más avanzados.

Insight: es una clave que nos permite encontrar la solución a un problema, como por
ejemplo, un camino, un paso o un dato que nos sugiere como resolver cualquier tipo de
ecuación o situación por compleja que parezca; el Insight no es la solución del problema,
sino simplemente el punto que nos lleva al camino de esa solución.

En Estadística el día a día de una empresa analizamos multitud de situaciones, datos,


problemas, etc. para poder tomar las decisiones más adecuadas sobre laestrategia de la
empresa. En este análisis necesitamos encontrar la clave del problema, aquel dato que
elimina todo accesorio y nos muestra el camino a seguir.

La minería de datos es el proceso de detectar la información procesable de los conjuntos


grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias
que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante
la exploración tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datos.

Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de


datos. Los modelos de minería de datos se pueden aplicar en escenarios como los
siguientes:

Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del tiempo de
inactividad del servidor.

Riesgo y probabilidad: elección de los mejores clientes para la distribución de correo


directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y
asignación de probabilidades a diagnósticos y otros resultados.

Recomendaciones: determinación de los productos que se pueden vender juntos y


generación de recomendaciones.
Búsqueda de secuencias: análisis de los artículos que los clientes han introducido en el
carrito de la compra y predicción de posibles eventos.

Agrupación: distribución de clientes o eventos en grupos de elementos relacionados, y


análisis y predicción de afinidades.

La generación de un modelo de minería de datos forma parte de un proceso mayor que


incluye desde la formulación de preguntas acerca de los datos y la creación de un modelo
para responderlas, hasta la implementación del modelo en un entorno de trabajo. Este
proceso se puede definir mediante los seis pasos básicos siguientes:

Definir el problema

Preparar los datos

Explorar los datos

Generar modelos

Explorar y validar los modelos

Implementar y actualizar los modelos

El siguiente diagrama describe las relaciones existentes entre cada paso del proceso y las
tecnologías de Microsoft SQL Server que se pueden usar para completar cada paso.

El proceso que se ilustra en el diagrama es cíclico, lo que significa que la creación de un


modelo de minería de datos es un proceso dinámico e iterativo. Una vez que ha explorado
los datos, puede que descubra que resultan insuficientes para crear los modelos de
minería de datos adecuados y que, por tanto, debe buscar más datos. O bien, puede
generar varios modelos y descubrir entonces que no responden adecuadamente al
problema planteado cuando los definió y que, por tanto, debe volver a definir el
problema.Es posible que deba actualizar los modelos una vez implementados debido a
que haya más datos disponibles. Puede que haya que repetir cada paso del proceso
muchas veces para crear un modelo adecuado.

La minería de datos de Microsoft SQL Server ofrece un entorno integrado para crear y
trabajar con modelos de minería de datos. Este entorno incluye SQL Server Development
Studio, que contiene algoritmos de minería de datos y herramientas de consulta que
facilitan la generación de una solución completa para una serie de proyectos, y SQL Server
Management Studio, que contiene herramientas que permiten examinar modelos y
administrar objetos de minería de datos. Para obtener más información, vea Crear
modelos multidimensionales al usar las herramientas de datos de SQL Server (SSDT).

Si quiere ver un ejemplo de cómo las herramientas de SQL Server se pueden aplicar en un
escenario empresarial, vea Tutorial básico de minería de datos.

Definir el problema

El primer paso del proceso de minería de datos, tal como se resalta en el siguiente
diagrama, consiste en definir claramente el problema y considerar formas de usar los
datos para proporcionar una respuesta para el mismo.

Este paso incluye analizar los requisitos empresariales, definir el ámbito del problema,
definir las métricas por las que se evaluará el modelo y definir los objetivos concretos del
proyecto de minería de datos. Estas tareas se traducen en preguntas como las siguientes:

¿Qué está buscando? ¿Qué tipos de relaciones intenta buscar?

¿Refleja el problema que está intentando resolver las directivas o procesos de la empresa?

¿Desea realizar predicciones a partir del modelo de minería de datos o solamente buscar
asociaciones y patrones interesantes?

¿Qué resultado o atributo desea predecir?


¿Qué tipo de datos tiene y qué tipo de información hay en cada columna? En caso de que
haya varias tablas, ¿cómo se relacionan? ¿Necesita limpiar, agregar o procesar los datos
antes de poder usarlos?

¿Cómo se distribuyen los datos? ¿Los datos son estacionales? ¿Los datos representan con
precisión los procesos de la empresa?

Para responder a estas preguntas, puede que deba dirigir un estudio de disponibilidad de
datos para investigar las necesidades de los usuarios de la empresa con respecto a los
datos disponibles. Si los datos no abarcan las necesidades de los usuarios, podría tener
que volver a definir el proyecto.

También debe considerar las maneras en las que los resultados del modelo se pueden
incorporar en los indicadores de rendimiento clave (KPI) que se utilizan para medir el
progreso comercial.

Preparar los datos

El segundo paso del proceso de minería de datos, como se indica en el siguiente diagrama,
consiste en consolidar y limpiar los datos identificados en el paso Definir el problema .

Los datos pueden estar dispersos en la empresa y almacenados en formatos distintos;


también pueden contener incoherencias como entradas que faltan o incorrectas. Por
ejemplo, los datos pueden mostrar que un cliente adquirió un producto incluso antes que
se ofreciera en el mercado o que el cliente compra regularmente en una tienda situada a
2.000 kilómetros de su casa.

La limpieza de datos no solamente implica quitar los datos no válidos o interpolar valores
que faltan, sino también buscar las correlaciones ocultas en los datos, identificar los
orígenes de datos que son más precisos y determinar qué columnas son las más
adecuadas para el análisis. Por ejemplo, ¿debería utilizar la fecha de envío o la fecha de
pedido? ¿Qué influye más en las ventas: la cantidad, el precio total o un precio con
descuento? Los datos incompletos, los datos incorrectos y las entradas que parecen
independientes, pero que de hecho están estrechamente correlacionadas, pueden influir
en los resultados del modelo de maneras que no espera.

Por consiguiente, antes de empezar a generar los modelos de minería de datos, debería
identificar estos problemas y determinar cómo los corregirá. En la minería de datos, por lo
general se trabaja con un conjunto de datos de gran tamaño y no se puede examinar la
calidad de los datos de cada transacción; por tanto, es posible que necesite usar
herramientas de generación de perfiles de datos, y de limpieza y filtrado automático de
datos, como las que se proporcionan en Integration Services,Microsoft SQL Server 2012
Master Data Serviceso SQL Server Data Quality Services para explorar los datos y buscar
incoherencias. Para obtener más información, vea estos recursos:

Integration Services en Business Intelligence Development Studio

Introducción a Master Data Services (MDS)

Data Quality Services

Es importante tener en cuenta que los datos que se usan para la minería de datos no
necesitan almacenarse en un cubo de procesamiento analítico en línea (OLAP), ni siquiera
en una base de datos relacional, aunque puede usar ambos como orígenes de
datos.Puede realizar minería de datos mediante cualquier origen de datos definido como
origen de datos de Analysis Services . Por ejemplo, archivos de texto, libros de Excel o
datos de otros proveedores externos. Para obtener más información, vea Orígenes de
datos admitidos (SSAS - Multidimensionales).

Explorar los datos

El tercer paso del proceso de minería de datos, como se resalta en el siguiente diagrama,
consiste en explorar los datos preparados.
Debe conocer los datos para tomar las decisiones adecuadas al crear los modelos de
minería de datos. Entre las técnicas de exploración se incluyen calcular los valores
mínimos y máximos, calcular la media y las desviaciones estándar, y examinar la
distribución de los datos. Por ejemplo, al revisar el máximo, el mínimo y los valores de la
media se podría determinar que los datos no son representativos de los clientes o
procesos de negocio, y que por consiguiente debe obtener más datos equilibrados o
revisar las suposiciones que son la base de sus expectativas. Las desviaciones estándar y
otros valores de distribución pueden proporcionar información útil sobre la estabilidad y
exactitud de los resultados. Una desviación estándar grande puede indicar que agregar
más datos podría ayudarle a mejorar el modelo. Los datos que se desvían mucho de una
distribución estándar se podrían sesgar o podrían representar una imagen precisa de un
problema de la vida real, pero dificultar el ajustar un modelo a los datos.

Al explorar los datos para conocer el problema empresarial, puede decidir si el conjunto
de datos contiene datos defectuosos y, a continuación, puede inventar una estrategia
para corregir los problemas u obtener una descripción más profunda de los
comportamientos que son típicos de su negocio.

Puede usar herramientas como Master Data Services para sondear los orígenes de datos
disponibles y determinar su disponibilidad para la minería de datos. Puede usar
herramientas comoSQL Server Data Quality Services, o el generador de perfiles de datos
de Integration Services, para analizar la distribución de los datos y solucionar problemas,
como la existencia de datos incorrectos o la falta de datos.

Cuando tenga definido los orígenes, combínelos en una vista del origen de datos con el
Diseñador de vistas del origen de datos de SQL Server Data Tools. Para obtener más
información, vea Vistas del origen de datos en modelos multidimensionales. Este
diseñador también contiene algunas herramientas que podrá usar para explorar los datos
y comprobar que funcionarán a la hora de crear un modelo. Para obtener más
información, vea Explorar datos en una vista del origen de datos (Analysis Services).

Tenga en cuenta que cuando se crea un modelo, Analysis Services crea automáticamente
resúmenes estadísticos de los datos contenidos en él, que puede consultar para su uso en
informes o análisis. Para obtener más información, vea Consultas de minería de datos.

Generar modelos

El cuarto paso del proceso de minería de datos, como se resalta en el siguiente diagrama,
consiste en generar el modelo o modelos de minería de datos. Usará los conocimientos
adquiridos en el paso Explorar los datos para definir y crear los modelos.

Deberá definir qué columnas de datos desea que se usen; para ello, creará una estructura
de minería de datos. La estructura de minería de datos se vincula al origen de datos, pero
en realidad no contiene ningún dato hasta que se procesa. Al procesar la estructura de
minería de datos,Analysis Services genera agregados y otra información estadística que se
puede usar para el análisis. Cualquier modelo de minería de datos que esté basado en la
estructura puede utilizar esta información. Para obtener más información sobre cómo se
relacionan las estructuras de minería de datos con los modelos de minería de datos,
vea Arquitectura lógica (Analysis Services - Minería de datos).

Antes de procesar la estructura y el modelo, un modelo de minería de datos simplemente


es un contenedor que especifica las columnas que se usan para la entrada, el atributo que
está prediciendo y parámetros que indican al algoritmo cómo procesar los datos. El
procesamiento de un modelo a menudo se denomina entrenamiento. El entrenamiento
hace referencia al proceso de aplicar un algoritmo matemático concreto a los datos de la
estructura para extraer patrones. Los patrones que encuentre en el proceso de
entrenamiento dependerán de la selección de los datos de entrenamiento, el algoritmo
que elija y cómo se haya configurado el algoritmo. SQL Server 2017contiene muchos
algoritmos diferentes, cada uno está preparado para un tipo diferente de tarea y crea un
tipo distinto de modelo. Para obtener una lista de los algoritmos proporcionados enSQL
Server 2017, vea Algoritmos de minería de datos (Analysis Services: Minería de datos).

También puede utilizar los parámetros para ajustar cada algoritmo y puede aplicar filtros a
los datos de entrenamiento para utilizar un subconjunto de los datos, creando resultados
diferentes.Después de pasar los datos a través del modelo, el objeto de modelo de
minería de datos contiene los resúmenes y modelos que se pueden consultar o utilizar
para la predicción.

Puede definir un modelo nuevo mediante el Asistente para minería de datos de SQL
Server Data Tools o con el lenguaje DMX (Extensiones de minería de datos). Para obtener
más información sobre cómo usar el Asistente para minería de datos, vea Asistente para
minería de datos (Analysis Services - Minería de datos). Para obtener más información
sobre cómo usar DMX, vea Referencia de Extensiones de minería de datos (DMX).

Es importante recordar que siempre que los datos cambian, debe actualizar la estructura y
el modelo de minería de datos. Al actualizar una estructura de minería de datos
volviéndola a procesar, Analysis Services recupera los datos del origen, incluido cualquier
dato nuevo si el origen se actualiza dinámicamente, y vuelve a rellenar la estructura de
minería de datos. Si tiene modelos que están basados en la estructura, puede elegir
actualizar estos, lo que significa que se vuelven a entrenar con los nuevos datos, o puede
dejar los modelos tal cual. Para más información, veaRequisitos y consideraciones de
procesamiento (minería de datos).

Explorar y validar los modelos

El quinto paso del proceso de minería de datos, como se resalta en el siguiente diagrama,
consiste en explorar los modelos de minería de datos que ha generado y comprobar su
eficacia.
Antes de implementar un modelo en un entorno de producción, es aconsejable probar si
funciona correctamente. Además, al generar un modelo, normalmente se crean varios con
configuraciones diferentes y se prueban todos para ver cuál ofrece los resultados mejores
para su problema y sus datos.

Analysis Services proporciona herramientas que ayudan a separar los datos en conjuntos
de datos de entrenamiento y pruebas, para que pueda evaluar con precisión el
rendimiento de todos los modelos en los mismos datos. El conjunto de datos de
entrenamiento se utiliza para generar el modelo y el conjunto de datos de prueba para
comprobar la precisión del modelo mediante la creación de consultas de predicción. Estas
particiones pueden hacer automáticamente mientras se genera el modelo de minería de
datos. Para obtener más información, vea Prueba y validación (minería de datos).

Puede explorar las tendencias y patrones que los algoritmos detectan mediante los visores
del diseñador de minería de datos de SQL Server Data Tools. Para obtener más
información, veaVisores de modelos de minería de datos. También puede comprobar si
los modelos crean predicciones correctamente mediante herramientas del diseñador
como el gráfico de mejora respecto al modelo predictivo y la matriz de clasificación. Para
comprobar si el modelo es específico de sus datos o se puede usar para realizar
inferencias en la población general, puede usar la técnica estadística
denominada validación cruzada para crear automáticamente subconjuntos de los datos y
probar el modelo con cada uno. Para obtener más información, vea Prueba y validación
(minería de datos).

Si ninguno de los modelos que ha creado en el paso Generar modelos funciona


correctamente, puede que deba volver a un paso anterior del proceso y volver a definir el
problema o volver a investigar los datos del conjunto de datos original.

Implementar y actualizar los modelos

El último paso del proceso de minería de datos, como se resalta en el siguiente diagrama,
consiste en implementar los modelos que funcionan mejor en un entorno de producción.
Una vez que los modelos de minería de datos se encuentran en el entorno de producción,
puede llevar acabo diferentes tareas, dependiendo de sus necesidades. Las siguientes son
algunas de las tareas que puede realizar:

Use los modelos para crear predicciones que luego podrá usar para tomar decisiones
comerciales. SQL Serverproporciona el lenguaje DMX, que puede usar para crear consultas
de predicción y el generador de consultas de predicción para ayudarle a generar las
consultas. Para obtener más información, vea Referencia de Extensiones de minería de
datos (DMX).

Crear consultas de contenido para recuperar estadísticas, reglas o fórmulas del


modelo.Para obtener más información, vea Consultas de minería de datos.

Incrustar la funcionalidad de minería de datos directamente en una aplicación. Puede


incluir Objetos de administración de análisis (AMO), que contiene un conjunto de objetos
que la aplicación pueda utilizar para crear, cambiar, procesar y eliminar estructuras y
modelos de minería de datos. También puede enviar mensajes XML for Analysis (XMLA)
directamente a una instancia de Analysis Services. Para obtener más información,
veaDesarrollo (Analysis Services - Minería de datos).

Utilizar Integration Services para crear un paquete en el que se utilice un modelo de


minería de datos para dividir de forma inteligente los datos entrantes en varias tablas. Por
ejemplo, si una base de datos se actualiza continuamente con clientes potenciales, puede
utilizar un modelo de minería de datos junto con Integration Services para dividir los datos
entrantes en clientes que probablemente compren un producto y clientes que
probablemente no compren un producto. Para más información, consulte Usos típicos de
Integration Services.
Crear un informe que permita a los usuarios realizar consultas directamente en un modelo
de minería de datos existente. Para obtener más información, vea Reporting Services en
SQL Server Data Tools (SSDT).

Actualizar los modelos después de la revisión y análisis. Cualquier actualización requiere


que vuelve a procesar los modelos. Para más información, consulte Processing Data
Mining Objects.

Actualizar dinámicamente los modelos, cuando entren más datos en la organización, y


realizar modificaciones constantes para mejorar la efectividad de la solución debería ser
parte de la estrategia de implementación. Para obtener más información, vea
Administración.

¿Qué es Big Data?

Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de


conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante
tecnologías y herramientas convencionales, tales como bases de datosrelacionales y
estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para
que sean útiles.

Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se


considera Big Data no está firmemente definido y sigue cambiando con el tiempo, la
mayoría de los analistas y profesionales actualmente se refieren a conjuntos de datos que
van desde 30-50 Terabytes a varios Petabytes.

La naturaleza compleja del Big Data se debe principalmente a la naturaleza no


estructurada de gran parte de los datos generados por las tecnologías modernas, como
los web logs, la identificación por radiofrecuencia (RFID), los sensores incorporados en
dispositivos, la maquinaria, los vehículos, las búsquedas en Internet, las redes sociales
como Facebook, computadoras portátiles, teléfonos inteligentes y otros teléfonos
móviles, dispositivos GPS y registros de centros de llamadas.
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse
con datos estructurados (normalmente de una base de datos relacional) de una aplicación
comercial más convencional, como un ERP (Enterprise Resource Planning) o un CRM
(Customer Relationship Management).

2. ¿Por qué el Big Data es tan importante?

Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que
proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que
tenían. En otras palabras, proporciona un punto de referencia. Con una cantidad tan
grande de información, los datos pueden ser moldeados o probados de cualquier manera
que la empresa considere adecuada. Al hacerlo, las organizaciones son capaces de
identificar los problemas de una forma más comprensible.

La recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro de los


datos permiten que las empresas se muevan mucho más rápidamente, sin problemas y de
manera eficiente. También les permite eliminar las áreas problemáticas antes de que los
problemas acaben con sus beneficios o su reputación.

El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para
identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios más
inteligentes, operaciones más eficientes, mayores ganancias y clientes más felices. Las
empresas con más éxito con Big Data consiguen valor de las siguientes formas:

Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis basado
en la nube, aportan importantes ventajas en términos de costes cuando se trata de
almacenar grandes cantidades de datos, además de identificar maneras más eficientes de
hacer negocios.

Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en


memoria, combinada con la capacidad de analizar nuevas fuentes de datos, las empresas
pueden analizar la información inmediatamente y tomar decisiones basadas en lo que han
aprendido.
Ejemplos del uso efectivo de Big Data existen en las siguientes áreas:

Uso de registros de logs de TI para mejorar la resolución de problemas de TI, así como la
detección de infracciones de seguridad, velocidad, eficacia y prevención de sucesos
futuros.

Uso de la voluminosa información histórica de un Call Center de forma rápida, con el fin
de mejorar la interacción con el cliente y aumentar su satisfacción.

Uso de contenido de medios sociales para mejorar y comprender más rápidamente el


sentimiento del cliente y mejorar los productos, los servicios y la interacción con el cliente.

Detección y prevención de fraudes en cualquier industria que procese transacciones


financieras online, tales como compras, actividades bancarias, inversiones, seguros y
atención médica.

Uso de información de transacciones de mercados financieros para evaluar más


rápidamente el riesgo y tomar medidas correctivas.

También podría gustarte