Está en la página 1de 6

DATAMINE Latin America Fone: +55 31 225 6855

Rua Antônio de Albuquerque, 717 Fax : +55 31 225 6855


Sala 1003/ CEP 30112-010 E-Mail: info@datamine.com.br
Belo Horizonte, MG
BRASIL

TUTORIAL STATS
Junho/2002
DATAMINE Latin America Tutorial STATS

Índice

1. Introducción ........................................................................................................................................ 3
2. Resumen del proceso .......................................................................................................................... 4
3. Mensajes de alerta y de error................................................................................................................ 5
4. Notas ................................................................................................................................................. 5

11º Workshop DATAMINE do Brasil & 3º Conferencia Latino Americana de Usuarios DATAMINE
-2-
DATAMINE Latin America Tutorial STATS

1. Introducción

Permite calcular un completo resumen estadístico de los campos numéricos de un archivo. Los
campos a utilizar para los procesos estadísticos puede ser seleccionado en las entradas de
campos *F1, *F2, etc o bien especificando un archivo &FIELDLST que contendrá el listado de
los campos a utilizar. Si el usuario no especifica ningún campo en particular, entonces el
proceso por defecto calculará la estadística para todos los campos numéricos presentes en el
archivo.

El usuario podrá utilizar hasta 5 campos llaves para filtrar la información, pero de no ser
definidos entonces el proceso utilizará todo el conjunto poblacional para realizar la estadística.
Para utilizar la propiedad de los campos llaves el usuario deberá previamente ordenar la
información de acuerdo a esos campos llaves, ya que el proceso básicamente realiza la
siguiente función de selección de muestras, el considera todas aquellas muestras con el mismo
valor del campo llave y las considera para la estadística, hasta que el valor del campo llave
cambia.

Además, en forma opcional este proceso permite ponderar las muestras a utilizar en la
estadística, por un campo de ponderación (*WEIGHT) , un ejemplo muy común es la
ponderación de las muestras de sondajes por su respectivo largo, información almacenada en el
campo "LENGTH".

La varianza y los otros momentos son calculados usando el método de aproximación de las
pequeñas muestras, esto quiere decir que para el cálculo de la varianza por ejemplo se usará el
divisor N-1 en vez del número total de muestras.

La siguiente estadística es calculada para cada variable numérica, a partir de este proceso.

- El número total de registros del archivo


- El número total de muestras (sin incluir los valores ausentes).
- El número de datos ausentes.
- Los valores; mínimo, máximo, y el rango.
- La suma total y la media.
- La varianza, desviación standard, y el error standard.
- La skewness y kurtosis.
- La media geométrica.
- La suma y la media de los logaritmos naturales.
- El valor logarítmico de la media

Estos resultados son desplegados en la pantalla de texto de DATAMINE, pero alternativamente


pueden ser enviados a su impresora o archivo de impresión o también pueden ser almacenados
en un archivo. Adicionalmente este proceso también puede generar los ploteos de histogramas
y frecuencias acumulativas en una escala normal probabilistica y ser enviados a la impresora o
11º Workshop DATAMINE do Brasil & 3º Conferencia Latino Americana de Usuarios DATAMINE
-3-
DATAMINE Latin America Tutorial STATS

archivo de impresión.

2. Resumen del proceso

Este proceso requiere de las siguientes entradas:

CATEGORIA ENTIDAD Opcional Valor por Descripción


Defecto
Archivos IN NO - El archivo de entrada deberá contener a lo
menos un campo numérico.
OUT SI - Este archivo contendrá un registro para
cada uno de los campos estudiados
estadísticamente y para cada combinación
de los campos llaves. Cada registro
contendrá los campos; FIELD,NRECORDS,
NSAMPLES,NMISVALS,MINIMUM,MAXIM
UM, RANGE,TOTAL,MEAN,VARIANCE,
STANDDEV,STANDERR,SKEWNESS,
KURTOSIS, GEOMEAN, SUMLOG,
MEANLOG, LOGVAR y LOGESTM. Y en el
caso de que el usuario este utilizando
campos llaves entonces está información
también deberá aparecer.
FIELDLST SI - Archivo que contendrá un sólo campo con
el listado de campos pertenecientes al
archivo definido en "IN" y que se utilizarán
para la estadística.
Campos F1 NO - Primer campo que se utilizará para realizar
la estadística.
F2 SI - Segundo campo que se utilizará para
realizar la estadística.
... ... - ...
... ... ...
F10 SI - Décimo campo que se utilizará para realizar
la estadística.
KEY1 SI - Primer campo llave a utilizar
KEY2 SI - Segundo campo llave a utilizar
... ... ... Primer campo llave a utilizar
... ... ...
KEY10 SI - Décimo campo llave a utilizar
FIELDNAM SI - Nombre del campo dentro del archivo
&FIELDLST, que contiene el listado de los
campos que se utilizarán para la
estadística, dentro del archivo &IN.
WEIGHT SI - Nombre del campo que se utilizará para la
ponderación de las muestras.
Parámetros BINSIZE SI - Ancho del intervalo para el histograma. Si
este no es especificado o se está
realizando la estadística para más de un
campo, entonces el sistema calculará este
valor por si mismo.

11º Workshop DATAMINE do Brasil & 3º Conferencia Latino Americana de Usuarios DATAMINE
-4-
DATAMINE Latin America Tutorial STATS

MINIMUM SI - Límite inferior para el primer intervalo. Si


este no es especificado o se está
realizando la estadística para más de un
campo, entonces el sistema calculará este
valor por si mismo.
PLOT SI 0 Control del nivel de salida gráfica;
1.- Genera ploteos de histograma y
frecuencia acumulativa.
2.- Sólo genera el histograma
3.- Sólo genera el ploteo de la frecuencia
acumulativa.
PERC SI 0 Contador numérico para los intervalos del
histograma. Si se le asigna un valor mayor
que cero entonces el contador del intervalo
será el porcentaje del intervalo.
ECHO SI 0 Controla la generación de una salida hasta
la impresora (con el valor "1") o hasta un
archivo de impresión (con el valor "0")

3. Mensajes de alerta y de error

>>> ERR 121 <<< ( fileno) IN STATS


Error al leer el archivo de entrada. Este es un error grave y el proceso es abortado

>>> ERR 122 <<< ( fileno) IN STATS


El archivo de entrada no contiene campos numéricos, o bien los campos especificados
tampoco son numéricos, este es un error grave y el proceso es abortado.

4. Notas

Por defecto el proceso calcula la estadística de todos los campos numéricos del archivo de
entrada, incluyendo lo campos implícitos del sistema, tales como las coordenadas del archivo.
Por esta razón, es muy normal que nuestros usuarios utilicen este proceso para determinar las
coordenadas mínimas y máximas donde se mueve la información espacial.

El primer intervalo del histograma ploteado contiene todos los valores mayores al valor
"MINIMUM" especificado, mientras que el último intervalo contiene todos los valores que están
por sobre el valor máximo de la base de datos.

La estadística de los valores logarítmicos está basada en todas las muestras mayores al valor
de traza del sistema.

Los valores de "skewness" o asimetría y "kurtosis" o achatamiento deberán interpretarse


como:

SKEWNESS = 0. No hay distorsión (Similar a una Curva Gausiana).


11º Workshop DATAMINE do Brasil & 3º Conferencia Latino Americana de Usuarios DATAMINE
-5-
DATAMINE Latin America Tutorial STATS

> 0. Asimetría Positiva (asimétrico hacia la derecha).


< 0. Asimetría Negativa (asimétrico hacia la izquierda).

KURTOSIS = 0. Mesokurtica (Similar a una Curva Gausiana).


> 0. Leptokurtic (Levantada).
< 0. Platikurtic (achatada).

Ejemplo
!STATS &IN(ASSAYS),&OUT(DHSTATS),*F1(AU),*F2(AG),*F3(CU),
*WEIGHT(LENGTH),@ECHO=1,@PLOT=1

11º Workshop DATAMINE do Brasil & 3º Conferencia Latino Americana de Usuarios DATAMINE
-6-

También podría gustarte