Transformación de Datos

Transformación de datos
Cuando se realizan pruebas paramétricas, generalmente se asume que:
 los datos se distribuyen normalmente

 la varianza del error es constante
 los errores son independientes
 los predictores no están correlacionados
 Las relaciones en los datos son lineales.
Sin embargo, estas suposiciones no siempre son válidas para los datos que estamos
tratando de analizar, por lo que se pueden hacer ciertas transformaciones para ayudar
a ajustar los datos a estas suposiciones, para que se usen las pruebas paramétricas
habituales.
En una publicación anterior sobre el ANOVA de una vía, se mostró cómo se pueden
usar los códigos de contraste para probar las posibles relaciones polinomiales en los
predictores categóricos ordinales. Por lo tanto, no debería sorprender que un predictor
continuo tampoco tenga necesariamente una relación lineal con su variable
dependiente. En tal situación, un transformación de poder puede ser usado.
Añadiendo el Xi² término de un predictor continuo a un modelo de regresión, el
segundo -El coeficiente será una prueba para determinar si existe una relación
cuadrática; similarmente, el segundo -eficiente de un añadido Xi El término ³ será una
prueba de si existe una relación cúbica. Los términos de orden superior también
pueden incluirse, pero cada vez son más difíciles de interpretar.
Para otros tipos de escenarios, se pueden usar diferentes transformaciones:
Las transformaciones descritas hasta ahora se realizan en los predictores, pero

también es posible transformar los valores de la variable dependiente. Esencialmente,
encontrar la transformación correcta para usar en un conjunto de datos es, en gran
medida, un proceso de prueba y error. De hecho, después de cada transformación, es
una buena práctica replantear los datos para la visualización y realizar las pruebas
estadísticas necesarias para verificar si las suposiciones aún se incumplen.
Pruebas no paramétricas
Las pruebas no paramétricas se usan comúnmente cuando los datos no se
distribuyen normalmente. Estas pruebas se consideran un tipo de transformación
porque son en su mayoría equivalentes a sus equivalentes paramétricos, excepto que
los datos se han convertido a rangos (1, 2, 3, …) del valor más bajo al más alto. Sin
embargo, cuando los datos experimentan una transformación de rango, se pierde
información importante, como la varianza de los puntos de datos. Esto hace una fuerte
suposición de que los puntos de datos están ordenados de manera significativa,
incluso si en realidad están cerca unos de otros y no tienen mucha variación. Las
pruebas no paramétricas tampoco son compatibles con el informe de medias y
variaciones, pero esto puede sustituirse con el informe de medianas.
Los autores del libro de texto "Análisis de datos: un enfoque de comparación de

modelos", Carey Ryan, Charles M. Judd y Gary H. McClelland, incluso fueron tan lejos
como para “No recomiendo procedimientos no paramétricos” . Ellos creen que “Si uno
reconoce que la mayoría de los procedimientos no paramétricos son simplemente
procedimientos paramétricos aplicados a datos que han sido transformados por rango,
entonces resulta obvio que si hay mejores transformaciones, mejor en el sentido de
que es más probable que traten con problemas de no normalidad. y varianzas
heterogéneas, entonces deberían usarse en lugar de procedimientos estadísticos no
paramétricos " . No obstante, este blog describe algunas de las razones para usar
pruebas no paramétricas:
1. Tienes un tamaño de muestra muy pequeño.

2. Tiene datos ordinales, datos clasificados o valores atípicos que no puede
eliminar.
3. Su área de estudio está mejor representada por la mediana.
En esencia, si es posible resolver las violaciones de supuestos mediante otros tipos

de transformaciones, podría ser mejor evitar el uso de pruebas no paramétricas. Pero
como no hay mucho que se pueda hacer para los estudios con un tamaño de muestra
pequeño, las pruebas no paramétricas a menudo terminan como la única opción
Por el bien de aquellos que aún requieren el uso de pruebas no paramétricas, he creado una
hoja de trucos para seleccionar el análisis no paramétrico para cada tipo de predictor en un
conjunto de datos, los pasos rápidos para realizar el análisis en SPSS, también como
comparar las pruebas no paramétricas contra sus equivalentes paramétricos:
Espero que esta publicación haya ayudado a resolver el misterio de lo que realmente
son las pruebas no paramétricas, cómo se relacionan realmente con las
transformaciones de datos y por qué puede no ser necesario usarlas cuando los datos
no se distribuyen normalmente.
Introducción
Hasta ahora, se han aplicado Métodos Estadísticos Paramétricos que suponen que la variable
tiene una distribución con algunas características:
1. La Distribución es Normal para datos cuantitativos continuos
2. La Distribución es Binomial para datos binarios con una probabilidad (p).
Las medias, desviaciones estándar y

probabilidades son llamadas parámetros y los
métodos que hacen suposiciones acerca de esos
parámetros se llaman Métodos Estadísticos
Paramétricos
Por lo tanto, los métodos de Estadística

Inferencial son llamados Métodos Estadísticos
Paramétricos porque ellos son basados en
muestreo de una población con parámetros específicos como la media (μ), la desviación
estándar (σ) o la proporción (p).
Las Pruebas Estadísticas no Paramétricas tienen casi la misma capacidad para detectar las
diferencias entre las poblaciones que los métodos paramétricos tradicionales, cuando se
cumplen los supuestos de normalidad. Con frecuencia son más efectivos para discernir las
diferencias poblacionales.
Una cualidad de los Métodos Estadísticos no Paramétricos es que pueden estudiar

características intrínsecas o no de la población, que son lo suficientemente importantes y
necesarias de conocer que hacen imprescindibles su estudio inferencial como el tipo de
distribución de la población, si existe o no independencia de ésta con respecto a otra, la
presumible homogeneidad del comportamiento frente a diversos valores de un factor, la
existencia de rangos (intervalos).
Todas estas características hacen necesario su estudio mediante inferencias que por no hacer
referencia a los parámetros de la población se denomina Inferencia no Paramétrica.
Las Técnicas no Paramétricas serán así una metodología de trabajo idéntica a las técnicas
paramétricas pero con la diferencia evidente de que las hipótesis planteadas no harán
referencia al valor de los parámetros desconocidos o sus relaciones con los de otra población
Los Contrastes no Paramétricos, como también se les conoce, han sido criticados cuando en
realidad poseen cualidades que les hacen imprescindibles para el adecuado tratamiento de la
información que muchas veces llega a nosotros para su estudio.
Características de las Pruebas No Paramétricas:
1. Simplicidad de deducción: Los contrastes no paramétricos son más sencillos

matemáticamente que los paramétricos y se deducen de expresiones sencillas.
2. Rapidez y simplicidad de manejo: Las Pruebas no paramétricas son más sencillas de

realizar, las operaciones necesarias son más simples.
3. Campo de aplicación: Las hipótesis de aplicación en una Prueba no Paramétrica son

menos detalladas y restrictivas.
4. Sensibilidad respecto al incumplimiento de las hipótesis: Dado que las hipótesis de

aplicación son menos restrictivas y numerosas es más fácil percatarse de su
incumplimiento.
5. Tipos de medición exigida: Las Pruebas no Paramétricas requieren datos ordinales o

nominales, mientras que las Pruebas Paramétricas requieren escala de razón o de
intervalo.
6. Tamaño de la muestra: Con tamaños muestrales superiores a diez por lo que son más
adecuadas las Pruebas No Paramétricas; las cuales disminuyen su eficiencia
precisamente cuanto mayor es el tamaño muestral.
Finalmente, es importante puntualizar que la potencia de las Pruebas Estadísticas No
Paramétricas es superior o por lo menos igual a la de las Pruebas Estadísticas Paramétricas,
siempre que se mantengan las hipótesis de aplicación en los contrastes no paramétricos y no lo
hagan en los contrastes paramétricos; cabe recordar a este respecto que las pruebas
paramétricas son más sensibles al incumplimiento de las hipótesis de aplicación.
Prueba no Eficiencia de la Prueba no

Aplicación Prueba Paramétrica
Paramétrica Paramétrica
Dos muestras Prueba del Signo 0.63

dependientes Prueba t
Prueba de Rangos 0.95
(datos Prueba z con signo de
preados) Wilcoxon
Dos muestras Prueba t Prueba de Suma de

independiente Rangos de Mann 0.95
s Prueba z Whitney
Varias Prueba de Kruskal

muestras Análisis de Varianza Wallis
0.95
independiente (ANOVA)
s
Prueba de
Correlación Correlación lineal (CL) Correlación de 0.91
Rangos
¿Cómo se aplican estas pruebas?
Dos de las herramientas más básicas en las que se basan muchas de estas Pruebas Estadísticas
No Paramétricas son:
1. Conteos: Varias técnicas no paramétricas requieren el conteo; es decir, las frecuencias

de ocurrencia de las observaciones.
• Basta contar el número de veces que una observación se repite.
• Tiene mucho sentido en variables categóricas y en su ubicación por arriba de la

mediana.
Cómo se aplican estas pruebas?
2. Rangos o transformaciones en rangos:

• La clave es ordenar los datos y ver cada valor en qué posición queda.
• Hay que tomar en cuenta los datos que se empatan.
• Tiene mucho sentido en variables continuas para ver si los grupos son
diferentes.
3. ¿Qué se entiende por un rango?
Un rango es un número asignado a un elemento muestral individual de acuerdo con su

lugar en la lista ordenada; por ejemplo, del más pequeño al más grande o del mejor al
peor. Al primer elemento se le asigna un rango de 1, al segundo elemento se le asigna un
rango de 2 y así sucesivamente.

Transformación de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Transformación de Datos

Cargado por

Copyright:

Formatos disponibles

Transformación de datos

Cuando se realizan pruebas paramétricas, generalmente se asume que:

 los datos se distribuyen normalmente

Para otros tipos de escenarios, se pueden usar diferentes transformaciones:

Las transformaciones descritas hasta ahora se realizan en los predictores, pero

Los autores del libro de texto "Análisis de datos: un enfoque de comparación de

1. Tienes un tamaño de muestra muy pequeño.

En esencia, si es posible resolver las violaciones de supuestos mediante otros tipos

1. La Distribución es Normal para datos cuantitativos continuos

2. La Distribución es Binomial para datos binarios con una probabilidad (p).

Las medias, desviaciones estándar y

Por lo tanto, los métodos de Estadística

Una cualidad de los Métodos Estadísticos no Paramétricos es que pueden estudiar

Características de las Pruebas No Paramétricas:

1. Simplicidad de deducción: Los contrastes no paramétricos son más sencillos

2. Rapidez y simplicidad de manejo: Las Pruebas no paramétricas son más sencillas de

3. Campo de aplicación: Las hipótesis de aplicación en una Prueba no Paramétrica son

4. Sensibilidad respecto al incumplimiento de las hipótesis: Dado que las hipótesis de

5. Tipos de medición exigida: Las Pruebas no Paramétricas requieren datos ordinales o

Prueba no Eficiencia de la Prueba no

Dos muestras Prueba del Signo 0.63

Dos muestras Prueba t Prueba de Suma de

Varias Prueba de Kruskal

¿Cómo se aplican estas pruebas?

1. Conteos: Varias técnicas no paramétricas requieren el conteo; es decir, las frecuencias

• Basta contar el número de veces que una observación se repite.

• Tiene mucho sentido en variables categóricas y en su ubicación por arriba de la

Cómo se aplican estas pruebas?

2. Rangos o transformaciones en rangos:

• Hay que tomar en cuenta los datos que se empatan.

3. ¿Qué se entiende por un rango?

Un rango es un número asignado a un elemento muestral individual de acuerdo con su

También podría gustarte