Está en la página 1de 42

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/310753009

Análisis estadísticos descriptivos con Stata

Chapter · December 2017

CITATIONS READS

0 12,891

3 authors, including:

J.M. Losilla Jaume Vives


Autonomous University of Barcelona Autonomous University of Barcelona
82 PUBLICATIONS   1,521 CITATIONS    53 PUBLICATIONS   609 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Psico-oncologia online View project

Assessment of Risk of Bias in systematic reviews and meta-analyses of Evaluative Studies of Complex Interventions (RoB-ESCI) View project

All content following this page was uploaded by Jaume Vives on 12 December 2017.

The user has requested enhancement of the downloaded file.


Proceso y análisis de datos
con Stata

Procedimiento 3:
Análisis estadísticos descriptivos

© 2018, Josep Maria Losilla Vidal, Jaume Vives Brosa, y Eva Penelo
Universitat Autònoma de Barcelona
Procedimiento 3 (P3S): Análisis estadísticos descriptivos

Introducción ............................................................................................................................................. 2
P3S.1 Descripción estadística de una variable categórica ........................................................................ 3
P3S.2 Descripción estadística de una variable cuantitativa .................................................................... 10
P3S.3 Descripción estadística de la relación lineal entre dos variables cuantitativas............................. 18
P3S.4 Descripción estadística de la relación entre dos variables categóricas......................................... 23
P3S.5 Descripción estadística de la relación entre una variable categórica y una variable cuantitativa 27
P3S.6 Grabación del fichero de sintaxis y copia de los resultados en un documento Word .................. 30
Ejercicio ................................................................................................................................................. 32
Ejercicio opcional avanzado ................................................................................................................... 34
Solución del ejercicio ............................................................................................................................. 35
P3S Anexo 1. Tamaño del efecto (Effect size, ES) ................................................................................. 37
P3S Anexo 2. Relación entre una variable categórica y una variable cuantitativa ................................. 37
P3S Anexo 3. Relación lineal entre dos variables cuantitativas ............................................................. 40
P3S Anexo 4. Relación entre dos variables categóricas ......................................................................... 41

Introducción
En este procedimiento se revisan los principales procedimientos estadísticos que incorpora Stata para
realizar análisis estadísticos descriptivos, tanto de una variable categórica o cuantitativa, como de la
relación entre dos variables. En estos análisis se introduce también el potente procedimiento de
generación de gráficos que incorpora Stata para complementar visualmente la descripción de variables y
relaciones basada en índices estadísticos.

Pàgina 2 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
P3S.1 Descripción estadística de una variable categórica
En este apartado revisaremos cómo obtener los índices y gráficos estadísticos básicos para describir una
variable categórica. Para ello, en primer lugar utilizaremos como ejemplo la variable OBESIDAD
(diagnóstico de obesidad en base al índice de masa corporal) generada en el procedimiento P2S.

Los índices de resumen estadístico más adecuados para variables categóricas son las frecuencias y los
porcentajes, que se basan en el recuento del número de casos para cada una de las categorías de la
variable.
Los gráficos más habituales para representar dichas frecuencias o porcentajes son los gráficos de
barras y los gráficos de sectores. Cuando la variable es nominal también se puede construir el
diagrama de Pareto. Para variables categóricas ordinales también se pueden utilizar diagramas de
líneas.
50

10%
40
30

46.67%
percent

43.33%
20
10

Normopeso Sobrepeso
0

Normopeso Sobrepeso Obesidad Obesidad

1. Abre el fichero de datos HABITOX_P2S_final.dta ejecutando el menú File | Open, o bien haz doble
clic sobre este fichero en el explorador de Windows.
2. Ejecuta el menú Statistics | Summaries, tables, and tests | Frequency tables | One-way table.
3. En el cuadro de diálogo selecciona la variable Obesidad en la lista de variables, marca la opción Treat
missing values like other values y pulsa Submit:

4. En el mismo cuadro de diálogo, que al pulsar Submit permanece abierto, desmarca la opción Treat
missing values like other values y pulsa OK:

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 3 de 41
5. En la ventana principal Results se habrán ejecutado las dos órdenes tabulate:
. tabulate Obesidad, missing
. tabulate Obesidad
Obesidad
(diagnóstic Obesidad
o) Freq. Percent Cum. (diagnóstic
o) Freq. Percent Cum.
Normopeso 14 43.75 43.75
Sobrepeso 13 40.63 84.38 Normopeso 14 46.67 46.67
Obesidad 3 9.38 93.75 Sobrepeso 13 43.33 90.00
. 2 6.25 100.00 Obesidad 3 10.00 100.00

Total 32 100.00 Total 30 100.00

Como puedes observar en la tabla de la izquierda, que incluye a toda la muestra de las 32 personas:
• Hay 2 personas (6,25%) de las cuales no se dispone del diagnóstico, porque no se conoce su
índice de masa corporal (no se registró, por tanto, su peso o su talla, necesarios para calcularlo)
(“.” que corresponde a valores faltantes).
• Hay 30 personas (93,75%) con diagnóstico válido de obesidad (“Cum” que corresponde al
porcentaje acumulado de todas las categorías con información válida).
Y como puedes observar en la tabla de la derecha, que sólo incluye la muestra de 30 participantes con
información válida:
• Hay 14 personas (46,7%) de los participantes con un diagnóstico de “peso normal” (“Percent”),
13 (43.3%) con un diagnóstico de “sobrepeso”, y 3 (10.0%) con un diagnóstico de “obesidad”.
6. Para obtener el gráfico de barras correspondiente a esta segunda tabla que incluye sólo los casos con
información válida en la variable Obesidad, ejecuta el menú Graphics | Bar chart. En la pestaña
Main, marca Graph of percent of frequencies within categories como tipo de datos a representar;
en la pestaña Categories, como primera variable de agrupación selecciona la variable Obesidad; para
finalizar, pulsa OK:

Pàgina 4 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
7. El gráfico se genera en una nueva ventana emergente, y con el menú Edit | Copy lo puedes copiar en
el portapapeles de Windows y a continuación pegarlo en un documento de texto. También puedes
guardarlo con el menú File | Save as, con la extensión que asigna Stata por defecto (.gph):

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 5 de 41
8. Ahora nos interesa un gráfico de sectores. Para obtenerlo, ejecuta el menú Graphics | Pie chart. En la
pestaña Main, comprueba que está marcada la opción por defecto Graph by categories y selecciona
la variable Obesidad:

9. Y en la pestaña Slices, pulsa sobre el botón Label properties (all), en Label type selecciona la
opción Percent y pulsa Accept.

Pàgina 6 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
10. Para finalizar, pulsa OK. Nuevamente, el gráfico se genera en una nueva ventana emergente:

10%

46.67%

43.33%

Normopeso Sobrepeso
Obesidad

Aunque la mayor parte de análisis estadísticos se realizan sobre la totalidad de los casos contenidos en
la matriz de datos, en ocasiones se desea realizar dichos análisis para un subconjunto de ellos. La
aplicación de estos filtros de casos puede estar motivada por diferentes razones:
• Se desea realizar análisis sólo para un subconjunto de la muestra de casos que tienen alguna o
algunas características en común, y no se desea comparar estadísticamente los resultados de dichos
análisis con los de otros grupos de sujetos. Por ejemplo, se desea realizar análisis sólo para los
sujetos de una determinada localización geográfica, o sólo para los sujetos de un sexo
determinado, etc.
• Se desea excluir de los análisis los sujetos con valores faltantes debidos a que las variables eran de
tipo no aplicable.
• Se desea incluir sólo a una muestra aleatoria del total de casos para llevar a cabo algún tipo de
validación de la información, o bien, de los resultados de los análisis estadísticos.
• etc.

Así, por ejemplo, supón que deseas obtener la distribución de frecuencias de la variable Tabaco (variable
categórica que contiene los códigos de la marca de tabaco que fuman los sujetos); incluir en este análisis a
los participantes que hayan respondido que no son fumadores sería incorrecto, ya que la pregunta sobre la
marca de tabaco que se fuma sólo es aplicable a aquellos participantes que hayan manifestado que su
consumo de cigarrillos/pipas al día es superior a 0 (variable Numcig). Vamos a obtener la distribución de
frecuencias de la variable categórica Tabaco con este filtro de casos con Stata:

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 7 de 41
11. Ejecuta el menú Statistics | Summaries, tables, and tests | Frequency tables | One-way table. En la
pestaña Main del cuadro de diálogo, selecciona la variable Tabaco y marca la opción que incluye
también los valores perdidos:

12. En la pestaña by/if/in debes indicar en Restrict observations la expresión lógica que deben cumplir
los casos que se desea incluir en el análisis posterior y que excluye a los restantes. En nuestro ejemplo,
deberás indicar la siguiente expresión procediendo del mismo modo que se ha visto en el
procedimiento P2S dedicado a las operaciones de creación de nuevas variables en base a expresiones
lógicas:
Numcig > 0 & Numcig != .

13. A continuación, pulsa Submit para obtener la tabla de frecuencias absolutas (número de casos) y
frecuencias relativas (porcentajes). Observa en la ventana principal Results que el número de casos
Total incluido en el análisis es de 23, de los cuales 22 son casos válidos, es decir, que contienen la
respuesta a la pregunta sobre la marca de tabaco que se fuma, y 1 caso es Perdido, es decir, que no ha
respondido a dicha pregunta siendo fumador:

Pàgina 8 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
. tabulate Tabaco if Numcig > 0 & Numcig != ., missing

Marca de
tabaco Freq. Percent Cum.

Fortuna 3 13.04 13.04


Ducados rubio 4 17.39 30.43
Ducados negro 2 8.70 39.13
Nobel 6 26.09 65.22
JPS 5 21.74 86.96
For U! 2 8.70 95.65
. 1 4.35 100.00

Total 23 100.00

14. Ejecuta ahora la misma orden, pero desmarcando la opción de incluir los casos con valores perdidos
de la pestaña Main y observa en la ventana principal Results que el número de casos Total incluido
en el análisis es de 22, con su correspondiente porcentaje válido para cada categoría de la variable
Tabaco (“Percent”):
. tabulate Tabaco if Numcig > 0 & Numcig != .

Marca de
tabaco Freq. Percent Cum.

Fortuna 3 13.64 13.64


Ducados rubio 4 18.18 31.82
Ducados negro 2 9.09 40.91
Nobel 6 27.27 68.18
JPS 5 22.73 90.91
For U! 2 9.09 100.00

Total 22 100.00

15. Vuelve a realizar el paso 13 para obtener la distribución de frecuencias de la variable Marca de tabaco
(Tabaco) en toda la muestra, sin aplicar ningún filtro, y con la opción que incluye también los valores
perdidos marcada. Observa en la ventana principal Results que el número de casos Total incluido en
el análisis es ahora de de 32, de los cuales 22 son casos válidos, es decir, que contienen la respuesta a
la pregunta sobre la marca de tabaco que se fuma, y 10 casos son Perdidos, es decir, que no contienen
respuesta a dicha pregunta. Fíjate que el número de missing ha pasado de 1 a 10 respecto al análisis
realizado con el filtro que incluía sólo a los sujetos que han respondido que fuman más de 0
cigarrillos/pipas al día. Estos 9 casos adicionales son los sujetos que no han respondido a la pregunta
Marca de tabaco por ser no fumadores, mientras que el caso missing restante es de naturaleza
diferente, ya que se trata de un sujeto fumador que no ha indicado la marca de tabaco que fuma. Por
tanto, hay 9 casos sin valor en Tabaco para los que en realidad la pregunta Marca de tabaco es no
aplicable y sólo 1 con un valor missing debido a falta de respuesta por su parte. En conclusión, el
número de participantes que no han respondido la marca de tabaco que fuman es sólo de 1 sobre 23
(un 4,35%) –análisis con filtro- y no de 10 sobre 32 (un 31,25%) -análisis sin filtro-.
. tabulate Tabaco, missing

Marca de
tabaco Freq. Percent Cum.

Fortuna 3 9.38 9.38


Ducados rubio 4 12.50 21.88
Ducados negro 2 6.25 28.13
Nobel 6 18.75 46.88
JPS 5 15.63 62.50
For U! 2 6.25 68.75
. 10 31.25 100.00

Total 32 100.00

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 9 de 41
Análisis estadísticos con valores faltantes (missing)
Al concluir sobre los valores faltantes, es importante distinguir los debidos a que la pregunta es no
aplicable (en cuyo caso se dejan vacíos durante la introducción de datos) de los debidos a otras
causas, como la no respuesta deliberada (por desconocimiento o bien por negativa a responder), o
por ser valores incorrectos declarados missing durante la fase de depuración de datos (en cuyo
caso se pueden introducir en la matriz de datos con códigos numéricos fuera del rango de valores
válidos de la variable –por ejemplo, 99, 999, etc.- para poder identificarlos, etiquetarlos y
analizarlos posteriormente de forma separada).

P3S.2 Descripción estadística de una variable cuantitativa


En este apartado revisaremos cómo obtener los índices y gráficos estadísticos básicos para describir una
variable cuantitativa. Para ello utilizaremos como ejemplo la variable cuantitativa discreta Numcig
(número de cigarrillos o pipas que fuman en promedio cada día los participantes).

Para describir variables cuantitativas se utilizan índices estadísticos basados en momentos, como la
media aritmética o la desviación estándar, así como índices estadísticos basados en ordenaciones,
como la mediana o la amplitud intercuartil. Por otro lado, los gráficos que se emplean habitualmente
para este tipo de variables son el histograma y el polígono de frecuencias (para variables cuantitativas
continuas), el diagrama de barras y el diagrama de líneas (para variables cuantitativas discretas), y el
diagrama de tallo y hojas (stem & leaf) y el diagrama de caja (boxplot) (para todos los tipos de
variables cuantitativas).

1. Obtén el gráfico de barras de la variable Numcig tal como se muestra en el paso 6 del apartado P3S.1,
ejecutando el menú Graphics | Bar chart, pero marcando como tipo de datos la opción Graph of
frequencies within categories.
2. Observa el gráfico de barras que muestra la distribución de la variable Numcig:
6
4
frequency

2
0

0 1 4 5 6 7 8 10 11 12 14 15 18 20

Como puedes observar, se trata de una distribución bimodal, resultado de la mezcla de dos
distribuciones distintas: la distribución de los participantes no fumadores (con valor 0) y la
distribución de los participantes fumadores (con valores superiores a 0). No es correcto describir esta
variable para la totalidad de los casos, ya que los descriptivos que obtenemos mezclan la información
de estas dos muestras de sujetos; así, por ejemplo, la media aritmética no indicará el promedio de
cigarrillos/pipas que fuman diariamente los participantes fumadores, que es el valor que puede resultar

Pàgina 10 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
de interés, sino un promedio menor por el hecho de incluir en su cálculo también a los participantes
que no fuman.
3. Para describir adecuadamente la variable Numcig se debe realizar previamente un filtro de los datos,
seleccionando únicamente los participantes fumadores. Para ello debes indicarlo en la pestaña if/in:

4. A continuación, pulsa OK y, de nuevo obtendrás el gráfico en una ventana emergente:


5
4
frequency

3
2
1
0

1 4 5 6 7 8 10 11 12 14 15 18 20

5. Para obtener los índices básicos de una variable cuantitativa, el menú Statistics | Summaries, tables,
and tests | Summary and descriptive statistics de Stata permite realizar este análisis mediante dos
órdenes: summarize y tabstat.
6. Para ejemplificar el uso de la orden summarize, ejecuta el menú Statistics | Summaries, tables, and
tests | Summary and descriptive statistics | Summary statistics. En la pestaña Main selecciona la
variable Numcig y comprueba que está marcada la opción por defecto Standard display; en la
pestaña by/if/in añade el filtro para que sólo se incluyan los participantes fumadores, tal como hemos
visto en la obtención del gráfico de barras (Numcig > 0):

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 11 de 41
7. Pulsa Submit y en la ventana principal Results se mostrarán los siguientes estadísticos básicos:
número de casos con información válida (“Obs”), media aritmética (“Mean”), desviación estándar
(“Std. Dev.”), y valores mínimo (“Min”) y máximo (“Max”) observados.
. summarize Numcig if Numcig > 0

Variable Obs Mean Std. Dev. Min Max

Numcig 23 9.826087 4.877147 1 20

8. Ejecuta ahora de nuevo la misma orden summarize, pero marcando en la pestaña Main la opción
Display additional statistics.

Pàgina 12 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
9. Pulsa OK y en la ventana principal Results se mostrarán además algunos índices basados en
momentos, como la variancia (“Variance”), la asimetría (“Skewness”) y la curtosis o apuntamiento
(“Kurtosis”), y los principales índices basados en ordenaciones, como la mediana, algunos percentiles
y los cuartiles (el percentil 25 corresponde al cuartil 1, y el percentil 75 es equivalente al cuartil 3):
. summarize Numcig if Numcig > 0, detail

Nº de cigarrillos/día

Percentiles Smallest
1% 1 1
5% 1 1
10% 4 4 Obs 23
25% 7 5 Sum of Wgt. 23

50% 10 Mean 9.826087


Largest Std. Dev. 4.877147
75% 14 15
90% 15 15 Variance 23.78656
95% 18 18 Skewness .1246526
99% 20 20 Kurtosis 2.671625

10. Para ejemplificar el uso de la orden tabstat, ejecuta el menú Statistics | Summaries, tables, and tests
| Other tables | Compact table of summary statistics. Esta orden permite escoger los índices
estadísticos de interés a mostrar. En la pestaña Main selecciona la variable Numcig. A continuación,
en la parte inferior del cuadro de diálogo (Statistics to display), escoge los índices que deseas obtener;
en nuestro caso, primero marcaremos aquéllos generales y los basados en momentos. Seguidamente,
en la pestaña by/if/in añade el filtro necesario para que sólo se incluyan en el análisis los participantes
fumadores (Numcig > 0):

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 13 de 41
11. Pulsa Submit para obtener la tabla en la ventana principal Results:
. tabstat Numcig if Numcig > 0, statistics( count min max range mean sd skewness kurtosis )

variable N min max range mean sd skewness kurtosis

Numcig 23 1 20 19 9.826087 4.877147 .1246526 2.671625

12. A continuación, modifica los estadísticos a mostrar, para obtener los principales índices basados en
ordenaciones:

13. Finalmente pulsa OK para visualizar los resultados en la ventana principal Results:
. tabstat Numcig if Numcig > 0, statistics( p5 p25 median p75 p95 iqr )

variable p5 p25 p50 p75 p95 iqr

Numcig 1 7 10 14 18 7

Respecto a los estadísticos descriptivos y percentiles tenemos la siguiente información:


• Hay en la matriz 23 participantes fumadores (“Obs” o ”N”).
• Los sujetos fuman en promedio (“mean”; media –aritmética-) 9,83 cigarrillos/pipas al día.

Pàgina 14 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
• La mediana o percentil 50 (“p50”) indica que la mitad de los sujetos fuman diariamente un
máximo de 10 cigarrillos/pipas (y, por tanto, el 50% restante tienen un consumo superior o igual a
este valor). Nótese que el valor de la mediana es muy próximo a la media aritmética, lo cual
indica que la distribución de esta variable es bastante simétrica (el índice de asimetría “Skwness”
es bajo, de 0,12).
• La desviación estándar (“Std. Dev” o ”sd”) es de 4,877 e indica la variabilidad o dispersión que
presenta la distribución del consumo diario de cigarrillos/pipas. La amplitud intercuartil (“iqr”) es
otra medida de dispersión de uso habitual que indica la longitud del intervalo que contiene al 50%
central de los individuos (se obtiene como diferencia entre el percentil 25 y el percentil 75 de la
distribución), en este caso 7 cigarrillos/pipas.
• Los valores del consumo de cigarrillos/pipas están comprendidos entre 1 (“min”) y 20 (“max”) y,
por tanto, entre el valor máximo y el mínimo hay una diferencia de 19 (“range”).
• Los percentiles indican que el 5% de los participantes de esta muestra fuman menos de 1
cigarrillo/pipa al día, el 25% menos de 7 cigarrillos/pipas, el 75% menos de 14 cigarrillos y sólo
un 5% fuma 18 o más cigarrillos/pipas al día (percentil 95).
14. A continuación veremos los dos tipos de gráficos que permiten representar cualquier variable
cuantitativa, ya sea discreta o continua. Para obtener el diagrama de tallo y hojas (“stem-and-leaf
plot”) de la variable Numcig, ejecuta el menú Statistics | Summaries, tables, and tests |
Distributional plots and tests | Stem-and-leaf display. En la pestaña Main selecciona la variable
Numcig. A continuación, en la parte inferior del cuadro de diálogo (Lines), modifica la opción por
defecto para que se muestren 2 líneas o tallos por decena. Seguidamente, en la pestaña by/if/in añade
el filtro necesario para que sólo se incluyan en el análisis los participantes fumadores (Numcig > 0):

15. Pulsa OK para obtener el diagrama de tallo y hojas en la ventana principal Results:
. stem Numcig if Numcig > 0, lines(2)

Stem-and-leaf plot for Numcig (Nº de cigarrillos/día)

0* 114
0. 5678888
1* 00000124
1. 5558
2* 0

Respecto al gráfico obtenido:


• El diagrama de tallo y hojas (“stem-and-leaf plot”) se puede interpretar de un modo parecido a
un histograma -basta con apoyar la cabeza sobre el hombro derecho ☺-, pero es más informativo
ya que permite ver los valores exactos de todos los participantes de la muestra. En este caso los
“tallos” (stem) contienen los casos que fuman entre 0 y 4 cigarrillos/pipas (3 casos), entre 5 y 9 (7

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 15 de 41
casos), entre 10 y 14 (8 casos), entre 15 y 19 (4 casos) y, finalmente, entre 20 y 24 (sólo 1 caso).
Si se precede cada uno de los números (hojas o “leaf”) por el valor de su tallo se puede ver el
valor exacto de cada participante de la muestra; así en el primer tallo se puede ver que dos
participantes han respondido que fuman 01 cigarrillo/pipa al día, y un participante ha respondido
que fuma 04.
16. Y para obtener el diagrama de caja o boxplot de la variable Numcig, ejecuta el menú Graphics | Box
plot. En la pestaña Main, selecciona la variable Numcig y en la pestaña if/in añade el filtro necesario
para que sólo se incluyan en el análisis los participantes fumadores (Numcig > 0):

17. Pulsa OK para obtener el diagrama de caja en una ventana emergente:


20

Valor más grande no atípico


15

Percentil 75
La “caja” contiene
el 50% central de
los casos y está
delimitada por el
10

Mediana
cuartil 1
(Q1 = Percentil 25)
y el cuartil 3
Percentil 25 (Q3 = percentil 3)
5

Valor más pequeño no atípico


0

Respecto al gráfico obtenido:


• El diagrama de caja o boxplot permite observar rápidamente la mediana, los percentiles 25 y 75,
la dispersión, la asimetría de la distribución y los valores atípicos (cuando existen). Se consideran
valores atípicos aquéllos inferiores a Q1 – 1.5 × IRQ o superiores a Q3 + 1.5 × IRQ, donde IRQ es
la amplitud intercuartil (Q3 – Q1). Cuando la distribución es totalmente simétrica se puede doblar
el gráfico por la línea de la mediana y todas las líneas coincidirían, lo que casi sucede en este caso.
18. Puesto que la variable Numcig es cuantitativa discreta, el tipo de gráfico más adecuado para
representarla es el diagrama de barras (que se ha obtenido en los pasos 3 y 4) o bien el diagrama de
líneas (si fuera cuantitativa continua sería preferible un histograma o bien un polígono de frecuencias).
No obstante, y dado que con el diagrama de barras sólo se incluyen las barras correspondientes a los

Pàgina 16 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
valores de la variable disponibles en la matriz de datos, vamos a obtener el histograma de la variable
Numcig. Para obtener el histrograma ejecuta el menú Graphics | Histogram. En la pestaña Main
selecciona la variable Numcig y marca la opción Data are discrete. A continuación, en la parte
inferior derecha del cuadro de diálogo (Y axis), modifica la opción por defecto e indica Frequency.
Seguidamente, en la pestaña if/in añade el filtro necesario para que sólo se incluyan en el análisis los
participantes fumadores (Numcig > 0):

19. Y pulsa OK para obtener el histograma en una ventana emergente:


5
4
Frequency

3
2
1
0

0 5 10 15 20
Nº de cigarrillos/día

Respecto al gráfico obtenido:


• El histograma muestra un patrón bastante simétrico, centrado alrededor de los 10 cigarrillos/pipas
al día, con frecuencias menores a medida que el consumo se aleja por debajo o por encima de este
valor. A diferencia del gráfico de barras en el que sólo se mostraban los valores de Numcig
observados en la muestra, en el eje horizontal del histograma se muestran todos los posibles
valores comprendidos entre los valores mínimo y máximo observados, que son respectivamente 1
y 20; en caso de no haber ningún caso para un valor discreto concreto, como ocurre con el
consumo de 2, 3, 9, 13, etc. cigarrillos diarios, no se dibuja ningún rectángulo, lo que equivale a
una frecuencia de 0 casos para dichos valores.

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 17 de 41
P3S.3 Descripción estadística de la relación lineal entre dos variables cuantitativas
Vamos a revisar ahora los gráficos e índices estadísticos de uso más habitual para estudiar la relación
lineal entre dos variables cuantitativas. Para ello estudiaremos la relación entre el consumo de tabaco
(Numcig) y de cervezas (Cerve) de los participantes.

La relación entre dos variables cuantitativas se puede representar gráficamente con un diagrama de
dispersión, que presenta en una nube de puntos la puntuación de cada participante en las dos variables
estudiadas:
• Nube de puntos descendente indica que existe una marcada relación negativa, es decir, que a
medida que aumentan o disminuyen los valores de una variable disminuyen o aumentan en
sentido contrario, en promedio, los valores de la otra variable.
• Nube de puntos ascendente indica que hay una fuerte relación positiva, es decir, que a medida
que aumentan o disminuyen los valores de una variable aumentan o disminuyen en el mismo
sentido también, en promedio, los valores de la otra variable.
• Nube de puntos horizontal o esférica indica ausencia de relación entre las dos variables.

1. Realizaremos primero la representación gráfica a mano, para familiarizarnos con el procedimiento. En


primer lugar, en el siguiente listado se muestran los valores de las variables Numcig y Cerve para los
participantes con ambos valores válidos, obtenido con el menú Data | Describe data | List data
(orden list); previamente se pueden ordenar los registros con la orden sort, a partir del menú Data |
Sort:

. list Caso Numcig Cerve if Numcig != . & Cerve != ., noobs separator(27) N

Caso Numcig Cerve

1 8 3
2 5 6
3 1 5
4 20 16
5 8 7
7 8 5
8 15 12
9 1 5
10 15 10
12 12 8
14 8 0
15 6 5
16 18 12
18 4 3
19 0 0
20 10 8
21 10 5
22 0 3
23 0 0
24 0 0
26 15 10
27 7 12
28 10 5
29 0 0
30 14 7
31 10 8
32 10 6

N 27 27 27

2. A continuación, representa gráficamente con un punto el par de valores de cada uno de los 27
participantes en el siguiente gráfico; en el eje horizontal tenemos dispuesta la variable Numcig y en el
eje vertical la variable Cerve:

Pàgina 18 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
15
Nº de cervezas/semana

10
5
0

0 5 10 15 20
Nº de cigarrillos/día

El diagrama de dispersión muestra un patrón claro de relación lineal directa entre las dos variables,
dado que la nube de puntos tiene forma de elipse ascendente. Así pues, los valores altos en el consumo
de tabaco están relacionados con valores también altos en el consumo de cervezas.
3. Veamos cómo se obtiene el gráfico de dispersión con Stata. Ejecuta el menú Graphics | Twoway
graph (scatter, line, etc.). En la primera pestaña Plots, pulsa Create… y se abrirá un cuadro de
diálogo denominado Plot 1. Comprueba que están marcadas por defecto las opciones de categoría
Basic plots y tipo de gráfico Scatter. En la parte inferior del mismo cuadro de diálogo, selecciona la
variable Cerve en el eje Y variable y la variable Numcig en el eje X variable.

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 19 de 41
4. Pulsa Accept y a continuación Submit para obtener el gráfico de dispersión en una ventana
emergente. Comprueba si coincide con el que has obtenido a mano en el paso 2:

Pàgina 20 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
15
Nº de cervezas/semana

10
5
0

0 5 10 15 20
Nº de cigarrillos/día

5. Para ayudarnos a valorar si existe una relación lineal entre las dos variables, podemos añadir la recta
de ajuste superpuesta al gráfico anterior. Esta recta de ajuste es aquélla que minimiza las distancias de
todos los puntos a la recta. En la misma pestaña Plots, vuelve a pulsar Create… y se abrirá un nuevo
cuadro de diálogo denominado Plot 2. Marca las opciones de categoría Fit plots y tipo de gráfico
Linear prediction. En la parte inferior del mismo cuadro de diálogo, vuelve a seleccionar la variable
Cerve en el eje Y variable y la variable Numcig en el eje X variable:

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 21 de 41
6. Pulsa Accept y a continuación OK para obtener el gráfico de dispersión con la recta de ajuste
superpuesta en una nueva ventana emergente:
15
10
5
0

0 5 10 15 20
Nº de cigarrillos/día

Nº de cervezas/semana Fitted values

La recta de ajuste muestra una pendiente positiva, con la mayoría de puntos relativamente cercanos a
dicha recta, lo que evidencia una clara relación lineal directa entre ambas variables y con muy pocos
casos que se alejan de este patrón.
La relación lineal entre dos variables cuantitativas se describe a través del índice estadístico
correlación de Pearson. El resultado del cálculo de este índice puede oscilar entre –1 y +1:
• Valores próximos a –1 indican que existe una marcada relación lineal negativa, es decir, que a
medida que aumentan o disminuyen los valores de una variable disminuyen o aumentan en
sentido contrario, en promedio, los valores de la otra variable.
• Valores próximos a +1 indican que hay una fuerte relación lineal positiva, es decir, que a
medida que aumentan o disminuyen los valores de una variable aumentan o disminuyen en el
mismo sentido también, en promedio, los valores de la otra variable.
• Valores próximos a 0 indican la ausencia de relación lineal entre las dos variables.

7. Para obtener el índice de correlación de Pearson ejecuta el menú Statistics | Summaries, tables, and
tests | Summary and descriptive statistics | Pairwise correlations.
8. Selecciona las variables Numcig y Cerve, marca la opción Print number of observations for each
entry y pulsa OK.

Pàgina 22 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
9. En la ventana principal Results podrás ver la siguiente tabla:
. pwcorr Numcig Cerve, obs

Numcig Cerve

Numcig 1.0000
29

Cerve 0.8187 1.0000


27 29

La correlación de Pearson entre el consumo semanal de tabaco y de cervezas es de 0.819, valor muy
próximo a 1 y que, por tanto, indica que existe una relación lineal directa entre ambos consumos, de
tal forma que cuanto más se fuma más cervezas se beben.
Disposición de las variables en los ejes X e Y
La disposición de cada variable en los ejes X e Y es en este caso discrecional. Si se tuviera un
interés por analizar la relación en un sentido concreto, por ejemplo, cómo el número de cigarrillos
afecta al consumo de cervezas, entonces la variable que se debe situar en el eje X es el nº de
cigarrillos y la variable del eje Y el consumo de cervezas.
En los estudios con diseños experimentales se habla de “variables independientes” y de “variable
dependiente”; esta terminología cambia cuando los diseños son de tipo no experimental,
hablándose, por ejemplo, de “variables de exposición” o “variables pronósticas” y de “variable de
respuesta”, respectivamente.

P3S.4 Descripción estadística de la relación entre dos variables categóricas


Vamos a revisar ahora los gráficos e índices estadísticos de uso más habitual para estudiar la relación
lineal entre dos variables categóricas. Para ello, estudiaremos la relación entre las variables categóricas
Genero y Obesidad.

Recomendaciones sobre la construcción de tablas de contingencia


La relación entre dos variables categóricas se analiza a través de tablas de doble entrada denominadas
tablas de contingencia. Cada casilla de la tabla de contingencia contiene el número de participantes
que forma parte de una combinación de categorías de las dos variables.
Cuando se construye la tabla, se aconseja seguir el mismo procedimiento para ubicar las variables que
se aplica cuando éstas son cuantitativas: se situarán en columnas las categorías de la variable
independiente, exposición o pronóstica de la relación, y en filas las categorías de la variable
dependiente o de respuesta. Con esta disposición de las variables en base a su rol, la interpretación de
los resultados requiere calcular los porcentajes respecto al total de cada columna. Por último, si las
categorías tienen un orden hay que situarlas en sentido creciente, a partir del vértice inferior izquierdo
de la tabla, tal y como muestra a continuación:
Variable Variable independiente, de exposición o pronóstica
dependiente
o de respuesta Categoría 1 Categoría 2 Categoría 3
10 20 40
Categoría 1
(20%) (40%) (80%)
40 30 10
Categoría 0
(80%) (60%) (20%)
50 50 50
TOTAL
(100%) (100%) (100%)

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 23 de 41
Para describir gráficamente la relación entre dos variables categóricas se suele utilizar el diagrama de
barras agrupadas y de barras apiladas (al 100% o no). Cuando las variables son ordinales también se
pueden utilizar diagramas de líneas múltiples y diagramas de áreas apiladas (al 100% o no).

1. A continuación, estudiaremos la relación entre las variables categóricas Genero y Obesidad.


Construiremos primero la tabla de contingencia a mano, para familiarizarnos con ella. Para ello, en el
siguiente listado se muestra el número de casos de cada nivel de Obesidad dentro de cada nivel de
Genero, obtenido con el menú Statistics | Summaries, tables, and tests | Frequency tables | One-
way table, seleccionando la variable Obesidad como Categorical variable a describir y escogiendo la
variable Genero en Repeat command by groups de la pestaña by/if/in (o con la orden tabulate que
se muestra en el siguiente listado, en la que se ha marcado también la opción Produce a bar chart of
the relative frequencies); a la izquierda se muestran los resultados dentro de la submuestra del
género masculino (Genero codificado como 0) y a la derecha del género femenino (codificado como
1):
. tabulate Obesidad if Genero == 0, plot . tabulate Obesidad if Genero == 1, plot

Obesidad Obesidad
(diagnóstic (diagnóstic
o) Freq. o) Freq.

Normopeso 9 ********* Normopeso 5 *****


Sobrepeso 5 ***** Sobrepeso 8 ********
Obesidad 2 ** Obesidad 1 *

Total 16 Total 14

2. A continuación, rellena los valores que faltan del número de participantes de cada celda en la
siguiente tabla de contingencia en el espacio previsto con __; luego añade también el cálculo de los
porcentajes por columnas entre paréntesis (__%):

Genero

Masculino Femenino

Obesidad Normopeso __ (__%) __ (__%)

Sobrepeso __ (__%) __ (__%)

Obesidad __ (__%) __ (__%)

Total 16 (100%) 14 (100 %)

3. Veamos cómo se obtiene la tabla de contingencia con Stata. Ejecuta el menú Statistics | Summaries,
tables, and tests | Frequency tables | Two-way table with measures of association. En Row
variables selecciona la variable cuyos niveles se mostrarán en las filas, que es Obesidad; en Column
variable selecciona la variable cuyos niveles se mostraran en las columnas, que es Genero, y dentro
del apartado del cuadro de diálogo relativo a Cell contents, marca la opción Within-column relative
frequencies para obtener los porcentajes de cada submuestra, es decir, por columnas:

Pàgina 24 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
4. Pulsa OK para obtener la tabla de contingencia en la ventana principal Results y comprueba si los
valores que has escrito en el paso 2 son correctos:
. tabulate Obesidad Genero, column

Key

frequency
column percentage

Obesidad
(diagnósti Género
co) Masculino Femenino Total

Normopeso 9 5 14
56.25 35.71 46.67

Sobrepeso 5 8 13
31.25 57.14 43.33

Obesidad 2 1 3
12.50 7.14 10.00

Total 16 14 30
100.00 100.00 100.00

En la tabla de contingencia los porcentajes respecto al total de columnas indican que existe una
relación estadística entre las dos variables analizadas, ya que se observa una diferente distribución del
diagnóstico de la obesidad entre ambos géneros: en los hombres el porcentaje de participantes con
peso normal (56,3%) es superior al de las mujeres (35,7%); así mismo, el porcentaje de casos con
sobrepeso es superior en las mujeres (57,1%) que en los hombres (31,3%); por último, hay un
porcentaje superior de obesos entre los hombres (12,5%) que entre las mujeres (7,1%).
5. Veamos cómo se obtiene el gráfico de barras agrupadas con Stata. Ejecuta el menú Graphics | Bar
chart. En la pestaña Main, comprueba que está marcada la opción Graph of percent of frequencies
within categories. En la pestaña Categories, como variable objeto de estudio a consignar en Group 1
selecciona Obesidad y como variable que delimita las submuestras a consignar en Group 2 selecciona
Genero. Y en la pestaña Options, en Bar options marca la opción Base bar heights on percentages
y en Labeling and legend options marca la opción Treat first category grouping as y variables:

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 25 de 41
6. Pulsa OK para obtener el diagrama de barras agrupadas en una ventana emergente:

Pàgina 26 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
60
percent of percent

40
20
0

Masculino Femenino
Normopeso Sobrepeso
Obesidad

Este diagrama permite ver estas diferencias de forma rápida observando las alturas de las barras de
hombres y mujeres en cada categoría diagnóstica de la obesidad. Puedes ver que las sumas de los
porcentajes de las tres barras dentro de cada género suman 100%.

P3S.5 Descripción estadística de la relación entre una variable categórica y una variable
cuantitativa
Por último, en este apartado se analiza gráfica y estadísticamente la relación entre una variable categórica
y una variable cuantitativa. Para ello, utilizaremos el ejemplo del análisis de la relación entre el Genero y
el número de cigarrillos/pipas al día que fuman los participantes (Numcig).

Para estudiar la relación entre una variable categórica y una variable cuantitativa, lo más habitual es
comparar el índice de tendencia central (media aritmética o mediana) de la variable cuantitativa en cada
categoría de la otra variable.
Los tipos de gráficos que permiten visualizar este tipo de relación cuando la variable cuantitativa es
discreta son los diagramas de barras agrupadas y los diagramas de líneas múltiples (también los
diagramas de barras y de áreas apiladas); cuando la variable cuantitativa es continua se utiliza
habitualmente el diagrama de barras de error. En todos los casos es aconsejable obtener el diagrama
de caja múltiple.

1. Realizaremos primero los cálculos de las medias en ambas submuestras a mano, para familiarizarnos
con el procedimiento. En el siguiente listado se muestran los valores válidos de la variable Numcig en
orden ascendente para cada género, obtenidos con el menú Data | Describe data | List data (que
genera la orden list). Para describir adecuadamente las diferencias entre el consumo de tabaco de
hombres y mujeres, se debe aplicar el mismo filtro de datos que aplicamos para describir
individualmente la variable Numcig, para que sólo se incluyan los participantes fumadores con
información válida (Numcig > 0 & Numcig != .). Calcula la media y la mediana de consumo de
tabaco de las personas fumadoras en los espacios previstos con ___ al final de cada tabla:

. sort Genero Numcig

. by Genero, sort : list Caso Numcig if Numcig > 0 & Numcig != ., noobs separator(12) N

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 27 de 41
-> Genero = Masculino -> Genero = Femenino

Caso Numcig Caso Numcig

9 1 18 4
3 1 7 8
2 5 28 10
15 6 31 10
27 7 21 10
5 8 6 11
1 8 12 12
14 8 30 14
20 10 10 15
32 10 16 18
26 15 4 20
8 15
N 11 11
N 12 12

Cálculo de la media: ____ ____


Cálculo de la mediana: ____ ____

2. Veamos cómo se obtienen dichos valores con Stata. Ejecuta el menú Statistics | Summaries, tables,
and tests | Other tables | Compact table of summary statistics para acceder al cuadro de diálogo de
la orden tabstat. En la pestaña Main, selecciona la variable cuantitativa a describir, en este caso
Numcig, marca la opción Group statistics by variable y selecciona la variable Genero que define a
ambas submuestras. En Statistics to display indica las opciones de la media (“Mean”) y mediana
(“Median”). Y en la pestaña by/if/in añade el filtro para que sólo se incluyan a los participantes
fumadores (Numcig > 0):

3. Pulsa OK y observa la tabla en la ventana principal Results y comprueba si los valores de la media y
la mediana que has escrito en el paso 1 son correctos:

Pàgina 28 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
. tabstat Numcig if Numcig > 0, statistics( mean median ) by(Genero)

Summary for variables: Numcig


by categories of: Genero (Género)

Genero mean p50

Masculino 7.833333 8
Femenino 12 11

Total 9.826087 10

Fíjate que la media aritmética del consumo de tabaco es superior en las mujeres fumadoras (12) que
en los hombres fumadores (7.83).
4. Veamos cómo se obtiene el diagrama de caja o boxplot de la variable Numcig para cada género con
Stata. Ejecuta el menú Graphics | Box Plot. En la pestaña Main selecciona la variable cuantitativa a
describir, que es Numcig. En la pestaña Categories, como variable que delimita las submuestras a
consignar en Group 1 selecciona Genero. Y en la pestaña by/if/in añade el filtro para que sólo se
incluyan a los participantes fumadores (Numcig > 0):

5. Pulsa OK para obtener el diagrama de caja múltiple en una ventana emergente:


20
15
Nº de cigarrillos/día

10
5
0

Masculino Femenino

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 29 de 41
Si observas este diagrama, puedes comprobar que la mediana de consumo de tabaco es mayor en las
mujeres (11) que en los hombres (8). Por tanto, podemos concluir que existe una relación entre la
variable Genero y la variable Numcig, en el sentido que las mujeres fumadoras fuman diariamente una
mayor cantidad de cigarrillos/pipas que los hombres.

P3S.6 Grabación del fichero de sintaxis y copia de los resultados en un documento Word
Para guardar las órdenes que hemos ido ejecutando durante la sesión de trabajo, al finalizar la sesión de
trabajo hay que almacenarlas en un fichero de sintaxis, tal como se indicó en el apartado P2S.6, con el
nombre HABITOX_P3S.do (la extensión *.do la asignará por defecto Stata).

En cuanto a los resultados, para copiar un resultado de Stata de la ventana principal Results a un
documento Word, se debe seleccionar con el ratón y pulsar el botón derecho, que permite cuatro
posibilidades diferentes:

1. Si se escoge la opción Copy, los resultados seleccionados se copian como texto en el portapapeles y
luego se pueden pegar en un documento de Word, con el tipo de letra que éste tenga definida (en el
ejemplo mostramos una letra de “ancho variable” como es Times New Roman).

A continuación se debe asignar un tipo de letra de “ancho fijo”, como por ejemplo Courier New
(izquierda) o Lucida Sans Typewriter (derecha):

2. Y si se escoge la opción Copy as a Picture, los resultados seleccionados se copian como una imagen
en el portapapeles y luego se puede pegar en un documento de Word como imagen escalable. La
única precaución es que antes de copiar el fragmento de resultados de interés, es aconsejable ajustar

Pàgina 30 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
el ancho de la ventana de resultados, para no seleccionar excesivo espacio en blanco en la parte
derecha de la imagen.
Por ejemplo, el fragmento capturado en el paso 1 daría lugar a esta imagen (hemos marcado los
bordes verticales izquierdo y derecho para verlo):
Genero mean p50

Masculino 7.833333 8
Femenino 12 11

Total 9.826087 10

En cambio, si antes de copiar el fragmento como imagen se estrecha la ventana de resultados al


ancho de los contenidos a copiar:

Se obtendría esta imagen que ocupa menos espacio:


Genero mean p50

Masculino 7.833333 8
Femenino 12 11

Total 9.826087 10

3. Por último, y tal como se indicaba en el P1S, para facilitar la visualización de los resultados mientras
se trabaja y su posterior captura como imagen, es recomendable haber cambiado la fuente de
caracteres de la ventana principal Results por una de tipo “ancho fijo”, como por ejemplo, Lucida
Sans Typewriter.

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 31 de 41
Ejercicio
Utiliza el fichero de datos HABITOX_P2S_final.dta y guarda en el fichero HABITOX_P3S.do las órdenes
Stata necesarias para resolver las siguientes preguntas:

1. ¿Los participantes que han respondido al cuestionario sobre hábitos tóxicos toman con la misma
frecuencia los tres tipos de droga (marihuana, alucinógenos y opiáceos) sobre los que se interroga en
el estudio?

_________________________________________________________________________________

_________________________________________________________________________________

2. ¿Cuáles son los tipos de gráficos más adecuados para representar la distribución del IMC?
Constrúyelos con Stata y anota tu respuesta:

_________________________________________________________________________________

_________________________________________________________________________________

3. Realiza la descripción estadística de la variable IMC (índice de masa corporal). ¿Cuáles son los
índices de tendencia central y de dispersión más adecuados para describir el IMC? ¿Y en el caso de la
variable Edad? Anota tu respuesta:

_________________________________________________________________________________

_________________________________________________________________________________

_________________________________________________________________________________

4. Realiza la descripción estadística de la variable Numdrogas. ¿Cuáles son los índices estadísticos más
adecuados para describir esta variable? Anota tu respuesta:

_________________________________________________________________________________

_________________________________________________________________________________

5. Analiza la relación entre el consumo de cervezas (variable Cerve) y el IMC. ¿Qué conclusión puedes
extraer? Anota tu respuesta:

_________________________________________________________________________________

_________________________________________________________________________________

Pàgina 32 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
6. ¿Existen diferencias entre hombres y mujeres en el consumo de marihuana? Anota tu respuesta:

_________________________________________________________________________________

_________________________________________________________________________________

_________________________________________________________________________________

_________________________________________________________________________________

7. ¿Existen diferencias entre los hombres y mujeres de la muestra de estudio en cuanto a su Edad?
Anota tu respuesta:

_________________________________________________________________________________

_________________________________________________________________________________

_________________________________________________________________________________

_________________________________________________________________________________

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB) Pàgina 33 de 41
Ejercicio opcional avanzado
El ejemplo que se propone en este ejercicio se plantea a partir de un estudio llevado a cabo por
estudiantes del grado en Logopedia de la Facultat de Psicologia de la UAB.
La muestra está formada por 20 personas adultas de entre 19 y 48 años de edad con Síndrome de Down, 8
de ellos hombres y 12 mujeres. Las variables recogidas, todas ellas numéricas, son las siguientes:
Nombre Etiqueta de la variable Etiqueta de los códigos
Id Identificador (se puede obviar la etiqueta)
Sexo Sexo 0: Masculino; 1: Femenino
Lectura Lectura 0: No; 1: Sí
GD Grado de discapacidad
QI Cociente intelectual
TOTAL Total errores en el test de evaluación fonológica

Ten en cuenta que la variable de respuesta objeto de estudio (TOTAL) informa del número de errores en el
test, de manera que una puntuación más alta es indicativa de un peor resultado.
Las hipótesis a evaluar del estudio son las siguientes: a) habrá una asociación positiva entre los resultados
en el test de evaluación fonológica (TOTAL) y el grado de discapacidad (GD), mientras que la relación
con el cociente intelectual (QI) será negativa; y b) se obtendrán mejores resultados (TOTAL) en las
personas que saben leer que en las que no saben leer (Lectura).
• Los datos se proporcionan en el archivo DOWN_P3S.xls. Para importarlos directamente desde Stata,
ejecuta el menú File | Import | Excel spreadsheet (*.xls;*.xlsx). Pulsa sobre la tecla Browse… para
seleccionar el archivo Excel con los datos, marca la opción Import first row as variable names y
pulsa OK.
• Etiqueta las variables y asigna los diccionarios necesarios a las variables categóricas. Guarda el
fichero de datos con el nombre DOWN_P3S.dta.
• Describe la muestra a partir de las variables categóricas Sexo y Lectura y las variables cuantitativas
GD, QI y TOTAL. Para las variables categóricas, puedes hacerlo con una única orden tab1,
ejecutando el menú Statistics | Summaries, tables, and tests | Frequency tables | Multiple one-
way tables.
• Evalúa a nivel gráfico y con la tabla correspondiente si hay diferencias en la Lectura en función de
Sexo.
• Evalúa a nivel gráfico y con el estadístico correspondiente si hay relación entre el número de errores
en el test de evaluación fonológica y las medidas de discapacidad e inteligencia (hipótesis a).
• Evalúa a nivel gráfico y con los estadísticos descriptivos adecuados si los resultados de la evaluación
fonológica varían en función de si los participantes saben leer o no (hipótesis b).
• Guarda en el fichero DOWN_P3S.do las órdenes Stata usadas para resolver las preguntas anteriores.
Una vez hayas finalizado estos ejercicios puedes comparar tus resultados con la solución que se presenta
en la siguiente página y que se encuentran también en los ficheros HABITOX_P3S.do y DOWN_P3S.do.

Pàgina 34 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
twoway (scatter Cerve Numcig)
Solución del ejercicio twoway (scatter Cerve Numcig) (lfit Cerve Numcig)
pwcorr Numcig Cerve, obs

* Ejemplo: Descripción estadística de la relación entre las variables categóricas Genero y Obesidad
tabulate Obesidad if Genero == 0, plot
tabulate Obesidad if Genero == 1, plot
tabulate Obesidad Genero, column
graph bar, over(Obesidad) over(Genero) asyvars percentages

* Ejemplo: Descripción estadística de la relación entre categórica Genero y cuantitativa Numcig


sort Genero Numcig
by Genero, sort : list Caso Numcig if Numcig > 0 & Numcig != ., noobs separator(12) N
sort Caso
Archivo de sintaxis HABITOX_P3S.do tabstat Numcig if Numcig > 0, statistics( mean median ) by(Genero)
graph box Numcig if Numcig > 0, over(Genero)
* Ejemplo: Descripción estadística de la variable categórica Obesidad
tabulate Obesidad, missing * Ejercicio 1: Frecuencia de consumo de los diferentes tipos de drogas
tabulate Obesidad graph bar, over(Maria)
graph bar, over(Alucin)
graph bar, over(Obesidad) graph bar, over(Opio)
graph pie, over(Obesidad) plabel(_all percent) tab1 Maria Alucin Opio, missing

* Ejemplo: Descripción estadística de la variable categórica Tabaco * Ejercicio 2: Gráficos estadísticos del IMC
tabulate Tabaco if Numcig > 0 & Numcig != ., missing stem IMC
tabulate Tabaco if Numcig > 0 & Numcig != . graph box IMC
tabulate Tabaco, missing histogram IMC, bin(10) frequency

* Ejemplo: Descripción estadística de la variable cuantitativa Numcig * Ejercicio 3: Descripción estadística del IMC y de la Edad
graph bar (count), over(Numcig) tabstat IMC Edad, statistics( count min max range mean sd skewness kurtosis p25 median p75 iqr)
graph bar (count) if Numcig > 0, over(Numcig)
* Ejercicio 4: Descripción estadística de la variable Numdrogas
summarize Numcig if Numcig > 0 graph bar, over(Numdrogas)
summarize Numcig if Numcig > 0, detail tabulate Numdrogas, missing

tabstat Numcig if Numcig > 0, statistics( count min max range mean sd skewness kurtosis ) * Ejercicio 5: relación entre el consumo de cervezas y el IMC
tabstat Numcig if Numcig > 0, statistics( p5 p25 median p75 p95 iqr ) twoway (scatter IMC Cerve) (lfit IMC Cerve)
pwcorr IMC Cerve, obs
stem Numcig if Numcig > 0, lines(2)
* Ejercicio 6: Relación entre Genero y consumo de marihuana
graph box Numcig if Numcig > 0 graph bar, over(Maria) over(Genero) asyvars percentages
tabulate Maria Genero, column
histogram Numcig if Numcig > 0, discrete frequency
* Ejercicio 7: Relación entre Genero y Edad
* Ejemplo: Descripción estadística de la relación entre las variables cuantitativas Numcig y Cerve tabstat Edad, statistics( mean median ) by(Genero)
list Caso Numcig Cerve if Numcig != . & Cerve != ., noobs separator(27) N graph box Edad, over(Genero)
* Ejercicio opcional avanzado: Importación de los datos desde un archivo excel
*import excel "C:\...\DOWN_P3S.xls", sheet("DOWN_P3S") firstrow

* Ejercicio opcional avanzado: Definición de las propiedades de las variables


label define dSexo 0 "Masculino" 1 "Femenino"
label values Sexo dSexo
label define dNoSi 0 "No" 1 "Sí"
label values Lectura dNoSi
label variable GD "Grado de discapacidad"
label variable QI "Cociente intelectual"
label variable TOTAL "Total errores evaluación fonológica"
*save "C:\...\DOWN_P3S_final.dta"

* Ejercicio opcional avanzado: Descripción de la muestra (análisis univariados)


tab1 Sexo Lectura
tabstat GD QI TOTAL, statistics( mean min max sd median )

* Ejercicio opcional avanzado: Relación entre Sexo y Lectura


tabulate Lectura Sexo, column
graph bar, over(Lectura) over(Sexo) asyvars percentages

* Ejercicio opcional avanzado: Relación entre GD y QI y TOTAL


twoway (scatter TOTAL GD) (lfit TOTAL GD)
twoway (scatter TOTAL QI) (lfit TOTAL QI)
pwcorr GD QI TOTAL, obs

* Ejercicio opcional avanzado: Relación entre Lectura y TOTAL


tabstat TOTAL, statistics( mean min max sd median ) by(Lectura)
graph box TOTAL, over(Lectura)

Pàgina 36 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
P3S Anexo 1. Tamaño del efecto (Effect size, ES)
Cohen (1969, 1992) propone los siguientes criterios generales para interpretar el tamaño del efecto,
cuando comparamos dos medias (relación entre una variable cuantitativa y una variable categórica) o
cuando evaluamos el coeficiente de correlación de Pearson (asociación lineal entre dos variables
cuantitativas):

Reproducido de Cohen (1992):


1. The ES index for the test of the difference between independent means is d, the difference
expressed in units of (i.e., divided by) the within-population standard deviation. For this test, the d = 0
indicates that the difference equals zero; and the small, medium, and large ESs are d = .20, .50, and
.80. Thus, an operationally defined medium difference between means is half a standard deviation;
concretely, for IQ scores in which the population standard deviation is 15, a medium difference
between means is 7.5 IQ points.
2. For the test of the significance of a sample r, small, medium, and large ESs are respectively .10, .30,
and .50.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-159.
http://dx.doi.org/10.1037/0033-2909.112.1.155

P3S Anexo 2. Relación entre una variable categórica y una variable cuantitativa
1. Descriptivos de la variable cuantitativa Edad en función de los grupos definidos por la variable
categórica Genero. Ejecuta el menú Statistics | Summaries, tables, and tests | Other tables |
Compact table of summary statistics:

Pàgina 37 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
2. Se obtienen los siguientes resultados:
. tabstat Edad, statistics( mean sd var count ) by(Genero) columns(statistics)

Summary for variables: Edad


by categories of: Genero (Género)

Genero mean sd variance N

Masculino 35.0519 5.585083 31.19315 17


Femenino 32.22286 4.490585 20.16535 15

Total 33.72579 5.22149 27.26396 32

3. Si aplicamos la fórmula general propuesta por Cohen:

x1  x 2
d=
s
donde el numerador es la diferencia entre las medias de los dos grupos: x1 es la media del primer
grupo, y x 2 es la media del segundo grupo;
y el denominador s es la desviación estándar de la muestra completa (“pooled”)
4. El resultado sería:
35.0519  32.22286
d=  0.54181
5.22149
5. Para obtener el tamaño del efecto con Stata, ejecuta el menú Statistics | Summaries, tables, and tests
| Classical tests of hypotheses | Effect size based on mean comparison. En la pestaña Main, en
Effect sizes marca Two-sample using groups, y selecciona Edad en Variable name y Genero en
Group variable name. Y en Options, marca Report Cohen’s d y Report Glass’s Delta using each
group’s standard deviation:

Pàgina 38 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
6. Se obtienen los siguientes resultados:
. esize twosample Edad, by(Genero) cohensd glassdelta

Effect size based on mean comparison

Obs per group:


Masculino = 17
Femenino = 15

Effect Size Estimate [95% Conf. Interval]

Cohen's d .5543208 -.1583227 1.258112


Glass's Delta 1 .5065346 -.216657 1.214944
Glass's Delta 2 .6299931 -.1118317 1.351739

7. Como se puede apreciar, los resultados numéricos de la fila Cohen’s d son ligeramente diferentes de
los obtenidos manualmente en el paso 4 (d = 0.54181), aunque la conclusión sobre el tamaño del
efecto sería la misma: se trataría de un efecto moderado. Veamos el motivo de ello.
8. Stata calcula el valor d con la siguiente fórmula:

x1  x 2
d=
s*
siendo:

donde n1 y n2 son los tamaños de cada grupo y s12 y s22 son las variancias de cada grupo (que pueden
obtenerse al elevar al cuadrado la desviación estándar)
9. El resultados sería:

(17  1) * 31.19315  (15  1) * 20.16535 781.40535


s* =   5.10361
17  15  2 30
35.0519  32.22286
y por tanto d=  0.55432
5.10361
que coincide con el valor de la primera fila del listado mostrado en el paso 6
10. Además, Stata permite obtener los valores de Delta según la propuesta de Glass (Smith y Glass, 1977)
para diseños experimentales, en los que el grupo control actúa como grupo de referencia. La
estimación Delta1 usa en el denominador la desviación estándar del primer grupo y la estimación
Delta2 usa en el denominador la desviación estándar del segundo grupo.

x1  x 2 35.0519  32.22286
Para Delta1: Δ1 = =  0.50653
s1 5.585083

x1  x 2 35.0519  32.22286
Para Delta2: Δ2 = =  0.62999
s2 4.490585
que coincide con los valores de la segunda y tercera fila, respectivamente, del listado mostrado en el
paso 6.
Smith, M.L. y Glass, G.V. (1977). Meta-analysis of psychotherapy outcome studies. American
Psychologist 32(9), 752-760. http://dx.doi.org/10.1037/0003-066X.32.9.752

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa, y Eva Penelo (UAB) Pàgina 39 de 41
P3S Anexo 3. Relación lineal entre dos variables cuantitativas

La relación lineal entre dos variables cuantitativas se describe a través del índice estadístico
correlación de Pearson. El resultado del cálculo de este índice puede oscilar entre –1 y +1:
• Valores próximos a –1 indican que existe una marcada relación lineal negativa, es decir, que a
medida que aumentan o disminuyen los valores de una variable disminuyen o aumentan en
sentido contrario, en promedio, los valores de la otra variable.
• Valores próximos a +1 indican que hay una fuerte relación lineal positiva, es decir, que a
medida que aumentan o disminuyen los valores de una variable aumentan o disminuyen en el
mismo sentido también, en promedio, los valores de la otra variable.
• Valores próximos a 0 indican la ausencia de relación lineal entre las dos variables.

7. Coeficiente de correlación de Pearson entre las variables cuantitativas Numcig, Cerve, Vino, e IMC.
Ejecuta el menú Statistics | Summaries, tables, and tests | Summary and descriptive statistics |
Pairwise correlations:

8. Se obtienen los siguientes resultados:


. pwcorr Numcig Cerve Vino IMC, obs

Numcig Cerve Vino IMC

Numcig 1.0000
29 La magnitud de la relación entre
Cerve y Numcig es grande (r = .82)
Cerve 0.8187 1.0000
27 29 La magnitud de la relación de Vino
con Numcig (r = .25) y con Cerve
Vino 0.2485 0.1892 1.0000 (r = .19) es baja.
26 28 29
La magnitud de la relación de IMC
con Numcig es moderada (r = .39),
IMC 0.3865 0.5393 0.1430 1.0000
27 28 28 30
con Cerve es grande (r = .59), y con
Vino es baja (r = .14).

Pàgina 40 de 41 © 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa y Eva Penelo (UAB)
P3S Anexo 4. Relación entre dos variables categóricas
9. Tabla de contingencia entre las variables categóricas Fumador y Genero. Ejecuta el menú Statistics |
Summaries, tables, and tests | Frequency tables | Two-way table with measures of association

10. Si nos fijamos en la categoría de “grandes fumadores”, es decir, las personas que fuman 10 cigarrillos
diarios o más, se observa una distribución diferente entre ambos géneros: en las mujeres el porcentaje
de participantes que fuman esta cantidad diaria (69.23%) es muy superior al de los hombres (25.0%).

. tabulate Fumador Genero, column

Key

frequency
column percentage

Grado de adicción al Género


tabaco Masculino Femenino Total

No fumador 4 2 6
25.00 15.38 20.69

Menos de 5 cigarrillo 2 1 3
12.50 7.69 10.34

Menos de 10 cigarrill 6 1 7
37.50 7.69 24.14

10 o más cigarrillos/ 4 9 13 DP = 69.23 – 25.0 = 44.23%


25.00 69.23 44.83
RP = 69.23 / 25.0 = 2.77
Total 16 13 29
100.00 100.00 100.00

La diferencia de proporciones (DP) indica que hay un 44.23% más de mujeres que hombres que
fuman 10 cigarrillos diarios o más.
La razón de proporciones (RP) o riesgo relativo (RR) indica que la proporción de mujeres que fuman
10 cigarrillos diarios o más es 2.77 veces mayor que la de hombres, es decir, casi el triple.

© 2018 - Josep Maria Losilla Vidal, Jaume Vives Brosa, y Eva Penelo (UAB) Pàgina 41 de 41

View publication stats

También podría gustarte