DnaSP v6. Documentación ESPAÑOL

7/10/21 17:35 DnaSP v6.
Documentación
Página 1
D na SP
Polimorfismo de secuencia de ADN
Versión: 6.12
4 de julio de 2018
https://translate.googleusercontent.com/translate_f#111 1/102
7/10/21 17:35 DnaSP v6. Documentación
Copyright © 2018 por Julio Rozas et al. Y Universitat de Barcelona. Reservados todos los derechos.
Página 2
DnaSP v6. Documentación
Tabla de contenido
Contenido ... .............................................. .................................................. ........ 4

Introducción .... ............................................. .................................................. ... 6
Qué puede hacer DnaSP ....... ....................................... ......................................... 6
Requisitos e instalación del sistema ........ ...................................... ................ 7
Menú Archivo / Entrada y Salida ....... ..................................... .................................. 9
Formatos de archivos de datos de entrada ...... ........................................ ................................. 10
Formato FASTA ...... .......................................... ......................................... 11
Formato MEGA ...... .......................................... .......................................... 12
Formato NBRF / PIR ...... ........................................ ....................................... 13
Formato NEXUS ...... .......................................... ......................................... 13
Formato PHYLIP ...... .......................................... ........................................ 17
Formato de haplotipos en fase HapMap3 ......... ..................................... ............ 17
Formato de archivo Arlequin ..... .......................................... .................................. 18
Formatos Multi-MSA ...... ........................................ ..................................... 19
Análisis de varios archivos de datos (modo por lotes) ....... ................................... .............. 21
Análisis de archivos de datos multi-MSA (todas las posiciones; datos RADseq; archivos de pilas / PyRAD) ... 23
Polimorfismo y divergencia ........ ....................................... ................... 24
Análisis de archivos de datos multi-MSA (posiciones SNP; archivos VCF) ..... .............................. 28
Polimorfismo y divergencia ........ ....................................... ................... 28
Análisis de archivos de datos de frecuencia de haplotipos (* .arp) ....... ................................. ....... 32
Abrir archivo de datos de Unphase / Genotype ......... ................................... ..................... 35
Despliegue un archivo FASTA (individuos diploides) con códigos de ambigüedad para ... ... ............. 37
Convertir un archivo FASTA con códigos de ambigüedad en 'Ns' ....... ................................ 38
Salida .. ............................................... .................................................. ..... 39
Menú de pantalla .... ............................................ .................................................. 39
Ventana de gráficos ...... .......................................... ........................................... 41
Navegador UCSC ...... .......................................... ............................................. 42
Menú de datos .... ............................................ .................................................. .... 43
Huecos en la ventana corrediza ....... ....................................... .................................. 44
Asignar regiones de codificación ....... ........................................ .................................. 44
Asignar tabla de codones preferidos / no preferidos ....... ..................................... ..... 46
Definir conjuntos de dominios ...... ......................................... ....................................... 46
Eliminar posiciones ...... .......................................... ........................................ 46
Definir conjuntos de secuencias ...... ......................................... .................................... 47
Incluir / excluir secuencias ....... ....................................... ........................... 47
Menú de análisis ..... ........................................... ................................................. 49
Sitios polimórficos ..... ........................................... ........................................ 49
Estimación de cambios sinónimos y no sinónimos ........ .......................... 49
Polimorfismo de ADN ........ ........................................ ..................................... 50
Tamaño efectivo de la población ..... .......................................... ............................ 52
Polimorfismo InDel (inserción-eliminación) ........ ................................... ............. 53
Divergencia de ADN entre poblaciones ......... ..................................... .............. 55
Regiones de ADN conservadas ........ ....................................... ................................ 56
2/112
Página 3
Polimorfismo y divergencia ........ ....................................... ....................... 58
Polimorfismo y divergencia en regiones funcionales ....... ................................ 60
Sustituciones sinónimas y no sinónimas ......... .................................... 61
Sesgo de uso de codones ...... ......................................... ......................................... 63
Sustituciones de sinónimos preferidas y no preferidas ....... ............................... 64
Conversión de genes ...... .......................................... ......................................... 66
Flujo de genes y diferenciación genética ....... ...................................... ............... 67
Desequilibrio de vinculación ...... .......................................... ................................. 69
Recombinación ..... ............................................ ........................................... 71
Cambios en el tamaño de la población ....... ........................................ ................................ 72
Pruebas de Fu y Li (y otras) ...... .................................... ............................... 73
Pruebas de Fu y Li (y otras) con un grupo externo ....... ................................ ........ 75
Prueba de HKA, Hudson, Kreitman y Aguadé ......... ................................. ........... 78
Prueba de McDonald y Kreitman ........ ...................................... ......................... 79
Prueba de Tajima .... ............................................ ............................................... 83
Menú de resumen ...... .......................................... ................................................ 85
Datos de polimorfismo ....... ......................................... ...................................... 85
Datos de polimorfismo / divergencia ......... ..................................... ....................... 86
Análisis multidominio ...... .......................................... ................................... 87
Generar menú ..... ........................................... ................................................ 89
Archivo de datos concatenados ...... ......................................... .................................. 89
Traslado a: DNA Slider ..... ........................................ ..................................... 89
Archivo de datos de posiciones filtradas ..... ......................................... .............................. 90
Archivo de sitios polimórficos ..... .......................................... ................................... 91
Archivo de datos de haplotipos ..... .......................................... ....................................... 91
Traducir al archivo de datos de proteínas ..... ........................................ ........................... 92
Archivo de datos de complemento inverso ........ ...................................... ........................ 93
Preparar el envío a bases de datos EMBL / GenBank ........ ................................... 93
Menú Herramientas .... ............................................ .................................................. ... 94
Simulaciones coalescentes (modelo 1-locus | 1-pop) ....... ............................... ........ 94
Simulaciones coalescentes (n-loci | modelo 1-pop) ....... ............................... .......... 98
Simulaciones coalescentes (DnaSP v5) ....... ..................................... .................. 100
Prueba de HKA. Modo directo ...... .......................................... ................................. 102
Ventana y menús de ayuda ........ ...................................... ...................................... 104
Más información y distribución y derechos de autor ....... ..................................... ........ 105
Citación . .................................................. .................................................. 105
Autores .. ............................................... .................................................. .105
Agradecimientos ....... .......................................... ................................... 106
Referencias ... .............................................. ............................................... 106
3/112
Página 4
Contenido
Versión de DnaSP: 6.12 Contenido de la ayuda

4 de julio de 2018
Al ejecutar DnaSP, presione F1 para ver la ayuda contextual.
Qué puede hacer DnaSP

Introducción
Requisitos del sistema
Entrada y salida
Archivos de datos de entrada ( formato FASTA ; formato MEGA ; formato NBRF / PIR ; formato NEXUS ; formato PHYLIP ;
Formato de haplotipos en fase HapMap3 ; Formato VCF ; Formatos Multi-MSA ; Formato Arlequin )
Análisis de varios archivos de datos (modo por lotes)
Análisis de archivos de datos de varios MSA (todos los sitios)
Análisis de archivos de datos multi-MSA (posiciones SNP)
Análisis de archivos de datos de frecuencia de haplotipos
Abrir datos sin fase / genotipo
Convertir un archivo FASTA con códigos de ambigüedad en 'Ns'
Producción
Navegador UCSC
Datos
Menú de datos
Definir conjuntos de secuencias
Definir conjuntos de dominios
Filtrar / Eliminar posiciones
Incluir / excluir secuencias
Análisis
Sitios polimórficos
Polimorfismo de ADN
Polimorfismo InDel (inserción-deleción)
Divergencia de ADN entre poblaciones
Regiones de ADN conservadas
Polimorfismo y divergencia
Polimorfismo y divergencia en regiones funcionales
Sustituciones sinónimas y no sinónimas
Sesgo de uso de codones
Sustituciones de sinónimos preferidas y no preferidas
Conversión de genes
Flujo de genes y diferenciación genética
Desequilibrio de ligamiento
Recombinación
Cambios en el tamaño de la población
Pruebas de Fu y Li (y otras)
Pruebas de Fu y Li (y otras) con un grupo externo
HKA; Test de Hudson, Kreitman y Aguadé
Prueba de McDonald y Kreitman
4/112
Página 5
Prueba de Tajima
Visión general
Datos de polimorfismo
Datos de polimorfismo / divergencia
Análisis multidominio
Generar
Archivo de datos concatenados
Traslado a: DNA Slider
ms (Dick Hudson) Formato de archivo de datos
Archivo de sitios polimórficos / variables
Archivo de datos de haplotipos
Traducir a archivo de datos de proteínas
Archivo de datos de complemento inverso
Preparar el envío para bases de datos EMBL / GenBank
Instrumentos
Simulaciones coalescentes (modelo de 1 locus, 1 pop)
Simulaciones coalescentes (n-loci, modelo 1-pop)
Simulaciones coalescentes (DnaSP v5)
Prueba de HKA. Modo directo
Distribuciones discretas
Pruebas de independencia: tabla 2 x 2
Calculadora evolutiva
Comandos de menú
Interfaz de usuario de DnaSP
Menú Archivo
Menú de datos
Menú de pantalla
Menú de análisis
Menú de descripción general
Menú de herramientas
Generar menú
Ventana y menús de ayuda
Más información y derechos de autor

Política de distribución y actualizaciones
Citación
Autores
Agradecimientos
Referencias
5/112
Página 6
Introducción
Resumen
Referencias: DnaSP v1 DnaSP v2 DnaSP v3 DnaSP v4 DnaSP v5
La genética de poblaciones es una rama de la biología evolutiva que intenta determinar el nivel y la distribución
del polimorfismo genético en poblaciones naturales y también para detectar las fuerzas evolutivas (mutación,
migración, selección y deriva) que podrían determinar el patrón de variación genética observado en
poblaciones. Idealmente, la mejor manera de cuantificar la variación genética en poblaciones naturales debería ser mediante
comparación de secuencias de ADN (Kreitman 1983 ). Sin embargo, aunque la metodología para la secuenciación del ADN
está disponible desde 1977 (Maxam y Gilbert 1977 Sanger et al. 1977 ), hasta 1990 el uso de la secuencia de ADN
los datos habían tenido poco impacto en la genética de poblaciones. Esto se debe a que el esfuerzo (en términos de dinero y
tiempo) requerido para obtener datos de la secuencia de ADN de un número relativamente grande de alelos fue sustancial.
La introducción de la reacción en cadena de la polimerasa (PCR) (Saiki y col. 1985 ; 1988) que permite directo
secuenciación de productos de PCR y evita, por tanto, su clonación, ha cambiado la situación. Indudablemente
esto ha producido un cambio revolucionario en la genética de poblaciones. Aunque, en la actualidad, los estudios de población en
el nivel de secuencia de ADN es todavía escaso y se lleva a cabo principalmente en Drosophila (por ejemplo: McDonald y
Kreitman 1991 Schaeffer y Miller 1993 Rozas y Aguadé 1994 ), seguramente aumentarán en el futuro.
El DnaSP (DNA Sequence Polymorphism) es un software dirigido a genetistas de poblaciones moleculares

y puede calcular varias medidas de variación de la secuencia de ADN dentro y entre poblaciones en
sin codificación, en sitios sinónimos o no sinónimos; flujo de genes, conversión de genes (Betrán et al. 1997) ,
parámetros de desequilibrio de recombinación y ligamiento. Además, DnaSP realiza algunas pruebas de neutralidad:
los Hudson, Kreitman y Aguadé (1987), el Tajima (1989) , McDonald y Kreitman 1991;y el Fu y
Pruebas de Li (1993) . DnaSP aprovecha las capacidades de Microsoft Windows, para que pueda manejar una gran
número de secuencias de miles de nucleótidos cada una en un microordenador. Además, DnaSP puede
intercambiar datos fácilmente con otros programas, por ejemplo, programas para realizar múltiples alineaciones de secuencia,
análisis de árboles filogenéticos o análisis estadístico.
Qué puede hacer DnaSP
Qué puede hacer DnaSP:
Referencias y resúmenes: DnaSP v1 DnaSP v2 DnaSP v3 DnaSP v4 DnaSP v5 DnaSP 2009

(libro de capítulos ) DnaSP v6
DnaSP, polimorfismo de secuencia de ADN, es un programa informático interactivo para el análisis de ADN
polimorfismo a partir de datos de secuencia de nucleótidos. El programa calcula varias medidas de secuencia de ADN
variación dentro y entre poblaciones (con o sin el método de ventana deslizante) en no codificación,
sitios sinónimos o no sinónimos; desequilibrio de ligamiento, recombinación, flujo de genes y genes
parámetros de conversión; y también calcula algunas pruebas de neutralidad, las de Fu y Li, Hudson, Kreitman y
Pruebas de Aguadé, McDonald y Kreitman y Tajima. DnaSP también puede realizar simulaciones por computadora
basado en el proceso de coalescencia. El archivo de datos de entrada es una alineación de secuencia múltiple (MSA), o (nuevo en
versión 6) un formato de archivo Multi-MSA .
6/112
Página 7
Lo que DnaSP no puede hacer:
DnaSP no puede alinear secuencias. Hay algunos programas disponibles que pueden hacer esto. Por ejemplo tu
puede realizar la alineación múltiple con CLUSTAL W (Thompson y col. 1994), MAFFT, T-Coffee, Músculo o
muchas otras herramientas. Estos programas producen salidas (múltiples secuencias alineadas; MSA) en diferentes formatos
que puede ser leído por DnaSP.
DnaSP no puede hacer inferencias filogenéticas ni manipular árboles. Hay muchos programas para hacer esto, para
ejemplo, MacClade (Maddison y Maddison 1992 ) , MEGA ( Kumar et al.1994), PHYLIP ( Felsenstein
1993 ), PAUP (Swofford 1991), RAxML o MrBayes. Sin embargo, los formatos de entrada utilizados por DnaSP
(FASTA, MEGA ,NBRF / PIR, Formato NEXUS y PHYLIP ) también son reconocidos para algunos de ellos.
DnaSP no puede editar ni manipular las secuencias de ADN. Puede hacer esto usando, por ejemplo,
MacClade (Maddison y Maddison 1992) o programas SeqApp / SeqPup ( Gilbert 1996).
DnaSP no puede analizar directamente la información genética diploide (por ejemplo, datos de SNP de datos genómicos diploides
regiones). Si está usando datos diploides sin fase, puede reconstruir la fase usando el Open
Módulo de datos de genotipo / eliminación de fase , o utilice el Despliegue de un archivo FASTA con códigos de ambigüedad Convierta un FASTA
Archivo con códigos de ambigüedad en módulos Ns .
Requisitos e instalación del sistema
Requisitos e instalación del sistema
DnaSP se ha escrito principalmente en Visual Basic.NET (Microsoft) y se ejecuta en una PC compatible con IBM.
en MS Windows de 32 o 64 bits.
El software se puede ejecutar en Microsoft Windows, versiones Vista / 7/8/10
DnaSP para plataformas de 32 y 64 bits

A partir de la versión 6.12.00 de DnaSP (junio de 2018), el software se distribuye para plataformas de 32 y 64 bits. La tardia
permite acceder a mayores cantidades de memoria RAM que la versión anterior de 32 bits, que es capaz de manejar
hasta un máximo de 4 GB de RAM.
La instalación de la versión de 64 bits requiere un hardware con un procesador basado en 64 bits (casi todas las computadoras
adquiridos en la última década se basan en esta arquitectura), sino también tener instalada la versión de 64 bits de
Windows (Windows 7 y superior).
El archivo dnasp6XXYY.zip , contiene los dos instaladores de DnaSP para la versión 6.XX.YY, el DnaSP_v6_64.msi
(para la versión de 64 bits) y DnaSP_v6_86.msi (para la versión de 32 bits). Dado que casi todas las computadoras deberían
funciona con la versión de 64 bits, es mejor instalar la versión de 64 bits. Si no funciona, pruebe con el de 32 bits.
DnaSP en Linux y Macintosh

DnaSP también se puede ejecutar en plataformas Apple Macintosh (usando VirtualBox, VMWare Fusion, Parallels
Desktop), sistemas operativos basados en Linux-Unix (usando VirtualBox, VMWare o Wine). Ver
www.ub.edu/dnasp/DnaSP_OSv6.html
Al usar máquinas virtuales o emuladores, la velocidad de cálculo del programa disminuirá.
Limitaciones (comando Abrir archivo de datos: un solo archivo de datos MSA)

DnaSP se ha probado con éxito con archivos de datos de hasta 120 Mbp (por ejemplo, 30 secuencias de ADN
de 4 Mbp cada uno) en una computadora con Windows con 4 Gb de memoria RAM.
Número máximo de nucleótidos por secuencia: Depende de la memoria disponible (> 3.000.000 nt).
Número máximo de secuencias: 32767
7/112
Página 8
El control de cuadrícula no puede mostrar más de 16351 filas o 5448 columnas. Por tanto, para la ventana corredera
opción, el número máximo de filas de resultados es 16351. Por lo tanto, el número máximo de filas polimórficas
sitios (módulo de desequilibrio de ligamiento) o de secuencias (módulo sinónimo y no sinónimo) que pueden
ser analizados y mostrados en la pantalla es 181 (el número total de comparaciones por pares es: 181 * 180/2 =
16290). Aunque DnaSP no mostrará los resultados de estos análisis en la pantalla, los resultados podrían ser
guardado en un archivo.
Tanto el número como la longitud de las secuencias que puede manejar DnaSP dependen principalmente de la
memoria disponible. No obstante, DnaSP puede utilizar toda la memoria RAM disponible en una computadora, tanto
convencional y la memoria extendida. DnaSP también puede usar memoria virtual (puede usar el disco duro
espacio como memoria, aunque en este caso la velocidad de cálculo será mucho menor que cuando se usa RAM).
Por tanto, el programa puede manejar un gran número de secuencias de hasta miles de nucleótidos cada una.
Archivos de datos grandes

Para conjuntos de datos grandes, el usuario debe utilizar el análisis Multi-MSA (todas las posiciones) o el análisis Multi-MSA
(Posiciones SNP) (en lugar del comando estándar Abrir archivo de datos) y la versión de 64 bits de
DnaSP.
8/112
Página 9
Menú Archivo / Entrada y Salida
Menú Archivo
Ver también: Salida de archivos de datos de entrada
Este menú tiene (entre otros) los siguientes comandos:
Abrir archivo de datos

Este comando le permite abrir el archivo de datos. El comando muestra el directorio estándar de Windows
cuadro de diálogo en el que puede ubicar archivos.
Cerrar archivo de datos

Utilice este comando si desea cerrar el archivo de datos activo.
Guardar / exportar datos como

Utilice este comando para guardar los cambios realizados en el archivo de datos activo o para exportar (traducir) los datos activos
archivo de un formato de archivo a otro (nota: el archivo de datos exportado no contendrá las secuencias excluidas; consulte
los Incluir / excluir secuencias de comandos). El comando muestra el diálogo de directorio estándar de Windows
cuadro donde puede elegir dónde colocar el archivo.
Este comando también le permite generar un archivo de proyecto Arlequin o un archivo de datos Roehl (consulte el Haplotipo
Comando Archivo de datos ).
Actualizar el archivo de datos NEXUS

Utilice este comando para actualizar la información del archivo de datos NEXUS abierto. El comando está habilitado para
Archivos de datos no NEXUS o si hay algunas secuencias excluidas.
Opciones para guardar (formato NEXUS)

Puede usar este comando para especificar algunas opciones sobre cómo guardar o exportar archivos NEXUS:
Guardar en formato intercalado. El número de nucleótidos de cada bloque intercalado.
Para indicar el tipo de secuencias de nucleótidos (ADN o ARN).
Para indicar el tipo de delimitador de línea:
IBM-PC o compatible: CR + LF (ASCII 13 y ASCII 10).
Macintosh: CR (ASCII 13).
Sistemas Unix: LF (ASCII 10).
Para indicar la versión del formato de archivo NEXUS:
Versión anterior (utilizada por MacClade 3.04 o anterior)
Nueva versión, NEXUS versión 1 (utilizada por MacClade 3.05 o posterior)
Para indicar el símbolo utilizado para:
datos faltantes, brecha de alineación y sitio idéntico (carácter coincidente).
Enviar toda la salida a archivo

Utilice este comando para enviar todos los resultados generados (excepto los gráficos) en un archivo. El comando muestra el
cuadro de diálogo estándar de directorio de Windows donde puede elegir dónde colocar el archivo.
Cerrar archivo de salida

Utilice este comando si desea cerrar el archivo de salida.
Guardar salida actual

Utilice este comando para guardar la salida (del último análisis) en un archivo. El comando muestra el estándar
9/112
Página 10
Cuadro de diálogo del directorio de Windows donde puede elegir dónde colocar el archivo.
Configuración de página
El comando muestra el cuadro de diálogo Configuración de página de Windows estándar donde puede cambiar varios
la configuración de la impresora, por ejemplo, la impresora predeterminada, el tamaño del papel, la orientación, etc.
Salida de impresión .
Utilice este comando para imprimir la salida en la impresora predeterminada.
Archivos 1, 2, 3, 4
Enumera los cuatro archivos de datos usados más recientemente.
Salida
Este comando finaliza la sesión actual de DnaSP.
Teclas de atajo
Abrir archivo de datos CTRL + O
Cerrar archivo CTRL + W
Guardar salida CTRL + S
Salida de impresión CTRL + P
Salir CTRL + X
Formatos de archivos de datos de entrada
Formatos de archivos de datos de entrada
DnaSP puede leer los muchos tipos de formatos de archivo de datos de alineación de secuencia múltiple (MSA):
Análisis estándar ( comando estándar Abrir archivo de datos )

FASTA,
MEGA ( Kumar et al. 1994),
NBRF / PIR ( Sidman et al. 1988),
NEXUS ( Maddison et al. 1997),
PHYLIP (Felsenstein 1993),
Haplotipos en fase HapMap3
En todos los casos, una o más secuencias de nucleótidos homólogas deben incluirse en un solo archivo (archivo ASCII).
Las secuencias deben estar alineadas (es decir, las secuencias deben tener la misma longitud). Secuencias de nucleótidos
debe ingresarse usando las letras A, T (o U), C o G (en minúsculas, mayúsculas o cualquier combinación de minúsculas
y mayúsculas).
DnaSP le permite analizar un subconjunto de sitios del archivo de datos (esta opción es útil para el análisis de
regiones particulares del archivo de datos, por ejemplo, al analizar regiones exónicas e intrónicas por separado), o para
llevar a cabo análisis en un subconjunto de secuencias del archivo de datos (consulte Incluir / excluir secuencias
mando).
Análisis mediante los comandos de análisis de archivos de datos Multi-MSA (todos los sitios; posiciones SNP)
DnaSP puede leer algunos formatos de archivo estándar de tipo RADseq multi-MSA, incluidos * .alleles y * .loci generados
por pyRAD (Eaton 2014 ), * .fa generado por STACKS (Catchen y col., 2011) softwares, así como * .vcf ,
generado por muchos proyectos basados en el genoma (Danecek y col. 2011 ).
10/112
Página 11
Análisis utilizando el comando Análisis de archivo de datos de frecuencia de haplotipos

DnaSP puede leer formatos de archivo * .arp (de Arlequin; Schneider et al. 2000 ) que incluyen DNA-Haplotype
información con sus frecuencias absolutas. Consulte el comando Análisis de archivo de datos de frecuencia de haplotipos .
Análisis utilizando el archivo de datos de genotipos Unphase / comando

Para utilizar esta opción, DnaSP requiere que las secuencias de ADN (incluida la información de genotipo o no fase
de individuos diploides) estar formateados en formato FASTA (ver FASTA). Este formato es el estándar FASTA
formato pero incluyendo los códigos de ambigüedad de nucleótidos IUPAC para representar sitios heterocigotos. Ver el
Comando Unphase / Genotype Data File .
Ejemplos de archivos de datos

Puede encontrar ejemplos de todos los tipos de archivos de datos en la carpeta:
Archivos de programa (x86) / DnaSP v6 / Ejemplos
Propina:
Velocidad computacional. Para aumentar la velocidad computacional usando un formato FASTA, puede usar el nuevo
Análisis de archivos de datos de varios MSA (todos los sitios) , incluida la información de una sola región. Este módulo acepta el
formato llamado * .loci (Eaton 2014 ), que es idéntico a un MSA en formato FASTA, con la excepción de que el archivo
termina con el símbolo ' // '. El ejemplo anterior en formato * .loci tendría la siguiente forma:
> seq_1
ATATACGGGGTTA --- TTAGA ---- AAAATGTGTGTGTGTTTTTTTTTTCATGTG
> seq_2
ATATAC - GGATA --- TTACA ---- AGAATCTATGTCTGCTTTCTTTTTCATGTG
> seq_3
ATATACGGGGATA --- TTATA ---- AGAATGTGTGTGTGTTTTTTTTTTCATGTG
> seq_4
ATATACGGGGATA --- GTAGT ---- AAAATGTGTGTGTGTTTTTTTTTTCATGTG
//
Formato FASTA
Formato FASTA
Ver también: Archivos de datos de entrada
DnaSP puede reconocer formatos de archivo de datos FASTA ( * .fas ) (también llamado formato Person). El formato de archivo FASTA debe
comience con el símbolo ' > ' en la primera línea del archivo; el nombre de la secuencia es la primera palabra después de ese símbolo.
Los caracteres adicionales en esta línea se consideran comentarios. Los datos de la secuencia comienzan en el segundo
línea. Los datos de nucleótidos se pueden escribir en una o más líneas.
DnaSP solo reconoce archivos de datos FASTA no intercalados.
Caracteres especiales
Los espacios en blanco, las tabulaciones y los retornos de carro se ignoran (es decir, se pueden usar para separar bloques de
nucleótidos). De forma predeterminada, DnaSP utiliza los siguientes símbolos:
el carácter de guión ' - ' para especificar un espacio de alineación;
el carácter de punto ' . 'para especificar que el nucleótido en este sitio es idéntico al del mismo sitio del primer
secuencia (es decir, sitio idéntico o símbolo coincidente);
los símbolos ' ? ',' N ',' n 'para designar los datos faltantes.
Nombre de la secuencia
El nombre de la secuencia puede tener hasta 20 caracteres. No se permiten espacios en blanco ni tabulaciones (los subrayados deben
11/112
Pagina 12
utilizarse para indicar un espacio en blanco).
Ejemplo de formato FASTA
> seq_1 [comentario -opcional-]

> seq_2 [comentario -opcional-]
> seq_3
> seq_4
Propina:
Velocidad computacional. Para aumentar la velocidad computacional usando un formato FASTA, puede usar el nuevo
Análisis de archivos de datos de varios MSA (todos los sitios) , incluida la información de una sola región. Este módulo acepta el
formato llamado * .loci (Eaton 2014 ), que es idéntico a un MSA en formato FASTA, con la excepción de que el archivo
termina con el símbolo ' // '. El ejemplo anterior en formato * .loci tendría la siguiente forma:
> seq_1
> seq_2
> seq_3
> seq_4
//
Formato MEGA
Formato MEGA
Consulte también: Archivos de datos de entrada Kumar et al. 1994
DnaSP puede reconocer formatos MEGA intercalados y no intercalados ( * .meg ). Los formatos MEGA deben contener
el identificador #MEGA en la primera línea del archivo. La segunda línea debe comenzar con la palabra TITLE : seguida de
algunos comentarios (si los hay) sobre los datos (los comentarios dentro de las secuencias deben estar contenidos por un par de
comillas dobles: " comentario" ). Los datos de la secuencia comienzan en la tercera línea. El nombre de la secuencia es el
texto después del carácter ' # ' hasta el primer espacio en blanco, tabulación o retorno de carro. La secuencia de nucleótidos es
escrito en una o más líneas después del nombre de la secuencia, hasta el siguiente nombre de secuencia que también comienza con el
símbolo ' # ' (consulte el manual de usuario de MEGA).
nucleótidos). Por defecto, DnaSP utiliza los siguientes símbolos: el carácter de guión ' - ' para especificar un
brecha de alineación; el carácter de punto ' . 'para especificar que el nucleótido en este sitio es idéntico al del mismo
sitio de la primera secuencia (es decir, sitio idéntico o símbolo coincidente); los símbolos ' ? ',' N ',' n 'para designar
datos perdidos. Sin embargo, estos símbolos se pueden cambiar en el cuadro de diálogo que aparece al abrir un
archivo de datos.
12/112
Página 13
Ejemplo de formato MEGA

#MEGA
TÍTULO: 4 secuencias (55 nucleótidos). Archivo: EX ## N1.MEG
# seq_1
# seq_2
......-- .. A ........ C ...... G ... CA..C..C ... C ......... ..
# seq_3
.......... A ........ T ...... G ....................... .....
# seq_4
.......... A ..... G ... T ............................. .....
Formato NBRF / PIR
Formato NBRF / PIR
Consulte también: Archivos de datos de entrada Sidman et al. 1988
En los archivos NBRF / PIR ( * .meg, * .pir) , los nombres de secuencia se colocan inmediatamente después del identificador > DL; .
La siguiente línea se usa para comentarios. La secuencia de nucleótidos se escribe en la siguiente línea (en uno o más
líneas) y termina con el símbolo ' * '. El archivo debe contener secuencias de nucleótidos en un formato no intercalado.
formulario.
Datos de secuencia
nucleótidos). El carácter de guión ' - ' debe usarse para especificar un espacio de alineación. El carácter de punto ' . ' pueden
utilizarse para especificar que el nucleótido en este sitio es idéntico al del mismo sitio de la primera secuencia.
¿Los símbolos ? ',' N ',' n 'podrían usarse para designar datos faltantes. No se permiten otros símbolos.
Ejemplo de formato NBRF / PIR
> DL; seq_1

Comente sobre la secuencia 1 (archivo de ejemplo: EX ## N1.NBR).
ATATACGGGG TTA --- TTAG A ---- AAAAT GTGTGTGTGT TTTTTTTTTC ATGTG *
> DL; seq_2
Comentario: seq 2
ATATAC - GG ATA --- TTAC A ---- AGAAT CTATGTCTGC TTTCTTTTTC ATGTG *
> DL; seq_3
Comentario: seq 3
ATATACGGGG ATA --- TTAT A ---- AGAAT GTGTGTGTGT TTTTTTTTTC ATGTG *
> DL; seq_4
Comentario: seq 4
ATATACGGGG ATA --- GTAG T ---- AAAAT GTGTGTGTGT TTTTTTTTTC ATGTG *
Formato NEXUS
Formato NEXUS
13/112
Página 14
Consulte también: Archivos de datos de entrada Maddison et al. 1997
DnaSP puede leer formatos de archivo NEXUS ( * .nex ). Estos archivos son archivos de texto estándar que se han diseñado
(Maddison et al. 1997) para almacenar datos sistemáticos. DnaSP puede leer archivos NEXUS (versiones nuevas y antiguas,
Maddison y col. 1997) que contiene datos de secuencia de ADN o ARN. El archivo puede contener una o más secuencias;
en el último caso, las secuencias de nucleótidos homólogas deben estar alineadas (es decir, las secuencias deben tener
la misma longitud).
Las secuencias de nucleótidos deben ingresarse usando las letras A, T (o U), C o G (en minúsculas, mayúsculas o
cualquier mezcla de mayúsculas y minúsculas). Los espacios en blanco y las tabulaciones se ignoran (es decir, se pueden usar para
bloques separados de nucleótidos). Los retornos de carro también se ignoran en formatos de archivo no intercalados.
Símbolo de espacio de alineación

El símbolo utilizado para designar un espacio de alineación debe estar indicado por el subcomando GAP :
Por ejemplo, GAP = - indica que el carácter de guión ' - ' debe usarse para especificar un espacio de alineación.
Símbolo predeterminado: -
Símbolo de sitio idéntico (carácter coincidente)

El símbolo utilizado para designar que el nucleótido en un sitio es idéntico al del mismo sitio del primer
La secuencia debe estar indicada por el subcomando MATCHCHAR :
Por ejemplo, MATCHCHAR = .
Símbolo por defecto: .
Símbolo de datos faltantes

El símbolo utilizado para designar los datos faltantes debe indicarse mediante el subcomando MISSING :
Por ejemplo, MISSING =?
Símbolo predeterminado :?
Nota: los siguientes símbolos no están permitidos en los subcomandos GAP , MISSING y MATCHCHAR :
El espacio en blanco, y () [] {} / \,; : = * '"` <>
(ver Maddison et al. 1997).
Además, estos subcomandos no pueden compartir el mismo símbolo.
No hay límite para la longitud del nombre de la secuencia; sin embargo, DnaSP solo mostrará los primeros 20
caracteres. No se permiten espacios en blanco ni tabulaciones (se deben usar subrayados para indicar un espacio en blanco).
Formato intercalado
Los archivos NEXUS pueden contener secuencias de nucleótidos con formatos intercalados y no intercalados. El primero
el formato debe ser indicado por el subcomando INTERLEAVE
Bloques NEXUS
Los bloques NEXUS deben terminar con el comando END ;. DnaSP leerá los siguientes bloques NEXUS (consulte
Maddison y col. 1997):
Bloques DATA , TAXA , CARACTERS . Estos bloques contienen información sobre los taxones y el
datos de secuencia molecular.
Bloque SETS . Ese bloque permite al usuario almacenar información de grupos de secuencias, caracteres, taxones, etc.
DnaSP solo usa el comando TaxSet. Este bloque contiene información sobre grupos de secuencias.
NOTA: Consulte también Definir conjuntos de secuencias.
Bloque CODONES . Este bloque contiene información sobre el código genético y sobre las regiones del
14/112
Página 15
secuencia que son regiones no codificantes o codificantes de proteínas.

NOTA: Consulte también Asignar regiones de codificación.
Bloque CODONUSAGE . Este es un NEXUS privado que contiene información sobre la tabla específica de
Los codones preferidos y no preferidos que se utilizarán en los sinónimos preferidos y no preferidos
Análisis de sustituciones . Hay 8 tablas predefinidas; sin embargo, el usuario puede definir su propia tabla.
Subcomandos:
• Pref *: subcomando. Incluye los codones preferidos.
• Desconocido: subcomando. Incluye codones de naturaleza de preferencia desconocida.
NOTA: Consulte también el menú de datos.. Consulte también el ejemplo 1 del formato NEXUS.
Bloque DNASP
i) la ubicación . Este es un bloque
cromosómica NEXUS
de la región privado que contiene información sobre:
del ADN:
CHROMOSOMALLOCATION = comando. Hay 8 ubicaciones cromosómicas predefinidas:
• Autosome
• Xcromosoma
• Cromosoma
• Zcromosoma
• Cromosoma
• procariota
• mitocondrial
• cloroplasto
ii) o el tipo genómico del organismo:

GENOME = comando. Hay 2 tipos genómicos predefinidos:
• Diploide
• Haploide
NOTA: Consulte también el menú de datos.
Ejemplo de formato NEXUS versión 1
#NEXO
[Este es un ejemplo del nuevo formato de archivo NEXUS, NEXUS versión 1. Este es el
versión utilizada por MacClade 3.05 o posterior. Archivo: EX ## new1.nex]
COMENZAR TAXA;
DIMENSIONES NTAX = 4;
TAXLABELS
seq_1
seq_2
seq_3
seq_4;
FIN;
EMPEZAR PERSONAJES;
DIMENSIONES NCHAR = 55;
FORMATO TIPO DE DATOS = FALTA ADN =? GAP = - MATCHCHAR =. INTERLEAVE;
MATRIZ
seq_1 ATATACGGGGTTA --- TTAGA ---- AAAATGTGTGTGTGT
seq_2 ......-- .. A .. --- ... C .----. G ... CA..C..C
seq_3 .......... A .. --- ... T .----. G .............
seq_4 .......... A ..--- G ... T ----...............
seq_1 TTTTTTTTTCATGTG
seq_2 ... C ...........
15/112
Página 16
seq_3 ...............
seq_4 ...............
;
FIN;
COMIENZO CONJUNTOS;
TaxSet Barcelona = 1-2;
TaxSet Girona = 3;
TaxSet Catalunya = 1-3;
Grupo externo de TaxSet = 4;
FIN;
COMENZAR CODONES;
CODONPOSSET * SIN TÍTULO =
N: 1 2 6-26 51-55,
1: 3 27-48 \ 3,
2: 4 28-49 \ 3,
3: 5 29-50 \ 3;
CODESET * SIN TÍTULO = Universal: todos;
FIN;
COMENZAR CODONUSAGE;
PREFUNPREFCODONS GENETICCODE = Universal Drosophila_melanogaster =
PREF *: UUC UCC UCG
UAC UGC CUC CUG
CCC CAC CAG CGC
AUC ACC AAC AAG
AGC GUC GUG GCC
GAC GAG GGC;
FIN;
BEGIN DNASP;
CROMOSOMALIZACIÓN = Autosoma;
GENOMA = diploide;
FIN;
Ejemplo de formato NEXUS (versión antigua)

#NEXO
[Este es un ejemplo del antiguo formato de archivo NEXUS utilizado por el archivo MacClade 3.0:
EX ## old1.nex]
COMIENZO DE DATOS;
DIMENSIONES NTAX = 4 NCHAR = 55;
FALTA FORMATO =? GAP = - DATATYPE = ADN;
MATRIZ
seq_1 ATATACGGGGTTA --- TTAGA ---- AAAATGTGTGTGTGTTTTTTTTTTCATGTG
seq_2 ATATAC - GGATA --- TTACA ---- AGAATCTATGTCTGCTTTCTTTTTCATGTG
seq_3 ATATACGGGGATA --- TTATA ---- AGAATGTGTGTGTGTTTTTTTTTTCATGTG
seq_4 ATATACGGGGATA --- GTAGT ---- AAAATGTGTGTGTGTTTTTTTTTTCATGTG
;
FIN;
COMENZAR CODONES;
CODPOSSET SIN TÍTULO =
1: 3 27 30 33 36 39 42 45 48,
2: 4 28 31 34 37 40 43 46 49,
3: 5 29 32 35 38 41 44 47 50;
GENCODE UNIVNUC
;
16/112
Página 17
FIN;
Formato PHYLIP
Formato NEXUS
Ver también: Archivos de datos de entrada Felsenstein 1993
DnaSP puede reconocer formatos PHYLIP ( * .phy ) intercalados y no intercalados . Los formatos PHYLIP deben
contienen dos enteros en la primera línea del archivo: el primer número indica el número de secuencias en el
archivo de datos, mientras que el segundo indica el número total de sitios. Los datos de la secuencia comienzan en la segunda línea.
El nombre de la secuencia puede tener hasta 10 caracteres. La secuencia de nucleótidos comienza inmediatamente (posición 11).
Los datos de nucleótidos se pueden escribir en una o más líneas.
En los formatos intercalados PHYLIP, el nombre de la secuencia debe indicarse solo en el primer bloque.
nucleótidos). De forma predeterminada, DnaSP utiliza los siguientes símbolos:
el carácter de guión ' - ' para especificar un espacio de alineación;
el carácter de punto ' . 'para especificar que el nucleótido en este sitio es idéntico al del mismo sitio del primer
secuencia (es decir, sitio idéntico o símbolo coincidente);
los símbolos ' ? ',' N ',' n 'para designar los datos faltantes.
El nombre de la secuencia puede tener hasta 10 caracteres. Se permiten espacios en blanco.
Ejemplo de formato PHYLIP

4 55
seq_1 ATATACGGGGTTA --- TTAGA ---- AAAATGTGTGTGTGTTTTTTTTTTCATGTG
secuencia2ATATAC - GGATA --- TTACA ---- AGAATCTATGTCTGCTTTCTTTTTCATGTG
DmelanogasATATACGGGGATA --- TTATA ---- AGAATGTGTGTGTGTTTTTTTTTTCATGTG
seq_4 ATATACGGGGATA --- GTAGT ---- AAAATGTGTGTGTGTTTTTTTTTTCATGTG
Formato de haplotipos en fase HapMap3
Formato de haplotipos en fase HapMap3
DnaSP puede reconocer formatos de archivo de haplotipos en fase HapMap3 ( *.

en la tercera fase de HapMap). El formato de haplotipos en fase de HapMap3 es un archivo separado por espacios con
Información de SNP (información de haplotipos).
En el siguiente ejemplo, el archivo HapMap3 contiene 3 individuos (en total 6 cromosomas -o haplotipos-) con
9 posiciones (8 polimórficas y 1 monomórfica).
Primera fila
rsID posición_b36 NA19028_A NA19028_B NA19031_A NA19031_B NA19035_A NA19035_B
La primera fila debe contener, separadas por espacios, dos cadenas (en el ejemplo anterior, rsID y
position_b36 ) seguido de los ID de los haplotipos (los ID deben terminar con "_A" o "_B").
17/112
Página 18
En el ejemplo, NA19035_A y NA19035_B corresponden a los dos ID de haplotipos de individuos

NA19035.
Siguiendo filas
rs28832292 18095260 CTTTTT
La primera columna es el ID de SNP ( rs28832292 ) y la segunda columna es la posición física en la referencia.
cromosoma ( 18095260 ). Las columnas siguientes contienen las 6 variantes de nucleótidos (desde la posición
18095260 ). Por ejemplo, las variantes de nucleótidos de los cromosomas NA19028_A y NA19028_B en
la posición 18095260 son una C y una T , respectivamente.
Los espacios dobles y las tabulaciones se tratan como espacios simples.
Otros símbolos que A , C , G , T , U , N , ? o - no se aceptan.
Nota
DnaSP exportará cualquier archivo de datos al formato HapMap3, incluidos solo los sitios polimórficos (pero también las posiciones
con lagunas / datos faltantes).
Nota muy importante

Dado que es posible que este formato no contenga todos los sitios monomórficos, las estadísticas basadas en la distancia física o
en el número total de posiciones (es decir, distancias genéticas por sitio como p, K, divergencia de nucleótidos, D xy , D a , etc.)
será incorrecto.
Ejemplo de formato de haplotipos en fase HapMap3

rsID posición_b36 NA19028_A NA19028_B NA19031_A NA19031_B NA19035_A NA19035_B
rs28832292 18095260 CTTTTT
rs28439049 18136371 AAAAAA
rs28505894 18179985 CCTCCC
rs35630207 18206177 CCCACC
rs28842485 18325726 AACAAA
rs4633700 18357066 GGCGGG
rs2300680 18398549 GGCGGG
rs28620789
rs28841911 18520261
18534123 AAACAA
TCTTTC
Formato de archivo Arlequin
Formato de archivo Arlequin
Ver también: Archivos de datos de entrada Análisis de archivos de datos de frecuencia de haplotipos
Referencias: Excoffier y Lischer 2010
DnaSP puede leer archivos de datos Arlequin * .arp (proyecto Arlequin) con información de secuencia de ADN (haplotipo) y
su frecuencia, de un solo locus (región genómica). Los datos de la secuencia de ADN deben estar alineados; Este archivo,
por lo tanto, almacene información de un solo MSA.
La estructura del archivo de datos de Arlequin está bien descrita en su manual:

http://cmpg.unibe.ch/software/arlequin35/Arlequin35.html). En este archivo de datos, todo (excepto en el
Sección de estructura ) después del carácter "#" (hasta el final de la línea) hay comentarios (color de fuente en negro).
Las secciones del archivo de datos de Arlequin requeridas para DnaSP son las siguientes:
18/112
Página 19
[Perfil]
#Datos halotípicos
GenotypicData = 0
# Datos de secuencia de ADN
Tipo de datos = ADN
#XX es el número de muestras o poblaciones; cada muestra puede
NbSamples = XX
incluir los datos de la secuencia de ADN de varios individuos
[Datos]
[[Muestras]]
#Los nombre de los
SampleName = "Muestra_de_Hospitalet"
muestra / población
# YY1 es el número total de individuos de la muestra / población
SampleSize = YY1
SampleData = {
id1 Z1 ATCCCTCCTCCTTCTCGGT
id2 Z2 ATGCCTCCTCCTTCTCGGT
id3 Z3 ATCCTTCCTCCTTCTCGGT
# Hay 3 haplotipos diferentes (id1, id2 e id3) con frecuencias Z1, Z2 y Z3
}
(Z1 + Z2 + Z3 = YY1)
# El nombre de la muestra / población

SampleName = "Sample_of_Alella"
# YY2 es el número total de individuos de la muestra / población
SampleSize = YY2
SampleData = {
id1 W1 ATCCCTCCTCCTTCTCGGT
id5 W2 TTCCCTCCTCCTTCTCGGT
id6 W3 ATCCCTCCTCCTTCTCGGG
# Hay 3 haplotipos diferentes (id1, id5 e id6) con frecuencias W1, W2 y W3
}
(W1 + W2 + W3 = YY2)
... # Información de las siguientes muestras, hasta la población número XX
# sección opcional. Permite definir grupos jerárquicos de

[[Estructura]]
muestras / poblaciones. El usuario también puede definir esta información mediante un archivo * .SG.txt (ver más abajo)
NbGroups = 2 # En este ejemplo, hay dos grupos de muestras
#Barcelona #En esta sección, el carácter "#" precede al nombre del grupo
Grupo = {
"Muestra_de_Hospitalet"
"Muestra_de_ElPrat"
"Muestra_de_premia"
"Muestra_de_Alella"
}
#Valencia
Grupo = {
"Muestra_de_ElSaler"
"Muestra_de_Alcira"
"Muestra_de_Brujasot"
}
Formatos multi-MSA
Formatos de archivo multi-MSA
Ver también: Archivos de datos de entrada Análisis de archivos de datos multi-MSA

Referencias :Eaton 2014 Catchen y col. 2011 Danecek et al. 2011
19/112
Página 20
DnaSP puede leer varios formatos de archivo Multi-MSA (alineación de secuencia múltiple). Un formato Multi-MSA es un
archivo de datos único que contiene datos de secuencia de ADN de varias (1 ..> 50.000) regiones genómicas diferentes (diferente
MSA ). El ejemplo de estos archivos de datos incluye los formatos de archivo VCF (Variant Call Format) (Danecek et al.
2011), así como los archivos de datos generados por algunos programas populares para analizar datos similares a RADseq,
como pyRAD (Eaton 2014) y STACKS (Catchen et al., 2011).
Formatos de archivo multi-MSA

En particular, DnaSP puede leer los siguientes formatos de archivo Multi-MSA :
* .fa y * .alleles Formatos de archivo generados por pilas (Catchen et al., 2011) y pyRAD (Eaton 2014),
respectivamente. Datos de la secuencia de ADN de un organismo diploide, donde los dos alelos de cada individuo son
separados (datos por fases)
* .loci Formato de archivo generado por pyRAD (Eaton 2014), un formato muy similar al de FASTA. Almacena ADN
datos de secuencia de una sola secuencia por individuo (datos por fases). DnaSP considerará cualquier código de ambigüedad
como un error de secuencia (equivalente a una ' N '). Si el archivo * .loci contiene datos diploides verdaderos (es decir, si la ambigüedad
Los códigos representan verdaderos códigos de ambigüedad de nucleótidos IUPAC ), el usuario debe usar el software pyRAD para obtener
el archivo de datos * .alleles correspondiente.
* .VCF Formato de archivo según las especificaciones VCF (Variant Call Format; Danecek et al. 2011). Este formato puede
almacenar metainformación de la variación de la secuencia de ADN y:
el estado del genoma (haploide, diploide, triploide, etc.),
datos de genotipo,
las variantes de nucleótidos de posiciones variables (el formato VCF también puede almacenar posiciones monomórficas)
y estado de secuencia en fase (utilizando el símbolo ' | ') o sin fase ( símbolo ' / ') (consulte las especificaciones VCF).
La estructura del formato de archivo de datos VCF está bien descrita en su manual: https://samtools.github.io/hts-
specs / VCFv4.3.pdf, https://samtools.github.io/hts-specs
* .gVCF los gVCF (Genómico Variante Llama Formato) expediente formato
(https://software.broadinstitute.org/gatk/documentation/article.php?id=4017) es una especie de VCF (Danecek
et al. 2011), que incluye información del estado de todas las posiciones (posiciones variantes y no variantes). [ No
implementado todavía ]
Todos estos formatos Multi-MSA pueden almacenar información de la secuencia de ADN de varias regiones del genoma.
Estas regiones pueden diferir en la longitud (por lo general, menos de 1000 pb para un experimento RADseq) y también pueden
difieren en el número de individuos encuestados (no todos los individuos deben ser secuenciados en todas las regiones). los
Se pueden obtener datos empíricos de algunos enfoques RRL (bibliotecas de representación reducida) como
RADseq.
Consulte también la sección Análisis de archivos de datos de Multi-MSA para saber qué tipos de análisis puede realizar el programa.
llevar a cabo.
Archivos y análisis de datos basados en múltiples MSA

DnaSP puede leer hasta tres archivos de texto diferentes, cada uno con información diferente.
Archivos Multi-MSA Los archivos de datos mencionados anteriormente, es decir, archivos de datos con la información de la secuencia de ADN (y en
algunos casos algunas características generales de las regiones genómicas)
* .SG.txt el archivo de datos SampleToGroups que especifica qué muestras pertenecen a qué grupo (población,
especies, grupos externos, etc.).
* .GFF the GFF3 (Generic Feature Format, versión 3), el archivo de datos que almacena las características genómicas de cada MSA
(como exón, intrón, etc.). [ Aún no implementado]
Definición de grupos jerárquicos de individuos o poblaciones ( * .SG.txt )

La asignación de muestras (individuos) a un grupo en particular (que podría representar una población, especie,
outgroup, etc.) debe realizarse en un archivo separado. Si se proporciona (es opcional), DnaSP podrá realizar
analiza por separado dentro o entre grupos (por ejemplo, entre poblaciones). Esta característica es equivalente a la
Comando Definir conjuntos de secuencias (utilizado para los análisis estándar de 1 locus).
La estructura del archivo de texto * .SG.txt es la misma que la utilizada por STACKS (un archivo de mapa de población; Catchen et
al., 2011). Este archivo de texto tiene dos columnas separadas por una tabulación (o espacio en blanco). La primera columna incluye
20/112
Página 21
información de la S amplio (muestra / nombre individual) y la segunda columna para el G rupo (población; una
categoría jerárquica superior) nombre.
Tenga cuidado, si está utilizando archivos * .fa (como se muestra en el siguiente ejemplo, obtenido del manual de STACKS),
el ID de la muestra (nombre de la persona) es el segundo valor informado en el archivo, el valor en verde (p. ej.,
Sample_934 , Sample_935 o Sample_936 ; en el ejemplo).
Asignación de características genómicas (exón, intrón, etc.) de cada MSA. ( un formato de archivo GFF3: * .GFF ).
Archivo de datos opcional. Aun no implementado
Si se proporciona esta información, DnaSP podrá analizar algunas estadísticas por separado para diferentes genes.
regiones (exónicas, intrónicas, cambios sinónimos, cambios no sinónimos, etc.). DnaSP lee el estándar
Archivo GFF3, donde el valor de seqid del archivo GFF (columna 1) debe ser el mismo que los valores de RegionName
(es decir, el ID de región / gen / andamio).
Nota. No es necesario proporcionar información (valores GFF) para todas las regiones incluidas en el archivo Multi-MSA .
Consejos:
Velocidad computacional. Puede utilizar el nuevo módulo Análisis de archivos de datos Multi-MSA (todos los sitios) para aumentar
la velocidad computacional en el análisis de un solo MSA. Para eso debes usar un archivo de datos en FASTA
formato. Dado que el formato * .loci (Eaton 2014) es casi idéntico al del formato FASTA, con la excepción
que el formato * .loci termina con los símbolos ' // ', solo necesita incluir estos símbolos en su archivo FASTA.
Formato FASTA .
Análisis de varios archivos de datos (modo por lotes)
Análisis de múltiples archivos de datos

21/112
Página 22
Este módulo permite al usuario leer y analizar, a la vez, varios archivos de datos (consulte Archivos de datos de entrada )
secuencialmente (como un modo por lotes). Cada archivo de datos (un MSA) puede contener un número diferente de secuencias, o
representan diferentes regiones genómicas. El software puede calcular una serie de medidas de la extensión del ADN
polimorfismo (opción de polimorfismo de ADN) o polimorfismo y divergencia de ADN (ADN
Opción polimorfismo / divergencia). Para este último, el usuario debe definir cuál (sólo una) secuencia es la
outgroup (la primera o la última secuencia de cada MSA); el resto de secuencias de ADN se consideran como
ingroup (datos intraespecíficos).
Análisis
DNA realizará los siguientes análisis:
1. Polimorfismo del ADN
1.1 Contenido de GC
• G + Cn, contenido G + C en posiciones sin codificación.
• Contenido G + Cc, G + C en posiciones de codificación.
• G + Ctot, contenido de G + C en la región genómica completa.
1.2 Diversidad de haplotipos / nucleótidos

• El número de sitios de segregación, S
• El número total de mutaciones, Eta
• El número de haplotipos, Hap (Nei 1987, p. 259).
• Diversidad de haplotipos (genes) (Hd) y su varianza de muestreo (VarHd) (Nei 1987).
• Diversidad de nucleótidos, Pi (π) (Nei 1987) y su varianza de muestreo (aún no implementada; VarPi) (Nei
1987, ecuación 10.7).
• El número medio de diferencias de nucleótidos, k (también conocido como ThetaK) (Tajima 1983).
• Watterson theta por sitio (ThetaWattNuc) de Eta (η) o de S (Watterson 1975; Nei 1987).
• Watterson theta por secuencia de genes (ThetaWatt) de Eta (η) o de S (Watterson 1975; Nei 1987).
• Estadístico ZnS (Kelly 1997, ecuación 3).
1.3 Pruebas de neutralidad

• Tajimaʼs D (Tajima 1989), y su significación estadística.
• Fu y Liʼs D * (Fu y Li 1993; calculado para posiciones bialélicas), y su significación estadística.
• Fu y Liʼs F * (Fu y Li 1993, Achaz 2009; calculado para posiciones bialélicas), y su estadística
significado.
• Achazʼs Y * (Achaz 2008, ecuación 21; calculada para posiciones bialélicas).
• Fuʼs Fs (Fu 1997, ecuación 1).
• Ramos-Onsins y Rozas R 2 (Ramos-Onsins y Rozas 2002).
2. Polimorfismo / divergencia del ADN

Además de las estadísticas de polimorfismo de ADN (1.1, 1.2 y 1.3), DnaSP también calculará:
• K (JC), número promedio de sustituciones por sitio (usando la corrección de Jukes y Cantor).
• Fu y Liʼs D (Fu y Li 1993; calculado para posiciones bialélicas), y su significación estadística.
• Fu y Liʼs F (Fu y Li 1993, Achaz 2009; calculado para posiciones bialélicas), y su estadística
significado.
• Fay y Wuʼs Hn (normalizado) (Fay y Wu 2000, Zeng et al. 2006; calculado para posiciones bialélicas).
• Zeng et al. E (Zeng et al. 2006, ecuación 13; calculada para posiciones bialélicas).
• Achazʼs Y (Achaz 2008, ecuación 21; calculada para posiciones bialélicas).
Producción
22/112
Página 23
Los resultados se guardan en archivos de texto, * .MF.out (resultados para polimorfismo de ADN) y * .MFd.out (resultados para
Polimorfismo / divergencia de ADN), con valores separados por tabulaciones. Estos archivos están listos para ser leídos por cualquier
aplicación de hoja de cálculo (como Excel).
Análisis de archivos de datos múltiples y el coalescente (n-loci | 1-pop)

La salida ( * .MF.out y * .MFd.out ) también se puede utilizar como entrada (en una nueva sesión de DnaSP) para el
Módulo de simulaciones coalescentes (n-loci | 1-pop) . En este módulo, DnaSP puede calcular los valores CI y P
valores de muchas estadísticas bajo el proceso coalescente.
Más información en los módulos específicos: Codon Usage Bias DNA Polymorphism Fu y Li (y
otros) Pruebas de desequilibrio de ligamiento Prueba de Tajima , etc.
Abreviaturas:
nd, no determinado (aún no implementado).
na, no disponible.
ns, no significativo.
Consejos:
Velocidad computacional. Podría considerar utilizar la versión anterior de DnaSP (puede ejecutar ambas versiones en
su computadora) www.ub.edu/dnasp/indexDnaSPv5, o utilice el nuevo análisis de archivos de datos Multi-MSA (todos los sitios)
utilizando un archivo * .SG.txt .
Análisis de archivos de datos multi-MSA (todas las posiciones; datos RADseq; pilas / PyRAD
archivos)
Análisis de archivos de datos multi-MSA (todas las posiciones; datos RADseq; archivos Stacks / PyRAD)
Ver también: Formatos Multi-MSA Análisis Multi-MSA (todas las posiciones) -Salida
Este módulo permite al usuario leer y analizar un archivo de datos Multi-MSA, que contiene datos completos de la secuencia de ADN.
(posiciones monomórficas y polimórficas). Ese es un archivo de datos único que contiene datos de secuencia de ADN de
varias (1 ..> 50.000) regiones genómicas diferentes (diferentes MSA ). El ejemplo de estos archivos de datos incluye los
archivos generados por algunos programas populares para preprocesar y ensamblar datos similares a RADSeq, como
pyRAD (Eaton 2014) y STACKS (Catchen et al., 2011). Consulte también la sección Formato Multi-MSA . los
La información de las regiones (MSA) incluida en el archivo Multi-MSA puede diferir tanto en el número de posiciones
(aunque normalmente menos de 1000 pb para un archivo de datos RADSeq), y en el número de individuos analizados (no
todos los individuos deben secuenciarse en todas las regiones). El ejemplo de estos archivos de datos también incluye el gVCF
(Genómico Variante Llama Formato) expediente formato
(https://software.broadinstitute.org/gatk/documentation/article.php?id=4017), una especie de VCF (Danecek et
Alabama. 2011), que también incluye información de las posiciones monomórficas (no variantes).
La versión actual de DnaSP puede leer los siguientes formatos de archivo:

* .fa (generado por STACKS; Catchen et al., 2011). Datos diploides (los dos alelos de cada individuo son
apartado; datos escalonados)
* .alleles (generado por pyRAD; Eaton 2014). Datos diploides (los dos alelos de cada individuo están separados;
datos escalonados)
* .loci (generado por pyRAD; Eaton 2014). Este formato contiene información de una sola secuencia por
23/112
Página 24
individual, y DnaSP considerará que es un dato por fases. Por lo tanto, DnaSP considerará cualquier ambigüedad
código como un error de secuencia (equivalente a una ' N '). Si el archivo de datos contiene datos de genotipo diploide verdadero (es decir, si
los códigos de ambigüedad representan verdaderos códigos de ambigüedad de nucleótidos IUPAC ), el usuario debe usar el pyRAD
software para obtener el archivo de datos * .alleles correspondiente.
* .gvcf (generado por muchos proyectos basados en el genoma; Danecek et al. 2011). Este formato almacena meta-
información de la variación de la secuencia de ADN, incluido el estado de todas las posiciones (variante y no variante)
posiciones). [ aún no implementado ]
Análisis de archivos de datos multi-MSA (todas las posiciones): polimorfismo y divergencia
Consulte también: Análisis de archivos de datos de varios MSA (posiciones SNP)

Este módulo permite al usuario analizar los niveles y patrones de variación de nucleótidos de un Multi-MSA
archivo de datos, que contiene datos de la secuencia de ADN de una sola o de varias poblaciones, y que incluye
información de todas las posiciones (monomorfa y variable). DnaSP puede estimar una serie de medidas de
la extensión del polimorfismo del ADN, los niveles de heterocigosidad por individuo (archivos de datos que incluyen el genotipo
información), la cantidad de divergencia de ADN entre poblaciones y los niveles de flujo de genes. Para
el análisis, DnaSP requiere un archivo de datos Multi-MSA, que es un archivo de datos que contiene datos de secuencia de ADN de
(por ejemplo) un experimento basado en RADSeq. Consulte el formato Multi-MSA y el archivo de datos Multi-MSA
Secciones de análisis (todas las posiciones) .
Archivo de asignación de población (definición de grupos jerárquicos de individuos o poblaciones;

* .SG.txt )
24/112
Página 25
Tenga cuidado, si está utilizando archivos * .fa (como se muestra en el siguiente ejemplo, obtenido del manual de STACKS),
el ID de la muestra (nombre de la persona) es el segundo valor informado en el archivo, el valor en verde (p. ej.,
Sample_934 , Sample_935 o Sample_936 ; en el ejemplo).
Análisis
DnaSP realiza diferentes tipos de análisis por separado para cada región / MSA: Polimorfismo de ADN dentro
poblaciones y entre poblaciones, y análisis de flujo de genes. Los análisis pueden diferir en función de la
información proporcionada en el archivo de datos de entrada. Si el archivo de datos de entrada contiene datos completos (monomórficos y variables
posiciones) datos de secuencia de ADN en fase ( * .fa , * .alleles y * .loci ), el resultado es el siguiente:
1. Polimorfismo de ADN (dentro de poblaciones o dentro de especies)
1.1 Contenido de GC [ * .RAD.out ]

1.2 Diversidad de haplotipos / nucleótidos [ * .RAD.out ]

• El número de sitios segregantes, S
• El número total de posiciones heterocigotas (solo para archivos de datos con información de genotipo),
HetzPositions.
• Diversidad de nucleótidos, Pi (π) (Nei 1987).
• Estadístico ZnS (Kelly 1997, ecuación 3).
1.3 Pruebas de neutralidad [ * .RAD.out ]

• Tajimaʼs D (Tajima 1989).
• Fu y Liʼs D * (Fu y Li 1993; calculado para posiciones bialélicas).
• Fu y Liʼs F * (Fu y Li 1993, Achaz 2009; calculado para posiciones bialélicas).
• Fuʼs Fs (Fu 1997, ecuación 1).
• Ramos-Onsins y Rozas R 2 (Ramos-Onsins y Rozas 2002).
1.4 Heterocigosidad (dentro de los individuos): si el archivo de datos contiene información sobre el genotipo
[ * .RAD.Hetz.out ]
• Las posiciones de heterocigosidad observadas en un individuo en particular (en todos los loci-MSA).
• El número total de sitios secuenciados en un individuo en particular (en todos los loci).
• El número neto de sitios analizados en un individuo en particular (en todos los loci); es decir, el número total de
sitios excluyendo las brechas de alineación y los datos faltantes.
25/112
Página 26
• Ho, la heterocigosidad por sitio en un individuo en particular (en todos los loci).
• El número total de loci secuenciados (y analizados) en un individuo en particular.
2. Divergencia de ADN entre poblaciones (y flujo de genes) [ * .RAD.Btw.out ; * .RAD.GFlow.out ;

* .RAD.PW.out ]
2.1a Para una comparación de población dada por pares ( para cada región / MSA / Locus )
[ * .RAD.Btw.out ]
• El tamaño de la muestra en la población 1 (S_size1) y en la población 2 (S_size2).
• El número total de sitios de la red (número total de posiciones excluyendo los datos faltantes y las brechas de alineación).
• El número total de sitios segregantes en la población 1 (S1), en la población 2 (S2) o en la muestra total
(poblaciones 1 más población 2) (ST).
• El número total de mutaciones en la muestra total (EtaT).
• El número total de diferencias fijas (mutaciones) entre poblaciones (Fix), segregando solo en
población 1 o población 2 (M1 y M2, respectivamente), o compartida entre poblaciones (MSh).
• El número de haplotipos en la población 1, la población 2 y en la muestra total (H1, H2 y HT,
respectivamente).
• La diversidad de haplotipos en la población 1, población 2 y en la muestra total (Hd1, Hd2 y HdT,
respectivamente).
• El número medio de diferencias de nucleótidos en la población 1, la población 2 y en la muestra total (k1,
k2 y kT, respectivamente).
• El número promedio de diferencias de nucleótidos entre la población 1 y la población 2 (kxy).
• La diversidad de nucleótidos en la población 1, la población 2 y en la muestra total (Pi1, Pi2 y PiT,
respectivamente).
• El número medio de sustituciones de nucleótidos por sitio entre la población 1 y la población 2 (Dxy).
• El número neto de sustituciones de nucleótidos por sitio entre la población 1 y la población 2 (Da).
• Las estadísticas basadas en haplotipos Hs y Hst (Hudson et al., 1992a, eq. 3a; eq. 2); ver también la nota 1 a continuación.
• Las estadísticas basadas en nucleótidos Ks y Kst (Hudson et al., 1992a, eq. 10; eq. 9).
• Las estadísticas basadas en nucleótidos Nst (Lynch y Crease 1990, eq. 36).
• Las estadísticas basadas en nucleótidos Fst (Hudson et al., 1992b, eq. 3).
2.1b Valores promedio entre poblaciones ( entre regiones / MSA / Loci ) [ * .RAD.Btw.out ]
Los valores promedio de las estadísticas dadas en 2.1a, en todas las regiones / MSA / Loci.
2.2 Flujo de genes entre poblaciones [ * .RAD.Btw.out ; * .RAD.GFlow.out ]

• La estadística basada en haplotipos Hst entre poblaciones (Hudson et al., 1992a, eq. 2); ver también la nota 1
debajo.
• El parámetro Nm (Hst) estimado a partir de Hst.
• El parámetro Nm (Fst) estimado a partir de Fst.
• El parámetro Nm (Nst) estimado a partir de Nst.
DnaSP estima los niveles de flujo de genes (en todos los loci / MSA), como el promedio de Fst (o Hst, Nst) sobre todos
loci.
Las estimaciones de Nm (de los valores Fst -Hst o Nst) se basan en el modelo de población de la isla
estructura (Wright 1951):
Haploides (mitocondrial, bacteriano, virus): Nm = (1 - Fst) / 2Fst
Diploides (autosoma): Nm = (1 - Fst) / 4Fst
Diploides (cromosoma X): Nm = (1 - Fst) / 3Fst
26/112
Página 27
Diploides (cromosoma Y): Nm = (1 - Fst) / Fst

Triploides (autosoma): Nm = (1 - Fst) / 6Fst
Tetraploides (autosoma): Nm = (1 - Fst) / 8Fst
2.3 Diferenciación genética entre todas las poblaciones (para cada región / MSA) y flujo de genes
[ * .RAD.GFlow.out ]
• Las estadísticas basadas en haplotipos Hs, Ht y Hst (Hudson et al., 1992a, eq. 3a, 3b y 2, respectivamente);
ver también la nota 1 a continuación.
• Los valores Fw y Fb. El Fw y Fb son los mismos que el Vw y Vb (Lynch y Crease 1990), pero
sin aplicar la corrección Jukes y Cantor. Las estadísticas basadas en nucleótidos Fst (Hudson et al.,
1992b, eq. 3). Fst = Fb / (Fw + Fb)
• Las estadísticas basadas en nucleótidos Vw, Vb y Nst (Lynch y Crease 1990, eq. 3, 15 y 36,
respectivamente). Nst = Vb / (Vw + Vb)
• NumPopComparisons. El número de comparaciones (entre poblaciones) para un locus particular. Para
Por ejemplo, si ha definido 6 poblaciones, y para un locus particular, el número de
NumPopComparisons = 15 (6 * 5/2), significa que las medidas de diferenciación genética (en este locus) son
basado en las 15 comparaciones (todas las poblaciones por pares tienen datos suficientes para calcular la
Estadísticas).
DnaSP estima los niveles de flujo de genes (en todos los loci / MSA) como en el punto 2.2 anterior.
2.4 Distancias genéticas por pares (diferenciación o valores relacionados con Fst) entre poblaciones
[ * .RAD.PW.out ]
• Los valores Dxy, Da, Hst, Nst y Fst, para cualquier par de población (representado como una semimatriz).
Producción
Los resultados se guardan en diferentes archivos de texto con valores separados por tabulaciones. Estos archivos están listos para ser leídos por
cualquier aplicación de hoja de cálculo (como Excel).
* .RAD.out: los resultados del análisis de polimorfismo de ADN en todos los loci
* .RAD.PopName1.out -Los resultados del análisis de polimorfismo de ADN en todos los loci, para el PopName1
población
* .RAD.Hetz.out -Los resultados de los valores de heterocigosidad dentro de cada individuo
* .RAD.Btw.out -Los resultados de la divergencia de ADN entre poblaciones y las estimaciones de flujo de genes
* .RAD.GFlow.out -Los resultados de la Diferenciación Genética entre poblaciones (para cada región / MSA) y
las estimaciones de Gene Flow
* .RAD.PW.out -Las distancias genéticas por pares entre poblaciones
Nota
DnaSP calcula las estadísticas Hs, Ht y Hst (Hudson et al., 1992a) utilizando los factores de ponderación
recomendado en la página 144 (Hudson et al. 1992a); que utiliza la corrección n-2 (solo para los casos en los que todos
las poblaciones tienen tamaños de muestra superiores a 2).
Problemas / limitaciones computacionales

Para tamaños de muestra superiores a 4000, DnaSP calcula Fu y Liʼs D *, Fu y Liʼs D * y Achaz Y *
utilizando un algoritmo de arranque (aproximado) en lugar de las ecuaciones analíticas dadas en Achaz (2008 y
2009).
La estadística de ZnS no se calcula si el número de sitios de segregación (S) en un MSA / región en particular es mayor
de 1000.
27/112
Página 28
Abreviaturas:
na, no disponible.
nd, no determinado.
Análisis de archivos de datos multi-MSA (posiciones SNP; archivos VCF)
Análisis de archivos de datos multi-MSA (posiciones SNP; archivos VCF)
Ver también: Formatos Multi-MSA Análisis Multi-MSA (posiciones SNP) -Salida

Referencias :Danecek y col. 2011
Este módulo permite al usuario leer y analizar un archivo de datos Multi-MSA, que contiene datos SNP (información
desde posiciones variables; sin el estado de las posiciones monomórficas). Ese es un solo archivo de datos
que contiene datos de secuencia de ADN de varias (1 ..> 50.000) regiones genómicas diferentes (diferentes MSA). Ejemplo
de estos archivos de datos incluye el formato de archivo VCF (Variant Call Format) (Danecek et al. 2011). Ver también el
Sección de formato Multi-MSA . La información de las regiones (MSA) incluida en el archivo Multi-MSA puede diferir
tanto en el número de posiciones variables, como en el número de individuos analizados (no todos los individuos necesitan
para ser secuenciado en todas las regiones).
La versión actual de DnaSP puede leer y analizar el siguiente formato de archivo:

* .vcf (generado por muchos proyectos basados en el genoma; Danecek et al. 2011). Este formato almacena metainformación
de la variación de la secuencia de ADN. DnaSP puede leer e interpretar archivos VCF, incluida información de diferentes
niveles de ploidía (haploide, diploide, triploide, tetraploide) y utilizando datos en fase o sin fase.
Análisis de archivos de datos de múltiples MSA (posiciones SNP): polimorfismo y divergencia
Consulte también: Análisis de archivos de datos de varios MSA (todas las posiciones)
Referencias : Catchen et al. 2011 Danecek et al. 2011
Este módulo permite al usuario analizar los niveles y patrones de variación de nucleótidos de un Multi-MSA
archivo de datos, que contiene información SNP de una sola o de varias poblaciones (un archivo * .vcf ). DnaSP puede
estima una serie de medidas de la extensión del polimorfismo del ADN, los niveles de heterocigosidad por
individual (archivos de datos que incluyen información sobre el genotipo), la cantidad de divergencia de ADN entre
poblaciones y los niveles de flujo de genes. Para el análisis, DnaSP requiere un archivo de datos Multi-MSA, que es un
archivo de datos que contiene información SNP de, por ejemplo, un experimento basado en RADSeq. Ver el Multi-MSA
Formato y las secciones Análisis de archivos de datos de Multi-MSA (posiciones SNP)

* .SG.txt )
28/112
Página 29
Análisis
DnaSP realiza diferentes tipos de análisis por separado para cada región / MSA: Polimorfismo de ADN dentro
poblaciones y entre poblaciones, y análisis de flujo de genes. Los análisis pueden diferir en función de la
información proporcionada en el archivo de datos de entrada (un formato * .vcf ), que puede incorporar diferentes tipos de información
(en fase / sin fase; genotipo; definición de población en un archivo * .SG.txt , etc.).
1. Polimorfismo de ADN (dentro de poblaciones o dentro de especies)
1.1 Resumen de la información proporcionada en cada andamio / MSA [ * .VCF.out ]

• TotalPos, número total de posiciones variables incluidas en cada andamio.
• FilteredQual, número total de posiciones no analizadas ya que no pasan el filtro de calidad (valores
que no sea ' PASS ' o ' . 'en el campo FILTRO del archivo VCF).
• FilteredIndels, número total de posiciones no analizadas ya que incluyen variación indel.
• FiltradoOtros, otras posiciones no analizadas: posiciones monomórficas; múltiples reemplazos en un determinado
posición (por ejemplo, REF = AG , ALT = GT ).
• SegSites, número total de posiciones variables analizadas ( TotalPos -FilteredQual -FilteredIndels -
FiltradoOtros ).
1.2 Resumen de las pruebas de neutralidad y variación de SNP [ * .VCF.out ]

• NetSegSites. El número neto de sitios segregantes. Todos los SegSites excluyendo aquellas posiciones en las que faltan
datos en cualquier individuo (del andamio / MSA).
• Pos1. Coordenada del andamio del primer NetSegSites analizado.
• Pos2. Coordenada del andamio de los últimos NetSegSites analizados.
• NetSites. El número neto de posiciones analizadas ( Pos2 -Pos1 -SegSites + NetSegSites +1 ).
• Sample_Size. Tamaño de la muestra para el andamio / MSA en particular. Este valor no incluye a las personas que
tienen datos faltantes en todas las posiciones de SegSites de un MSA en particular.
• Eta. El número total de mutaciones (η).
• HetzPositions. El número total de posiciones heterocigotas de las posiciones SegSites [para genotipo
sólo datos ].
• Hap. El número de haplotipos (Nei 1987, p. 259) [solo para datos por fases ].
29/112
Página 30
• Hd. Diversidad de haplotipos (genes) (Nei 1987) [solo para datos por fases ].
• VarHd. Varianza muestral del Hd (Nei 1987) [solo para datos por fases ].
• ThetaK. El número medio de diferencias de nucleótidos (también conocido como k) (Tajima 1983).
• Pi. Diversidad de nucleótidos (π) (Nei 1987). DnaSP calcula Pi como: ThetaK / NetSites [solo para NetSites> 1 ].
• ThetaWatt. Theta de Watterson por secuencia de genes, de Eta o de S (Watterson 1975; Nei 1987).
• Estadístico ZnS (Kelly 1997, ecuación 3) [solo para datos por fases ].
1.3 Pruebas de neutralidad [ * .VCF.out ]

• TajimaD. La estadística D de Tajima (Tajima 1989). La estadística se puede calcular a partir de Eta o de S.
• FuLiD *. El Fu y Liʼs D * (Fu y Li 1993; calculado para posiciones bialélicas).
• COMPLETO *. El Fu y Liʼs F * (Fu y Li 1993, Achaz 2009; calculado para posiciones bialélicas).
• AchazY *. La Y * de Achaz (Achaz 2008, ecuación 21; calculada para posiciones bialélicas).
• FuFs Las Fuʼs Fs (Fu 1997, ecuación 1) [sólo para datos por fases ].
• Ramos-Onsins_Rozas's_R2. Los Ramos-Onsins y Rozas R2 (Ramos-Onsins y Rozas 2002) [para
sólo datos por fases ].
1.4 Heterocigosidad (dentro de los individuos): solo para datos de genotipo [ * .VCF.Hetz.out ]
• Las posiciones de heterocigosidad observadas en un individuo en particular (en todos los loci-MSA).
• El número total de SegSites encuestados en un individuo en particular (en todos los loci).
• Los NetSegSites analizados en un individuo en particular (en todos los loci).
• El número total de MSA analizados en un individuo en particular.
2. Divergencia de ADN entre poblaciones (y flujo de genes) [ * .VCF.Btw.out ; * .VCF.GFlow.out ]
2.1a Para una comparación de población dada por pares ( para cada región / MSA / Locus ) [ * .VCF.Btw.out ]
• El tamaño de la muestra en la población 1 (S_size1) y en la población 2 (S_size2).
respectivamente). [solo para datos por fases ].
respectivamente). [solo para datos por fases ].
• El número neto de diferencias de nucleótidos entre la población 1 y la población 2 (ka). Esta estadística es
equivalente a la estadística Da (es decir, el número neto de sustituciones de nucleótidos por sitio entre
población 1 y población 2) pero por secuencia (por región), no por sitio.
Los valores de NetSites se calculan como en Pi (π). Dxy = kxy / NetSites
• El número neto de sustituciones de nucleótidos por sitio entre la población 1 y la población 2 (Da). los
Los valores de NetSites se calculan como en Pi (π). Da = ka / NetSites
[solo para datos por fases ].
30/112
Página 31
2.1b Para una comparación de población dada por pares ( entre regiones / MSA / Loci ) [ * .VCF.Btw.out ]
Los valores promedio de las estadísticas dadas en 2.1a, en todas las regiones / MSA / Loci.
2.2 Flujo de genes entre poblaciones [ * .VCF.Btw.out ; * .VCF.GFlow.out ]

debajo. [solo para datos por fases ].
• El parámetro Nm (Hst) estimado a partir de Hst. [solo para datos por fases ].
• NumPopComparisons. El número de comparaciones (entre poblaciones) para un locus particular. Para
Por ejemplo, si ha definido 6 poblaciones, y para un locus particular, el número de
NumPopComparisons = 15 (6 * 5/2), significa que las medidas de diferenciación genética (en este locus) son
basado en las 15 comparaciones (todas las poblaciones por pares tienen datos suficientes para calcular la
Estadísticas).
DnaSP estima los niveles de flujo de genes (en todos los loci / MSA), como el promedio de Fst (o Hst, Nst) sobre todos
loci.
Las estimaciones de Nm (de los valores Fst -Hst o Nst) se basan en el modelo de población de la isla
estructura (Wright 1951):
2.3 Diferenciación genética entre todas las poblaciones (para cada región / MSA) y flujo de genes
[ * .VCF.GFlow.out ]
ver también la nota 1 a continuación. [solo para datos por fases ].
• Los valores Fw y Fb. Fw y Fb se calculan por secuencia (no por sitio). Tenga cuidado, en el
Módulo de análisis de archivos de datos multi-MSA (todas las posiciones) estas estadísticas se calculan por sitio.
Estas estadísticas son las mismas que las de Vw y Vb (Lynch y Crease 1990), pero por sitio y
(obviamente) sin aplicar la corrección de Jukes y Cantor. Las estadísticas basadas en nucleótidos Fst
(Hudson y col., 1992b, ec. 3). Fst = Fb / (Fw + Fb)
DnaSP estima los niveles de flujo de genes (en todos los loci / MSA) como en el punto 2.2 anterior.
2.4 Distancias genéticas por pares (diferenciación o valores relacionados con Fst) entre poblaciones
[ * .VCF.PW.out ]
• Los valores Dxy, Da, Hst y Fst, para cualquier par de población (representado como una semimatriz).
Producción
Los resultados se guardan en diferentes archivos de texto con valores separados por tabulaciones. Estos archivos están listos para ser leídos por
cualquier aplicación de hoja de cálculo (como Excel).
* .VCF.out -Los resultados del análisis de polimorfismo de ADN en todos los loci
* .VCF.PopName1.out -Los resultados del análisis de polimorfismo de ADN en todos los loci, para PopName1
población
* .VCF.Hetz.out -Los resultados de los valores de heterocigosidad dentro de cada individuo
* .VCF.Btw.out -Los resultados de la divergencia de ADN entre poblaciones y las estimaciones de flujo de genes
* .VCF.GFlow.out -Los resultados de la Diferenciación Genética entre poblaciones (para cada región / MSA) y
las estimaciones de Gene Flow
31/112
Página 32
* .VCF.PW.out -Las distancias genéticas por pares entre poblaciones
Nota

2009).
La estadística ZnS no se calcula si el número de sitios de segregación netos (NetSegSites) en un
MSA / región es superior a 1000.
Abreviaturas:
na, no disponible.
nd, no determinado.
Análisis de archivos de datos de frecuencia de haplotipos (* .arp)
Análisis de archivos de frecuencia de haplotipos (* .arp)
Referencias :Excoffier y Lischer 2010
Este módulo permite al usuario leer y analizar un archivo de datos Arlequin * .arp (proyecto Arlequin) con ADN
información de secuencia (haplotipo) y su frecuencia, para un solo locus (región genómica). Además, el
Los datos de la secuencia de ADN deben estar alineados; es decir, representa un único MSA. Este módulo es especialmente útil
cuando el usuario tiene una gran cantidad de secuencias de ADN (cientos o miles), pero con un bajo nivel de
variación genética (bajos niveles de diversidad de haplotipos). En este caso, tiene sentido almacenar la secuencia de ADN.
información por la secuencia de haplotipos y su frecuencia. El archivo de datos de entrada debe tener las secciones
indicado en los Arlequín ExpedienteFormato (ver además los Arlequín manual:
http://cmpg.unibe.ch/software/arlequin35/Arlequin35.html).

* .SG.txt )
Además de la información proporcionada en la sección Estructura , el usuario también puede definir la jerarquía
grupos de muestras por un archivo separado ( * .SG.txt ); de la misma forma que la utilizada en el archivo de datos RADseq
Análisis (consulte también los formatos Multi-MSA ). Si se proporciona (es opcional), DnaSP podrá realizar análisis
por separado dentro o entre grupos (por ejemplo, entre poblaciones). Esta característica es equivalente a Definir
Comando Sequence Sets (utilizado para los análisis estándar de 1 locus). En caso de utilizar ambos sistemas para definir
grupos (usando la sección Estructura y el archivo * .SG.txt ), DnaSP dará prioridad al archivo * .SG.txt . por lo tanto, el
El usuario puede realizar una serie de asignaciones de grupo (diferentes categorías jerárquicas) simplemente actualizando el
Archivo * .SG.txt , sin tener que modificar el archivo de datos original de Arlequin ( * .arp ).
32/112
Página 33
Análisis
DnaSP puede realizar dos tipos de análisis: polimorfismo de ADN dentro de poblaciones y divergencia de ADN
entre poblaciones. Estos análisis se realizan por separado para cada región / MSA.
1. Polimorfismo de ADN (dentro de la muestra o dentro del grupo)
1.1 Contenido de GC [ * .DnaSP.out ]

1.2 Diversidad de haplotipos / nucleótidos [ * .DnaSP.out ]

• El número de sitios segregantes, S
• Diversidad de nucleótidos, Pi (π) (Nei 1987).
1.3 Pruebas de neutralidad [ * .DnaSP.out ]

• Tajimaʼs D (Tajima 1989), y su significación estadística.
• Fu y Liʼs D * (Fu y Li 1993; calculado para posiciones bialélicas), y su significación estadística.
• Fu y Liʼs F * (Fu y Li 1993, Achaz 2009; calculado para posiciones bialélicas), y su estadística
significado.
• Ramos-Onsins y Rozas R2 (Ramos-Onsins y Rozas 2002).
1.4 ADN variabilidad dentro de los grupos -Si el * .SG.txt archivo se proporciona [ * .DnaSP.out ]
Además de los resultados de los ítems 1.1, 1.2, 1.3, DnaSP también calcula dos estimaciones diferentes de la red
Niveles de divergencia de ADN (número neto de sustitución de nucleótidos por sitio) entre muestras de un grupo determinado.
• Da_Unweigthed; calculado como:
dónde es la diversidad de nucleótidos entre un grupo dado, es la diversidad de nucleótidos en la muestra, y

es el número de muestras en el grupo
33/112
Página 34
• Da_Weigthed; calculado como:
¿Dónde está el tamaño de la muestra (número de secuencias) en la muestra?
2. Divergencia de ADN entre muestras y grupos [ * .DnaSP.Btw.out ]
2.1 Para una comparación de muestras por pares dada

• El tamaño de la muestra en la muestra 1 (S_size1) y en la muestra 2 (S_size2).
• El número total de sitios de la red (número total de posiciones excluyendo los datos faltantes y las brechas de alineación).
respectivamente).
respectivamente).
• La diversidad de nucleótidos en la población 1, la población 2 y en la muestra total (Pi1, Pi2 y PiT,
respectivamente).
• El número neto de sustituciones de nucleótidos por sitio entre la población 1 y la población 2 (Da).
2.2 Diferenciación genética entre todos los grupos [ * .DnaSP.Btw.out ]

ver también la nota 1 a continuación.
• Las estadísticas basadas en nucleótidos Hw, Hb y Fst (Hudson et al., 1992b, eq. 3).
• Las estadísticas basadas en nucleótidos Vw, Vb y Nst (Lynch y Crease 1990, eq. 3, 15 y 36,
respectivamente).
2.3 Flujo de genes entre todos los grupos [ * .DnaSP.Btw.out ]

debajo.
• El parámetro Nm (Hst) estimado a partir de Hst.
• El parámetro Nm (Nst) estimado a partir de Nst.
DnaSP estima los niveles de flujo de genes (valores de Nm) a partir de los valores de Hst, Fst o Nst, asumiendo que la isla
modelo de estructura de la población (Wright 1951).
34/112
Página 35

Producción
Los resultados se guardan en diferentes archivos de texto con valores separados por tabulaciones. Estos archivos pueden ser leídos por cualquier
aplicación de hoja de cálculo (como Excel).
* .DnaSP.out -Los resultados del análisis de polimorfismo de ADN, por separado para muestras y grupo de
muestras
* .DnaSP.Btw.out -Los resultados de la divergencia de ADN entre poblaciones y estimaciones de flujo de genes
Nota

2009).
Abreviaturas:
nd, no determinado.
na, no disponible.
Abrir archivo de datos de genotipo / no fase
Abrir archivos de datos Unphase / Genotype
Referencias : Stephens et al. 2001 Stephens y Donnelly 2003 Scheet y Stephens 2006 Wang y Xu
2003
Consulte también : Formato de archivo FASTA Despliegue un archivo FASTA con códigos de ambigüedad Convierta un archivo FASTA con
Códigos de ambigüedad a Ns
DnaSP no puede leer datos directamente sin fase (datos de genotipo de individuos diploides). Esta opción, sin embargo,
permite al usuario reconstruir las fases. Los archivos de datos sin fases deben estar en el formato estándar FASTA
(ver FASTA), pero que incluyen los códigos de ambigüedad de nucleótidos de la IUPAC para representar sitios heterocigotos.
Suponga un conjunto de datos que contiene 5 individuos diploides (por lo tanto, un total de 10 secuencias) con 16 posiciones
cada.
* * *
Ind1 TRCAAGACCGGAGGCG
Ind2 .AC. - ........
Ind3 .A..M ....... S ...
35/112
Página 36
Ind4 .A ---....... C ...

Ind5 .G..C ....-------
Por ejemplo, como el segundo sitio de Ind1 es heterocigoto (R = Purina; A y G), Ind1 incluye lo siguiente
dos secuencias:
Ind1-1 TACAAGACCGGAGGCG
Ind1-2 .G ..............
Como no hay un sitio heterocigoto en Ind2, las dos secuencias que lo componen son:
Ind2-1 TACCAG - CGGAGGCG

Ind2-2 ...... - ........
Este módulo DnaSP permite reconstruir las 10 secuencias de los 5 individuos. DnaSP podría manejar
y utilice el conjunto de datos reconstruidos (10 secuencias de 16 nucleótidos cada una) para análisis adicionales.
Reconstrucción de haplotipos
DnaSP puede reconstruir las fases del haplotipo a partir de datos sin fase. Esta reconstrucción de haplotipos es
realizado utilizando los algoritmos proporcionados por PHASE (Stephens y col. 2001 ; Stephens y Donnelly 2003),
fastPHASE (Scheet y Stephens 2006) y HAPAR ( Wang y Xu 2003 ).
PHASE 2.1 utiliza un método bayesiano basado en coalescentes para inferir los haplotipos. También se puede utilizar para
estimar la tasa de recombinación a lo largo de las secuencias.
fastPHASE 1.1 modifica el algoritmo PHASE teniendo en cuenta los patrones de desequilibrio de ligamiento
y su gradual declive con la distancia física.
HAPAR utiliza un enfoque de parsimonia pura para estimar los haplotipos; la solución óptima es aquella que
requiere menos haplotipos para resolver los genotipos. Para posiciones no resueltas completamente, el usuario puede
elija entre reemplazar las posiciones no resueltas como "N" o asignar las variantes de nucleótidos al azar.
Nota:
fastPHASE y HAPAR solo pueden manejar posiciones polimórficas dialélicas. Sin embargo, polimórfico
las posiciones que se segregan para tres o más variantes se pueden resolver con PHASE.
Muy importante:
Consulte la documentación de PHASE, fastPHASE o HAPAR para obtener más información y detalles.
Resultados temporales
Puede encontrar los resultados temporales producidos por PHASE, fastPHASE o HAPAR en las carpetas:
Usuarios / YourUser / AppData / Roaming / DnaSPhase
Usuarios / YourUser / AppData / Roaming / DnaSfPhase
Usuarios / YourUser / AppData / Roaming / DnaSPHapar
Códigos de ambigüedad de nucleótidos IUPAC
------------------------------------------
Símbolo Significado Ácido nucleico
------------------------------------------
A A Adenina
C C Citosina
GRAMO GRAMO Guanina
T T Timina
U U Uracil
METRO A o C
R A o G
36/112
Página 37
W A o T
S C o G
Y C o T
K G o T
V A o C o G
H A o C o T
D A o G o T
B C o G o T
XG o A o T o C
NG o A o T o C
Despliegue un archivo FASTA (individuos diploides) con códigos de ambigüedad para ...
Despliegue de un archivo FASTA (individuos diploides) con códigos de ambigüedad
Ver también : Formato de archivo FASTA Abrir datos sin fase / genotipo Convertir un archivo FASTA con ambigüedad
Códigos a Ns
DnaSP no puede leer e interpretar archivos de datos, incluidos los códigos de ambigüedad de nucleótidos IUPAC (que no sean ' N ' para
indicar datos faltantes). Si su archivo de datos contiene tales símbolos, puede:
• Utilice este módulo para desplegar aleatoriamente códigos de ambigüedad de nucleótidos IUPAC. Usando esta opción estás
considerando que los códigos de ambigüedad representan posiciones heterocigotas (datos de genotipo). DnaSP hará
Asignar aleatoriamente las dos variantes de cualquier posición heterocigótica (bialélica) a cualquiera de las dos
cromosomas. DnaSP podría leer e interpretar el archivo convertido (formato FASTA).
• Utilice el comando Open Unphase / Genotype Data para realizar la reconstrucción del haplotipo (estadísticamente
sonido; exigente computacionalmente). Al usar esta opción, está considerando que los códigos de ambigüedad
representan posiciones heterocigotas (datos de genotipo). El archivo convertido puede ser leído e interpretado por
DnaSP.
• Utilice este módulo para convertir códigos de ambigüedad de nucleótidos IUPAC en ' N '. Usando esta opción estás
considerando que los códigos de ambigüedad representan errores de secuenciación. El archivo convertido (formato FASTA) podría
ser leído e interpretado por DnaSP.
cada.
* * *
Ind2 .AC. - ........
Ind3 .A..M ....... S ...
Ind4 .A ---....... C ...
Ind5 .G..C ....-------
El archivo convertido puede tener la siguiente estructura (R, M y S se despliegan aleatoriamente en los dos
cromosomas _0 y _1):
* * *
Ind1_0 TGCAAGACCGGAGGCG
Ind1_1 .A ..............
Ind2_0 .AC. - ........
Ind2_1 .AC. - ........
Ind3_0 .A .......... C ...
Ind3_1 .A..C ...........
Ind4_0 .A ---....... C ...
Ind4_1 .A ---....... C ...
37/112
Página 38
Ind5_0 .G..C ....-------

Ind5_1 .G..C ....-------
------------------------------------------
------------------------------------------
A A Adenina
C C Citosina
GRAMO GRAMO Guanina
T T Timina
U U Uracil
METRO A o C
R A o G
W A o T
S C o G
Y C o T
K G o T
V A o C o G
H A o C o T
D A o G o T
B C o G o T
XG o A o T o C
NG o A o T o C
Convertir un archivo FASTA con códigos de ambigüedad en 'Ns'
Convertir un archivo FASTA con códigos de ambigüedad a Ns
Ver también : Formato de archivo FASTA Abrir datos sin fase / genotipo Despliegue un archivo FASTA con ambigüedad
Codigos
DnaSP no puede leer e interpretar archivos de datos, incluidos los códigos de ambigüedad de nucleótidos IUPAC (que no sean ' N ' para
indicar datos faltantes). Si su archivo de datos contiene tales símbolos, puede:
• Utilice este módulo para convertir códigos de ambigüedad de nucleótidos IUPAC en ' N '. Usando esta opción estás
considerando que los códigos de ambigüedad representan errores de secuenciación. El archivo convertido (formato FASTA) podría
ser leído e interpretado por DnaSP.
• Utilice el comando Open Unphase / Genotype Data para realizar la reconstrucción del haplotipo (estadísticamente
sonido; exigente computacionalmente). Al usar esta opción, está considerando que los códigos de ambigüedad
representan posiciones heterocigotas (datos de genotipo). El archivo convertido puede ser leído e interpretado por
DnaSP.
• Utilice el comando Desplegar un archivo FASTA con códigos de ambigüedad para desplegar aleatoriamente el nucleótido IUPAC
códigos de ambigüedad. Al usar esta opción, está considerando que los códigos de ambigüedad representan heterocigotos
posiciones (datos de genotipo). DnaSP podría leer e interpretar el archivo convertido (formato FASTA).
cada.
* * *
Ind2 .AC. - ........
Ind3 .A..M ....... S ...
Ind4 .A ---....... C ...
38/112
Página 39
Ind5 .G..C ....-------
El archivo convertido tendrá la siguiente estructura:
* * *
Ind1 TNCAAGACCGGAGGCG
Ind2 .AC. - ........
Ind3 .A..N ....... N ...
Ind4 .A ---....... C ...
Ind5 .G..C ....-------
------------------------------------------
------------------------------------------
A A Adenina
C C Citosina
GRAMO GRAMO Guanina
T T Timina
U U Uracil
METRO A o C
R A o G
W A o T
S C o G
Y C o T
K G o T
V A o C o G
H A o C o T
D A o G o T
B C o G o T
XG o A o T o C
NG o A o T o C
Producción
Producción
Ver también: Ventana de gráficos
La salida se muestra en tres tipos de ventanas: texto, tabla o cuadrícula (los datos de salida se disponen en filas y
columnas como en una hoja de cálculo) y gráfico (gráfico de dispersión y gráfico de líneas).
Todos los comandos producen una ventana de texto de salida; además, algunos de ellos también producen una ventana de cuadrícula (tabla).
Los datos de la cuadrícula se pueden usar para crear un gráfico (comando Gráficos en el menú Pantalla ). Los datos generados
de DnaSP se puede guardar como un archivo de texto ASCII. El archivo de datos de salida de la cuadrícula puede ser utilizado fácilmente por otros
aplicaciones, como hojas de cálculo, aplicaciones estadísticas o gráficas, simplemente eliminando el encabezado.
Menú de pantalla
Menú de pantalla
39/112
Página 40
Este menú tiene cuatro comandos:
Gráficos .
Este comando abre la ventana de gráficos donde se pueden
desplegado.
Información de datos .
Este comando muestra un resumen del archivo de datos:
El número de secuencias; el número de sitios; el formato del archivo de datos; el Código Genético asignado; los
tipo genómico del organismo (diploide / haploide); el tipo de cromosoma donde se encuentra la región de nucleótidos
(autosómico / cromosoma X, etc.).
Ver datos.
Este comando muestra una ventana con los datos de secuencia del archivo de datos activo. En esta ventana puedes obtener
Información sobre:
Regiones de codificación y no codificación.
El estado de un sitio seleccionado (monomórfico, polimórfico, informativo, sinónimo, no sinónimo,
etc.).
Ver opciones de datos.

Puede utilizar este comando para especificar algunas opciones sobre cómo mostrar las secuencias de nucleótidos:
Para indicar mediante el símbolo de un punto un nucleótido con una variante de nucleótido idéntica al del primer
secuencia.
Para mostrar sitios polimórficos en minúsculas.
40/112
Página 41
Ventana de gráficos
Ventana de gráficos
Esta ventana muestra gráficos de los resultados dados en una cuadrícula (tabla). Son los siguientes comandos:
Seleccionar gráfico
Utilice este comando para seleccionar el tipo de gráfico. Existen los siguientes:
Comando de polimorfismo de ADN. Gráfico: gráfico de líneas

Eje X: posición de nucleótidos; Eje Y: Pi (p)
Eje X: posición de nucleótidos; Eje Y: Theta (por sitio)
Eje X: posición de nucleótidos; Eje Y: S
Divergencia de ADN entre poblaciones. mando. Gráfico: gráfico de líneas

Eje X: posición de nucleótidos; Eje Y: Pi (1) (pop 1)
Eje X: posición de nucleótidos; Eje Y: Pi (2) (pop 2)
Eje X: posición de nucleótidos; Eje Y: Dxy
Eje X: posición de nucleótidos; Eje Y: Da
Eje X: posición de nucleótidos; Eje Y: Pi (1) y Pi (2)
Eje X: posición de nucleótidos; Eje Y: Dxy y Da
Eje X: posición de nucleótidos; Eje Y: Pi (1), Pi (2) y Dxy
Eje X: posición de nucleótidos; Eje Y: Pi (1), Pi (2) y Da
Comando de polimorfismo y divergencia. Gráfico: gráfico de líneas

Eje X: posición de nucleótidos; Eje Y: Pi (p) y K
Comando de conversión de genes. Gráfico: gráfico de líneas

Eje X: distancia de nucleótidos; Eje Y: Psi (y)
Comando Linkage Desequilibrium. Gráfico: gráfico de dispersión

Eje X: distancia de nucleótidos; Eje Y: D
Eje X: distancia de nucleótidos; Eje Y: | D |
Eje X: distancia de nucleótidos; Eje Y: D '
Eje X: distancia de nucleótidos; Eje Y: | D '|
Eje X: distancia de nucleótidos; Eje Y: R
Eje X: distancia de nucleótidos; Eje Y: R ^ 2
Comando de Cambio de Tamaño de Población.

Número de diferencias por pares. Gráfico: gráfico de líneas
Eje X: diferencias por pares; Eje Y: frecuencia
Sitios de segregación. Gráfico: Gráfico de líneas y barras:
Eje X: número de variantes de nucleótidos en un sitio; Eje Y: frecuencia
Eje X: tamaño de la muestra; Eje Y: segregación de sitios
El comando de pruebas de Fu y Li. Gráfico: gráfico de líneas
Eje X: distancia de nucleótidos; Eje Y: D *
Eje X: distancia de nucleótidos; Eje Y: F *
Eje X: distancia de nucleótidos; Eje Y: F
41/112
Página 42
Comando de prueba de Tajima. Gráfico: gráfico de líneas

Imprimir gráfico (blanco / negro)

Utilice este comando para imprimir en blanco y negro el contenido de la ventana (el gráfico) en la impresora predeterminada.
Imprimir gráfico (color)

Utilice este comando para imprimir el gráfico en color en la impresora predeterminada.
Guardar gráfico (* .bmp)

Utilice este comando para guardar el gráfico en un archivo (formato bmp).
Copiar gráfico (portapapeles)

Utilice este comando para copiar el gráfico al portapapeles (es decir, puede pegarlo en otras aplicaciones).
Mostrar significativo
Este comando muestra los valores significativos en el análisis de desequilibrio de vinculación.
Pantalla en blanco y negro

Utilice este comando para mostrar el gráfico en blanco y negro.
Mostrar color predeterminado

Utilice este comando para mostrar el gráfico en los colores predeterminados.
Colores
Puede utilizar este comando para cambiar los colores predeterminados del gráfico.
Navegador UCSC
Navegador UCSC
Referencias :Kent y col. 2002a Kent 2002b
DnaSP le permite visualizar los datos de la secuencia de ADN y los resultados de la ventana deslizante, integrados con los
anotaciones del genoma utilizando el navegador UCSC (Kent et al. 2002a). Para mostrar las anotaciones del genoma
DnaSP requiere que la información de la posición genómica de los datos (cromosoma y posición física)
Fue definido.
DnaSP permite buscar genomas disponibles en UCSC. Para definir la posición genómica de sus datos, elija
el genoma apropiado, y especificar el cromosoma y la posición física de la secuencia de referencia
(el primero). Si no conoce esta información puede obtenerla:
• La realización de una Blat ( B última- L ike Un lignment T ool) búsqueda (Kent 2002b) en contra de la UCSC apropiada
genoma.
• Buscar el genoma UCSC apropiado por palabras clave e importar la información de salida a DnaSP.
Las asignaciones de posición genómica se pueden almacenar en archivos de datos NEXUS; para eso, use guardar / exportar o actualizar
comandos.
42/112
Página 43
Menú de datos
Menú de datos
Formato
Utilice este comando para indicar si el archivo de datos contiene secuencias de:
ADN o ARN
el tipo cromosómico (genómico) donde se encuentra la región:
Autosome
Cromosoma X
Cromosoma Y
Cromosoma Z
Cromosoma W
procariota
mitocondrial
cloroplasto
o el estado genómico del organismo:

Diploide o haploide
Huecos en la ventana corrediza.

Este comando se usa para excluir / incluir sitios con espacios de alineación en la longitud de las ventanas (Deslizamiento
Método de ventana).
Espacios en conjuntos de secuencias

Utilice este comando para elegir cómo tratar los huecos de alineación en conjuntos de secuencias.
Segregación de sitios / mutaciones

Utilice este comando para seleccionar entre el número de sitios segregantes o el número total de mutaciones en
calcular algunos parámetros de las pruebas de Fu y Li (y otras) , las pruebas de Fu y Li (y otras) con un
Outgroup yPrueba de Tajima .
Asignar regiones de codificación

Utilice este comando para asignar regiones de proteínas codificantes y no codificantes a un archivo de datos en particular.
Asignar código genético

Utilice este comando para asignar el código genético utilizado para la traducción. Hay 9 códigos genéticos predefinidos:
Nuclear universal, el código estándar (Tabla 1)
Mitocondrial de mamíferos (Tabla 2)
Mitocondrial de invertebrados, incluida Drosophila (Tabla 5)
Mitocondrial de levadura (Tabla 3)
Mitocondrial de moho, protozoo y celenterado (tabla 4)
Mitocondrial del equinodermo (tabla 9)
Mitocondrial del gusano plano (Tabla 14)
Nuclear de Ciliate, Dasycladacean y Hexamita (Tabla 6)
Nuclear de algunas especies de Candida (Tabla 12)
Entre paréntesis se indica el número de la tabla de traducción de GenBank. Más información sobre los códigos genéticos
utilizado por GenBank en:
https://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome.html/index.cgi?chapter=cgencodes
43/112
Página 44
Asignar tabla de codones preferidos / no preferidos
Nota:
Esta información se almacenará si guarda / exporta (o actualiza) el archivo de datos como formato de archivo NEXUS.
Huecos en la ventana corrediza
Ventana deslizante
El método de ventana deslizante le permite calcular algunas medidas o parámetros (por ejemplo, el
diversidad de nucleótidos) a través de una región de ADN. En este método, una ventana (segmento de ADN) se mueve a lo largo del
secuencias en pasos. El parámetro se calcula en cada ventana y el valor se asigna a la
nucleótido en el punto medio de la ventana. Tanto la longitud de la ventana como los valores predeterminados del tamaño del paso se pueden
cambiado por el usuario. DnaSP le permite realizar análisis de ventanas deslizantes en ventanas que no se superponen; por
Ese análisis debe asignar los mismos valores tanto a la longitud de la ventana como al tamaño del paso.
El resultado del análisis de la ventana deslizante se da en una cuadrícula (tabla). Los resultados también se pueden presentar
gráficamente (por un gráfico de líneas). En el gráfico, el parámetro (eje Y) se representa frente a la posición del nucleótido (X
eje).
Huecos en la ventana corrediza

Los sitios con espacios de alineación no se consideran en la longitud de las ventanas (es decir, todas las ventanas
tienen el mismo número de nucleótidos netos).
Ventanas con un número fijo de nucleótidos netos . Todas las ventanas tendrán el mismo número de nucleótidos netos.
(es decir, el número de nucleótidos que excluyen los sitios con espacios de alineación). De la misma manera, el tamaño del paso
también tienen el mismo número de nucleótidos netos.
Se consideran los sitios con brechas de alineación.
Ventanas con un número fijo de nucleótidos totales . Todas las ventanas tendrán exactamente el mismo número de
nucleótidos. Por ejemplo, si elegimos una longitud de ventana de 50 nucleótidos, y en una ventana en particular el
La región de ADN contiene 4 sitios con lagunas, el análisis se realizará en solo 46 sitios. Asimismo, el paso
El tamaño también tendrá el mismo número total de nucleótidos.
Este comando le permite asignar regiones de proteínas codificantes y no codificantes al archivo de datos. Esta informacion
podría ser necesario para varios análisis. El significado de un codón específico dependerá del Código Genético
asignado. No hay un número máximo de regiones de proteínas codificantes (exones).
Puede asignar una región específica como región no codificante o como región codificante. En el último caso, tienes
para indicar cuál es la posición del codón del primer sitio seleccionado (primero, segundo, tercero); de este sitio DnaSP
44/112
Página 45
asignará codones a los sitios restantes siguiendo el marco de lectura.
Ejemplo: suponga que tiene un archivo de datos que incluye secuencias de ADN de 34 nucleótidos de longitud y
me gusta indicar (asignar):
exón 1, del sitio 6 al sitio 16,
exón 2, del sitio 24 al sitio 30,
sin codificación, el resto de los sitios.
Asumiendo un Código Genético Nuclear Universal:
10 20 30
* * *
ATCTCTTATCGTCGATTTGTTGTTTGTATTTAAT
ECysIle leuSerSerIl
Tienes que hacer dos asignaciones de codones:

i) En el cuadro de diálogo, indique como región seleccionada: 6 - 16
Establezca la posición del codón del primer sitio como: 1 (Primera posición)
ii) En el cuadro de diálogo, indique como región seleccionada: 24 - 30
Establezca la posición del codón del primer sitio como: 3 (tercera posición)
Puede ver la asignación actual usando el Ver comando de datos . Verá lo siguiente:
NNNNNLeuSerSerIlNNNNNNNeCysIleNNNN
N , sin codificación.
Ejemplos:
DnaSP asigna codones de la siguiente manera (asumiendo el Código Genético Nuclear Universal). Ejemplos 3
y 4, mostrar cómo DnaSP asigna codones en caso de asignaciones incorrectas o huecos de alineación.
Ejemplo 1
NNNNNLeuSerSerIleNNNNNNCysIleNNNN
ATCTCTTATCGTCGATTTGTTGTTGTATTTAAT
Ejemplo # 2
NNNNNLeuSerSerIlNNNNNNNeCysIleNNNN
Ejemplo # 3
123123112312 3123123
NNNNNLeuSerS # erIlNNNNNNNeCysIleNNNN
ATCTCTTATCGTGCGATTTGTTGTTTGTATTTAAT
( # , asignación incorrecta)
Ejemplo # 4
12312312312 3123123
NNNNNLeu ??? SerIlNNNNNNNeCysIleNNNN
ATCTCTTA --- TCGATTTGTTGTTTGTATTTAAT
ECysIle en serie Leu
( ? , huecos de alineación en la secuencia de nucleótidos)
Nota:
La asignación de aminoácidos corresponde a la primera secuencia de nucleótidos.
Esta información se almacenará si guarda / exporta el archivo de datos como formato de archivo NEXUS.
45/112
Página 46
Asignar tabla de codones preferidos / no preferidos
Tabla de codones preferidos y no preferidos
Ver también: análisis de sustituciones sinónimas preferidas y no preferidas

Referencias: Akashi 1995 Akashi y Schaeffer 1997 Duret y Mouchiroud 1999 Kanaya et al 1999
Utilice este comando para asignar la tabla específica de codones sinónimos preferidos / no preferidos para el
Análisis de sustituciones sinónimas preferidas y no preferidas . Hay 8 tablas predefinidas.
Sin embargo, el usuario puede definir su propia tabla. Esa información podría incluirse en el archivo de datos NEXUS;
para eso use los comandos guardar / exportar o actualizar.
Crear nueva tabla:

Este botón permite al usuario definir una nueva tabla de codones sinónimos de preferencias. La tabla estará vinculada a
un código genético particular.
Codigos:
P , codón preferido.
? , preferencia desconocida.
ninguno , no preferido.
Este comando le permite definir conjuntos de dominios. Un conjunto de dominios es un fragmento parcial de los múltiples
alineación que podría representar, por ejemplo, un exón, un gen, un intrón, etc. Esa definición permite a DnaSP
realizar análisis en regiones funcionales específicas utilizando el comando Análisis de dominios múltiples .
Las asignaciones de conjuntos de dominios se pueden almacenar en archivos de datos NEXUS; para eso use guardar / exportar o actualizar
comandos.
Ejemplo:
En el archivo de datos DmelOsRegions.nex (incluido en el paquete DnaSP) se definen dos genes (OS-E, OS-F)
con tres y cuatro exones, respectivamente. Cada gen correspondería a un dominio y cada exón a un
subdominio. Específicamente, los tres subdominios OS-E_gene (2334..2870) son: subdominio_1 (2334-2402),
subdominio_2 (2468-2542) y subdominio_3 (2598-2870).
Nota:
Los subdominios no tienen nombre ni pueden ser contiguos.
Eliminar posiciones
46/112
Página 47
Este comando permite al usuario eliminar algunas posiciones. El módulo DnaSP genera un archivo de datos NEXUS
incluida información sobre los sitios polimórficos.
Posiciones seleccionadas:
DnaSP puede seleccionar los siguientes tipos de posiciones:
Posiciones de codificación y no codificación;
Posiciones del primer, segundo y tercer codón;
Posiciones degeneradas de cero, dos y cuatro partes;
Ejemplo (usando el código genético universal nuclear):

Cómo selecciona DnaSP las posiciones degeneradas X-fold
369
***
LEY ATA TTA
ATA TTA GAT
ATA TTA -CT
Las posiciones 1, 2, 5, 7 y 8 son posiciones degeneradas por cero.
La posición 3 es una posición degenerada triple.
Las posiciones 4 y 6 son posiciones degeneradas dobles.
La posición 9 podría ser i) cuatro veces degenerada (codón ACT) o ii) dos veces degenerada (codón GAT). DnaSP hará
no incluye esa posición ni para posiciones degeneradas dobles ni para posiciones degeneradas cuádruples.
No se consideran los codones con información faltante o espacios de alineación.
Posiciones con opción de huecos de alineación:

Excluidos: estos sitios se eliminan.
Incluido: Estos sitios están incluidos.
Incluido si hay un polimorfismo: estos sitios se incluyen si hay un polimorfismo.
Opción de posiciones:
Eliminar posiciones no seleccionadas: las posiciones no seleccionadas se eliminarán definitivamente del activo
datos.
Generar un archivo NEXUS con seleccionado: las posiciones seleccionadas se incluirán en un archivo de datos NEXUS. los
El archivo de datos activo mantendrá todas las posiciones.
Este comando le permite definir conjuntos de secuencias (grupos de secuencias). Un conjunto de secuencia es un grupo de
secuencias relacionadas que podrían representar, por ejemplo, una población, una especie de un grupo externo. Eso permite
realizar análisis sobre un grupo específico de secuencias.
Las asignaciones de conjuntos de secuencias se pueden almacenar en archivos de datos NEXUS; para eso use guardar / exportar o actualizar
comandos.
47/112
Página 48
DnaSP le permite el análisis en un subconjunto de secuencias del archivo de datos original. Este comando te permite
para incluir (o excluir) secuencias del análisis. Todos los análisis se realizarán con la información de
solo las secuencias incluidas. En consecuencia, si utiliza el comando Guardar / Exportar datos como, el
El archivo de datos guardado / exportado no contendrá secuencias excluidas.
Nota: DnaSP también le permite el análisis en un subconjunto de secuencias mediante el uso de Definir conjuntos de secuencias
mando.
Opciones
Hay dos opciones que se ocupan de los huecos de alineación. Suponga el siguiente archivo de datos original:
10 20 30
* * *
Seq1 ATCTCTTAGGGTCGATTTGTTGTTTGTATTTAAT
Seq2 AT-TCTTATTTTCGA-TTGTTGTTTGTATTTAAT
Seq3 ATCGCTTA --- TCGATTTGT ---- TGTATTTAAT
Seq4 ATCTCTTA --- TCGATTTGTTGTTTGTATTTAAT
DnaSP no utilizará ningún sitio con brechas de alineación o datos faltantes. Por lo tanto, si está utilizando los datos completos
archivo, DnaSP no utilizará los sitios 3, 9, 10, 11, 16, 21, 22, 23, 24 para un análisis más detallado.
Si excluye 2 secuencias (por ejemplo, Seq2 y Seq4) del archivo de datos original anterior, el
Los datos estarán compuestos por:
10 20 30
* * *
Seq1 ATCTCTTAGGGTCGATTTGTTGTTTGTATTTAAT
Seq3 ATCGCTTA --- TCGATTTGT ---- TGTATTTAAT
Con los Sitios con espacios de alineación se excluyen si están presentes en el subconjunto activo
opción (opción predeterminada), DnaSP no utilizará información de los sitios 9, 10, 11, 21, 22, 23, 24.
Con la opción Los sitios con espacios de alineación en el archivo de datos original se excluyen en todos los subconjuntos
DnaSP no utilizará información de los sitios 3, 9, 10, 11, 16, 21, 22, 23, 24 (es decir, todos los sitios con brechas de alineación en
el archivo de datos original). Esta opción es apropiada para analizar exactamente los mismos sitios en diferentes subconjuntos de
secuencias.
Nota
Ambas opciones generan las mismas estimaciones de la distancia de nucleótidos (ver Linkage Desequilibrium
mando).
48/112
Página 49
Menú de análisis
Este comando muestra información general sobre los polimorfismos en el archivo de datos: el número de
sitios con brechas de alineación (o datos faltantes), el número de sitios monomórficos, el número de polimórficos
sitios que se segregan por dos, tres o cuatro nucleótidos. DnaSP también indica el número total de parsimonia-
sitios informativos (sitios que tienen un mínimo de dos nucleótidos que están presentes al menos dos veces), y no
sitios informativos (sitios singleton).
Este comando también muestra información sobre el código genético utilizado para estos datos y las regiones que
son proteínas codificantes y no codificantes (si esta información se incluyó en el archivo NEXUS o se ha definido
usando el comando Asignar regiones de codificación en el menú Región de codificación ). En este caso, para la región de codificación,
DnaSP también muestra el número de sustituciones (reemplazos) sinónimos y no sinónimos (vea cómo
DnaSP estima el número de cambios sinónimos y no sinónimos en un codón )
Estimación de cambios sinónimos y no sinónimos
Número de cambios sinónimos y no sinónimos
Cómo estima DnaSP los cambios sinónimos y no sinónimos en un codón:

En general, DnaSP utiliza un criterio conservador para decidir si un cambio particular en un sitio de nucleótidos es
sinónimo o no sinónimo (reemplazo); vea los siguientes ejemplos. Sin embargo, el usuario debe
comprobar los casos complejos (los tripletes de sitios que se segregan para varios codones; es decir, en muy variables
regiones).
Ejemplo usando el Código Genético Universal Nuclear
3 6 9 12 15 18 21 24 27
* * * * * * * * *
AGT TCT ATT CCC AAT ATA AGT UAU UAU
AGC TCT ATT CCC AGG TTA AGT UAU UAU
AGA TCT CTG CAG ACT TTG AGA CUG CUG
AGG TCT CTG CAG ACT ATG AGA CUG CUG
Codón (1,2,3):
3 mutaciones en el sitio # 3: 1 reemplazo, 2 sinónimos.
Codón (4,5,6):
Monomorfo.
Codón (7,8,9):
El sitio # 7 es un reemplazo; El sitio # 9 es sinónimo.
Cuando hay dos posibles caminos evolutivos:
Ruta n. ° 1: ATT (Ile) -> CTT (Leu) -> CTG (Leu) Reemplazo del sitio n. ° 7; Sitio # 9 Sinónimo
Ruta n. ° 2: ATT (Ile) -> ATG (Met) -> CTG (Leu) Reemplazo del sitio n. ° 7; Reemplazo del sitio # 9
49/112
Página 50
DnaSP elegirá la ruta # 1, la ruta que requiere la menor cantidad de reemplazos .
Codón (13,14,15):
Sitio # 14 (2 reemplazos); El sitio # 15 es sinónimo.
Aquí hay cuatro caminos posibles:
Ruta n. ° 1: ACT (Thr) -> AAT (Asp) -> AGT (Ser) -> AGG (Arg) Sitio n. ° 14 (2 reemplazos); Sitio # 15 (1
Reemplazo).
Ruta # 2: ACT (Thr) -> AAT (Asp) -> AAG (Lys) -> AGG (Arg) Sitio # 14 (2 reemplazos); Sitio # 15 (1
Reemplazo).
Ruta # 3: AAT (Asn) -> ACT (Thr) -> AGT (Ser) -> AGG (Arg) Sitio # 14 (2 reemplazos); Sitio # 15 (1
Reemplazo).
Ruta # 4: AAT (Asn) -> ACT (Thr) -> ACG (Thr) -> AGG (Arg) Sitio # 14 (2 reemplazos); Sitio # 15 (1
Sinónimo).
DnaSP elegirá la ruta # 4, la ruta que requiere la menor cantidad de reemplazos .
Codón (16,17,18):
Sitio # 16 (1 reemplazo); Sitio # 18 (1 sinónimo).
Aquí hay un camino circular:
ATA (Ile) -> TTA (Leu)
¡!
ATG (Met) <- TTG (Leu)
Supongamos que el número de mutaciones fuera solo dos (una en el sitio 16 y otra en el sitio 18), DnaSP
debe asumir un evento de recombinación, el evento de recombinación que requiere el menor número de
sustituciones de reemplazo:
| TTG (Leu)
TTA (Leu) -> | recomb: ATG (Met)
| ATA (Ile)
Nota : Este tipo de codones se analizará solo para códigos genéticos nucleares.
Codón (19,20,21):
1 reemplazo (sitio # 21).
Codón (22,23,24):
Hay 3 cambios entre los codones. De modo que hay 6 caminos evolutivos putativos (en este particular
ejemplo, solo hay 4 porque excluimos las rutas que pasan por codones de parada). DnaSP elegirá
aleatoriamente entre :
2 reemplazos (Sitio # 22 y Sitio 23), y 1 sinónimo (Sitio # 24) y
2 reemplazos (Sitio # 23 y Sitio 24) y 1 sinónimo (Sitio # 22).
Codones no analizados:
DnaSP no estima cambios de sinónimos y de reemplazo en algunos casos complejos
(codones ambiguos / complejos; aquellos sitios que se segregan para varios codones; es decir, en regiones muy variables).
El usuario debe hacerlo manualmente.
DnaSP no estima cambios sinónimos y de reemplazo en codones con huecos de alineación.
NOTA: Las estimaciones del número de sustituciones sinónimos y no sinónimos pueden ser diferentes a
el número de diferencias sinónimos y no sinónimos (consulte los sinónimos y
Módulo de sustituciones no sinónimas ).
Polimorfismo de ADN
50/112
Página 51
Polimorfismo de ADN
Ver también: Ventana de gráficos de simulaciones coalescentes Entrada de archivos de datos Salida
Referencias: Hutter et al. 2006 Jukes y Cantor 1969 Lynch y Crease 1990 Nei 1987 Nei y Miller
1990 Tajima 1983 Tajima 1989 Tajima 1993 Tajima 1996 Watterson 1975
Este comando calcula varias medidas de la extensión del polimorfismo del ADN y sus variaciones.
Brechas de alineación y datos faltantes:

Los sitios con brechas de alineación (o datos faltantes) no se utilizan (estos sitios están completamente excluidos).
Análisis:
DnaSP calcula las siguientes medidas:
• Diversidad de haplotipos (genes) y su varianza muestral (Nei 1987, ecuaciones 8.4 y 8.12 pero reemplazando
2n por n). La desviación estándar (o error estándar) es la raíz cuadrada de la varianza.
• Diversidad de nucleótidos, Pi (π), el número medio de diferencias de nucleótidos por sitio entre dos
secuencias (Nei 1987, ecuaciones 10.5 o 10.6; ver también Nei y Miller 1990), y su muestreo
varianza (Nei 1987, ecuación 10.7). La desviación estándar (o error estándar) es la raíz cuadrada de
la varianza.
• Diversidad de nucleótidos (Jukes y Cantor), Pi (JC), el número medio de sustituciones de nucleótidos por
sitio entre dos secuencias (Lynch y Crease 1990, ecuaciones 1-2). A diferencia de las estimaciones anteriores
(Nei 1987, ecuaciones 10.5 o 10.6), esta se ha obtenido utilizando Jukes y Cantor (1969)
corrección. La corrección se ha realizado en cada comparación por pares ; las estimaciones de Pi (π)
se obtuvieron como el promedio de los valores para todas las comparaciones. Tenga en cuenta que DnaSP no utiliza el
simplificación indicada en Nei y Miller 1990 (ecuación 25); es decir, para realizar el Jukes y el Cantor
(1969) corrección directamente sobre Pi (π) (Nei 1987, ecuaciones 10.5). Sin embargo, para niveles bajos de
polimorfismo ambos métodos dan estimaciones similares.
• Theta (por sitio) de Eta (η) o de S, es decir, el estimador de Watterson (Watterson 1975, ecuación 1.4a,
pero en base a pares de bases; Nei 1987, ecuación 10.3). Theta (θ) = 4Nμ para un gen autosómico de un diploide
organismo (N y μ son el tamaño efectivo de la población y la tasa de mutación por sitio de nucleótidos por
generación, respectivamente), Eta (η) es el número total de mutaciones, y S es el número de
sitios segregantes (polimórficos). La varianza de este estimador depende de la recombinación
entre sitios. Las varianzas para la no recombinación y para la recombinación libre se estiman a partir de
ecuaciones 4 y 8 de Tajima 1993, respectivamente. Estas variaciones se calculan por nucleótido
base del sitio:
Varianza (por sitio de nucleótidos) = Varianza (por secuencia de ADN) / m * m
donde m es el número total de nucleótidos estudiados. La desviación estándar (o error estándar) es el cuadrado
raíz de la varianza.
Nota: para ninguna recombinación, las estimaciones de la varianza de theta pueden ser diferentes de las obtenidas de
ecuación 10.2 de Nei 1987 (véanse las ecuaciones 33 y 34 de Tajima 1989, las ecuaciones 4 y 8 de Tajima 1993).
• Modelo de sitios finitos (cuatro nucleótidos posibles por sitio). El número total de mutaciones Eta (η) (Fu y
Li 1993) también se refirió al número mínimo de mutaciones (Tajima 1996). Estimaciones de theta (θ) por
sitio. θ = 4Nμ para un gen autosómico de un organismo diploide (N y m son el tamaño efectivo de la población
y la tasa de mutación por sitio de nucleótidos por generación, respectivamente).
Theta (θ) por sitio de Pi (π) (Tajima 1996, ecuación 9)
Theta (θ) por sitio de S (Tajima 1996, ecuación 10)
Theta (θ) por sitio de Eta (η) (Tajima 1996, ecuación 16)
• El número medio de diferencias de nucleótidos, k (Tajima 1983, ecuación A3).
51/112
Página 52
Varianza estocástica de k (sin recombinación), Vst (k) (Tajima 1993, ecuación 14).
Varianza muestral de k (sin recombinación), Vs (k) (Tajima 1993, ecuación 15).
Varianza total de k (sin recombinación), V (k) (Tajima 1993, ecuación 13).
Varianza estocástica de k (recombinación libre), Vst (k) (Tajima 1993, ecuación 17).
Varianza muestral de k (recombinación libre), Vs (k) (Tajima 1993, ecuación 18).
Varianza total de k (recombinación libre), V (k) (Tajima 1993, ecuación 16).
• Theta (por secuencia de ADN) de S (estimador de Watterson). Theta (θ) = 4Nu para un gen autosómico de un
organismo diploide (N y u son el tamaño efectivo de la población y la tasa de mutación por secuencia de ADN
por generación, respectivamente) (Tajima 1993, ecuación 3).
Varianza de θ (sin recombinación) (Tajima 1993, ecuación 4).
Varianza de θ (recombinación libre) (Tajima 1993, ecuación 8).
Nota: Tajima (1993) usa M para indicar θ (por secuencia de ADN) yv para indicar la tasa de mutación por ADN
secuencia por generación.
Tamaño efectivo de la población
Opción de ventana corredera:

Esta opción le permite calcular la diversidad de nucleótidos, theta (por sitio) y S (el número de
segregación de sitios), por el método de ventana deslizante .
El resultado del análisis de la ventana deslizante se da en una cuadrícula (tabla). Los resultados también se pueden presentar
gráficamente (por un gráfico de líneas). En el gráfico, la diversidad de nucleótidos, theta o S (eje Y) se traza contra el
posición de los nucleótidos (eje X).
Opción de diversidad de nucleótidos (lagunas / datos faltantes):

• Comparaciones por pares: el número promedio de diferencias de nucleótidos, k (Tajima 1983, ecuación A3),
y la diversidad de nucleótidos Pi (π) (Nei 1987, ecuaciones 10.5 o 10.6) se calculan por pares
Opción de eliminación (DnaSP no calculará sus variaciones). Al usar esta opción, solo los huecos / faltantes
presentes en una comparación particular por pares se ignoran. Comparaciones de secuencia por pares con 0 sitios
(después de excluir los huecos) también se ignoran.
• Sitios individuales (columna por columna): el número promedio de diferencias de nucleótidos k y nucleótidos
diversidad π, se calculan como se describe en Hutter et al. 2006 (ecuación I y II). El mismo criterio es
aplicado para obtener θ.
Significación estadística por coalescente:

DnaSP puede proporcionar los intervalos de confianza del número de haplotipos, la diversidad de haplotipos y la
diversidad de nucleótidos por simulaciones por computadora usando el algoritmo coalescente (ver Simulaciones coalescentes).
Nota:
na , no aplicable. Cuando la proporción de diferencias es igual o superior a 0,75, Jukes y Cantor
la corrección no se puede calcular.
El parámetro de mutación θ (theta) se define como 4Nμ para loci autosómicos de organismos diploides, donde N es el
tamaño de población efectivo (individuos diploides) ym es la tasa de mutación neutra (por gen o por par de bases)
por generación.
Asumiendo tamaños de población iguales de hombres y mujeres, el parámetro θ es 3Nμ para ligado al X (o ligado al Z)
loci de organismos diploides. De la misma manera, el parámetro θ es Nm para loci ligados a Y (o ligados a W) de diploides
organismos. En ambos casos, N es el tamaño efectivo de la población considerando tanto hombres como mujeres (diploide
individuos). Para los loci ligados a Y, el parámetro θ sería 2Nmμ, donde Nm es la población efectiva masculina
52/112
Página 53
Talla. Para el ADN mitocondrial (o individuos haploides) θ es 2Nμ, donde N es el tamaño efectivo de la población de
hembras.
Asimismo, el parámetro de recombinación C (o R) es 4Nc para loci autosómicos de organismos diploides, donde N es
el tamaño efectivo de la población yc es la tasa de recombinación por generación. C = 3Nc y C = Nc para
Loci ligados a X e Y, respectivamente.
Ver también: polimorfismo de ADN
Este módulo permite estimar varias medidas del nivel de polimorfismo de inserción / eliminación (InDel)
(Me lo pido). En particular, DnaSP inferirá el número de eventos InDel a partir de los datos.
Permítanme suponer el siguiente archivo de datos de ejemplo (13 secuencias con 18 posiciones cada una).
* * *
Seq1 AAAAAAGGGGGGGGGGGG
Seq2 ..................
Seq3 ... C .. - ..........
Seq4 ..................
Seq5 .. --- .............
Seq6 .........------- ..
Seq7 .. --- ....------- ..
Seq8 .........------- ..
Seq9 .C ...........--- ..
Seq10 .........------- ..
Seq11 .........------- ..
Seq12 ..................
Seq13 ..................
En este archivo de datos podemos identificar 4 eventos InDel:

Evento # 1 (Seq5 y Seq7); Longitud InDel = 3 nucleótidos.
Evento # 2 (Seq3); Longitud InDel = 2 nucleótidos.
Evento n. ° 3 (Seq6, Seq7, Seq8, Seq10 y Seq11); Longitud InDel = 7 nucleótidos.
Evento # 4 (Seq9); Longitud InDel = 3 nucleótidos.
Opción # 1: Diallelic
Solo se considerarán los estados dialélicos de InDel (evento de brecha / no brecha). Es decir, se excluirán las posiciones 10-16.
del análisis desde que el evento InDel n. ° 3 y el evento n. ° 4 se superponen en las posiciones 14-16.
Producción
• Número total de eventos InDel analizados: 2 (evento n. ° 1 y evento n. ° 2)
• Duración promedio de InDel por evento: 2.5 (la duración promedio del evento n. ° 1 y del evento n. ° 2)
• Longitud media de la deleción: 2.667 (2 secuencias con 3 nucleótidos eliminadas más 1 secuencia con 2 eliminadas
nucleótidos, dividido por 3 -el número de secuencias analizadas con huecos-).
DnaSP también calcula:

• El número de haplotipos InDel: 3
• Diversidad de haplotipos de InDel: 0,410
53/112
Página 54
• Diversidad InDel, k (i): 0.436 (este es el análogo de k, el número promedio de diferencias de nuc.)
• Diversidad de InDel por sitio, Pi (i): 0.03963 (este es el análogo de Pi, la diversidad de nucleótidos). Pi (i) es
calculado como k (i) / m, donde m es el número neto de posiciones analizadas, 11 (18 menos las 7 posiciones con
superpuestos InDels)
• Theta (por secuencia) del número de eventos InDel: 0,644
• Tajimaʼs D: -0,9092
Además, DnaSP permite generar un archivo NEXUS con SÓLO información de eventos InDel. El archivo de datos
ser recodificado como:
Seq1 AA
Seq2 ..
Seq3 .G
Seq4 ..
Seq5 G.
Seq6 ..
Seq7 G.
Seq8 ..
Seq9 ..
Seq10 ..
Seq11 ..
Seq12 ..
Seq13 ..
donde, A y G representan los dos estados de InDel (sin InDel / InDel).
Opción # 2: Triallelic
Solo se considerarán los estados Diallelic y Triallelic InDel. En el ejemplo, se utilizarán todas las posiciones.
• Número total de eventos InDel analizados: 4

• Duración media de InDel por evento: 3,75
• Longitud media de eliminación: 5,111
• Número de haplotipos InDel: 6
•…
DnaSP generará el siguiente archivo NEXUS recodificado:
Seq1 AAAA
Seq2 ....
Seq3 .G ..
Seq4 ....
Seq5 G ...
Seq6 ..G.
Seq7 GG
Seq8 ..G.
Seq9 ... G
Seq10 ..G.
Seq11 ..G.
Seq12 ....
Seq13 ....
Opción # 3: Tetrallelic
Solo se considerarán los estados Diallelic, Triallelic y Tetrallelic InDel.
54/112
Página 55
Opción # 4: Multialélico
Se considerarán todos los eventos de InDel.
Opción n. ° 5: "Tal como está"
DnaSP no inferirá eventos de la información de InDel. DnaSP generará el siguiente archivo NEXUS recodificado:
* *
Seq1 AAAAAAAAAAAA
Seq2 ............
Seq3 ... GG .......
Seq4 ............
Seq5 GGG .........
Seq6 ..... GGGGGGG
Seq7 GGG..GGGGGGG
Seq8 ..... GGGGGGG
Seq9 ......... GGG
Seq10 ..... GGGGGGG
Seq11 ..... GGGGGGG
Seq12 ............
Seq13 ............
Nota:
A lo largo de este módulo, no se considera el polimorfismo de sustitución de nucleótidos; ya sea en sitios que no son de InDel
(como el polimorfismo de nucleótidos en el sitio # 2 en el archivo de datos de ejemplo), o en posiciones InDel (como el
polimorfismo de nucleótidos en el sitio # 4).
Ver también: Ventana de gráficos de diferenciación genética y flujo génico Entrada de archivos de datos Salida
Referencias: Hey 1991 Jukes y Cantor 1969 Nei 1987 Tajima 1983 Wakeley y Hey 1997
Este comando calcula algunas medidas del grado de divergencia de ADN entre poblaciones tomando en
cuenta el efecto del polimorfismo del ADN.
Archivos de información:
Para el presente análisis, se deben definir al menos dos conjuntos de secuencias (uno para cada población) (ver:
Datos | Comando Definir conjuntos de secuencias ).

Los sitios que contienen brechas de alineación (o sitios con datos faltantes) en cualquier población no se utilizan (estos sitios son
completamente excluido).
Análisis:
El programa estima las siguientes medidas:
Para cada población individual:

• El número medio de diferencias de nucleótidos (Tajima 1983, ecuación A3).
55/112
Página 56
• La diversidad de nucleótidos, Pi (ecuación 10.5 de Nei 1987).

• Diversidad de nucleótidos con Jukes y Cantor, Pi (JC) (Nei 1987, ecuaciones 10.19 y 5.3; Lynch y
Crease 1990, ecuaciones 1-2).
Varianza de Pi (JC) (Nei 1987, ecuación 10.7). La desviación estándar (o error estándar) es la raíz cuadrada de
la varianza.
Estas estimaciones pueden ser diferentes de las obtenidas mediante el comando DNA Polymorphism . Este es
porque en el presente análisis todos los sitios con brechas de alineación en la población 1 o en la población 2 no son
considerado. Es decir, el número total de sitios analizados considerados en este comando puede ser igual o menor
que los que se tienen en cuenta en el comando de polimorfismo de ADN.
Para los datos totales:
• El número medio de diferencias de nucleótidos (Tajima 1983, ecuación A3).
• La diversidad de nucleótidos, Pi (total) (Nei 1987, ecuación 10.5).
Entre poblaciones:
• # El número de diferencias fijas entre poblaciones, sitios de nucleótidos en los que todos los
Las secuencias de una población son diferentes de todas las secuencias de la segunda población (Hey
1991).
• #Mutaciones que son polimórficas en la población 1, pero monomórficas en la población 2.
• #Mutaciones que son polimórficas en la población 2, pero monomórficas en la población 1.
• # El número total de mutaciones compartidas.
• El número medio de diferencias de nucleótidos entre poblaciones.
• El número promedio de sustituciones de nucleótidos por sitio entre poblaciones, Dxy (Nei 1987,
ecuación 10.20).
• Dxy con Jukes y Cantor (Nei 1987, ecuación 10.20 usando la corrección de Jukes y Cantor).
• El número de sustituciones netas de nucleótidos por sitio entre poblaciones, Da (Nei 1987, ecuación
10,21).
• Da con Jukes y Cantor (Nei 1987, ecuación 10.21 usando la corrección de Jukes y Cantor).
Varianza de Dxy (JC) (Nei 1987, ecuación 10.24). La desviación estándar (o error estándar) es el cuadrado
raíz de la varianza.
Varianza de Da (JC) (Nei 1987, ecuación 10.23). La desviación estándar (o error estándar) es la raíz cuadrada
de la varianza.
#, Esta información se puede utilizar para estimar los 4 parámetros (thetaA, theta1, theta2 y tau) que
describe el modelo de aislamiento (ver Wakeley y Hey 1997, ecuaciones 1-3).

Esta opción calcula la diversidad de nucleótidos para las poblaciones 1 y 2, Dxy y Da mediante la ventana deslizante
método. El resultado del análisis se da en una cuadrícula (tabla). Los resultados también se pueden presentar gráficamente
(por un gráfico de líneas). En el gráfico, la diversidad de nucleótidos, Dxy o Da (eje Y) se puede representar contra el
posición de los nucleótidos (eje X).
Divergencia de ADN entre poblaciones:

Puede realizar algunos análisis de la divergencia del ADN entre poblaciones utilizando Gene Flow y
Comando de Diferenciación Genética .
Ver también: polimorfismo de ADN

Referencias: Vingron et al., 2009
56/112
Página 57
Este comando identifica regiones de ADN conservadas a lo largo del conjunto de datos y podría ser útil para filogenia.
análisis basados en huellas.
Los parámetros "Longitud mínima de ventana" (MWL) y "Umbral de conservación" (CT) son, respectivamente, los
longitud mínima y el valor mínimo de conservación requerido para identificar las regiones conservadas. Aquí el
La conservación (C) se mide como la proporción de sitios conservados en la región de alineación.

Las posiciones de la alineación que contienen espacios o datos faltantes en más de la mitad de las secuencias no son
considerado.
1. Parámetros dinámicos definidos:

DnaSP estimará los parámetros de MWL y CT a partir de sus datos de acuerdo con los niveles actuales de nucleótidos
variación.
DnaSP calculará C, la conservación promedio de los datos, a partir de:
• Número observado de sitios polimórficos / variables (S) en los datos.
• El número de sitios polimórficos (S) estimados a partir de la diversidad de nucleótidos (asumiendo mutación-deriva
equilibrio). Se estima a partir de:
S = k · a1 ;
donde k es el número promedio de diferencias de nucleótidos (Tajima 1983, eq. A3),

a1 = Σ (1 / i) de i = 1 a n-1,
y n es el tamaño de la muestra.
Por lo tanto, la proporción de sitios invariables / monomórficos (C) es,

C = 1 - (S / L);
donde L es el número neto de posiciones analizadas.
A partir de las estimaciones de C, DnaSP fijará el parámetro CT en C + 0,1. DnaSP estimará el MWL como el
longitud mínima que permite que una región conservada sea estadísticamente significativa en α = 0.05.
2. Parámetros definidos por el usuario:

El usuario puede definir los parámetros MWL y CT.
Valor P :
El valor p se calcula asumiendo que el número de posiciones variables en la región de alineación sigue una
distribución hipergeométrica.
Ejemplo de cómo DnaSP estima MWL y CT mediante la opción dinámica:

Supongamos el siguiente ejemplo:
Número de secuencias, n: 10
Número neto de posiciones analizadas, L: 1000
Número de sitios segregados, S: 200
Número medio de diferencias de nucleótidos, k: 80
Usando la estimación del parámetro dinámico dada la diversidad de nucleótidos, la estimación de S (de k) será:
S = k · a1;
S = 80 · 2,829; S = 226,32
DnaSP fijará S en 226.
57/112
Página 58
A partir de S (observado o estimado), es sencillo calcular C. Usando el valor S observado (S = 200):

C = 1 - (S / L) = 0,8
DnaSP fijará el umbral de conservación (CT) en:

CT = C + 0,1 = 0,9
Con CT fijado en 0.9, DnaSP estimará MWL en un valor p <0.05.
En el ejemplo,
MWL = 30 y CT = 0,9 (S = 3); valor p = 0.1190

...
MWL = 49 y CT = 0,9 (S = 5); valor p = 0.0507
MWL = 50 y CT = 0,9 (S = 5); valor p = 0.0440
...
MWL = 60 y CT = 0,9 (S = 6); valor p = 0.0272
Por lo tanto, la longitud mínima de la ventana (MWL) se establecerá en 50.
Producción:
Para cada región de ADN conservada, DnaSP informa:
• C, índice de conservación (proporción de columnas conservadas).
• H, homozigosidad (1-heterocigosidad).
• Valor p (bajo la distribución hipergeométrica).
• La secuencia de ADN conservada utiliza códigos de ambigüedad IUPAC para representar nucleótidos variables.
Ver también: Salida de archivos de datos de entrada de la ventana de gráficos

Referencias: Jukes y Cantor 1969 Lynch y Crease 1990 Nei 1987 Nei y Gojobori 1986 Nei y
Miller 1990 Watterson 1975
Este comando calcula algunas medidas del grado de polimorfismo y divergencia del ADN en
sinónimo, no sinónimo, silencioso y en todos los sitios.
Para el presente análisis, se debe definir al menos un conjunto de secuencias (ver: Datos | Definir conjuntos de secuencias
mando).
Análisis usando un conjunto de secuencias. El conjunto de secuencias debe incluir información de datos intraespecíficos.
DnaSP calculará algunas medidas de la extensión del polimorfismo del ADN.
Análisis utilizando dos conjuntos de secuencias. Un conjunto de secuencias debe contener los datos intraespecíficos, mientras que
otros deben contener secuencias (una o más) de una especie diferente (o de una población diferente). DnaSP
estimará algunas medidas de la extensión del polimorfismo del ADN y de la divergencia.

Los sitios (o codones) con lagunas de alineación o datos faltantes en cualquier archivo de datos no se utilizan, es decir, estos sitios (o
codones) están completamente excluidos.
58/112
Página 59
Producción:
Del conjunto de datos intraespecíficos:
• Diversidad de nucleótidos Pi (π) (ecuación 10.5 de Nei 1987).
Diversidad de nucleótidos con corrección de Jukes y Cantor, Pi (JC) (Lynch y Crease 1990, ecuaciones 1-2).
• Theta (por sitio) de Eta (η), el número total de mutaciones (Watterson 1975, ecuación 1.4a, pero en
base de pares de bases; Nei 1987, ecuación 10.3). Los valores theta no se informarán en algunos casos donde
los codones pueden diferir por múltiples cambios (esta característica se indicará con na).
De ambos conjuntos de datos:
• Divergencia de nucleótidos, (proporción promedio de diferencias de nucleótidos entre poblaciones o
especie), K (o Dxy) (Nei 1987, ecuación 10.20).
• K (JC), número promedio de sustituciones de nucleótidos por sitio entre poblaciones o entre especies
con corrección de Jukes y Cantor (Entre poblaciones, Dxy; Nei 1987, ecuación 10.20), (Entre
especie, K; Nei 1987, ecuación 5.3, pero calculando como el promedio de todas las comparaciones entre
secuencias del conjunto de datos 1 y 2).
La estimación de la diversidad y divergencia de nucleótidos por separado para sitios sinónimos y no sinónimos es
realizado utilizando Nei y Gojobori (1986), ecuaciones 1-3.
Implementación:
La estimación de la diversidad de nucleótidos (y de la divergencia) mediante la corrección de Jukes y Cantor (1969) es
realizado utilizando la simplificación indicada en Nei y Miller 1990 (ecuación 25). Es decir, la corrección de
Pi (y de K) se realiza directamente sobre el valor no corregido, y no en cada comparación por pares de dos
secuencias. Sin embargo, para niveles bajos de polimorfismo (y de divergencia) ambos métodos dan resultados similares
estimados. Para altos niveles de polimorfismo y divergencia, el uso del polimorfismo de ADN y
Los comandos de Sustituciones sinónimas y no sinónimas pueden ser deseables.
Se estima el número total de sitios sinónimos y no sinónimos para un conjunto de secuencias
como el promedio del número de sitios sinónimos y no sinónimos de todas las secuencias; estos valores son
utilizado para todas las secuencias. Tenga en cuenta que en el comando Sustituciones sinónimos y no sinónimos , el
El número total de sitios sinónimos y no sinónimos se realiza en cada comparación por pares. Así que eso,
estimaciones de diversidad de nucleótidos (en sitios sinónimos, no sinónimos y silenciosos) basadas en el presente y
en el comando Sustituciones sinónimas y no sinónimas podría ser ligeramente diferente.
Sitios considerados:
Silencioso (sitios sinónimos y posiciones sin codificación): solo silencioso (sitios sinónimos y
posiciones no codificantes).
Posiciones sin codificación : solo se utilizan posiciones sin codificación.
Solo sitios sinónimos: solo se utilizan sitios sinónimos (sustituciones en la región de codificación que causan
sin cambios de aminoácidos). Esta opción funciona solo si el archivo de datos contiene secuencias con codificación asignada
regiones (más ayuda en Asignar regiones de codificación y Asignar código genético ).
Solo sitios no sinónimos : solo se utilizan sitios no sinónimos (sustituciones en la región de codificación
que provocan cambios de aminoácidos). Esta opción funciona solo si el archivo de datos contiene secuencias con asignadas
regiones de codificación (más ayuda en Asignar regiones de codificación y Asignar código genético ).
Relaciones Pi (a) / Pi (s) y Ka / Ks: DnaSP calculará las relaciones w (w = Ka / Ks; también conocido como w = dN / dS) para
los conjuntos de datos intraespecíficos e interespecíficos (si están disponibles). Esta opción funciona solo si el archivo de datos contiene
secuencias con regiones de codificación asignadas (más ayuda en Asignar regiones de codificación y Asignar código genético ).
Todos los sitios: se utilizan todos los sitios (excluidas las sustituciones en sitios con lagunas o datos faltantes).
Nota: Vea cómo DnaSP estima el número de cambios sinónimos y no sinónimos en un codón .

Esta opción calcula la diversidad de nucleótidos (archivo de datos intraespecíficos) y la divergencia (entre ambos datos
archivos) mediante el método de ventana deslizante . El resultado del análisis se da en una cuadrícula (tabla). Los resultados pueden
también se presentará gráficamente (mediante un gráfico de líneas). En el gráfico Pi, la diversidad de nucleótidos y K, divergencia,
(Eje Y) se puede representar frente a la posición de los nucleótidos (eje X).
59/112
Página 60
Abreviaturas:
na no disponible.

Miller 1990 Watterson 1975
Este comando calcula algunas medidas del grado de polimorfismo y divergencia del ADN en
sinónimo, no sinónimo, silencioso y en todos los sitios. A diferencia del comando Polimorfismo y divergencia ,
este comando proporciona estimaciones de la diversidad de nucleótidos, la divergencia y el número de mutaciones en
regiones funcionales; es decir, por separado para regiones no codificantes, exones, intrones, etc.
Para el presente análisis, se debe definir al menos un conjunto de secuencias (ver: Datos | Definir conjuntos de secuencias
mando).
Análisis usando un conjunto de secuencias. El conjunto de secuencias debe incluir información de datos intraespecíficos.
DnaSP calculará algunas medidas de la extensión del polimorfismo del ADN.
Análisis utilizando dos conjuntos de secuencias. Un conjunto de secuencias debe contener los datos intraespecíficos, mientras que
otros deben contener secuencias (una o más) de una especie diferente (o de una población diferente). DnaSP
estimará algunas medidas de la extensión del polimorfismo del ADN y de la divergencia.

Los sitios (o codones) con lagunas de alineación o datos faltantes en cualquier archivo de datos no se utilizan, es decir, estos sitios (o
codones) están completamente excluidos.
Producción:
Desde el archivo de datos intraespecíficos:
• Diversidad de nucleótidos Pi (π) (ecuación 10.5 de Nei 1987).
Diversidad de nucleótidos con corrección de Jukes y Cantor, Pi (JC) (Lynch y Crease 1990, ecuaciones 1-2).
• Theta (por sitio) de Eta (η), el número total de mutaciones (Watterson 1975, ecuación 1.4a, pero en
base de pares de bases; Nei 1987, ecuación 10.3). Los valores theta no se informarán en algunos casos donde
los codones pueden diferir por múltiples cambios (esta característica se indicará con na).
De ambos archivos de datos:
• Divergencia de nucleótidos, (proporción promedio de diferencias de nucleótidos entre poblaciones o
especie), K (o Dxy) (Nei 1987, ecuación 10.20).
• K (JC), número promedio de sustituciones de nucleótidos por sitio entre poblaciones o entre especies
con corrección de Jukes y Cantor (Entre poblaciones, Dxy; Nei 1987, ecuación 10.20), (Entre
especie, K; Nei 1987, ecuación 5.3, pero calculando como el promedio de todas las comparaciones entre
secuencias del archivo de datos 1 y 2).
La estimación de la diversidad y divergencia de nucleótidos por separado para sitios sinónimos y no sinónimos es
realizado utilizando Nei y Gojobori (1986), ecuaciones 1-3.
Implementación:
La estimación de la diversidad de nucleótidos (y de la divergencia) mediante la corrección de Jukes y Cantor (1969) es
60/112
Página 61
realizado utilizando la simplificación indicada en Nei y Miller 1990 (ecuación 25). Es decir, la corrección de
Pi (y de K) se realiza directamente sobre el valor no corregido, y no en cada comparación por pares de dos
secuencias. Sin embargo, para niveles bajos de polimorfismo (y de divergencia) ambos métodos dan resultados similares
estimados. Para altos niveles de polimorfismo y divergencia, el uso del polimorfismo de ADN y
Los comandos de Sustituciones sinónimas y no sinónimas pueden ser deseables.
Se estima el número total de sitios sinónimos y no sinónimos para un conjunto de secuencias
como el promedio del número de sitios sinónimos y no sinónimos de todas las secuencias; estos valores son
utilizado para todas las secuencias. Tenga en cuenta que en el comando Sustituciones sinónimos y no sinónimos , el
El número total de sitios sinónimos y no sinónimos se realiza en cada comparación por pares. Así que eso,
estimaciones de diversidad de nucleótidos (en sitios sinónimos, no sinónimos y silenciosos) basadas en el presente y
en el comando Sustituciones sinónimas y no sinónimas podría ser ligeramente diferente.
Sitios considerados:
Silencioso (sinónimo y sin codificación): el análisis se limita a sitios sinónimos y
posiciones no codificantes.
Solo sitios sinónimos: el análisis está restringido a sitios sinónimos.
Solo sitios no sinónimo : el análisis está restringido a sitios no sinónimo.
Todos (total) sitios: se utilizarán todos los sitios (excepto aquellos sitios con lagunas o datos faltantes).
Los sitios sinónimos y no sinónimos (y los cambios) se calcularán si el archivo de datos contiene
secuencias con regiones de codificación asignadas (más ayuda en Asignar regiones de codificación y Asignar código genético ).
Sitios:
Silencioso (sinónimo y sin codificación): indica sitios sinónimos (en la región de codificación) y
posiciones no codificantes.
Sitios sinónimos: indica sitios en la región de codificación donde todas las mutaciones resultan en sinónimos
sustituciones (sin cambios de aminoácidos).
Sitios no sinónimos: indica sitios en la región de codificación donde todas las mutaciones causan aminoácidos
cambios. El análisis está restringido a sitios no sinónimos.
Abreviaturas:
Tot, Total , análisis en total (todos) sitios.
Sil , análisis en sitios silenciosos (sinónimos y sin codificación).
Syn , análisis en sitios sinónimos (solo región de codificación).
NoSyn , análisis en sitios no sinónimos.
SilSites , el número total de sitios silenciosos.
NSynSites , el número total de sitios no sinónimos.
SilMut, el número total de mutaciones silenciosas (archivo de datos intraespecíficos).
NSynMut, el número total de mutaciones no sinónimas (archivo de datos intraespecíficos).
na no disponible.
Consulte también: Asignar regiones de codificación Entrada de archivos de datos Salida

Miller 1990 Osawa y col. 1992 Watterson 1975
Este comando estima Ka (el número de sustituciones no sinónimas por sitio no sinónimo; también
61/112
Página 62
denotado como d N ) y Ks (el número de sustituciones sinónimos por sitio sinónimo; también denotado como d S )
para cualquier par de secuencias (Nei y Gojobori 1986, ecuaciones 1-3); también calcula varias medidas de la
extensión del polimorfismo de ADN en regiones codificantes de proteínas, regiones no codificantes o en regiones con ambas proteínas
regiones codificantes y no codificantes (es decir, regiones con exones e intrones, o exones y regiones flanqueantes). Uno
Una característica interesante de DnaSP es que tanto las regiones de proteínas codificantes como las no codificantes pueden incluirse en los datos.
expediente; DnaSP puede así estimar la diversidad de nucleótidos para sinónimos, no sinónimos y silenciosos (ambos
posiciones sinónimos y sin codificación). Se pueden utilizar cuatro códigos genéticos predefinidos: el universal
código nuclear y el código mitocondrial de Drosophila , mamíferos y levaduras.

Los sitios (o codones) con brechas de alineación o datos faltantes no se utilizan, es decir, estos sitios (o codones) son
completamente excluido.
Implementación:
DnaSP puede calcular la diversidad de nucleótidos en sitios sinónimos, no sinónimos y silenciosos. El total
El número de sitios sinónimos y no sinónimos se calcula como Nei y Gojobori 1986. Por sitios silenciosos
nos referimos tanto a los sitios sinónimos como a las posiciones sin codificación . Los sitios sinónimos son aquellos sitios en un
codón donde los cambios de nucleótidos dan como resultado sustituciones sinónimas. Para computación y
sitios no sinónimos, DnaSP excluirá todas las vías que atraviesan los codones de parada.
Sin embargo, no se deben encontrar codones de terminación en medio de las regiones de codificación , si DnaSP encuentra codones de terminación (en
la mitad de las regiones codificantes) se considerarán como si codificaran un nuevo aminoácido (el aminoácido
ácido 21; por ejemplo Selenocisteína, Secys (Osawa et al. 1992).
DnaSP calcula las diferencias sinónimos y no sinónimos entre un par de secuencias como Nei
y Gojobori 1986. Cuando hay dos o tres diferencias de nucleótidos entre los dos codones comparados,
dos o seis vías putativas salen. DnaSP considera todas las vías con igual probabilidad, pero excluye
esas vías que pasan por los codones de parada. Obviamente, todas las diferencias de nucleótidos en posiciones no codificantes
se consideran silenciosos. Las diferencias silenciosas incluirán, por lo tanto, tanto las diferencias sinónimos (en la codificación
regiones) y todas las diferencias en posiciones no codificantes.
Sustituciones silenciosas consideradas:

Sustituciones en regiones de codificación: solo se considerarán sustituciones sinónimos (región de codificación).
En regiones de codificación y no codificación: se considerarán todas las sustituciones silenciosas (sinónimos
sustituciones y cambios en posiciones no codificantes). Si el archivo de datos no contiene regiones de codificación asignadas
todos los sitios se considerarán posiciones sin codificación; es decir, todas las sustituciones se considerarán silenciosas.
Análisis:
• El número medio de diferencias de nucleótidos por sitio entre dos secuencias, o nucleótidos
diversidad, Pi (π) (Nei 1987, ecuaciones 10.5 o 10.6).
• El número medio de sustituciones de nucleótidos por sitio entre dos secuencias o nucleótidos
diversidad, Pi (π), usando la corrección de Jukes y Cantor (1969) (Lynch y Crease 1990, ecuaciones 1-
2). La corrección se ha realizado en cada comparación por pares de dos secuencias (Nei y
Gojobori 1986, ecuaciones 1-3); las estimaciones de Pi (π) se obtuvieron como el promedio de los valores de todos
comparaciones (de valores de Ks y Ka); (ver también el comando Polimorfismo de ADN ).
Tenga en cuenta que DnaSP no ha utilizado la simplificación indicada en Nei y Miller 1990 (ecuación 25); es decir, a
realice la corrección de Jukes y Cantor (1969) directamente sobre Pi (π) (Nei 1987, ecuaciones 10.5). Sin embargo,
para niveles bajos de polimorfismo, ambos métodos dan estimaciones similares.
• Valores Theta (por sitio) de Eta (η), es decir, el estimador de Watterson (Watterson 1975, ecuación 1.4a, pero
en base a pares de bases; Nei 1987, ecuación 10.3). Vea cómo DnaSP estima sinónimos y
Cambios no sinónimos en un codón. Tenga en cuenta que el número de mutaciones puede ser diferente al
número de diferencias sinónimos y no sinónimos obtenidas en cada comparación por pares (ver
debajo). Los valores Theta no se informarán en algunos casos en los que los codones pueden diferir en múltiples
cambios.
La salida de DnaSP también muestra lo siguiente:
62/112
Página 63
Para cada secuencia:

• El número total de sitios sinónimos (SS) y no sinónimos (NSS).
Para cada par de secuencias:
• El número total de sitios sinónimos, no sinónimos y silenciosos,
• El número total de diferencias sinónimos, no sinónimos y silenciosas,
• Las estimaciones de Ka (el número de sustituciones no sinónimas por sitio no sinónimo),
y Ks (el número de sustituciones sinónimos -o silenciosas- por sitio sinónimo -o silencioso- (Nei y
Gojobori 1986, ecuaciones 1-3).
Asignar codones:
Para asignar regiones de proteínas codificantes y no codificantes en una secuencia de ADN en particular, debe usar la opción Asignar
Comando Codificación de regiones .
Codigo genetico:
Para calcular sustituciones sinónimas y no sinónimas, DnaSP utilizará el método Assign Genetic definido
Código asignado (el predeterminado es Nuclear Universal).
Notas y abreviaturas:
Seq 1 y Seq 2 , las dos secuencias comparadas.
SynDif , el número total de diferencias sinónimos.
SynPos , el número total de sitios sinónimos.
SilentDif , el número total de diferencias silenciosas.
SilentPos , el número total de sitios silenciosos.
Ks , el número de sustituciones sinónimos (o silenciosas) por sitio sinónimo (o silencioso).
NSynDif , el número total de diferencias no sinónimas.
NSynPos , el número total de sitios no sinónimos.
Ka , el número de sustituciones no sinónimas por sitio no sinónimo.
Ver también: Menú de la ventana de salida de archivos de datos de entrada

Referencias: Morton 1993 Sharp et al. 1986 Shields y col. 1988 Wright 1990
Este comando calcula algunas medidas de la extensión del uso no aleatorio de codones sinónimos.
El presente análisis requiere solo un archivo de datos. Este comando funciona solo si las regiones de codificación y el
El código genético se ha definido previamente (más ayuda en Asignar regiones de codificación y Asignar
Código ).
Medidas de sesgo de codones
RSCU, Uso de codones sinónimos relativos (Sharp et al. 1986)

Para una secuencia de ADN dada, DnaSP muestra el valor RSCU en cada codón (Tabla de uso de codones). La RSCU
El valor de un codón es la frecuencia observada de ese codón en el gen dividida por la esperada bajo el
supuesto de igual uso de codones sinónimos. Un valor RSCU de 1 indica que la frecuencia de ese
63/112
Página 64
el codón es el esperado para un uso de codón igual; valores inferiores a 1 (o más de 1) indican que el
los codones se utilizan con menos frecuencia (o con más frecuencia) de lo esperado.
Tabla de uso de codones
DnaSP muestra, para un codón dado, la frecuencia observada y su valor RSCU (entre paréntesis). Para una dada
Secuencia de ADN, la tabla de uso de codones también muestra el valor de chi cuadrado "escalado".
ENC, número efectivo de codones (Wright 1990)

Esa medida cuantifica el número "efectivo" de codones que se utilizan en un gen. Por el universal nuclear
código genético, el valor de ENC varía de 20 (solo se usa un codón para cada aminoácido; es decir, el codón
el sesgo es máximo) a 61 (todos los codones sinónimos para cada aminoácido se utilizan por igual; es decir, sin sesgo de codones).
CBI, índice de sesgo de codones (Morton 1993)

CBI es una medida de la desviación del uso igual de codones sinónimos. Los valores de CBI oscilan entre 0
(uso uniforme de codones sinónimos) a 1 (sesgo máximo de codones).
SChi2, Chi cuadrado en escala (Shields et al. 1988)

El 2 "escalado" (chi cuadrado) es una medida basada en las estadísticas de chi cuadrado; es decir, basado en la diferencia
entre el número observado de codones y los esperados del uso igual de codones. La suma de la
Los valores de chi cuadrado se dividen por el número total de codones en el gen, excluyendo los codones que codifican un
aminoácido único; es decir, todos los codones excluyendo los codones Trp y Met (código genético universal nuclear).
DnaSP puede calcular el chi cuadrado "escalado" con la corrección de Yates, y también asumiendo un G + C dado
contenido (por defecto, el contenido de G + C es 50%).
Contenido de G + C
G + Cn , contenido G + C en posiciones sin codificación.
Contenido G + C2 , G + C en las segundas posiciones de codificación.
G + C3s , contenido G + C en (sinónimo) terceras posiciones de codificación; es decir, el contenido de G + C en el tercer codón
posiciones que excluyen los codones Trp y Met (código genético universal nuclear) (Wright 1990).
G + Cc , contenido G + C en posiciones de codificación.
Contenido de G + C , G + C en la región genómica (completa).
Ver también: Salida de archivos de datos de entrada de la tabla de preferencias de codones

Referencias: Akashi 1995 Akashi 1999
Este comando determina el estado de polaridad (ancestral -> derivado) del polimórfico (o fijo)
sustituciones, y también estima el número de sustituciones preferidas y no preferidas.
Para el presente análisis, al menos dos conjuntos de secuencias (uno con los datos intraespecíficos y otro con los
secuencias externas) deben definirse (consulte: comando Definir conjuntos de secuencias ).

Los sitios (o codones) con brechas de alineación o datos faltantes en cualquier grupo de secuencias (conjuntos de secuencias) no son
utilizado, es decir, estos sitios (o codones) están completamente excluidos.
Analizar:
64/112
Página 65
Una especie con un grupo externo: análisis del estado de polaridad (ancestral -> derivado) del
sustituciones polimórficas. El grupo externo permite inferir esa información.
Una especie con dos grupos externos: análisis del estado de polaridad (ancestral -> derivado) del
sustituciones polimórficas (datos intraespecíficos) y también de las diferencias fijas (entre el MRCA del
datos intraespecíficos y el antepasado común del grupo externo cercano). El grupo lejano permite inferir
Esa información.
Tablas Pref / Unpref:

Utilice este comando para asignar la tabla de preferencias de codones específicos a los datos.
Opciones:
Posiciones sin codificación: esta opción permite analizar la polaridad de los cambios en las posiciones sin codificación.
Significancia estadística:
DnaSP lleva a cabo la prueba de Mann-Whitney para determinar si la distribución de frecuencia de preferencia y
las sustituciones no preferidas son significativamente diferentes. DnaSP puede realizar la prueba fdMWU (que usa
información de solo datos de polimorfismo; Akashi 1999), o la prueba fddMWU (que usa información de ambos
sustituciones polimórficas y diferencias fijas; Akashi 1999).
Información ambigua:
En algunos casos, la polaridad de algunas sustituciones no se pudo determinar sin ambigüedades (ver más abajo).
Hay varias fuentes de ambigüedad (polimorfismo ancestral; sustituciones múltiples; alineación
lagunas / datos faltantes, etc.). En esos casos, DnaSP enumerará los sitios ambiguos (o codones).
Cómo DnaSP polariza los cambios de nucleótidos y asigna los preferidos y no preferidos
estado (región de codificación):
DnaSP utiliza un criterio conservador (parsimonia) para inferir el estado de nucleótidos ancestrales: solo inequívoco
Los casos se utilizan para el análisis (ver los siguientes ejemplos). Una vez establecida la polaridad,
DnaSP utilizará la tabla de preferencias de codones para asignar codones (o cambios) como preferidos o no preferidos.
Algunos ejemplos que utilizan el Código Genético Universal Nuclear con el codón D. melanogaster (Akashi 1995)
tabla de preferencias:
Datos intraespecíficos
3 6 9 12 15 18 21 24 27 30 33
* * * * * * * * * * *
CTT AAC CTT CTA AAT TTA CCC CTT CTT GGT GGT
CTT AAC CTT CTA AAT TTA CCA CTA CTA AGT GGT
CTA AAC CTA CTT AAC TTN CCT CTA CTT GGA GGT
Cerrar Outgroup
CTT AAT GTC GTT AT TTT CCT CTT CTT GGA AGT
Outgroup distante
CTT AAT GTT GTT AAT TTT CCT CTG CTA GGA TGT
Una especie con un grupo externo (grupo externo cerrado)

Codón (1,2,3). CTT -> CTA. Cambio de sinónimos polimórficos: U -> U
Codón (4,5,6). AAC. Codón monomórfico.
Codón (7,8,9). CTT <-> CTA. Cambio ambiguo.
Codón (13,14,15). AAT -> AAC. Cambio de sinónimos polimórficos: U -> P
Codón (16,17,18). No analizado: codón con datos faltantes.
Codón (19,20,21). No analizado: sustituciones múltiples.
65/112
Página 66

Codón (31,32,33). GGT. Codón monomórfico.
Una especie con dos grupos externos

Codón (4,5,6). AAT -> AAC. Cambio de sinónimos fijo: U -> P
Codón (7,8,9). Hay dos cambios:
CTT -> CTA. Cambio de sinónimos polimórficos: U -> U
GTT -> CTT. Cambio fijo no sinónimo: Val -> Leu
Codón (10,11,12). Hay dos cambios:
CTT -> CTA. Cambio de sinónimos polimórficos: U -> U
GTT -> CTT. Cambio fijo no sinónimo: Val -> Leu
Codón (13,14,15). No analizado: codón con huecos de alineación.
Codón (25,26,27). CTT <-> CTA. Cambio polimórfico ambiguo (¿polimorfismo ancestral?).
Codón (31,32,33). No analizado: cambio fijo ambiguo.
Abreviaturas:
MRCA , ancestro común más reciente
U -> U , Cambio no preferido a no preferido
U -> P , no preferido al cambio preferido
P -> U , cambio preferido a no preferido
P -> P , Preferido a Preferido cambio
Syn , cambio de sinónimos
NonSyn , cambio no sinónimo
Ver también: Salida de archivos de datos de entrada de la ventana de gráficos

Referencias: Betrán et al. 1997 Rozas y Aguadé 1994
DnaSP incorpora el algoritmo desarrollado por Betrán et al. (1997) para detectar tractos de conversión de genes de
dos poblaciones diferenciadas (denominadas subpoblaciones). Estas subpoblaciones podrían ser, por ejemplo,
dos arreglos de genes cromosómicos diferentes (Rozas y Aguadé 1994), o dos conjuntos de parálogos
secuencias.
Para el presente análisis, se deben definir al menos dos conjuntos de secuencias (uno para cada población) (ver:
Comando Definir conjuntos de secuencias ).
Número mínimo de secuencias en cada conjunto:

Un conjunto de secuencias debe contener al menos tres secuencias y el otro un mínimo de cinco.

66/112
Página 67
Implementación:
DnaSP estima la longitud del tracto observado en nucleótidos como:
L = TR - TL +1 - G
donde TL (izquierda) y TR (derecha) son las posiciones de los sitios de nucleótidos informativos más externos de un
tracto congruente, y G es el número de espacios de alineación (si los hay) entre TL y TR en el particular
secuencia donde se detecta el tracto de conversión génica (ver Betrán et al. 1997 ecuación A1).
DnaSP también estima el parámetro ψ (Betrán et al. 1997, ecuación A4), que mide la probabilidad
por sitio de detección de un evento de conversión entre dos subpoblaciones. A partir de esta información es posible
estimar el número real y la longitud de los tractos de conversión de genes.

Esta opción calcula el parámetro y mediante el método de ventana deslizante . El resultado del análisis se da
en una cuadrícula (tabla). Los resultados también se pueden presentar gráficamente (mediante un gráfico de líneas). En el gráfico el parámetro
y (eje Y) se puede representar frente a la posición de los nucleótidos (eje X).
Consulte también: Definir conjuntos de secuencias (definir poblaciones) Salida de archivos de datos de entrada
Referencias: Hudson et al. 1992a Hudson y col. 1992b Hudson 2000 Lynch y Crease 1990 Nei 1973
Nei 1982 Nei 1987 Tajima 1983 Wright 1951
Este comando calcula algunas medidas del grado de divergencia del ADN entre poblaciones, y de
estas medidas calcula el nivel medio de flujo de genes. Además, DnaSP permite realizar pruebas para
subdivisión de población.
Para el presente análisis, al menos dos conjuntos de secuencias (un conjunto para cada población) deben ser previamente
definido (ver: comando Definir conjuntos de secuencias ).
Datos perdidos:
Los sitios que contienen datos faltantes en cualquier población no se utilizan (estos sitios están completamente excluidos).
Incluir / excluir poblaciones (conjunto de secuencias):

Utilice este comando para incluir o excluir una población en particular del análisis. En cualquier caso, las poblaciones
con una secuencia incluida única no se utilizará.
Opción de sitios con espacios de alineación:
1. Excluidos: los sitios con brechas (en cualquier población) serán completamente excluidos del análisis.
2. Considerado (Gap como el quinto estado): Se utilizarán Gaps. Serán considerados como una
variante de nucleótidos.
3. Excluidos solo en comparaciones por pares: con esta opción, las brechas se ignorarán solo si son
presente en una comparación particular por pares. Tenga en cuenta que esta opción no funciona para estimar el haplotipo
estadísticas basadas; en ese caso, DnaSP considerará la brecha como un quinto estado.
Análisis de diversidad genética:

67/112
Página 68
Para cada población individual:

• El número de haplotipos, h.
• La diversidad de haplotipos, Hd (Nei 1987, ecuación 8.4).
• El número medio de diferencias de nucleótidos, K (Tajima 1983, ecuación A3).
• La diversidad de nucleótidos, Pi (π, Nei 1987, ecuación 10.5).
• Diversidad de nucleótidos con la corrección de Jukes y Cantor, Pi (JC) (Lynch y Crease 1990, ecuaciones
1-2).
Las estimaciones actuales pueden diferir de las obtenidas mediante el comando DNA Polymorphism . Esto es porque en
En el presente análisis se excluyen todos los sitios con brechas de alineación (en cualquier población) (si está utilizando el
opción excluida en los sitios con brechas de alineación ). Es decir, el número total de sitios analizados
considerados en este comando pueden ser iguales o inferiores a los tomados en cuenta en el polimorfismo de ADN
mando.
Para los datos totales:

• La diversidad de nucleótidos, Pi (π, ecuación 10.5 de Nei 1987).
• El número promedio de sustituciones de nucleótidos por sitio entre poblaciones, Dxy (Nei 1987,
ecuación 10.20).
• El número de sustituciones netas de nucleótidos por sitio entre poblaciones, Da (Nei 1987, ecuación
10,21).
Análisis de diferenciación genética:
DnaSP realiza los siguientes análisis:
Estadísticas basadas en haplotipos:
Hs (Hudson y col. 1992a, eq. 3a); Hst (Hudson y col. 1992a, ec. 2).
Estadísticas basadas en secuencias de nucleótidos:

Ks (Hudson y col. 1992a, ec. 10); Kst (Hudson y col. 1992a, ec. 9).
Ks * y Kst * (Hudson et al. 1992a, ec. 11).
Z (Hudson y col. 1992a).
Z * (Hudson y col. 1992a).
Snn (Hudson 2000).
Pruebas estadísticas:
Prueba de chi-cuadrado (datos de haplotipos) (Nei 1987; Hudson et al. 1992a, eq. 1).
PM, prueba de permutación (aleatorización) (Hudson et al. 1992a).
Factor de ponderación del tamaño de la población (ver Hudson et al. 1992a, p. 144):
DnaSP calcula las estadísticas utilizando los factores de ponderación recomendados en Hudson et al. (1992a); es decir,
usando la corrección n-2.
Exportar distancias genéticas:

Utilice este comando para exportar distancias genéticas a archivos de formato MEGA o PHYLIP. Estos archivos permitirán
Realizar análisis filogenéticos posteriores utilizando los softwares MEGA o PHYLIP.
Valor de precisión
Número de decimal incluido en los archivos de datos de distancia.
Nota:
DnaSP no puede leer archivos de datos MEGA / PHYLIP con información de distancia genética. Estos archivos se pueden leer
por los softwares MEGA o PHYLIP lo que permite realizar algunos análisis filogenéticos.
También se puede utilizar cualquier procesador de texto para leer / editar archivos MEGA o PHYLIP (son solo archivos de texto).
68/112
Página 69
Software MEGA (análisis de genética evolutiva molecular)

El software MEGA se distribuye de forma gratuita desde: http://www.megasoftware.net/
Análisis de flujo de genes:

Las estimaciones del flujo de genes se calculan utilizando información sobre el tipo genómico del organismo (haploide,
diploide) indicado en el menú de datos. DnaSP calcula las siguientes medidas:
A partir de información de datos de haplotipos

• Nei 1973: Gst (Nei 1973, ecuación 9) y Nm. DnaSP calcula Gst como las ecuaciones 5 y 6 en
Hudson y col. (1992a).
A partir de la información de datos de la secuencia de nucleótidos:

• Nei 1982: DeltaST (δst), ecuación 4; GammaST (γst), ecuación 5; y Nm.
Nota: DnaSP calcula PiS (πs), el promedio de Pi (π) para sobrepoblaciones, utilizando Nei
(1982) ecuación 2; es decir, haciendo uso del tamaño relativo de cualquier población.
• Lynch y Crease 1990: Nst (ecuación 36) y Nm.
El estimador Nst es casi el mismo que Fst (Hudson et al. 1992b). La diferencia es que Nst usa
la corrección de Jukes y Cantor (1969).
• Hudson y col. 1992b: Fst (ecuación 3) y Nm (ecuación 4).
Wright (1951)
Las estimaciones de Nm se basan en el modelo de isla de estructura de población:
Haploides: Fst, γst, Nst = 1 / (1 + 2Nm)
Diploides (autosoma): Fst, γst, Nst = 1 / (1 + 4Nm)
Diploides (cromosoma X): Fst, γst, Nst = 1 / (1 + 3Nm)
Diploides (cromosoma Y): Fst, γst, Nst = 1 / (1 + Nm)
Nota:
Consejos:
Este módulo puede funcionar más lento que el de la versión anterior de DnaSP. Podrías considerar usar el viejo
Versión de DnaSP (puede ejecutar ambas versiones en su computadora) www.ub.edu/dnasp/indexDnaSPv5, o
utilice el nuevo análisis de archivos de datos Multi-MSA (todos los sitios) utilizando un archivo * .SG.txt .
Referencias: Hill y Robertson 1968 Kelly 1997 Langley et al. 1974 Lewontin 1964 Lewontin y Kojima
1960 Rozas y col. 2001 Sokal y Rohlf 1981 Wall 1999 Weir 1996
Este comando calcula el grado de desequilibrio de ligamiento (LD), o asociación no aleatoria entre
variantes de nucleótidos en diferentes sitios polimórficos. Sitios que contienen huecos de alineación o sitios polimórficos
segregando por tres o cuatro nucleótidos, quedan completamente excluidos del análisis. El análisis puede ser
69/112
Página 70
realizado con todos los sitios polimórficos en los datos, o solo con sitios informativos de parsimonia (sitios que
segregar solo para dos nucleótidos que estén presentes al menos dos veces).
Desequilibrio de ligamiento entre variantes de nucleótidos:

El grado de LD se estima mediante los siguientes parámetros:
D (Lewontin y Kojima 1960),
D '(Lewontin 1964),
R y R ^ 2 (Hill y Robertson 1968).
DnaSP considera gametos de acoplamiento a aquellos con las variantes más o menos comunes (Langley et al.
1974).
Desequilibrio de vinculación para todos los datos:

Para todos los datos, DnaSP calcula:
Estadístico ZnS (Kelly 1997, ecuación 3). ZnS es el promedio de R ^ 2 (Hill y Robertson 1968) sobre todos los pares
comparaciones.
Estadísticas Za y ZZ (Rozas et al. 2001). Za es el promedio de R ^ 2 (Hill y Robertson 1968) sobre todos
comparaciones por pares entre sitios polimórficos adyacentes; ZZ = Za - ZnS. La estadística ZZ podría usarse para
detectar recombinación intragénica (ver Recombinación ).
DnaSP puede calcular los intervalos de confianza de ZnS, Za, ZZ mediante simulaciones basadas en coalescentes (consulte:
Simulaciones coalescentes).
Asociación entre variantes de nucleótidos:

DnaSP también calcula las estadísticas B y Q (Wall 1999).
Significación estadística de LD:

Tanto la prueba exacta de Fisher de dos colas como la prueba de chi-cuadrado se calculan para determinar si
las asociaciones entre sitios polimórficos son, o no, significativas (ver Sokal y Rohlf 1981).
(*, P <0,05; **, P <0,01; ***, P <0,001).
DnaSP también realiza la corrección de Bonferroni para múltiples pruebas (ver Weir 1996). El procedimiento de Bonferroni
intenta evitar rechazos espurios de la hipótesis nula en múltiples pruebas (asumiendo que todas las pruebas son
independiente). Para un total a '(a' es la probabilidad de que al menos una prueba provoque el rechazo de una
hipótesis nula), α (α es la probabilidad de que una prueba individual provoque el rechazo de una hipótesis nula verdadera;
es decir, error de tipo I de una prueba individual) se obtiene de:
α = 1 - (1 - α ') ^ (1 / L)
donde L es el número de pruebas realizadas. DnaSP obtiene la probabilidad asociada con un chi-
valor cuadrado (con 1 grado de libertad) por el método trapezoidal de integración numérica. Significativo
desequilibrio mediante el procedimiento de Bonferroni para un α'= 0,05 se indica con la letra B .
NOTA: La corrección de Bonferroni aplicada a pruebas no independientes (como en las pruebas LD) sería altamente
conservador.

DnaSP también puede proporcionar los intervalos de confianza de las estadísticas B, Q, ZnS, Za y ZZ por computadora
simulaciones que utilizan el algoritmo coalescente (consulte Simulaciones coalescentes).
DESEQUILIBRIO DE VINCULACIÓN Y DISTANCIA FÍSICA

DnaSP estima la relación del desequilibrio de ligamiento con la distancia física mediante la regresión
análisis (Sokal y Rohlf 1981).
DnaSP estima la ecuación de regresión lineal: Y = a + bX,
donde Y es el valor de LD y X es la distancia de nucleótidos (medida en kilobases; kb).
La ecuación de regresión se realiza para | D | (valor absoluto de D), | Dʼ | (valor absoluto de Dʼ) y R ^ 2
valores.
Para | Dʼ | valores, DnaSP da dos ecuaciones de regresión:
i) para todos | Dʼ | valores (línea azul en el gráfico -color predeterminado-);
70/112
Página 71
ii) para todos | Dʼ | valores excluidos los valores de | Dʼ | = 1 (+1 y -1); (línea negra en el gráfico -color por defecto-).
La significancia estadística del coeficiente de regresión podría realizarse mediante la prueba t de Student con n-2
grados de libertad (n es el número total de valores -comparaciones por pares-) (esta prueba no está incluida en
DnaSP). ¡Pero ten cuidado! Esta prueba requiere valores de muestra independientes y, ciertamente, no es el caso de
LD.
Alternativa. Puede determinar los intervalos de confianza de la estadística de prueba ZZ mediante coalescentes
simulaciones (ver: Simulaciones coalescentes).
Otras alternativas (no incluidas en la versión actual de DnaSP): puede probar el deterioro de LD con
distancia física por la prueba de aleatorización (permutación) (es decir, por permutación aleatoria del polimórfico
sitios).
Distancia de nucleótidos:
La distancia de nucleótidos ( Dist en la salida), es decir, la distancia en nucleótidos entre un par dado de
sitios polimórficos, se calcula como el número promedio de nucleótidos que separan dos
sitios polimórficos.
Por ejemplo, la distancia de nucleótidos entre los sitios polimórficos 1 y 18 (marcados con asteriscos) en el
las siguientes cuatro secuencias son 13:
* *
seq_1 ATATACGGGGTTA --- TTAGA
seq_2 CGATAC - GG-TA --- TAACA
seq_3 AGATACGG-GATA --- TAATA
seq_4 ATAAACGGGGATA --- GTAGT
Producción:
El resultado del análisis se da en una cuadrícula (tabla). Las columnas Sitio1 y Sitio2 se refieren al polimórfico
sitios analizados (comparados); Dist a la distancia de nucleótidos entre ellos; Fisher a la probabilidad
obtenido por la prueba exacta de Fisher; y Chi-cuadrado al valor de X ^ 2. Los resultados también se presentan gráficamente
(por un gráfico de dispersión). En el gráfico D, D ', R, R ^ 2 se pueden representar frente a la distancia de nucleótidos (eje X).
Recombinación
Recombinación
Ver también: Salida de archivos de datos de entrada de simulaciones coalescentes

Referencias: Hudson 1987 Hudson y Kaplan 1985 Rozas et al. 2001
Este comando calcula algunas estimaciones del parámetro de recombinación R = 4Nr (para loci autosómicos de
organismos diploides), donde N es el tamaño de la población yr es la tasa de recombinación por secuencia (por gen).
En la bibliografía, el parámetro de recombinación también se indica como C = 4Nc.
Para el análisis actual, los sitios que contienen brechas de alineación (o datos faltantes) en los archivos de datos no se utilizan
(estos sitios están completamente excluidos). El programa estima las siguientes medidas:
Parámetro de recombinación R = 4Nr (Hudson 1987)

El estimador se basa en la varianza del número medio de diferencias de nucleótidos entre pares de
secuencias, S2k (Hudson 1987, ecuación 1).
El estimador R se obtiene después de resolver la ecuación 4 (Hudson 1987). La solución de la función g (C, n) de
la ecuación 4 se obtiene numéricamente (ver el Apéndice en Hudson 1987).
La salida DnaSP muestra la estimación de R (= 4Nr), por gen (r, es la tasa de recombinación por generación
entre los sitios más distantes) (Hudson 1987, de la ecuación 4). DnaSP también calcula la estimación de R
71/112
Página 72
entre sitios adyacentes:

R (entre sitios adyacentes) = R (por gen) / D
donde D, es la distancia de nucleótidos promedio (en pares de bases) de la región analizada (el nucleótido promedio
distancia después de eliminar los espacios de alineación; es decir, distancia de nucleótidos); (ver Distancia de nucleótidos en enlace
Comando de desequilibrio ). Tenga en cuenta que la longitud media es igual a la distancia media de nucleótidos + 1.
El número mínimo de eventos de recombinación RM (Hudson y Kaplan 1985)

El parámetro indica el número mínimo de eventos de recombinación en el historial de la muestra (nota
que RM subestima el número total de eventos de recombinación). El RM se obtiene usando los cuatro gametos
prueba (ver Figura 1 y Apéndice 2 en Hudson y Kaplan 1985). A partir de RM es posible estimar R por
simulaciones por computadora simulaciones coalescentes.
La salida mostrada por DnaSP es:

El valor de RM.
La lista de todos los pares de sitios con los tipos de cuatro juegos.
La lista de todos los pares de sitios RM donde es posible asignar al menos un evento de recombinación.
Nota: para el presente análisis, los sitios de segregación de tres o cuatro nucleótidos están completamente excluidos de
el analisis.
Estadístico de prueba ZZ (Rozas et al. 2001)

Esta estadística de prueba podría ser útil para detectar la recombinación intragénica (ver Desequilibrio de ligamiento ).

DnaSP puede proporcionar los intervalos de confianza de la estadística de RM mediante simulaciones por computadora utilizando el
algoritmo coalescente (ver Simulaciones por computadora).
Otros metodos
El parámetro de recombinación también se puede estimar mediante el método descrito en Hey y Wakeley 1997
este método, sin embargo, no está incluido en el software DnaSP. Ese método se implementa en los SITIOS
programa de computadora, distribuido por Jody Hey.
Página web de Jody Hey:
https://bio.cst.temple.edu/~hey/
Referencias :Harpending 1994 Ramos-Onsins y Rozas 2002 Rogers 1995 Rogers y Harpending 1992
Rogers y col. 1996 Slatkin y Hudson 1991 Tajima 1989a Tajima 1989b Watterson 1975
Resúmenes: Ramos-Onsins y Rozas 2002
Este comando analiza el espectro de frecuencia (para segregar sitios) y el número de pares de
diferencias. DnaSP realiza estos análisis para un tamaño constante y para poblaciones de tamaño creciente.

Los sitios que contienen brechas de alineación (o sitios con datos faltantes) en el archivo de datos no se utilizan (estos sitios son
72/112
Página 73
1. Número de diferencias por pares:

1.1 Tamaño de población constante
DnaSP muestra (en forma tabular y gráfica) la distribución del sitio de nucleótidos por pares observado
diferencias (también llamado distribución de desajuste), y los valores esperados (en equilibrio para ninguna
recombinación) en una población estable, es decir, una población con un tamaño de población constante (Watterson 1975; Slatkin
y Hudson 1991, ecuación 1; Rogers y Harpending 1992, ecuación 3).
1.2 Crecimiento-disminución de la población

DnaSP muestra (en forma tabular y gráfica) la distribución del sitio de nucleótidos por pares observado
diferencias (también llamado distribución de desajustes), y los valores esperados (sin recombinación) en crecimiento
y poblaciones en declive (Rogers y Harpending 1992, ecuación 4). El modelo se basa en tres
parámetros: Theta inicial (theta antes del crecimiento o declive de la población), Theta final (theta después de la
crecimiento o disminución de la población), y τ (Tau) es la fecha del crecimiento o disminución medida en unidades de
tiempo mutacional (Tau = 2ut; t es el tiempo en generaciones y u es la tasa de mutación por secuencia y por
generación) (Rogers y Harpending 1992). Al dejar Theta Final como infinito, es posible estimar Theta
Initial y Tau (2ut) de los datos (Rogers 1995). DnaSP proporciona estas estimaciones que se pueden utilizar para obtener
los valores esperados.
DnaSP también estima la estadística de irregularidad, r (Harpending 1994, ecuación 1). Esta estadística cuantifica
la suavidad de la distribución de diferencias por pares observadas. DnaSP puede brindarle la confianza
intervalos de esta estadística por simulaciones por computadora usando el algoritmo coalescente (ver: Computadora
Simulaciones ).
Sin embargo, la estadística de irregularidad tiene un bajo poder estadístico para detectar la expansión de la población.
Por lo tanto, es mejor usar estadísticas más poderosas como las F de Fu (ver: Pruebas de Fu y Li (y otras)) y
R2 de Ramos-Onsins y Rozas; DnaSP también puede proporcionar (mediante simulaciones por computadora utilizando el
coalescente ver: Simulaciones coalescentes ) los intervalos de confianza de las estadísticas Fs y R2.
CV , coeficiente de variación (ver: Rogers y Harpending 1992 , p. 554)

MAE , error absoluto medio (ver: Rogers et al. 1996 , p. 896).
2. Sitios de segregación:
2.1 Tamaño de población constante

DnaSP muestra (en forma tabular y gráfica) la distribución del espectro de frecuencias observado (distribución
de la frecuencia alélica en un sitio) (ver Tajima 1989a, figura 6), y los valores esperados en un
población, es decir, población con un tamaño de población constante (Tajima 1989a, ecuación 50).
2.2 Crecimiento-disminución de la población

DnaSP muestra (en forma tabular y gráfica) la distribución, en diferentes momentos y para varios tamaños de muestra,
de Sn (t), el número esperado de sitios de segregación entre n secuencias de ADN en la generación t, y Sn (t) / a1
(en el equilibrio, este valor es igual a theta) después de un crecimiento o disminución de la población (Tajima 1989b, ecuación 9).
El tiempo se mide en unidades de N generaciones, donde N es el tamaño efectivo de la población.
a1 = Σ (1 / i) de i = 1 a n-1
(n es el tamaño de la muestra, es decir, el número de secuencias de nucleótidos)
73/112
Página 74
Ver también: Ventana de gráficos de simulaciones coalescentes Entrada de archivos de datos Salida de sitios polimórficos / variables
Expediente
Referencias: Achaz 2008 Achaz 2009 Ewens 1972 Fu y Li 1993 Fu 1995 Fu 1997 Kimura 1983
Simonsen y col. 1995 Strobeck 1987 Tajima 1983
Este comando calcula las pruebas estadísticas D * y F * propuestas por Fu y Li (1993) para probar la
hipótesis de que todas las mutaciones son selectivamente neutrales (Kimura 1983). En este comando, DnaSP también calcula
las estadísticas F de Fu y S de Strobeck. Estas pruebas requieren datos solo sobre polimorfismo molecular.

Los sitios que contienen brechas de alineación (o sitios con datos faltantes) no se utilizan (estos sitios están completamente
excluido).
Número mínimo de secuencias en archivos de datos:

El archivo de datos debe contener al menos cuatro secuencias.
Análisis:
Las pruebas D * y F * se basan en la predicción del modelo neutral de que las estimaciones de η / a1, (n -1) η s / n, y de k, son
estimaciones insesgadas de θ,
dónde,
η, es el número total de mutaciones
a1 = Σ (1 / i) de i = 1 a n-1
n, el número de secuencias de nucleótidos
η s , es el número total de singletons (mutaciones que aparecen solo una vez entre las secuencias).
k, es el número medio de diferencias de nucleótidos entre pares de secuencias (Tajima 1983, ecuación A3).
(Tenga en cuenta que Fu y Li usan Pn para indicar k).
θ = 4Nμ (para diploide-autosómico; N y μ son el tamaño efectivo de la población y la tasa de mutación por ADN
secuencia por generación, respectivamente).
Estadísticas de prueba Fu y Li D * y F *
El estadístico de la prueba D * se basa en las diferencias entre η s , el número de singletons (sitios que segregan en
frecuencia de 1 / n o (n-1) / n); es decir, sitios con variantes de nucleótidos que aparecen solo una vez en un sitio en particular), y
η, el número total de mutaciones (Fu y Li 1993, p. 700 abajo).
El estadístico de la prueba F * se basa en las diferencias entre η s , el número de singletons yk, el promedio
número de diferencias de nucleótidos entre pares de secuencias (Fu y Li 1993, p. 702; ver también Simonsen
et al. 1995, ecuación 10; Achaz 2009).
Estadísticas de prueba Fu y Li D * y F * (DnaSP v5 y versiones posteriores)

En la versión 5.10 (y anteriores), estas pruebas se calcularon de una forma ligeramente diferente a la de la versión 6.
En la versión 6 (y posteriores), el estadístico Fu y Li D * se calcula exactamente como en la versión 5, pero utilizando solo bialélicos
posiciones.
En la versión 6 (y posteriores), el estadístico Fu y Li F * se calcula utilizando las varianzas genéricas descritas en
Achaz 2009 y utilizando solo posiciones bialélicas. Por tanto, los resultados pueden diferir un poco entre versiones.
Estadístico de prueba de Achaz Y *

El estadístico de la prueba Y * también se basa en las diferencias entre dos estimaciones diferentes de θ, del número
de sitios segregantes que no son de un solo tón y de k (Achaz 2008; ecuación 21). Para el análisis solo bialélico
se utilizan posiciones.
Estadística Fs de Fu
74/112
Página 75
El estadísticoelde
condicional la prueba
valor Fs (Fu 1972,
de θ (Ewens 1997, ecuaciones
ecuación 1)19-21).
se basa en la distribución de frecuencia del haplotipo (gen)
Estadística S de Strobeck
La estadística de la prueba S de Strobeck (Strobeck 1987; ver también Fu 1997) también se basa en el haplotipo (gen)
distribución de frecuencia condicionada al valor de θ (Ewens 1972, ecuaciones 19-21). La estadística S da la
probabilidad de obtener una muestra con igual o menor número de haplotipos que el observado. DnaSP también
proporciona la probabilidad de obtener una muestra con un número de haplotipos igual al observado. Ver también
el comando Distribuciones discretas en el menú Herramientas .
Número total de mutaciones frente al número de sitios segregantes:

Las estadísticas de prueba D * y F * también se pueden calcular usando S, el número de sitios segregantes en lugar de η,
el número total de mutaciones (Simonsen et al. 1995, ecuaciones 9-10). Bajo el modelo de sitio infinito (con dos
diferentes nucleótidos por sitio) los valores de D * y F * deben ser iguales (S y η tienen el mismo valor).
Sin embargo, si hay sitios que se segregan por más de dos nucleótidos, los valores de S serán más bajos que los
de η.
DnaSP utiliza los valores críticos obtenidos por Fu y Li (1993) (prueba de dos colas, Tablas 2 y 4) para determinar
la significancia estadística de los estadísticos de prueba D * y F *. Tenga en cuenta que estos valores fueron obtenidos por computadora
simulaciones considerando que el verdadero valor de θ cae en el intervalo [2, 20]; para que los valores críticos sean
no es aplicable cuando el verdadero valor de θ no está en ese intervalo.
DnaSP no determinará los valores críticos para tamaños de muestra superiores a 300. Para tamaños de muestra 100-300
DnaSP utiliza los mismos valores críticos que para n = 100; la razón es que los valores críticos aumentan (o
disminuye) con ln (n), de modo que cuando n es grande la curva de valores críticos se vuelve plana (Fu, personal
comunicación).
( nd , no determinado; #, P <0,10; *, P <0,05; **, P <0,02).

DnaSP también puede proporcionar los intervalos de confianza de Fu y Liʼs D * y F *, Fuʼs Fs y Achaz
Y * por simulaciones por computadora usando el algoritmo coalescente (ver: Simulaciones coalescentes ).

Esta opción calcula los valores D * y F *, y su significación estadística, mediante la ventana deslizante
método. El resultado del análisis se da en una cuadrícula (tabla). Los resultados también se pueden presentar gráficamente
(por un gráfico de líneas). En el gráfico, los valores D * y F * (eje Y) se pueden representar frente a la posición de los nucleótidos (X
eje).
Ver también: Ventana de gráficos de simulaciones coalescentes Entrada de archivos de datos Salida de sitios polimórficos / variables
Expediente
Referencias: Achaz 2008 Achaz 2009 Fay y Wu 2000 Fu y Li 1993 Fu 1995 Kimura 1983 Simonsen
et al. 1995 Tajima 1983 Zeng et al 2006
Este comando calcula las pruebas estadísticas D y F propuestas por Fu y Li (1993) para probar la
75/112
Página 76
hipótesis de que todas las mutaciones son selectivamente neutrales (Kimura 1983). Estas pruebas requieren datos del
variación intraespecífica (polimorfismo) y datos de un grupo externo (una o más secuencias de un
especies).
secuencias externas) deben definirse (consulte: Datos | comando Definir conjuntos de secuencias ).

El archivo de datos intraespecíficos debe contener al menos cuatro secuencias.
El grupo externo puede contener más de una secuencia, pero el análisis se realizará en la primera secuencia.
uno. Sin embargo, si hay más de una secuencia en el grupo externo, los sitios con brechas de alineación (o con
datos faltantes) en ninguna de las secuencias de grupos externos no se utilizarán (ver más abajo).

Los sitios que contienen brechas de alineación (o sitios con datos faltantes) en cualquier archivo de datos no se utilizan (estos sitios son
Información ambigua:
En algunos casos, la polaridad de algunas sustituciones no se pudo determinar sin ambigüedades; por ejemplo:
Datos intraespecíficos
10
*
seq1 CTTAACCTTC
seq2 CATTATTTAC
seq3 CTATATTCCC
seq4 A-AAACCTAC
Outgroup
Seq5 CT-AAGGGAC
Seq6 CTA-AGCTAC
Sitio 1. La " A " en la seq 4 es una mutación externa (y sustitución derivada)

Sitio 2. No se utiliza (huecos de alineación en datos intraespecíficos)
Sitio 3. No se utiliza (huecos de alineación en el grupo externo utilizado)
Sitio 4. No se utiliza (huecos de alineación en una secuencia del archivo de datos del grupo externo)
Sitios 6-8. No utilizado (información ambigua en el grupo externo)
Sitio 9. La " T " y la " C " en el archivo de datos intraespecíficos son mutaciones únicas y también externas.
No se utilizarán posiciones ambiguas; DnaSP los enumerará.
Análisis:
Estas pruebas se basan en la predicción del modelo neutral de que las estimaciones de η / a1, η e y de k son insesgadas
estimaciones de θ,
dónde,
η, es el número total de mutaciones
a1 = Σ (1 / i) de i = 1 a n-1
η e , es el número total de mutaciones en ramas externas de la genealogía.
(Tenga en cuenta que Fu y Li usan Pn para indicar k).
76/112
Página 77
Estadísticas de prueba Fu y Li D y F
La estadística de la prueba D se basa en las diferencias entre η e , el número total de mutaciones en
ramas de la genealogía, y η, el número total de mutaciones (Fu y Li 1993, ecuación 32).
El estadístico de la prueba F se basa en las diferencias entre η e , el número total de mutaciones en
ramas de la genealogía, yk, el número medio de diferencias de nucleótidos entre pares de
secuencias (Fu y Li 1993, p. 702, arriba).
Estadísticas de prueba Fu y Li D y F (DnaSP v5 y versiones posteriores)

En la versión 5.10 (y anteriores), estas pruebas se calcularon de una manera ligeramente diferente a la de la versión 6.
En la versión 6 (y posteriores), el estadístico Fu y Li D se calcula exactamente como en la versión 5, pero usando solo bialélicos
posiciones.
En la versión 6 (y posteriores), el estadístico Fu y Li F se calcula utilizando las varianzas genéricas descritas en Achaz
2009 y utilizando únicamente posiciones bialélicas. Por lo tanto, los resultados pueden ser un poco diferentes.
Fay y Wu H, y estadísticas de prueba normalizadas de Fay y Wu Hn

El estadístico de la prueba H (Fay y Wu 2000, ecuaciones 1-3) se basa en las diferencias entre dos estimadores
de θ: θπ (o k), el número medio de diferencias de nucleótidos entre pares de secuencias, y θ (Fay y
H
Wu 2000, ecuación 3), un estimador basado en la frecuencia de las variantes derivadas.

El estadístico H normalizado (Hn) es la versión escalada del estadístico H (Zeng et al. 2006; ecuación 11).
A partir de la versión 6, DnaSP solo proporciona el valor de la estadística Hn, que se calcula utilizando solo bialélicos
posiciones.
Zeng y col. Estadístico de prueba E

El estadístico de prueba Z es un estadístico normalizado que contrasta las diferencias entre frecuencias bajas y altas.
variantes del espectro de frecuencias (Zeng et al. 2006; ecuación 13). Para el análisis solo posiciones bialélicas
son usados.
Estadístico de prueba de Achaz Y

El estadístico de la prueba Y se basa en las diferencias entre dos estimaciones diferentes de θ, del número de
sitios segregantes no únicos y de k (Achaz 2008; ecuación 21). Para el análisis solo bialélico
se utilizan posiciones.
El número de mutaciones en ramas externas.

Suponiendo que el modelo de sitios infinitos, DnaSP calcula el número total de mutaciones en las ramas externas
de la genealogía de la siguiente manera: en un sitio polimórfico particular dado, el número de mutaciones en
ramas se cuenta como el número de variantes de nucleótidos singleton distintos (en el archivo de datos intraespecíficos)
que no se comparten con el grupo externo (una mutación singleton es una variante de nucleótido que aparece solo una vez
entre las secuencias). El número total de mutaciones en ramas externas de la genealogía es entonces
calculado como la suma del número de mutaciones en las ramas externas de cada sitio polimórfico.

Las estadísticas de las pruebas D y F también se pueden calcular usando S, el número de sitios segregantes en lugar de η,
el número total de mutaciones (ver Simonsen et al. 1995). Bajo el modelo de sitios infinitos (con dos diferentes
nucleótidos por sitio) los valores de D y F deben ser iguales (S y η tienen el mismo valor). Sin embargo, si
hay sitios que segregan por más de dos nucleótidos, los valores de S serán más bajos que los de η.
DnaSP utiliza los valores críticos obtenidos por Fu y Li 1993 (prueba de dos colas, Tablas 2 y 4) para determinar
la significación estadística de los estadísticos de prueba D y F. Tenga en cuenta que estos valores fueron obtenidos por computadora
simulaciones considerando que el verdadero valor de θ cae en el intervalo [2, 20]; para que los valores críticos sean
77/112
Página 78
no es aplicable cuando el valor real de θ no está en ese intervalo. DnaSP no determinará los valores críticos para
tamaños de muestra superiores a 300. Para tamaños de muestra 100-300, DnaSP utiliza los mismos valores críticos que para
n = 100; la razón es que los valores críticos aumentan (o disminuyen) con ln (n), de modo que cuando n es grande,
La curva de valores críticos se vuelve plana (Fu, comunicación personal).
( nd , no determinado; #, P <0,10; *, P <0,05; **, P <0,02).

DnaSP también puede proporcionar los intervalos de confianza de Fu y Liʼs D y F, Fay y Wuʼs Hn, el
E de Zeng y la Y de Achaz mediante simulaciones por computadora usando el algoritmo coalescente (ver Coalescente
Simulaciones ).

Esta opción calcula los valores D y F, y su significación estadística, mediante el método de ventana deslizante .
El resultado del análisis se da en una cuadrícula (tabla). Los resultados también se pueden presentar gráficamente (por una línea
gráfico). En el gráfico, los valores D y F (eje Y) se pueden representar frente a la posición de los nucleótidos (eje X).
Test de HKA, Hudson, Kreitman y Aguadé
Prueba de Hudson, Kreitman y Aguadé (Prueba HKA)

Referencias: Hudson et al. 1987 Kimura 1983 Nei 1987
Este comando realiza la prueba de Hudson, Kreitman y Aguadé (1987) (prueba HKA). La prueba se basa en
la teoría neutra de la evolución molecular (Kimura 1983) predice que las regiones del genoma que evolucionan
a tasas altas también presentará altos niveles de polimorfismo dentro de las especies. La prueba requiere datos de uno
comparación interespecífica de al menos dos regiones del genoma, y también datos de la intraespecífica
polimorfismo en las mismas regiones de al menos una especie.
secuencias externas) deben definirse (consulte: comando Definir conjuntos de secuencias ).

El archivo de datos intraespecíficos debe contener al menos dos secuencias, mientras que el archivo de datos interespecíficos puede contener
una o más secuencias.

Los sitios que contienen brechas de alineación (o sitios con datos faltantes) en cualquier archivo de datos no se utilizan (estos sitios son
Implementación:
La prueba se realiza considerando datos intraespecíficos de una sola especie (Hudson et al. 1987, ecuación 6).
Si hay más de una secuencia en el archivo de datos interespecíficos, el polimorfismo intraespecífico será
ignorado sin embargo, esta información se considerará al calcular la divergencia interespecífica. El estimado
de D, la divergencia entre especies, se obtiene como el número promedio de diferencias entre el ADN
secuencias de las especies 1 y 2; es decir, D se estima de la misma forma que Dxy (Nei 1987, ecuación
10.20) pero por secuencia.
Regiones (loci):
78/112
Página 79
DnaSP realiza la prueba HKA de solo dos regiones. Estas regiones pueden ser dos
segmentos de sitios del archivo de datos.
Ubicación cromosómica:
DnaSP asume que las dos regiones (loci) están ubicadas en el mismo cromosoma (las dos regiones comparadas
son del mismo archivo de datos); es decir, ambos están en cromosomas autosómicos o en cromosomas sexuales. Incluso
Sin embargo, la significancia estadística de la prueba HKA será la misma en ambos casos, diferentes estimaciones de
se espera el tiempo de divergencia o theta; por lo que conviene indicar el cromosoma donde
se encuentra la región. DnaSP ha considerado que la expectativa de π es 4Nμ para autosómica, 3Nμ para ligada al cromosoma X
genes, y Nμ para genes ligados a Y [hemos modificado ligeramente las ecuaciones de Begun y Aquadro (1991) para
comparaciones entre genes autosómicos (o ligados a X) con genes ligados a Y].
Puede comparar regiones ubicadas en autosomas con regiones en cromosomas sexuales usando el módulo HKA
prueba. Modo directo .
Sustituciones consideradas:
Todas las sustituciones: se utilizan todas las sustituciones (excluidas las sustituciones en sitios con lagunas o datos faltantes).
Sustituciones silenciosas: solo se utilizan sustituciones silenciosas (sustituciones sinónimos y cambios en
posiciones no codificantes). Si el archivo de datos no contiene regiones de codificación asignadas, todos los sitios se considerarán
posiciones no codificantes; es decir, todas las sustituciones se considerarán silenciosas.
Sustituciones sinónimos: solo se utilizan sustituciones sinónimos (sustituciones en la región codificante
que no provoquen cambios de aminoácidos). Esta opción funciona solo si el archivo de datos contiene secuencias con
regiones de codificación asignadas (más ayuda en Asignar regiones de codificación y Asignar código genético ).
Nota: vea cómo DnaSP estima los cambios sinónimos y no sinónimos en un codón .
Producción:
El presente módulo muestra el siguiente resultado:
Estimaciones del tiempo de divergencia (medido en 2N generaciones, donde N es la población efectiva
Talla),
Estimaciones de theta (θ) por nucleótido en la región (locus) 1,
El valor de X-cuadrado y la significancia estadística.
La significancia estadística se obtiene asumiendo una distribución de χ-cuadrado con un grado de libertad.
DnaSP obtiene la probabilidad asociada con un valor particular de chi-cuadrado (con 1 grado de libertad) por
el método trapezoidal de integración numérica.
(#, P <0,10; *, P <0,05; **, P <0,01; ***, P <0,001).
Ver también:
Para comparar regiones autosómicas y ligadas al sexo, o para realizar la prueba HKA con datos de polimorfismo con
diferente número de secuencias en las dos regiones, o con diferente número de sitios para el intraespecífico y
comparación interespecífica se debe utilizar el módulo HKA test -Direct Mode- .
Prueba de McDonald y Kreitman
Prueba de McDonald y Kreitm

Referencias: Fay et al. 2001 Kimura 1983 McDonald y Kreitman 1991 Rand y Kann 1996
79/112
Página 80
Este comando conduce la prueba de la hipótesis neutral (Kimura 1983) propuesta por McDonald y
Kreitman (1991). La prueba se basa en una comparación de sinónimos y no sinónimos (reemplazo)
variación dentro y entre especies. Bajo neutralidad, la relación entre reemplazo y sinónimo fijo
sustituciones (diferencias) entre especies deben ser iguales a la proporción de reemplazo a sinónimos
polimorfismos dentro de las especies.

Los codones que contienen huecos de alineación (o codones con datos faltantes) en cualquier especie no se utilizan (estos codones
están completamente excluidos).
Para el presente análisis, se deben definir al menos dos conjuntos de secuencias (uno para cada especie) (ver:
Comando Definir conjuntos de secuencias ).
DnaSP realiza la prueba de McDonald y Kreitman a partir de la información de secuencia incluida en los archivos de datos. DnaSP
calcula:
Número de sustituciones sinónimas (polimórficas) dentro de la especie,
Número de cambios (polimórficos) no sinónimos (de reemplazo) dentro de las especies,
Número de sustituciones sinónimos fijadas entre especies,
Número de diferencias no sinónimas (de sustitución) fijadas entre especies,
y para esta información calcula la tabla de contingencia 2 x 2.
Un sitio de nucleótidos fijo entre especies es un sitio en el que todas las secuencias de una especie contienen nucleótidos
variantes que no están en la segunda especie.
Sustituciones silenciosas consideradas:

Sustituciones en regiones de codificación: solo se considerarán sustituciones sinónimos (región de codificación).
En regiones de codificación y no codificación: se considerarán todas las sustituciones silenciosas (sinónimos
sustituciones y cambios en posiciones no codificantes). Si el archivo de datos no contiene regiones de codificación asignadas
todos los sitios se considerarán posiciones sin codificación; es decir, todas las sustituciones se considerarán silenciosas.
Cómo estima DnaSP los cambios sinónimos y no sinónimos en un codón (prueba MK):
En general, DnaSP utiliza un criterio conservador para decidir si un cambio particular en un sitio de nucleótidos es
sinónimo o reemplazo (vea los siguientes ejemplos). No obstante, el usuario debe comprobar el
casos complejos (los tripletes de sitios que se segregan para varios codones; es decir, en regiones muy variables).
Ejemplo usando el Código Genético Universal Nuclear
Especie # 1
3 6 9 12 15 18 21 24 27
* * * * * * * * *
AGT TCT ATT CCC AAT ATA AGT UAU UAU
AGC TCT ATT CCC AGG TTA AGT UAU UAU
AGA TCT CTG CAG ACT TTG AGA CUG CUG
AGG TCT CTG CAG ACT ATG AGA CUG CUG
Especie # 2
AGG CCT ATT CCC GGA TTT GGA CUG CUG
AGG CCT ATT CCC GGA TTT GGA CUG CUG
AGG CCT ATT CAC GGA TTT GGT CUG CUU
AGG CCT ATT CAC GGA TTT GGT CUG CUU
Codón (1,2,3):
especie # 1: 3 mutaciones en el sitio # 3: 1 reemplazo, 2 sinónimos.
80/112
Página 81
especie # 2: Monomorfa.
dentro de la especie: 1 reemplazo y 2 sinónimos (sitio # 3).
diferencias fijas: 0
Codón (4,5,6):
especie # 1: Monomórfica.
dentro de la especie: 0.
diferencias fijas: 1 reemplazo (sitio 4).
Codón (7,8,9):
especie n. ° 1: el sitio n. ° 7 es de reemplazo; El sitio # 9 es sinónimo.
Si hay dos caminos posibles:
Ruta n. ° 1: ATT (Ile) -> CTT (Leu) -> CTG (Leu) Reemplazo del sitio n. ° 7; Sitio # 9 Sinónimo
Ruta n. ° 2: ATT (Ile) -> ATG (Met) -> CTG (Leu) Reemplazo del sitio n. ° 7; Reemplazo del sitio # 9
DnaSP elegirá la ruta n. ° 1, la ruta que requiere la menor cantidad de reemplazos (sin embargo, consulte la siguiente
codón).
dentro de las especies: 1 reemplazo, 1 sinónimo.
diferencias fijas: 0.
Codón (10,11,12):
especie n. ° 1: el sitio n. ° 11 es de reemplazo; El sitio # 12 es de reemplazo.
Aquí también hay dos caminos posibles:
Ruta n. ° 1: CCC (Pro) -> CCG (Pro) -> Reemplazo del sitio n. ° 11 de CAG (Gln); Sitio # 12 Sinónimo
Ruta # 2: CCC (Pro) -> CAC (His) -> Reemplazo del sitio # 11 de CAG (Gln); Reemplazo del sitio # 12
Sin embargo, DnaSP elegirá la ruta # 2. Si hay dos caminos posibles y uno de los codones no existentes (p. Ej.
CAC en este caso) se encuentra en las otras especies, DnaSP asume que el verdadero camino evolutivo es el camino
con ese codón (es decir, la ruta # 2 en el presente ejemplo).
especie n. ° 2: el sitio n. ° 11 es de reemplazo.
dentro de la especie: 2 reemplazos (sitio # 11 y sitio # 12)
diferencias fijas: 0
Codón (13,14,15):
especie # 1: Sitio # 14 (2 reemplazos); El sitio # 15 es sinónimo.
Aquí hay cuatro caminos posibles:
Ruta n. ° 1: ACT (Thr) -> AAT (Asp) -> AGT (Ser) -> AGG (Arg) Sitio n. ° 14 (2 reemplazos); Sitio # 15 (1
Reemplazo).
Ruta # 2: ACT (Thr) -> AAT (Asp) -> AAG (Lys) -> AGG (Arg) Sitio # 14 (2 reemplazos); Sitio # 15 (1
Reemplazo).
Ruta # 3: AAT (Asn) -> ACT (Thr) -> AGT (Ser) -> AGG (Arg) Sitio # 14 (2 reemplazos); Sitio # 15 (1
Reemplazo).
Ruta # 4: AAT (Asn) -> ACT (Thr) -> ACG (Thr) -> AGG (Arg) Sitio # 14 (2 reemplazos); Sitio # 15 (1
Sinónimo).
DnaSP elegirá la ruta # 4, la ruta que requiere la menor cantidad de reemplazos.
dentro de la especie: 2 reemplazos (sitio # 14) y 1 sinónimo (sitio # 15)
diferencias arregladas: 2, el sitio # 13 es de reemplazo; El sitio # 15 es sinónimo.
Para calcular las diferencias fijas, DnaSP verificará todas las rutas entre los codones de las dos especies y
elija la ruta con el menor número de cambios. Si hay varios caminos con el mismo número de
diferencias, DnaSP elegirá la ruta con el menor número de cambios de reemplazo.
Codón (16,17,18):
81/112
Página 82
especie # 1: Sitio # 16 (1 reemplazo); Sitio # 18 (1 sinónimo).

Aquí hay un camino circular:
ATA (Ile) -> TTA (Leu)
¡!
ATG (Met) <- TTG (Leu)
Supongamos que el número de mutaciones fuera solo dos (una en el sitio 16 y otra en el sitio 18), DnaSP
debe asumir un evento de recombinación, el evento de recombinación que requiere el menor número de
sustituciones de reemplazo:
| TTG (Leu)
TTA (Leu) -> | recomb: ATG (Met)
| ATA (Ile)
dentro de la especie: Sitio # 16 (1 reemplazo); Sitio # 18 (1 sinónimo).
diferencias arregladas: 1, el sitio # 18 es de reemplazo.
Nota: Este tipo de codones se analizará solo para códigos genéticos nucleares.
Codón (19,20,21):
especie # 1: 1 reemplazo (sitio # 21).
especie # 2: 1 sinónimo (sitio # 21).
dentro de la especie: 1 reemplazo (sitio # 21).
Si hay discordancia entre el reemplazo y los cambios sinónimos dentro de las especies (para el mismo
variantes de nucleótidos), DnaSP elegirá el caso con más sustituciones de reemplazo.
diferencias arregladas: 1 reemplazo (sitio # 19).
Codón (22,23,24):
especie # 1: Hay 3 cambios entre codones. De modo que hay 6 caminos evolutivos putativos (en este
En particular, solo hay 4 porque excluimos las rutas que pasan por codones de parada). DnaSP hará
elija uno de los siguientes caminos:
2 reemplazos (Sitio # 22 y Sitio 23), y 1 sinónimo (Sitio # 24) y
2 reemplazos (Sitio # 23 y Sitio 24) y 1 sinónimo (Sitio # 22).
(sin embargo, consulte también el siguiente codón).
dentro de la especie: lo mismo que para la especie # 1.
Codón (25,26,27):
El presente ejemplo es similar al ejemplo anterior del codón (22,23,24). Aquí, sin embargo, hay variación
en la especie # 2. En este caso, DnaSP verificará los codones en la especie # 2 para decidir la asignación de
especie # 1 .
especie # 1: 2 reemplazos (sitio # 22 y sitio 23), y 1 sinónimo (sitio # 24).
especie # 2: 1 sinónimo (Sitio # 24).
dentro de las especies: 2 reemplazos (Sitio # 22 y Sitio 23), y 1 sinónimo (Sitio # 24).
Producción:
Codones no analizados:
DnaSP no estima cambios de sinónimos y de reemplazo en algunos casos complejos
(codones
El usuarioambiguos / complejos;
debe hacerlo aquellos sitios que se segregan para varios codones; es decir, en regiones muy variables).
manualmente.
DnaSP no estima cambios sinónimos y de reemplazo en codones con huecos de alineación.
Índice de neutralidad: indica hasta qué punto los niveles de polimorfismo de aminoácidos se apartan del
esperado en el modelo neutral (Rand y Kann, 1996).
Valor alfa ( α ): indica la proporción de sustituciones de aminoácidos impulsadas por la selección positiva (Fay et al.
82/112
Página 83
2001).
Tanto la prueba exacta de Fisher de dos colas como la prueba G de independencia se calculan para determinar si
desviaciones en la proporción de reemplazo a sinónimos (sustituciones fijas entre especies vs.
polimorfismos dentro de las especies) son o no significativos. DnaSP obtiene la probabilidad asociada con el G
valor (con 1 grado de libertad) por el método trapezoidal de integración numérica.
Prueba de Tajima
Prueba de Tajima
Referencias: Kimura 1983 Tajima 1983 Tajima 1989
Este comando calcula el estadístico de prueba D propuesto por Tajima (1989), ecuación 38, para probar la
hipótesis de que todas las mutaciones son selectivamente neutrales (Kimura 1983). La prueba D se basa en las diferencias
entre el número de sitios segregantes y el número medio de diferencias de nucleótidos.

El archivo de datos debe contener al menos cuatro secuencias.

Los sitios que contienen brechas de alineación (o sitios con datos faltantes) no se utilizan (estos sitios están completamente
excluido).
Análisis:
La prueba de Tajima se basa en la predicción del modelo neutral de que las estimaciones de S / a1 y de k son insesgadas
estimaciones de θ,
dónde,
S, es el número total de sitios segregados.
a1 = Σ (1 / i) de i = 1 a n-1

La estadística de la prueba D también se puede calcular usando η, el número total de mutaciones (ver prueba de Fu y Li),
en lugar de S, el número total de sitios segregantes. Bajo el modelo de sitios infinitos (con dos diferentes
nucleótidos por sitio) las estimaciones de la estadística de la prueba D basadas en S y en η deben ser las mismas (S y η
tienen el mismo valor). Sin embargo, si hay sitios que se segregan por más de dos nucleótidos, los valores de S
serán menores que los de η.
D de Tajima sobre cambios sinónimos, no sinónimos y silenciosos:

Si se ha definido la región de codificación (comando Asignar regiones de codificación en el menú Región de codificación ),
DnaSP también calculará:
• D de Tajima sobre cambios sinónimos, D (Syn).
• D de Tajima sobre cambios no sinónimos, D (NonSyn).
83/112
Página 84
• D de Tajima sobre cambios silenciosos (sinónimos y sin codificación), D (Sil).

• Relación D (NonSyn) / D (Syn) de Tajima.
Los límites de confianza de D (prueba de dos colas) se obtienen asumiendo que D sigue la distribución beta (Tajima
1989, ecuación 47), es decir, los límites de confianza dados en la Tabla 2 de Tajima (1989). Tenga en cuenta que los valores críticos
no se determinará para tamaños de muestra superiores a 1000.
( nd , no determinado; #, P <0,10; *, P <0,05; **, P <0,01; ***, P <0,001).

DnaSP también puede proporcionar los intervalos de confianza del Tajimaʼs D mediante simulaciones por computadora utilizando el
algoritmo coalescente (ver: Simulaciones coalescentes ).

Esta opción calcula la estadística de la prueba D y los límites de confianza de D mediante el método de ventana deslizante . los
La salida del análisis se da en una cuadrícula (tabla). Los resultados también se pueden presentar gráficamente (por una línea
gráfico). En el gráfico, el valor D se puede representar frente a la posición del nucleótido (eje X).
84/112
Página 85
Menú de descripción general

Referencias: Achaz 2008 Achaz 2009 Ewens 1972 Fu y Li1993 Fu 1997 Nei 1987 Strobeck 1987
Tajima 1993 Tajima 1989 Watterson 1975
Este comando calcula una serie de medidas de la extensión del polimorfismo del ADN y también realiza
algunas pruebas de neutralidad comunes. Utilice este comando para obtener un resumen del análisis de datos.
El presente análisis requiere solo un archivo de datos.
Análisis:
Contenido de G + C
• G + Cc, contenido G + C en posiciones de codificación.
Diversidad de haplotipos / nucleótidos

• El número de haplotipos NHap, (Nei 1987, p. 259).
2n por n).
secuencias (Nei 1987, ecuaciones 10.5 o 10.6) y su varianza muestral (Nei 1987, ecuación 10.7).
• Theta (por gen o por sitio) de Eta (η) o de S, (Watterson 1975, ecuación 1.4a; Nei 1987,
ecuación 10.3). Theta (θ) = 4Nμ para un gen autosómico de un organismo diploide (N y μ son los
tamaño efectivo de la población y la tasa de mutación -por gen o por sitio- por generación, respectivamente),
Eta (η) es el número total de mutaciones y S es el número de sitios segregantes (polimórficos).
Pruebas de neutralidad
• Tajimaʼs D, (Tajima 1989, ecuación 38).
• Fu y Liʼs D *, (Fu y Li 1993; calculado para posiciones bialélicas).
• Fu y Liʼs F *, (Fu y Li 1993, Achaz 2009; calculado para posiciones bialélicas).
• Achaz Y *, (Achaz 2008, ecuación 21; calculada para posiciones bialélicas).
• Fuʼs Fs, (Fu 1997, ecuación 1).
• La S de Strobeck (Strobeck 1987; ver también Fu 1997).
• DnaSP también proporciona la probabilidad de obtener una muestra con un número de haplotipos igual al
número observado.
otro) Prueba las pruebas de Fu y Li (y otras) con una prueba de Tajima de un grupo externo
85/112
Página 86

La varianza muestral de Pi no se calcula para tamaños de muestra superiores a 500.
Abreviaturas:
na, no disponible.
nd, no determinado.

Referencias: Achaz 2008 Achaz 2009 Ewens 1972 Fu y Li1993 Fu 1997 Nei 1987 Strobeck 1987
Tajima 1993 Tajima 1989 Watterson 1975 Zeng et al 2006
Este comando calcula una serie de medidas de la extensión del polimorfismo del ADN y también realiza
algunas pruebas de neutralidad comunes. Utilice este comando para obtener un resumen del análisis de datos.
Análisis:
Contenido de G + C
• Contenido de G + C, G + C en la región genómica.

2n por n).
secuencias (Nei 1987, ecuaciones 10.5 o 10.6) y su varianza muestral (Nei 1987, ecuación 10.7).
• Theta (por gen o por sitio) de Eta (η) o de S, (Watterson 1975, ecuación 1.4a; Nei 1987,
ecuación 10.3). Theta (θ) = 4Nμ para un gen autosómico de un organismo diploide (N y μ son los
tamaño efectivo de la población y la tasa de mutación -por gen o por sitio- por generación, respectivamente),
Eta (η) es el número total de mutaciones y S es el número de sitios segregantes (polimórficos).
• Fu y Liʼs D *, (Fu y Li 1993; calculado para posiciones bialélicas
• Fu y Liʼs F *, (Fu y Li 1993, Achaz 2009; calculado para posiciones bialélicas).
• Achazʼs Y *, (Achaz 2008, ecuación 21; calculada para posiciones bialélicas)
• El Strobeckʼs S (Strobeck 1987; ver también Fu 1997).
• DnaSP también proporciona la probabilidad de obtener una muestra con un número de haplotipos igual al
número observado.
86/112
Página 87
Pruebas que utilizan información de un grupo externo

• Fu y Liʼs D, (Fu y Li 1993; calculado para posiciones bialélicas
• Fu y Liʼs F, (Fu y Li 1993, Achaz 2009; calculado para posiciones bialélicas).
• Fay y Wuʼs Hn (normalizado) (Fay y Wu 2000, Zeng et al. 2006; calculado para posiciones bialélicas).
• Achazʼs Y, (Achaz 2008, ecuación 21; calculada para posiciones bialélicas)
• Zeng y col. E (Zeng et al. 2006, ecuación 13; calculada para posiciones bialélicas)
Divergencia
• K (JC), número promedio de sustituciones de nucleótidos por sitio entre especies en el conjunto de datos 1 y el
primera secuencia en el conjunto de datos 2, con corrección de Jukes y Cantor (Nei 1987, ecuación 5.3).
Nota: Para calcular Fu y Liʼs D, Fu y Liʼs F y Fay y Wu H, DnaSP utilizará solo la primera
secuencia del conjunto de datos del exogrupo (Población / Especie # 2) para polarizar las mutaciones.
otro) Prueba las pruebas de Fu y Li (y otras) con una prueba de Tajima de un grupo externo
Abreviaturas:
na, no disponible.
nd, no determinado. La varianza muestral de Pi no se calculará si el tamaño de la muestra es mayor que
500.
Ver también :Definir conjuntos de dominios
DnaSP permite analizar datos de polimorfismo de ADN en regiones funcionales específicas (consulte Definir conjuntos de dominios),
por ejemplo; exones, intrones, etc. Puede calcular una serie de medidas de la extensión del polimorfismo del ADN
y también puede realizar algunas pruebas de neutralidad comunes.

• El número de sitios de segregación, S
• Diversidad de haplotipos (genes) y su varianza de muestreo (Nei 1987).
• Diversidad de nucleótidos, Pi (π), (Nei 1987), y su varianza muestral (aún no implementada) (Nei 1987,
ecuación 10.7).
• El número medio de diferencias de nucleótidos, k (Tajima 1983).
• Theta (por gen o por sitio) de Eta (η) o de S, (Watterson 1975; Nei 1987).
• Tajimaʼs D, (Tajima 1989), y su significación estadística.
• Fu y Liʼs D *, (Fu y Li 1993), y su significación estadística.
• Fu y Liʼs F *, (Fu y Li 1993), y su significación estadística.
• Fuʼs Fs, (Fu 1997).
87/112
Página 88
Producción
Los resultados se presentan en una cuadrícula (tabla). Puede guardar estos resultados en un archivo de texto que se puede abrir con
cualquier hoja de cálculo (como Excel).
Ejemplo
Los siguientes resultados representan la salida del análisis de dominio OS-E_gene (ejemplo de archivo de datos:
DmelOsRegions.nex):
Dominio de población Región norte Sitios NetSites

All_Seqs OS-E_gene 2334..2870 17 417 417
All_Seqs OS-F_gene 6059..7091 17 405 405
La notación " .. " indica que no se han analizado todas las posiciones dentro del rango de dominio (2334..2870).
Por ejemplo, en el dominio OS-E_gene, solo se han analizado las posiciones que pertenecen a los subdominios
(2334-2402, 2468-2542 y 2598-2870).
El símbolo " - " indica que se han analizado todas las posiciones dentro del rango.
Abreviaturas:
nd, no determinado (aún no implementado).
na, no disponible.
88/112
Página 89
Generar menú
DnaSP le permite crear un archivo de datos concatenados (formato NEXUS), es decir, un archivo de big data que contiene
Información de la secuencia de ADN de varios archivos de datos individuales.
Supuestos
Todos los archivos deben tener el mismo número de secuencias y en el mismo orden .
DnaSP genera el archivo de datos concatenados agregando consecutivamente archivos de datos individuales a la derecha.
Opción de archivos de datos individuales

Longitud real: para un solo archivo de datos, DnaSP utilizará la información de la secuencia de ADN seleccionada en la región
para analizar el cuadro.
Longitud fija: todos los archivos de datos contribuirán con un número fijo (X nucs) de sitios. Si los datos actuales (únicos)
El archivo tiene menos de X sitios, DnaSP se complementará con la información faltante. Por el contrario, si la corriente
archivo de datos tiene más de X sitios, DnaSP utilizará solo los primeros X sitios.
Notas
Cualquier asignación de codón presente en archivos de datos individuales se guardará en el archivo concatenado. El concatenado
El archivo también guardará la información del conjunto de población presente solo en el primer archivo de datos individual.

Referencias: Kimura 1983 McDonald 1996 McDonald 1998
La teoría neutral de la evolución molecular predice que los niveles de polimorfismo estarán correlacionados con
niveles de divergencia entre especies (Kimura 1983; ver también prueba HKA). McDonald (1996, 1998) ha
propuso algunas pruebas para detectar heterogeneidad en el polimorfismo a la relación de divergencia en una región de
ADN. Estas pruebas se basan en la distribución de sitios polimórficos y diferencias fijas en un ADN.
región. DnaSP busca sitios polimórficos y diferencias fijas y puede generar un archivo de datos que puede
ser leído por el programa DNA Slider (McDonald 1998). El programa DNA Slider realizará las pruebas
descrito en McDonald (1996, 1998).
secuencias externas) deben definirse (consulte: Datos | comando Definir conjuntos de secuencias ).

89/112
Página 90
Implementación:
Si hay más de una secuencia en el archivo de datos interespecíficos, DnaSP asignará una sustitución como
Diferencia fija si (en un sitio en particular) todas las variantes de nucleótidos del archivo 1, difieren de las del archivo 2.
Los sitios con tres de cuatro variantes de nucleótidos se tratan como si estuvieran en sitios adyacentes y el polimorfismo:
las diferencias fijas se colocan en el orden que maximiza el número de carreras (véase McDonald 1996).
Todas las sustituciones: se utilizan todas las sustituciones (excluidas las sustituciones en sitios con lagunas o datos faltantes).
Sustituciones silenciosas: solo se utilizan sustituciones silenciosas (sustituciones sinónimos y cambios en
posiciones no codificantes). Si el archivo de datos no contiene regiones de codificación asignadas, todos los sitios se considerarán
posiciones no codificantes; es decir, todas las sustituciones se considerarán silenciosas.
Sustituciones sinónimos: solo se utilizan sustituciones sinónimos (sustituciones en la región codificante
que no provoquen cambios de aminoácidos). Esta opción funciona solo si el archivo de datos contiene secuencias con
regiones de codificación asignadas (más ayuda en Asignar regiones de codificación y Asignar código genético ).
Nota:
DnaSP no realiza las pruebas descritas en McDonald (1996, 1998); pero puede crear el archivo de datos con
la información relevante para la prueba. El programa DNA Slider puede leer este archivo de datos.
Programa deslizante de ADN:

Es un programa de Macintosh que realiza las pruebas de heterogeneidad descritas en McDonald (1996, 1998). usted
puede descargar el programa desde la página web de John McDonald:
http://udel.edu/~mcdonald
http://udel.edu/~mcdonald/aboutdnaslider.html
Archivo de datos de posiciones filtradas
Este comando permite al usuario eliminar algunas posiciones. El módulo DnaSP genera un archivo de datos NEXUS
incluida información sobre los sitios polimórficos.
Posiciones seleccionadas:
DnaSP puede seleccionar los siguientes tipos de posiciones:
Posiciones de codificación y no codificación;
Posiciones del primer, segundo y tercer codón;
Posiciones degeneradas de cero, dos y cuatro partes;
Ejemplo (usando el código genético universal nuclear):

Cómo selecciona DnaSP las posiciones degeneradas X-fold
3 6 9
* * *
LEY ATA TTA
ATA TTA GAT
ATA TTA -CT
90/112
Página 91
Las posiciones 1, 2, 5, 7 y 8 son posiciones degeneradas por cero.

La posición 3 es una posición degenerada triple.
Las posiciones 4 y 6 son posiciones degeneradas dobles.
La posición 9 podría ser ai) cuatro veces degenerada (codón ACT), o ii) dos veces degenerada (codón GAT).
DnaSP no incluirá esa posición ni para las posiciones degeneradas dobles ni para las degeneradas cuádruples.
posiciones.
No se consideran los codones con información faltante o espacios de alineación.
Posiciones con opción de huecos de alineación:

Incluido: Estos sitios están incluidos.
Opción de posiciones:
Eliminar posiciones no seleccionadas: las posiciones no seleccionadas se eliminarán definitivamente del activo
datos.
Generar un archivo NEXUS con seleccionado: las posiciones seleccionadas se incluirán en un archivo de datos NEXUS. los
El archivo de datos activo mantendrá todas las posiciones.
Archivo de sitios polimórficos
Archivo de datos de sitios polimórficos / variables
Este módulo genera un archivo de datos NEXUS que incluye información sobre sitios polimórficos.

Incluido: estos sitios están incluidos en el archivo.
Todas las sustituciones: se incluirán todos los sitios polimórficos.
Silencioso (región de codificación sinónima y región sin codificación): solo silencioso (es decir, posiciones sin codificación
además de sitios sinónimos en la región de codificación) se incluirán sitios polimórficos.
Solo sinónimos: solo se incluirán los sitios polimórficos sinónimos (en la región de codificación).
Solo no sinónimo : solo se incluirán los sitios polimórficos no sinónimo.
Consejos:
Puede utilizar este módulo para realizar las pruebas de Fu y Li (Fu y Li 1993) (u otras pruebas) utilizando solo
cambios sinónimos (o no sinónimos):
1. Debe generar un archivo de datos solo con sustituciones sinónimos (o no sinónimos).
Generar-> Polimorfismo / Archivo de datos de sitios variables-> solo sinónimos (o no sinónimos
sustituciones).
2. Realice la prueba de Fu y Li en estos nuevos archivos de datos.
91/112
Página 92

Referencias: Bandelt et al. 1999 Hudson y col. 1992 Schneider y col. 2000
Este módulo genera archivos de datos con información sobre datos de haplotipos. Los resultados se pueden guardar en un NEXUS o
Archivos de datos de Roehl.

No considerado: estos sitios se ignoran (eliminación completa).
Considerado: Los huecos se consideran como otra variante de nucleótidos (quinto estado).
Solo se consideran las lagunas: solo la información de las lagunas se considera para los haplotipos construidos.
Opción de sitios invariables:

Eliminado: los sitios invariables (monomórficos) no se incluirán en el archivo de salida.
Incluido: los sitios invariables (monomórficos) se incluirán en el archivo de salida.
Generar opción:
Archivo de datos NEXUS: la información del haplotipo se almacenará en un archivo de datos NEXUS. Más tarde, este archivo podría ser
abierto por DnaSP y puede exportarse en otro formato de archivo de datos.
Archivo de proyecto Arlequin: DnaSP creará un archivo de proyecto Arlequin (* .arp) con información de haplotipos. Esta
El formato de archivo es el formato aceptado por el software Arlequin.
Archivo de datos de Roehl: la información del haplotipo se almacenará en un archivo de datos de Roehl (Röhl) (datos multiestado). Esta
El formato de archivo es el formato aceptado por el software de red. Ese programa permite reconstruir intraespecíficas
filogenias (análisis de redes).
El software Arlequin ( Schneider et al.2000)

Arlequin es un software para el análisis de genética de poblaciones y se distribuye desde:
http://cmpg.unibe.ch/software/arlequin35/Arlequin35.html
Software de red ( Bandelt et al. 1999 )

El software Phylogenetic Network Analysis fue escrito por Arne Röhl y se distribuye de forma gratuita desde:
http://fluxus-engineering.com/sharenet.htm
En este módulo, DnaSP traducirá la secuencia de nucleótidos en una secuencia de aminoácidos y generará una
Archivo de datos NEXUS con esa información. Este comando funciona solo si las regiones de codificación y la genética
El código se ha definido previamente (más ayuda en Asignar regiones de codificación y Asignar código genético ).
Archivo de datos:
Nota:
DnaSP no puede leer archivos de datos NEXUS con información de proteínas. Puedes leer esa información con
92/112
Página 93
MacClade o con cualquier procesador de textos.
Este módulo genera un archivo de datos NEXUS que incluye los datos de secuencia en el complemento inverso
dirección. Esta opción sería interesante para el análisis de sinónimos y no sinónimos
sustituciones en archivos de datos con regiones de codificación transcritas en ambas direcciones. DnaSP solo puede analizar
variación de nucleótidos en sitios sinónimos y no sinónimos si las regiones de codificación (en el archivo de datos) están en el
5ʼ -> 3 direcciones. Si las regiones de codificación se transcriben en la dirección opuesta:
1. debe generar el archivo de datos de complemento inverso;

2. definir las regiones de codificación;
3. realizar el análisis apropiado.
Preparar el envío a bases de datos EMBL / GenBank
Preparar el envío para bases de datos EMBL / GenBank
Este comando genera un archivo de texto con la información relevante para el envío de la secuencia de ADN.
información a la base de datos de secuencias de nucleótidos (EMBL / GenBank / DDBJ). Este comando es apropiado
para los investigadores que deseen enviar múltiples secuencias relacionadas (consulte las presentaciones masivas en el EMBL
Información de la base de datos de secuencias de nucleótidos). Si las regiones de codificación se han definido previamente (ver
Asignar el comando Coding Regions ), DnaSP incluirá información sobre las regiones exónicas / intrónicas.
Más información sobre las bases de datos EMBL / GenBank:

http://www.ebi.ac.uk/ena/submit
93/112
Página 94
Referencias: Ewens 1972 Fu 1997 Jukes y Cantor 1969 Sokal y Rohlf 1981 Strobeck 1987 Tajima
1989 Watterson 1975
Este menú tiene los siguientes comandos:
Simulaciones coalescentes
Distribuciones discretas
Utilice este comando para calcular las probabilidades, el valor esperado y la varianza de algunas distribuciones:
Binomial, Hipergeométrica y Poisson.
La opción de Ewens permite calcular el estadístico S de Strobeck (Strobeck 1987; ver también Fu 1997), el
Estadístico Fs (Fu 1997), y la probabilidad (y el valor esperado) de obtener un número particular de
haplotipos (Ewens 1972, ecuaciones 19-21, 24). Consulte también el comando Pruebas de Fu y Li .
Pruebas de independencia: tabla 2 x 2

Este comando permite probar la independencia en tablas de 2 x 2 (tablas de contingencia). DnaSP realiza tres
tipos de pruebas de independencia: prueba exacta de Fisher, prueba de chi-cuadrado (estándar y usando la corrección de Yates)
y prueba G (estándar y usando correcciones de Williams o Yates); (ver Sokal y Rohlf 1981). La probabilidad
asociado con un valor particular de chi-cuadrado o G (con 1 grado de libertad) se obtiene mediante el trapezoidal
método de integración numérica.
Calculadora evolutiva
Este comando muestra una calculadora que permite calcular algunos métodos evolutivos moleculares de uso común.
parámetros:
a1 = Σ (1 / i) de i = 1 a n-1
donde, n es el número de secuencias de nucleótidos (Watterson 1975; Tajima 1989, ecuación 3)
a2 = Σ (1 / i ^ 2) de i = 1 a n-1
donde, n es el número de secuencias de nucleótidos (Watterson 1975; Tajima 1989, ecuación 4)
K = (-3 / 4) Ln [1- (4p / 3)] i

s la corrección de Jukes y Cantor (1969), donde p es la proporción de diferentes nucleótidos entre dos
secuencias.
Simulaciones coalescentes (modelo de 1 locus | 1 pop)
Simulaciones coalescentes (modelo de 1 locus, 1 población)
Ver también: Polimorfismo de ADN Desequilibrio de enlace Cambios en el tamaño de la población Recombinación Fu y
94/112
Página 95
Pruebas de Li (y otras) Pruebas de Fu y Li (y otras) con una Prueba de Tajima de un grupo externo
Referencias: Achaz 2008 Achaz 2009 Depaulis y Veuille 1998 Fay y Wu 2000 Fu y Li 1993 Fu
1997 Harpending 1994 Hudson 1983 Hudson 1990 Hudson y Kaplan 1985 Kelly 1997 Nei 1987 Press
1992 Ramos-Onsins y Mitchell-Olds 2007 Ramos-Onsins y Rozas 2002 Rozas et al. 2001 Simonsen
et al. 1995 Tajima 1989 Wall 1999 Watterson 1975 Zeng et al. 2006
El proceso coalescente
En este módulo, DnaSP genera (bajo el modelo coalescente y para un locus único), el
distribuciones de algunos estadísticos de prueba resumidos. Estas distribuciones se generan asumiendo diferentes
escenarios demográficos. Estas distribuciones se utilizan para calcular los límites de confianza para un intervalo dado.
Se proporcionan pruebas de una y dos colas.
En este módulo, todas las simulaciones por computadora se realizan con un valor particular de theta (simulaciones
dado theta). Es decir, las mutaciones están distribuidas por Poisson a lo largo de los linajes usando la rutina poidev (Presione
et al. 1992), y utilizando la rutina ran1 (Press et al.1992 ) como fuente de números aleatorios (random
números distribuidos uniformemente dentro de un rango especificado).
Si el usuario desea calcular simulaciones coalescentes dado el número de sitios segregantes, debe usar el
vieja rutina de simulación coalescenteSimulaciones coalescentes -DnaSP v5 ). El proceso coalescente podría ser
realizado asumiendo que no hay recombinación (DnaSP genera la genealogía de los alelos usando una modificación
de la rutina make_tree ; Hudson 1990), o bajo niveles intermedios de recombinación (las genealogías son
generado como se describe en Hudson 1983, 1990). Las simulaciones están computando usando el mlcoalsim
(Ramos-Onsins y Mitchell-Olds, 2007) rutinas.
En este módulo, DnaSP no genera genealogías asumiendo recombinación libre ; si el usuario es
interesado en esa opción debería utilizar la vieja rutina de simulación coalescente (Simulaciones coalescentes -DnaSP
v5 ).
Valor theta (por gen)

Por lo general, se desconoce el valor theta (θ), en este caso ese valor se puede estimar a partir de los datos (ver: ADN
Módulos de polimorfismo y prueba de Tajima ). Theta (por gen) se puede estimar a partir de:
i) k, el número promedio de diferencias de nucleótidos
ii) S / a1, donde S es el número total de sitios segregantes
a1 = Σ (1 / i) de i = 1 a n-1
y n, el número de secuencias de nucleótidos
Opción de recombinación
R, es el parámetro de recombinación, R = 4Nr (para loci autosómicos de organismos diploides), donde N es el
tamaño efectivo de la población yr es la tasa de recombinación por gen -secuencia- (es decir, r es la recombinación
tasa por generación entre los sitios más distantes de la secuencia de ADN); ver también: la recombinación
módulo e información sobre el tamaño de la población efectiva .
Sin recombinación (R = 0). Se supone que no hay recombinación intragénica (R = 0); p.ej
datos de ADN mitocondrial.
Nivel intermedio de recombinación. Este es el caso de la mayoría de los genes nucleares. El usuario debe indicar
el valor R por gen. El valor R por sitio se establece automáticamente a partir del número de sitios.
Modelos demográficos (Ho)
95/112
Página 96
DnaSP implementa 5 modelos demográficos diferentes. De hecho, las estimaciones de DnaSP mediante simulaciones coalescentes
la distribución empírica (para cada uno de los estadísticos de resumen) bajo la correspondiente hipótesis nula (Ho). En todo
casos la hipótesis alternativa (H1) establece que los datos de la población no siguen el Ho
distribución.
1. Modelo neutro estándar (SNM)
2. Crecimiento de la población
3. Disminución de la población
4: Cuello de botella de población
5. Distribución y mezcla de la población
Símbolos y parámetros:
t1, unidades de tiempo antes del presente hasta el primer evento demográfico. Unidades en 4 generaciones
t2, unidades de tiempo antes del presente hasta el segundo evento demográfico (t2> = t1). Unidades en 4 generaciones
No, tamaño efectivo actual de la población

Las simulaciones coalescentes se calculan asumiendo un gran tamaño de población constante bajo el neutral
modelo de sitios infinitos (Hudson 1990).
Este modelo asume que la población sufrió un crecimiento poblacional, t1 unidades de tiempo antes del presente. t1
se mide en 4 generaciones.
Este modelo asume que la población sufrió una disminución poblacional, t1 unidades de tiempo antes del presente.
t1 se mide en generaciones 4No.

Este modelo asume que la población sufrió dos eventos demográficos. Una disminución de la población (unidades t2 de
tiempo antes del presente), y más tarde un crecimiento de la población (t1 unidades de tiempo antes del presente). t1 y t2 son
medido en 4 generaciones.

Este modelo asume que la población sufrió dos eventos demográficos. Una división de población (unidades t2 de
tiempo antes del presente), generando dos poblaciones de tamaños poblacionales efectivos N1A y N1B. Más tarde (t1
unidades de tiempo antes del presente) estas dos poblaciones entraron en contacto y se mezclaron (el evento de mezcla). t1 y
t2 se miden en generaciones 4No.
Resumen de estadísticas (por gen)

DnaSP puede generar la distribución empírica de las siguientes estadísticas resumidas:
• Theta-K (θ) (número medio de diferencias de nucleótidos, k), o diversidad de nucleótidos Pi (π) por gen (Nei 1987,
ecuaciones 10.5 o 10.6; pero por gen).
• Theta-W (θ, de S), (Watterson 1975, ecuación 1.4a). Este valor se establece automáticamente desde el
96/112
Página 97
número observado de sitios segregantes.

• Número de sitios de segregación, S.
• Número de haplotipos, h (Nei 1987, p. 259). Véase también Deapulis y Veuille 1998.
• Diversidad de haplotipos, Hd (Nei 1987, ecuación 8.4 pero reemplazando 2n por n ). Véase también Depaulis y Veuille
1998, eq. 1. Por cuidado; la prueba H definida en Depaulis y Veuille 1998 eq. 1, corresponde a: H = Hd *
(n-1) / n
• Tajimaʼs D, TD (Tajima 1989, ecuación 38).
• Fu y Liʼs D *, FLD * (Fu y Li 1993).
• Fu y Liʼs F *, FLF * (Fu y Li 1993, Achaz 2009).
• Achazʼs Y *, AY * (Achaz 2008, ecuación 21).
• R AMOS-Onsins y R de Ozas R 2 (Ramos-Onsins y Rozas 2002, la ecuación 1).
• Raggedness, r (Harpending 1994, ecuación 1).
• Recombinación, Rm, el número mínimo de eventos de recombinación (Hudson y Kaplan 1985,
Apéndice 2).
• Desequilibrio de ligamiento, ZnS de Kelly (Kelly 1997, ecuación 3).
• Desequilibrio de ligamiento, Za de Rozas (Rozas et al. 2001; ecuación 2).
• Desequilibrio de ligamiento, ZZ de Rozas (Rozas et al. 2001; ecuación 1). ZZ = Za - ZnS.
• Wallʼs B (Wall 1999).
• Wallʼs Q (Wall 1999).
• Fu y Liʼs D, FLD (Fu y Li 1993).
• Fu y Liʼs F, FLF (Fu y Li 1993, Achaz 2009).
• Fay y Wuʼs FWHn, FWHn (Fay y Wu 2000, Zeng et al. 2006).
• Achaz Y, AY (Achaz 2008, ecuación 21).
• Zeng E, ZE (Zeng et al. 2006, ecuación 13).
Valores observados
DnaSP captura el valor observado de una estadística particular utilizando la información del último análisis realizado
en DnaSP. No obstante, el usuario también puede (opcionalmente) proporcionar el valor observado.
En el valor observado se proporciona, DnaSP también estimará la probabilidad de obtener valores inferiores a
el observado (prueba de una cola). Por ejemplo, si el usuario indica un valor observado para la D del Tajima de
TD (obs) = -1.73, y la salida muestra que P (Sim <= Obs) = 0.01, significa que la probabilidad de obtener
Los valores D de Tajima (según el modelo demográfico correspondiente) iguales o inferiores a -1,73 (el observado) es
0,01.
Células coloreadas en amarillo. Resultados significativos (cola izquierda); eso es P (Sim <= Obs) <0.05
Celdas de color naranja. Casos en los que P (Sim <= Obs)> 0,95. Estos casos representan valores extremos (en
la cola derecha), aunque no necesariamente significativa; de hecho, los casos significativos serían aquellos con P (Sim
<= Obs)> = 0,95 . El usuario debe verificar los valores informados en las columnas del intervalo de confianza (IC) para
determinar esta característica.
Puede encontrar los resultados temporales producidos por mlcoalsim en la carpeta:
Usuarios / YourUser / AppData / Roaming / DnaSP
Consejos:
Este nuevo módulo coalescente no permite realizar las simulaciones coalescentes utilizando el " Free
" Recombination ", y otras cosas menores, como calcular Fu y Li F * y F sin usar el
Ecuaciones de Achaz (2009). Si está interesado en estas opciones, puede utilizar la antigua simulación coalescente.
rutinaSimulaciones coalescentes -DnaSP v5). Este módulo también permite realizar simulaciones coalescentes
fijando el número de sitios segregantes.
97/112
Página 98
Simulaciones coalescentes (n-loci | modelo 1-pop)
Simulaciones coalescentes (n-loci, modelo de 1 población)
Referencias: Achaz 2008 Achaz 2009 Depaulis y Veuille 1998 Fay y Wu 2000 Fu y Li 1993 Fu
1997 Harpending 1994 Hudson 1983 Hudson 1990 Hudson y Kaplan 1985 Kelly 1997 Nei 1987 Press
1992 Ramos-Onsins y Mitchell-Olds 2007 Ramos-Onsins y Rozas 2002 Rozas et al. 2001 Simonsen
et al. 1995 Tajima 1989 Wall 1999 Watterson 1975 Zeng et al. 2006
En este módulo, DnaSP genera (bajo el modelo coalescente y para un modelo de n-loci), las distribuciones empíricas de
algunas estadísticas de prueba resumidas. Estas distribuciones se generan asumiendo diferentes datos demográficos.
escenarios. Estas distribuciones se utilizan para calcular los límites de confianza para un intervalo dado. Ambos uno-
Se proporcionan pruebas de cola y de dos colas. DnaSP lleva a cabo las genealogías coalescentes como en el Coalescente
Simulaciones (1 locus; 1 modelo de población), usando el mlcoalsim (Ramos-Onsins y Mitchell-Olds, 2007 )
rutinas.
Los datos de entrada

Hay dos formas de ingresar los datos.
• Entrada directa. El usuario debe ingresar manualmente los datos relevantes para cada loci: Theta por gen; tamaño de la muestra;
el número total de sitios analizados; y el estado cromosómico de cada región cromosómica
(autosómico, ligado a X, ligado a Y, mitocondrial).
• Ingrese datos desde el modo por lotes. DnaSP puede leer automáticamente la información relevante de un * .MF.out
archivo (un archivo de salida generado por DnaSP utilizando el comando Análisis de archivos de datos múltiples (también conocido como Batch
Modo).
Parámetro cromosómico
DnaSP considera que la expectativa de theta es 4Nμ para genes autosómicos, 3Nμ para genes ligados al X y Nμ para Y-
regiones ligadas (o mitocondriales). Consulte los tamaños efectivos de población.
Valores observados
Hay dos formas de ingresar los valores observados (entrada opcional).
• Entrada directa. El usuario debe ingresar los valores observados para cada estadística (la media y la varianza entre
loci)
• Ingrese datos desde el modo por lotes. DnaSP puede leer automáticamente los valores de media y varianza observados
a través de los loci de * .MF.out (valores de polimorfismo de ADN) o * .MFd.out (valores de ADN
polimorfismo y divergencia).
Valores de recombinación
Dentro de este modelo, DnaSP asume que hay recombinación libre entre loci, pero no intragénica (dentro de
locus) recombinación.
Modelos demográficos (Ho)
98/112
Página 99
DnaSP implementa 5 modelos demográficos diferentes. De hecho, las estimaciones de DnaSP mediante simulaciones coalescentes
la distribución empírica (para cada uno de los estadísticos de resumen) bajo la correspondiente hipótesis nula (Ho). En todo
casos la hipótesis alternativa (H1) establece que los datos de la población no siguen el Ho
distribución.
Símbolos y parámetros:
t1, unidades de tiempo antes del presente hasta el primer evento demográfico. Unidades en 4 generaciones
t2, unidades de tiempo antes del presente hasta el segundo evento demográfico (t2> = t1). Unidades en 4 generaciones
No, tamaño efectivo actual de la población

Las simulaciones coalescentes se calculan asumiendo un gran tamaño de población constante bajo el neutral
modelo de sitios infinitos (Hudson 1990).
Este modelo asume que la población sufrió un crecimiento poblacional, t1 unidades de tiempo antes del presente. t1
se mide en 4 generaciones.
Este modelo asume que la población sufrió una disminución poblacional, t1 unidades de tiempo antes del presente.
t1 se mide en generaciones 4No.

Este modelo asume que la población sufrió dos eventos demográficos. Una disminución de la población (unidades t2 de
tiempo antes del presente), y más tarde un crecimiento de la población (t1 unidades de tiempo antes del presente). t1 y t2 son
medido en 4 generaciones.

Este modelo asume que la población sufrió dos eventos demográficos. Una división de población (unidades t2 de
tiempo antes del presente), generando dos poblaciones de tamaños poblacionales efectivos N1A y N1B. Más tarde (t1
unidades de tiempo antes del presente) estas dos poblaciones entraron en contacto y se mezclaron (el evento de mezcla). t1 y
t2 se miden en generaciones 4No.
Resumen de estadísticas (por gen)

DnaSP puede generar la distribución empírica de 12 estadísticas. Además, para la estadística DnaSP determinará
la media y la varianza entre loci. DnaSP calculará la varianza utilizando la corrección de Bessel
(es decir, dividir por n-1 en lugar de por n).
• Theta-K (θ) (número medio de diferencias de nucleótidos, k), o diversidad de nucleótidos Pi (p) por gen (Nei
99/112
Página 100
1987, ecuaciones 10.5 o 10.6; pero por gen).

• Diversidad de haplotipos, Hd (Nei 1987, ecuación 8.4 pero reemplazando 2n por n ).
• Tajimaʼs D, TD (Tajima 1989, ecuación 38).
• Fu y Liʼs F *, FLF * (Fu y Li 1993, Achaz 2009).
• Achazʼs Y *, AY * (Achaz 2008, ecuación 21).
• R AMOS-Onsins y R de Ozas R 2 (Ramos-Onsins y Rozas 2002, la ecuación 1).
• Desequilibrio de ligamiento, ZnS de Kelly (Kelly 1997, ecuación 3).
• Fu y Liʼs F, FLF (Fu y Li 1993, Achaz 2009).
• Fay y Wuʼs FWHn, FWHn (Fay y Wu 2000, Zeng et al. 2006).
• Zeng E, ZE (Zeng et al. 2006, ecuación 13).
• Achaz Y, AY (Achaz 2008, ecuación 21).
Valores observados
DnaSP puede capturar los valores observados de las estadísticas (tanto la media como la varianza) utilizando
información de los archivos * .MF.out y * .MFd.out. Si se proporcionan estos valores, DnaSP también calculará la
probabilidad de obtener valores inferiores a los observados (prueba de una cola). Por ejemplo. si el usuario indica
un valor observado para la media de la D de Tajima de TD (obs) = -1.73, y la salida muestra que P (Sim <=
Obs) = 0.01, significa que la probabilidad de obtener valores medios de la D del Tajima (bajo el
modelo demográfico correspondiente) igual o inferior a -1,73 (el observado) es 0,01.
Células coloreadas en amarillo. Resultados significativos (cola izquierda); eso es P (Sim <= Obs) <0.05
Celdas de color naranja. Casos en los que P (Sim <= Obs)> 0,95. Estos casos representan valores extremos (en
la cola derecha), aunque no necesariamente significativa; de hecho, los casos significativos serían aquellos con P (Sim
<= Obs)> = 0,95 . El usuario debe verificar los valores informados en las columnas del intervalo de confianza (IC) para
determinar esta característica.
Puede encontrar los resultados temporales producidos por mlcoalsim en la carpeta:
Usuarios / YourUser / AppData / Roaming / DnaSP
Simulaciones coalescentes (método utilizado en DnaSP v5 y versiones anteriores)
Referencias: Depaulis y Veuille 1998 Fay y Wu 2000 Fu y Li 1993 Fu 1997 Harpending 1994
Hudson 1983 Hudson 1990 Hudson y Kaplan 1985 Kelly 1997 Nei 1987 Press 1992 Ramos-Onsins y
Rozas 2002 Rozas et al. 2001 Simonsen y col. 1995 Tajima 1989 Wall 1999 Watterson 1975
Este comando proporciona el módulo de simulaciones coalescentes utilizado en la versión 5 de DnaSP (y versiones anteriores).
En este módulo, DnaSP genera las distribuciones empíricas de algunas estadísticas de prueba usando como nulo
hipótesis, el modelo neutro estándar (SNM). A partir de esas distribuciones, DnaSP puede proporcionar la confianza
límites para un intervalo dado. Se pueden realizar pruebas tanto unilaterales como bilaterales.
Estadísticas analizadas (por gen)

DnaSP puede generar la distribución empírica de las siguientes estadísticas:
• Diversidad de haplotipos, Hd (Nei 1987, ecuación 8.4 pero reemplazando 2n por n ). (Véase también Depaulis y Veuille
1998, eq. 1). Con cuidado; la prueba H definida en Depaulis y Veuille 1998 eq. 1, corresponde a: H = Hd *
100/112
Página 101
(n-1) / n
• Número de haplotipos, h, (Nei 1987, p. 259). (ver también Deapulis y Veuille 1998).
• Diversidad de nucleótidos Pi (π) (Nei 1987, ecuaciones 10.5 o 10.6) pero por gen (es decir, el promedio
número de diferencias de nucleótidos).
• Theta (θ), (Watterson 1975, ecuación 1.4a).
• Desequilibrio de ligamiento, estadístico ZnS (Kelly 1997, ecuación 3).
• Desequilibrio de ligamiento, estadístico Za (Rozas et al. 2001; ecuación 2).
• Desequilibrio de ligamiento, estadístico ZZ (Za - ZnS) (Rozas et al. 2001; ecuación 1).
• Recombinación, Rm, el número mínimo de eventos de recombinación (Hudson y Kaplan 1985,
Apéndice 2).
• Fu y Liʼs D *, (Fu y Li 1993, p. 700 abajo).
• Fu y Liʼs F *, (Fu y Li 1993, p. 702; ver también Simonsen et al. 1995, ecuación 10).
• Fu y Liʼs D, (Fu y Li 1993, ecuación 32).
• Fu y Liʼs F, (Fu y Li 1993, p. 702, arriba).
• Fay y Wuʼs H, (Fay y Wu 2000, ecuaciones 1-3).
• Raggedness, r (Harpending 1994, ecuación 1).
• Wallʼs B (Wall 1999)
• Wallʼs Q (Wall 1999)
• Ramos-Onsins y Rozas R 2 (Ramos-Onsins y Rozas 2002, ecuación 1).
Las simulaciones por computadora se basan en el proceso coalescente para un modelo neutro de sitios infinitos y
asumiendo un gran tamaño de población constante (Hudson 1990). DnaSP utiliza la rutina ran1 (Press et al. 1992)
como fuente de desvíos aleatorios uniformes (es decir, números aleatorios distribuidos uniformemente dentro de un
distancia).
Sin recombinación. Para ninguna recombinación, DnaSP genera la genealogía de los alelos usando un
modificación de la rutina make_tree (Hudson 1990).
Nivel intermedio. Para niveles intermedios de recombinación, la genealogía se genera como se describe en
Hudson (1983; 1990).
Recombinación libre. Para la recombinación libre, DnaSP genera una genealogía independiente para cada
sitio de segregación. En cada sitio variable, el número de secuencias que tienen una variante de nucleótido particular
(solo dos variantes de nucleótidos por sitio de segregación) se obtiene aleatoriamente con probabilidad proporcional a su
frecuencia esperada (Tajima 1989, ecuación 50).
Simulaciones dadas ...

Theta (por gen) . Las mutaciones a lo largo de los linajes se distribuyen por Poisson utilizando la rutina poidev (Press et
Alabama. 1992).
Sitios de segregación. El número de mutaciones (sitios de segregación) es fijo. Las mutaciones son uniformemente
distribuidos (al azar) a lo largo de linajes.
Opción de recombinación
Sin recombinación. Se supone que no hay recombinación intragénica (R = 0); por ejemplo, mitocondrial
Datos de ADN.
Nivel intermedio (de recombinación). Este es el caso de la mayoría de los genes nucleares. Debes indicar
el valor del parámetro de recombinación por gen (R).
Recombinación libre. Valor teórico máximo del parámetro de recombinación (R = ∝).
Parámetro de recombinación, R
R, es el parámetro de recombinación. R = 4Nr (para loci autosómicos de organismos diploides), donde N es el
101/112
Página 102
tamaño efectivo de la población yr es la tasa de recombinación por gen -secuencia- (es decir, r es la recombinación
tasa por generación entre los sitios más distantes de la secuencia de ADN); ver también: la recombinación
módulo e información sobre el tamaño de la población efectiva .
Valor theta (por gen)

Por lo general, se desconoce el valor theta, en este caso ese valor se puede estimar a partir de los datos (ver: ADN
Módulos de polimorfismo y prueba de Tajima ). Theta (por gen) se puede estimar a partir de:
i) k, el número promedio de diferencias de nucleótidos
ii) S / a1, donde S es el número total de sitios segregantes
a1 = Σ (1 / i) de i = 1 a n-1
y n, el número de secuencias de nucleótidos
Valores observados
Si se proporciona el valor observado, DnaSP estimará la probabilidad de obtener valores inferiores a los
los observados.
Por ejemplo, para el estadístico de la prueba D de Tajima: P [D <= D (obs)] = 0.01
significa que la probabilidad de obtener valores D (bajo el proceso de coalescencia neutral) es igual o menor
que el observado es 0.01
Nota:
Puede realizar simulaciones por computadora fijando el número de sitios segregantes. En este caso el estimado
Los valores de theta (en diferentes réplicas) también serán fijos (porque theta se estima a partir del número de
segregar sitios).
Abreviaturas:
(obs) , valor observado.
Prueba de Hudson, Kreitman y Aguadé (Prueba HKA). Modo directo

Referencias: Begun y Aquadro 1991 Hudson et al. 1987 Kimura 1983
Este comando realiza la prueba de Hudson, Kreitman y Aguadé (1987) (prueba HKA). La prueba se basa en
la teoría neutra de la evolución molecular (Kimura 1983) predice que las regiones del genoma que evolucionan
a tasas altas también presentará altos niveles de polimorfismo dentro de las especies. La prueba requiere datos de un
comparación interespecífica de al menos dos regiones del genoma, y también datos de la intraespecífica
polimorfismo en las mismas regiones de al menos una especie.
En el presente módulo DnaSP le permite realizar la prueba HKA al comparar autosómica y sexo-
regiones vinculadas (Begun y Aquadro 1991), o para realizar la prueba HKA con datos de polimorfismo con diferentes
número de secuencias en las dos regiones, o con diferente número de sitios para el intraespecífico y
comparaciones interespecíficas. DnaSP ha considerado que la expectativa de π es 4Nμ para autosómica, 3Nμ para X-
genes ligados, y Nμ para genes ligados a Y (de modo que, hemos modificado ligeramente las ecuaciones de Begun y
Aquadro 1991 para comparaciones que involucran genes autosómicos (o ligados a X) con genes ligados a Y).
Datos:
102/112
Página 103
El presente módulo no realiza la prueba de HKA a partir de información de las secuencias de ADN incluidas en el
archivo de datos. Los datos de divergencia interespecífica y los datos sobre niveles de polimorfismo intraespecífico deben ser
ingresado en el cuadro de diálogo. Si desea que DnaSP obtenga la información necesaria para realizar la HKA
prueba directamente desde tus secuencias, debes usar el módulo de prueba HKA .
Producción:
Estimaciones del tiempo de divergencia (medido en 2N generaciones, donde N es la población efectiva
Talla),
El valor de X-cuadrado y la significancia estadística.
La significancia estadística se obtiene asumiendo una distribución de χ-cuadrado con un grado de libertad. DnaSP
obtiene la probabilidad asociada con un valor particular de chi-cuadrado (con 1 grado de libertad) por el
método trapezoidal de integración numérica.
(# P <0,10; * P <0,05; ** P <0,01; *** P , <0,001).
103/112
Página 104
Este menú se proporciona con los siguientes cuatro comandos:
Menú Ventana
Utilice este comando para cambiar la ventana activa (ventanas con resultados, calculadora, secuencia de datos). los
La ventana activa es la ventana que aparece en primer plano.
Menú de ayuda
Contenido
Este comando proporciona información para usar DnaSP (los comandos abren el archivo de ayuda actual).
Busque ayuda sobre

Este comando muestra el cuadro de diálogo Buscar en la Ayuda, donde puede encontrar rápidamente la información que necesita.
por palabras clave.
Informes de errores de DnaSP

Este comando muestra la página web de informes de errores de DnaSP.
Citación
Este comando muestra un cuadro de diálogo con la cita sugerida para DnaSP.
Página de inicio de DnaSP

Este comando muestra la página web de DnaSP.
Sobre DnaSP
Este comando muestra un cuadro de diálogo con información sobre los autores y el número de versión de DnaSP.
104/112
Página 105
Más información, distribución y derechos de autor
Más información
Políticas de distribución y derechos de autor

Julio Rozas & Universitat de Barcelona: Todos los derechos reservados
DnaSP se distribuye gratuitamente a instituciones académicas / de investigación con fines no comerciales.
Este software se proporciona " tal cual ", sin ningún tipo de garantía.
Para otros usos, póngase en contacto con Julio Rozas:

Correo electrónico: jrozas@ub.edu
Las consultas, comentarios y sugerencias pueden dirigirse vía E-mail a Julio Rozas.
Disponibilidad
El programa, el archivo de ayuda y algunos ejemplos de los diferentes archivos de datos están disponibles en:
http://www.ub.es/dnasp
Las actualizaciones de DnaSP y los informes de errores se anunciarán en:

Web DnaSP en el Departament de Genètica, Universitat de Barcelona Web:
http://www.ub.es/dnasp
Referencias
Citación
Documentos de citas y DnaSP
Resúmenes: DnaSP v1 DnaSP v2 DnaSP v3 DnaSP v4 DnaSP v5
La cita sugerida para la versión 6 de DnaSP es:
Julio Rozas 1 , Albert Ferrer-Mata 1 , Juan Carlos Sánchez-DelBarrio 1 , Sara Guirao-Rico 2 , Pablo Librado 1,3 ,
Sebastián E. Ramos-Onsins 2 y Alejandro Sánchez-Gracia 1 .
DnaSP v6: Análisis de polimorfismo de secuencia de ADN de grandes conjuntos de datos.
Mol. Biol. Evol. 34: 3299-3302 (2017).
1 Departament de Genètica, Microbiologia i Estadística e Institut de Recerca de la Biodiversitat (IRBio),

Universitat de Barcelona
2 Centro de Investigación en Genómica Agraria (CRAG) CSIC-IRTA-UAB-UB
3 Centro de Geogenética, Museo de Historia Natural de Dinamarca, Universidad de Copenhague, Copenhague,
Dinamarca
Autores
Autores
El desarrollo de DnaSP comenzó en 1992 y desde entonces muchas personas han contribuido con el software.
105/112
Página 106
desarrollo:
Lista de autores en orden de su primera contribución:
Julio Rozas
Ricardo Rozas
Juan Carlos Sánchez-DelBarrio
Pablo Librado
Sara Guirao-Rico
Alejandro Sánchez-Gracia
Sebastián Ramos-Onsins
Albert Ferrer-Mata
Agradecimientos
Agradecimientos
Nuestro agradecimiento a las siguientes personas que hicieron comentarios y sugerencias, o probaron el DnaSP
programa con sus datos. En particular, nos gustaría agradecer a quienes están (o estuvieron) en la Molecular
Grupo de Genética Evolutiva del Departament de Genètica, Universitat de Barcelona:
M. Aguadé, D. Alvarez-Ponce, M. Alvarez-Presas (Ona), C. Arboleda, D. Balañà, A. Blanco-García, J.

Braverman, JL Campos, S. Cirera, JM Comeron, D. De Lorenzo, T. Guebitz, S. Guirao-Rico, N.
Khadem, SO Kolokotronis, H. Kuittinen, A. Llopart, JM Martín-Campos, A. Munté, A. Navarro-Sabaté,
C. Nobrega, D. Orengo, M. Papaceit, J. Pérez, I. Pires, R. Pratdesaba, H. Quesada, U. Ramírez, SE
Ramos-Onsins, C. Romero-Ibáñez, A. Sánchez-Gracia, C. Segarra, FG Vieira, AG Vilella.
Aparte de lo mencionado, un agradecimiento especial a H. Akashi, A. Barbadilla, J. Bertranpetit, E. Betrán, C.

H. Biermann, M. Blouin, F. Calafell, J. Castresana, F. González-Candelas, D. Govindaraju, RR Hudson,
P. de Knijff, T. Mes, A. Navarro, D. Posada, C. Robin, AP Rooney, S. Schaeffer, W. Stephan, S. Wells
y R. Zardoya por sus comentarios, sugerencias y ayuda.
Finalmente, también agradecemos a DR Maddison por brindar asesoramiento sobre los formatos de archivo NEXUS y por
proporcionándonos instrucciones precisas sobre este formato.
Este trabajo fue apoyado por la Dirección General de Investigación Científica y Técnica , El Ministerio de
Educación y Ciencia y el Ministerio de Economía y Competitividad de España (subvenciones PB91-0245, PB94-
0923, PB97-0918, TXT98-1802, BMC2001-2906, BFU2004-02253, BFU2007-62927, BFU2010-15484,
CGL2013-45211, CGL2016-75255).
Referencias
Referencias
ACHAZ, G. (2008). Prueba de neutralidad en muestras con errores de secuenciación. Genética 179: 1409-1424.
ACHAZ, G. (2009). Ensayos de neutralidad del espectro de frecuencias: uno para todos y todos para uno. Genética 183: 249-258.
106/112
Página 107
AKASHI, H. (1995). Inferir una selección débil a partir de patrones de polimorfismo y divergencia en sitios "silenciosos"
en el ADN de Drosophila. Genética 139: 1067-1076.
AKASHI, H. (1999). Inferir los efectos de aptitud de las mutaciones del ADN a partir de datos de polimorfismo y divergencia:
Poder estadístico para detectar selección direccional bajo estacionariedad y recombinación libre. Genética 151:
221-238.
AKASHI, H. y W. SCHAEFFER. (1997). La selección natural y las distribuciones de frecuencia del ADN "silencioso"
polimorfismos en Drosophila. Genética 146: 295-307.
BANDELT, H.-J., P. FORSTER y A. RÖHL, (1999). Redes de unión a la mediana para inferir intraespecíficas
filogenias. Mol. Biol. Evol. 16: 37-48.
BEGUN, DJ y CF AQUADRO. (1991). Genética de poblaciones moleculares de la porción distal de la X

cromosoma en Drosophila: evidencia de autostop genético de la región de amarillo-achaete. Genética 129:
1147-1158.
BETRÁN, E., J. ROZAS, A. NAVARRO y A. BARBADILLA. (1997). La estimación del número y

la distribución de la longitud de los tractos de conversión de genes a partir de los datos de la secuencia de ADN de la población. Genética 146: 89-99.
CATCHEN, JM y col. (2011). Pilas: construcción y genotipado de loci de novo a partir de secuencias de lectura corta.
G3 (Betesda) 1: 171–182.
DEPAULIS, F. y M. VEUILLE. (1998). Pruebas de neutralidad basadas en la distribución de haplotipos bajo un

modelo de sitio infinito. Mol. Biol. Evol. 15: 1788-1790.
DANECEK et al. (2011). El formato de llamada variante y VCFtools. Bioinformatics 27: 2156-2158.
DURET, L. y D. MOUCHIROUD. (1999). Patrón de expresión y, sorprendentemente, codón de forma de longitud de gen
uso en Caenorhabditis , Drosophila y Arabidopsis . Proc. Natl. Acad. Sci. USA 96: 4482-4487.
EATON, DAR (2014). PyRAD: ensamblaje de loci RADseq de novo para análisis filogenéticos.
Bioinformática 30: 1844–1849.
EXCOFFIER, L. y HEL LISCHER. (2010). Arlequin suite ver 3.5: una nueva serie de programas para realizar
análisis de genética de poblaciones en Linux y Windows. Mol. Recursos de Ecol 10: 564-567.
EWENS, WJ (1972). La teoría del muestreo de alelos selectivamente neutrales. Música pop. Biol. 3: 87-112.
FAY, JC y CI WU. (2000). Haciendo autostop bajo la selección darwiniana positiva. Genética 155: 1405-1413.
FAY, J., WYKCOFF, GJ y WU, CI (2001). Selección positiva y negativa sobre el genoma humano.
Genética 158: 1227-1234.
FELSENSTEIN, J. (1993). Paquete de inferencia de filogenia (PHYLIP). Versión 3.5. Universidad de Washington,
Seattle.
FRÍAS-LÓPEZ, C., JF SÁNCHEZ-HERRERO, S. GUIRAO-RICO, E. MORA, MA ARNEDO, A.

SÁNCHEZ-GRACIA y J. ROZAS. (2016). DOMINO: Desarrollo de marcadores moleculares informativos para
Estudios filogenéticos y genéticos de poblaciones de todo el genoma en organismos no modelo. Bioinformática 32:
3753-3759.
FU, Y.-X. (1995). Propiedades estadísticas de los sitios segregantes. Theor. Música pop. Biol. 48: 172-197.
107/112
Página 108
FU, Y.-X. (1997). Pruebas estadísticas de neutralidad de mutaciones frente al crecimiento de la población, autostop y
selección de fondo. Genética 147: 915-925.
FU, Y.-X. y W.-H. LI. (1993). Pruebas estadísticas de neutralidad de mutaciones . Genética 133: 693-709.
GILBERT, D. (1996). Un editor de secuencias biológicas y un programa de análisis. Universidad de Indiana.
HEY, J. (1991). La estructura de las genealogías y la distribución de diferencias fijas entre el ADN.
secuenciar muestras de poblaciones naturales. Genética 128: 831-840.
HEY, J. y J. WAKELEY. (1997). Un estimador coalescente de la tasa de recombinación poblacional. Genética

145: 833-846.
HARPENDING, H. (1994). Firma del crecimiento de la población antigua en un ADN mitocondrial de baja resolución
distribución de desajustes. Biología humana 66: 591-600.
HILL, WG y A. ROBERTSON. (1968). Desequilibrio de ligamiento en poblaciones finitas. Theor. Apl. Gineta.
38: 226-231.
HUDSON, RR (1983). Propiedades de un modelo de alelos neutros con recombinación intragénica. Theor. Música pop. Biol.
23: 183-201.
HUDSON, RR (1987). Estimación del parámetro de recombinación de un modelo de población finita sin
selección. Gineta. Res. 50: 245-250.
HUDSON, RR (1990). Genealogías de genes y proceso de coalescencia. Buey. Surv. Evol. Biol. 7: 1-44.
HUDSON, RR (2000). Una nueva estadística para detectar la diferenciación genética. Genética 155: 2011-2014.
HUDSON, RR (2002). Generación de muestras bajo un modelo neutro de variación genética de Wright-Fisher.
Bioinformatics 18: 337-338.
HUDSON, RR y NL KAPLAN. (1985). Propiedades estadísticas del número de eventos de recombinación en

el historial de una muestra de secuencias de ADN. Genética 111: 147-164.
HUDSON, RR, M. KREITMAN y M. AGUADE. (1987). Una prueba de evolución molecular neutra basada en
datos de nucleótidos. Genética 116: 153-159.
HUDSON, RR, BOOS, DD y NL KAPLAN. (1992). Una prueba estadística para detectar población.
subdivisión. Mol. Biol. Evol. 9: 138-151.
HUDSON, RR, M. SLATKIN y WP MADDISON. (1992). Estimación de los niveles de flujo de genes a partir del ADN.
datos de secuencia. Genética 132: 583-589.
HUTTER, S., VILELLA, A. y ROZAS, J. (2006). Análisis de polimorfismo de ADN en todo el genoma utilizando
VariScan. Bioinformática 7: 409-419.
JUKES, TH y CR CANTOR. (1969). Evolución de las moléculas de proteínas, págs. 21-132. En HN Munro (ed.),
Metabolismo de proteínas de mamíferos . Academic Press, Nueva York.
KANAYA, S., Y. YAMADA, Y. KUDO y T. IKEMURA. (1999). Estudios de uso de codones y genes de tRNA
de 18 organismos unicelulares y cuantificación de ARNt de Bacillus subtilis : nivel de expresión génica y
108/112
Página 109
diversidad específica de especies del uso de codones basada en análisis multivariante. Gene 238: 143-155.
KELLY, JK (1997). Una prueba de neutralidad basada en asociaciones interlocus. Genética 146: 1197-1206.
KENT, WJ, SUGNET, CW, FUREY, TS, ROSKIN, KM, PRINGLE, TH, ZAHLER, AM, HAUSSLER,
D. (2002). El navegador del genoma humano en UCSC. Investigación del genoma. 12 : 996-1006.
KENT, WJ (2002). BLAT: la herramienta de alineación similar a Blast. Investigación del genoma. 12 : 656-664.
KIMURA, M. (1983). La teoría neutral de la evolución molecular . Prensa de la Universidad de Cambridge, Cambridge,
Massachusetts.
KREITMAN, M. (1983). Polimorfismo de nucleótidos en el locus de alcohol deshidrogenasa de Drosophila

melanogaster . Nature 304: 412-417.
KUMAR, S., K. TAMURA y M. NEI. (1994). MEGA: Software de análisis de genética evolutiva molecular
para microcomputadoras. Computación. Applic. Biosci. 10: 189-191.
LANGLEY, CH, YN TOBARI y K. KOJIMA. (1974). Desequilibrio de ligamiento i poblaciones naturales de

Drosophila melanogaster . Genética 78: 921-936.
LEWONTIN, RC (1964). La interacción de selección y vinculación. I. Consideraciones generales: heterótico
modelos. Genética 49: 49-67.
LEWONTIN, RC y K. KOJIMA. (1960). La dinámica evolutiva de polimorfismos complejos.

Evolución 14: 458-472.
LIBRADO, pág. y J. ROZAS. (2009). Un software para el análisis integral de datos de polimorfismo de ADN.
Bioinformatics 25: 1451-1452.
LYNCH, M. y TJ CREASE, (1990). El análisis de datos de encuestas de población sobre la variación de la secuencia de ADN.
Mol. Biol. Evol. 7: 377-394.
MADDISON, WP y DR MADDISON. (1992). MacClade: análisis de filogenia y carácter

evolución. Versión 3. Sinauer Associates, Sunderland, Massachusetts.
MADDISON, WP, DL SWOFFORD y DR MADDISON. (1997). NEXUS: un formato de archivo extensible para
información sistemática. Sistema. Biol. 46: 590-621.
MAXAM, AM y W. GILBERT. (1977). Un nuevo método para secuenciar el ADN. Proc. Natl. Acad. Sci. Estados Unidos
74: 560-564.
McDONALD, JH (1996). Detección de heterogeneidad no neutra en una región de la secuencia de ADN en el

relación de polimorfismo a divergencia. Mol. Biol. Evol. 13: 253-260.
McDONALD, JH (1998). Pruebas mejoradas de heterogeneidad en una región de secuencia de ADN en la proporción de
polimorfismo a divergencia. Mol. Biol. Evol. 15: 377-384.
McDONALD, JH y M. KREITMAN. (1991). Evolución de la proteína adaptativa en el locus Adh en Drosophila .

Nature 351: 652-654.
MORTON, BR (1993). Uso del codón de ADN del cloroplasto: evidencia de selección en el locus psb A basada en
Disponibilidad de ARNt. J. Mol. Evol. 37: 273-280.
109/112
Página 110
NEI, M. (1973). Análisis de la diversidad genética en poblaciones subdivididas. Proc.Natl. Acad. Sci. Estados Unidos 70: 3321-
3323.
NEI, M. (1982). Evolución de las razas humanas a nivel genético, págs. 167-181. En B. Bonne-Tamir, T. Cohen y
RM Goodman (eds.), Genética humana, parte A: El genoma en desarrollo . Alan R. Liss, Nueva York.
NEI, M. (1987). Genética evolutiva molecular . Universidad de Columbia. Press, Nueva York.
NEI, M. y T. GOJOBORI. (1986). Métodos simples para estimar el número de sinónimos y

sustituciones de nucleótidos no sinónimos. Mol. Biol. Evol. 3: 418-426.
NEI, M. y JC MILLER. (1990). Un método simple para estimar el número promedio de nucleótidos
sustituciones dentro y entre poblaciones a partir de datos de restricción. Genética 125: 873-879.
OSAWA, S., TH JUKES, K. WATANABE y A. MUTO. (1992). Evidencia reciente de la evolución del
codigo genetico. Microbiol. Apocalipsis 56: 229-264.
PRENSA, WH, SA TEUKOLSKY, WT VETTERLING y BP FLANNERY. (1992) Recetas numéricas

en C. El arte de la informática científica. Prensa de la Universidad de Cambridge, Cambridge.
RAMOS-ONSINS, SE y MITCHELL-OLDS, T. (2007). Mlcoalsim: simulaciones coalescentes multilocus.

Evol. Bioinform. En línea. 3: 41–44.
RAMOS-ONSINS, SE y J. ROZAS. (2002). Propiedades estadísticas de las nuevas pruebas de neutralidad contra
crecimiento de la población. Mol. Biol. Evol. 19: 2092-2100.
RAND, DM y LM KANN. (1996). Exceso de polimorfismo de aminoácidos en el ADN mitocondrial: contrastes
entre genes de Drosophila , ratones y humanos. Mol. Biol. Evol. 13: 735-748.
ROGERS, AR (1995). Evidencia genética de una explosión demográfica en el pleistoceno. Evolución 49: 608-615.
ROGERS, AR y H. HARPENDING. (1992). El crecimiento de la población hace olas en la distribución de

diferencias genéticas por pares. Mol. Biol. Evol. 9: 552-569.
ROGERS, AR, AE FRALEY, MJ BAMSHAD, W. SCOTT WATKINS y LB JORDE. (1996).

El análisis de desajustes mitocondriales es insensible al proceso mutacional. Mol. Biol. Evol. 13: 895-902.
ROZAS, J. y M. AGUADE. (1993). Transferencia de información genética en la región rp49 de Drosophila

subobscura entre diferentes arreglos de genes cromosómicos. Proc. Natl. Acad. Sci. USA 90: 8083-8087.
ROZAS, J. y M. AGUADE. (1994). La conversión genética está involucrada en la transferencia de información genética.
entre las inversiones naturales de Drosophila . Proc. Natl. Acad. Sci. USA 91: 11517-11521.
ROZAS, J. y R. ROZAS. (1995). DnaSP, polimorfismo de secuencia de ADN: un programa interactivo para
estimar los parámetros de la genética de poblaciones a partir de los datos de la secuencia de ADN. Computación. Applic. Biosci. 11: 621-
625.
ROZAS, J. y R. ROZAS. (1997). DnaSP versión 2.0: un paquete de software novedoso para una amplia
análisis de genética de poblaciones. Computación. Applic. Biosci. 13: 307-311.
ROZAS, J. y R. ROZAS. (1999). DnaSP versión 3: un programa integrado para población molecular
análisis de genética y evolución molecular. Bioinformatics 15: 174-175.
110/112
Página 111
ROZAS, J., M. GULLAUD, G. BLANDIN y M. AGUADÉ. (2001). Variación del ADN en la región del gen rp49 de
Drosophila simulans : inferencias evolutivas de una estructura de haplotipo inusual. Genética 158: 1147-
1155.
ROZAS, J., JC SANCHEZ-DELBARRIO, X. MESSEGUER y R. ROZAS. (2003). DnaSP, ADN

Análisis de polimorfismo por métodos coalescentes y otros. Bioinformatics 19: 2496-2497.
ROZAS, J., A. FERRER-MATA, JC SANCHEZ-DELBARRIO, S. GUIRAO-RICO, P. LIBRADO, SE

RAMOS-ONSINS y A. SANCHEZ-GRACIA. (2017). DnaSP v6: Análisis de polimorfismo de secuencia de ADN de
Grandes conjuntos de datos. Mol. Biol. Evol. 34: 3299-3302.
SAIKI, RK, S. SCHARF, F. FALOONA, KB MULLIS, GT HORN, HA ERLICH y N. ARNHEIM.

(1985). Amplificación enzimática de secuencias genómicas de β-globina y análisis de sitios de restricción para el diagnóstico de
anemia falciforme. Science 230: 1350-1354.
SAIKI, RK, DH GELFAND, S. STOFFEL, SJ SCHARF, R. HIGUCHI, GT HORN, KB MULLIS y

HA ERLICH. (1988). Amplificación enzimática de ADN dirigida por cebadores con un ADN termoestable
polimerasa. Science 239: 487-491.
SANGER, F., S. NICKLEN y AR COULSON. (1977): secuenciación de ADN con inhibidores de terminación de cadena.
Proc. Natl. Acad. Sci. USA 74: 5463-5467.
SCHAEFFER, SW y EL MILLER. (1993). Estimaciones de desequilibrio de ligamiento y recombinación

parámetro determinado a partir de la segregación de sitios de nucleótidos en la región de alcohol deshidrogenasa de Drosophila
pseudoobscura . Genética 135: 541-552.
SCHNEIDER, S., ROESSLI, D. Y EXCOFFIER, L. (2000). Arlequin: un software para genética de poblaciones
análisis de los datos. Ver 2.001. Laboratorio de Genética y Biometría, Departamento de Antropología, Universidad de Ginebra.
SHARP, PM, TMF TUOHY y KR MOSURSKI. (1986). Uso de codones en levadura: análisis de conglomerados
diferencia claramente genes de alta y baja expresión. Nucleic Acids Res. 14: 5125-5143.
ESCUDOS, DC, PM SHARP, DG HIGGINS y F. WRIGHT. (1988). Sitios "silenciosos" en genes de Drosophila
no son neutrales: Evidencia de selección entre codones sinónimos. Mol. Biol. Evol. 5: 704-716.
SIDMAN, KE, DG GEORGE, WC BARKER y LT HUNT. (1988). La identificación de proteínas

recurso (PIR). Ácidos nucleicos Res. 16: 1869-1871.
SIMONSEN, KL, GA CHURCHILL y CF AQUADRO. (1995). Propiedades de las pruebas estadísticas de

neutralidad para los datos de polimorfismo de ADN. Genética 141: 413-429.
SLATKIN, M. y RR HUDSON. (1991). Comparaciones por pares de secuencias de ADN mitocondrial en

y poblaciones en crecimiento exponencial. Genética 129: 555-562.
SOKAL, RR y FJ ROHLF. (1981). Biometria . Segunda edicion. WH Freeman and Company. Nuevo
York.
SCHEET, P. y STEPHENS, M. (2006). Un modelo estadístico rápido y flexible para la población a gran escala
Datos de genotipo: aplicaciones para inferir genotipos faltantes y fase haplotípica. Revista americana de
Genética humana , 78 : 629-644.
STEPHENS, M. y DONNELLY, P. (2003). Una comparación de los métodos bayesianos para el haplotipo
111/112
Página 112
reconstrucción a partir de datos de genotipos de poblaciones. Revista Estadounidense de Genética Humana, 73 , 1162-1169.
STEPHENS, M., SMITH, N. y DONNELLY, P. (2001). Un nuevo método estadístico para el haplotipo
reconstrucción a partir de datos de población. Revista Estadounidense de Genética Humana , 68 , 978-989.
STROBECK, C. (1987). Número medio de diferencias de nucleótidos en una muestra de una sola subpoblación:
una prueba para la subdivisión de la población. Genética 117: 149-153.
SWOFFORD, DL (1991). PAUP: análisis filogenético mediante parsimonia, versión 3.0. Illinois natural
Encuesta de historia, Champaign.
TAJIMA, F. (1983). Relación evolutiva de secuencias de ADN en poblaciones finitas. Genética 105: 437-
460.
TAJIMA, F. (1989). Método estadístico para probar la hipótesis de mutación neutra por polimorfismo de ADN.
Genética 123: 585-595.
TAJIMA, F. (1989). El efecto del cambio en el tamaño de la población sobre el polimorfismo del ADN. Genética 123: 597-601.
TAJIMA, F. (1993). Medición del polimorfismo del ADN, págs. 37-59. En Takahata, N. y Clark, AG (eds),
Mecanismos de evolución molecular , Sinauer Associates. Inc., Sunderland, Massachusetts.
TAJIMA, F. (1996). La cantidad de polimorfismo de ADN mantenido en una población finita cuando el neutro
la tasa de mutación varía entre los sitios. Genética 143: 1457-1465.
THOMPSON, JD, DG HIGGINS y TJ GIBSON. (1994). CLUSTAL W: mejora la sensibilidad de

Alineación progresiva de la secuencia a través de la ponderación de la secuencia, las penalizaciones por espacios específicos de la posición y la ponderación.
elección de matriz. Ácidos nucleicos Res. 22: 4673-4680.
VINGRON, M., BRAZMA, A., COULSON, R., VAN HELDEN, J., MANKE, T., PALIN, K., SAND, O. y
UKKONEN, E. (2009). Integración de secuencia, evolución y genómica funcional en genómica reguladora.
Biología del genoma 10: 202-209.
WAKELEY, J. y J. HEY. (1997). Estimación de parámetros de poblaciones ancestrales Genética 145: 847-855.
PARED, JD (1999). Recombinación y poder de las pruebas estadísticas de neutralidad. Genet Res 74: 65-69.
WANG, LS y XU, Y. (2003) Inferencia de haplotipos por máxima parsimonia. Bioinformática 19: 1773–
1780.
WATTERSON, GA (1975). Sobre el número de sitios segregantes en modelos genéticos sin recombinación.
Theor. Música pop. Biol. 7: 256-276.
WEIR, BS (1996). Análisis de datos genéticos II . Sinauer Associates, Inc. Sunderland.
WRIGHT, S. (1951). La estructura genética de las poblaciones. Ana. Eugenesia 15: 323-354.
WRIGHT, F. (1990). El "número efectivo de codones" usado en un gen. Gene 87: 23-29.
ZENG, K., FU, Y., SHI, S. y WU, C. (2006). Las pruebas estadísticas pueden detectar la selección positiva utilizando
variantes de alta frecuencia. Genética 174: 1431-1439
112/112

DnaSP v6. Documentación ESPAÑOL

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DnaSP v6. Documentación ESPAÑOL

Cargado por

Copyright:

Formatos disponibles

7/10/21 17:35 DnaSP v6.

Contenido ... .............................................. .................................................. ........ 4

Versión de DnaSP: 6.12 Contenido de la ayuda

Qué puede hacer DnaSP

Más información y derechos de autor

Referencias: DnaSP v1 DnaSP v2 DnaSP v3 DnaSP v4 DnaSP v5

El DnaSP (DNA Sequence Polymorphism) es un software dirigido a genetistas de poblaciones moleculares

Qué puede hacer DnaSP

Qué puede hacer DnaSP:

Referencias y resúmenes: DnaSP v1 DnaSP v2 DnaSP v3 DnaSP v4 DnaSP v5 DnaSP 2009

Lo que DnaSP no puede hacer:

Requisitos e instalación del sistema

Requisitos e instalación del sistema

DnaSP para plataformas de 32 y 64 bits

DnaSP en Linux y Macintosh

Limitaciones (comando Abrir archivo de datos: un solo archivo de datos MSA)

Archivos de datos grandes

Menú Archivo / Entrada y Salida

Ver también: Salida de archivos de datos de entrada

Este menú tiene (entre otros) los siguientes comandos:

Abrir archivo de datos

Cerrar archivo de datos

Guardar / exportar datos como

Actualizar el archivo de datos NEXUS

Opciones para guardar (formato NEXUS)

Enviar toda la salida a archivo

Cerrar archivo de salida

Guardar salida actual

Formatos de archivos de datos de entrada

Formatos de archivos de datos de entrada

Análisis estándar ( comando estándar Abrir archivo de datos )

Análisis utilizando el comando Análisis de archivo de datos de frecuencia de haplotipos

Análisis utilizando el archivo de datos de genotipos Unphase / comando

Ejemplos de archivos de datos

Ver también: Archivos de datos de entrada

utilizarse para indicar un espacio en blanco).

Ejemplo de formato FASTA

> seq_1 [comentario -opcional-]

Consulte también: Archivos de datos de entrada Kumar et al. 1994

Ejemplo de formato MEGA

Formato NBRF / PIR

Formato NBRF / PIR

Consulte también: Archivos de datos de entrada Sidman et al. 1988

Ejemplo de formato NBRF / PIR

> DL; seq_1

Consulte también: Archivos de datos de entrada Maddison et al. 1997

Símbolo de espacio de alineación

Símbolo de sitio idéntico (carácter coincidente)

Símbolo de datos faltantes

secuencia que son regiones no codificantes o codificantes de proteínas.

ii) o el tipo genómico del organismo:

NOTA: Consulte también el menú de datos.

Ejemplo de formato NEXUS versión 1

Ejemplo de formato NEXUS (versión antigua)

Ver también: Archivos de datos de entrada Felsenstein 1993

Ejemplo de formato PHYLIP

Formato de haplotipos en fase HapMap3

Formato de haplotipos en fase HapMap3

Ver también: Archivos de datos de entrada

DnaSP puede reconocer formatos de archivo de haplotipos en fase HapMap3 ( *.

En el ejemplo, NA19035_A y NA19035_B corresponden a los dos ID de haplotipos de individuos

Nota muy importante

Ejemplo de formato de haplotipos en fase HapMap3

Formato de archivo Arlequin

Archivos y análisis de datos basados en múltiples MSA