Información

Explicación del alelo ancestral

Explicación del alelo ancestral



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Me cuesta entender el concepto de alelo ancestral. ¿Qué significa exactamente eso? ¿Qué tiene que ver con la identidad por descendencia / estado? ¿Qué tiene que ver (si es que tiene algo) con los SNP? Además, ¿cómo es útil el concepto en genética / evolución? Intenté leerlos en varios sitios web, pero aún no estoy satisfecho con mi comprensión.


SNP

Comencemos con la definición que no tiene nada que ver con el resto de la pregunta :). Un polimorfismo de nucleótido único (SNP) es un tipo de variación genética que se encuentra en la población. Esta variación genética se define como una variación causada por un solo nucleótido (como su nombre lo indica). Por ejemplo, si tiene en las poblaciones las dos variantes siguientes en el mismo locus:AGCCGTyAGCTGT, entonces tienes un SNP en la posición de C y T. Este tipo de variación es muy común. Estimamos que hay alrededor de 10 millones de SNP en el genoma humano. A menudo usamos estos SNP como marcadores genéticos.

Alelos ancestrales vs derivados

Un alelo ancestral o un rasgo ancestral (dependiendo de si miras el fenotipo o el genotipo) es el rasgo / alelo que fue portado por el ancestro común del taxón que consideras. Por ejemplo: como sabrá, el taxón Reptilia incluye lagartos, serpientes, tortugas, aves, mamíferos y algunos otros linajes. En el taxón Reptilia, las escamas son estados ancestrales (todavía existen en los lagartos, por ejemplo) y los pelos y plumas son estados derivados. Por lo general, el estado ancestral es el que llevan los linajes más basales.

Identidad por estado (IBS) e Identidad por descendencia (IBD)

Si dos secuencias son exactamente idénticas, entonces decimos que son idénticas por estado (IBS). Tal identidad puede ocurrir a través de una evolución convergente o de un ancestro común.

Para comprender el concepto de "idénticos por descendencia" (EII) es importante comprender el concepto de coalescencia. Un evento coalescente es, cuando se mira hacia atrás en el tiempo, un evento en el que dos secuencias eran en realidad la misma secuencia. A menudo, la EII se define en relación con un umbral determinado en el tiempo. Si el evento coalescente ocurre después de este evento, las dos secuencias no son IBD. Si las dos secuencias se fusionan antes de este umbral de tiempo y las dos secuencias siguen siendo IBS, entonces las dos secuencias son IBD

Uniendo todo junto

Entonces, si miras las secuencias en un grupo dado de linajes y ves que todas son exactamente iguales, entonces son idénticas por estado. Si sabe que todas estas secuencias provienen de un ancestro común e incluso todas se fusionan en un solo individuo en el ancestro común, entonces todas las secuencias son idénticas por descendencia. Pero algunas mutaciones pueden haber ocurrido desde el último ancestro común que dio como resultado algunos SNP, entonces todas las secuencias ya no son IBS y, por lo tanto, tampoco IBD. Puede utilizar dicha variación de secuencia para crear una filogenia, por ejemplo.

Espero que ayude.


Ecología del comportamiento de los animales tropicales.

María C. De Mársico,. Juan C. Reboreda, en Avances en el estudio de la conducta, 2010

C Uso del anfitrión por tordos brillantes y gritones a nivel individual

Las distribuciones de frecuencia de haplotipos entre hospedadores revelaron puestas no aleatorias en ambas especies de tordos. En tordos brillantes, encontramos diferencias en la distribución de haplotipos entre reyezuelos y los otros tres hospedadores (gorriones de cuello rufo, pantanos pardos y amarillos y sinsontes de ceja tiza por parejas). ΦS T valores = 0,20-0,23, PAG & lt 0,001). De manera similar, en el tordo chillón, encontramos diferencias en la distribución de los haplotipos entre las alas de bahía y los mirlos chopi (ΦS T = 0.05, PAG = 0,04). En un escenario de colocación aleatoria, esperaríamos encontrar haplotipos distribuidos equitativamente entre los anfitriones. De manera similar, si las hembras son especialistas en hospedadores a nivel individual pero no comparten el uso del hospedador con sus madres, la distribución de haplotipos debe distribuirse al azar. Esto surgiría de que las hembras compartan el haplotipo con sus madres pero utilicen un anfitrión diferente. Por tanto, el mismo haplotipo estaría representado en todos los huéspedes. Si esto sucediera en todas las hembras, los haplotipos se encontrarían por igual en todos los huéspedes. La Figura 6 muestra las frecuencias de haplotipos para una especie hospedadora de tordos relucientes y gritones en comparación con otra hospedante del área de estudio. El uso aleatorio de hospedadores produciría frecuencias cercanas al 50% para todos los haplotipos, mientras que el uso no aleatorio de hospedadores muestra solo algunos haplotipos (o se encuentran en un hospedador (100%) o en el otro (0%)).

Figura 6. Frecuencia de haplotipos (H1-H12) para un anfitrión de tordo brillante (símbolos abiertos) y un tordo chillón (símbolos cerrados) en comparación con otro anfitrión del área de estudio. Tordo brillante: reyezuelo (contra sinsonte de ceja tiza) tordo chillón: mirlo chopi (contra ala de laurel). Datos tomados de Mahler et al. (2007, 2009), la numeración de haplotipos es arbitraria.


Fondo

La divergencia y la especiación son el resultado de largos períodos de adaptación, selección y deriva genética después de la separación de subpoblaciones. La separación obliga a los individuos a adaptarse al entorno aislado actual y diferir gradualmente de la población inicial. Se han propuesto diversas metodologías y teorías en los esfuerzos por descifrar este proceso desde el siglo XIX [1].

Recientemente, la disponibilidad de secuencias del genoma completo (WGS) ha adquirido una importancia creciente en los estudios genéticos [2]. En estudios de ganado, por ejemplo, los datos WGS de varias razas se han utilizado para la inferencia de la historia demográfica, la identificación de rasgos de producción, el cálculo del tamaño efectivo de la población, la estimación de las relaciones genéticas y el análisis de la estructura de la población [3, 4, 5].

En el análisis evolutivo, los bloques de synteny pueden inferirse como relaciones conservadas de regiones genómicas en diferentes especies ancladas por conjuntos de genes ortólogos. Con diferentes tamaños, estos bloques se pueden co-localizar en diferentes cariotipos de los respectivos genomas de las especies modernas. Además, los bloques de synteny pueden agruparse en linajes específicos, como los de primates, roedores, felinos, camélidos, quirópteros y bóvidos, como se sugiere en un estudio de análisis sinténico utilizando 87 genomas de mamíferos [6]. Sin embargo, los genes ortólogos dentro de estos bloques sintéticos específicos de linaje pueden presentar variaciones alélicas debido a un evento evolutivo independiente después de la especiación [7].

Los alelos que han divergido por mutación se denominan alelos derivados (DA), mientras que los alelos que persisten en su estado inicial se denominan alelos ancestrales (AA) [8]. Un método razonable para evaluar AA es comparar sitios polimórficos compartidos de especies estrechamente relacionadas. Los alelos que todavía están intactos y compartidos por todas las especies relacionadas son probablemente el alelo ancestral [9]. Otro método consiste en verificar el estado alélico del último ancestro común (LCA) o el alelo dentro de las poblaciones actuales que menos difiere del LCA [10].

En un estudio de polimorfismos autosómicos de un solo nucleótido (SNP) en el cerdo, se infirieron estados alélicos ancestrales y derivados de SNP utilizando cuatro especies de Sus (Sus celebensis, Sus barbatus, Sus cebifrons, y Sus verrucoso) y una especie exógena de jabalí africano para especies focales de Sus scrofa [11]. En estudios en humanos, las especies fuera del grupo para inferir AA son los primates, a saber, orangután (Pongo sp.), macacos (Macaca sp.), gorila (Gorilla sp.) y bonobos (Pan paniscus) [12]. En un estudio de ganado de Utsunomiya et al. (2013) utilizando HD-SNP, Gaur (Bos gaurus), búfalo de agua (Bubalus bubalis) y Yak (Bos grunniens) se utilizaron como especies focales para el ganado.

Es necesario definir los estados ancestrales y derivados en los sitios de nucleótidos polimórficos para probar las hipótesis propuestas con respecto a los procesos de evolución molecular, como la estimación de las edades de los alelos, la formación de patrones de desequilibrio de ligamiento (LD) y firmas genómicas como resultado de presiones de selección [13, 14]. . Los estudios de WGS en humanos se benefician de la base de datos de AA para el análisis de poblaciones, pero no existe tal base de datos en el ganado. En consecuencia, cada estudio genera repetidamente su propia lista de AA putativa [5, 12, 15].

Por lo tanto, el objetivo de este estudio es llenar este vacío y determinar un conjunto fijo de AA en el ganado mediante el uso de especies exóticas en el Bovinae subfamilia, a saber, secuencias gaur, yak, bison, wisent, banteng y gayal. Además, examinamos la lista de AA en busca de regiones físicas vinculadas a rasgos conservados y mutados en ganado taurino y cebú.


Métodos

Identificación de alelos ancestrales

Para una variante en una población con N individuos, existen dos tipos de haplotipos: un haplotipo que alberga un alelo recién emergido y un haplotipo que alberga un alelo ancestral. Después de que un alelo ha emergido y sobrevivido, la frecuencia del haplotipo que alberga el alelo recién emergido puede aumentar en la población con el tiempo. Originalmente, el haplotipo que contiene el alelo recién emergido es monomórfico con el tiempo, la diversidad de haplotipos aumenta debido a la mutación y recombinación. Si la variante sobrevive durante un tiempo suficientemente largo, ambos haplotipos se vuelven indistinguibles en términos de su diversidad. Hasta entonces, el haplotipo que alberga el alelo recién emergido muestra menos diversidad que conduce a un parámetro de mutación de población más pequeño (θ), que el haplotipo original. Los alelos ancestrales se pueden identificar midiendo la diversidad de cada haplotipo y comparando los resultados. Por lo tanto, el procedimiento de identificación de alelos ancestrales es el siguiente: 1) estimar θ para cada tipo de haplotipos 2) comparar estimaciones de θ y 3) designar el alelo del haplotipo que tiene el θ más alto como alelo ancestral.

En el estudio actual, las estimaciones y simulaciones de θ se basan en el modelo de población de Wright-Fisher de un tamaño de población fijo con un sitio finito. Por lo tanto, otras estimaciones que desobedecen estos supuestos fueron excluidas del estudio actual. El método más sencillo de medir la diversidad es examinar el número de polimorfismos en el haplotipo. La medición se puede realizar para ciertos rangos de pares de bases que están a distancias iguales de la posición de la variante. Con base en la fórmula que se presenta a continuación [2, 21], el parámetro de mutación de la población (4Nμ), theta (θ), se deriva para cada haplotipo, con y sin el alelo recién emergido. Entre las dos estimaciones para una variante bialélica, una theta más pequeña indica que el alelo en el haplotipo ha surgido recientemente. donde P representa la proporción de sitios polimórficos en un haplotipo con un alelo específico yq representa la menor frecuencia de alelos distintos de cero de la muestra de haplotipos.

Otro método para medir la diversidad es utilizar la expresión teórica de Wright [22]. El parámetro de mutación de la población (θ) puede derivarse de los datos de secuenciación de la población como se indica a continuación, que se ha descrito previamente [23]. Para determinar cada estimación, la antigua theta se indica como theta1 (θ1), y el último theta se indica como theta2 (θ2). Debido a que la recombinación introduce nuevas variantes en el haplotipo, las estimaciones implican la ligera influencia de la recombinación. Sin embargo, si el rango de medición es lo más pequeño posible para estimar theta, la influencia de la recombinación podría ser mínima. donde m representa la media de la distribución beta de frecuencias alélicas para un tipo de haplotipo con un alelo específico yv representa la varianza de la distribución beta para un tipo de haplotipo con un alelo específico. Debido a que el tipo de variantes en el haplotye no necesita ser distinguible, la distribución beta es justa en el estudio actual. Como con θ1 para una variante bialélica, estimaciones más pequeñas indican que el alelo en el haplotipo ha surgido recientemente. Para una variante multialélica, el orden de aparición de los alelos se determina dependiendo de las estimaciones theta de cada tipo de haplotipos.

Simulaciones

Se realizaron simulaciones para examinar la validez de los métodos propuestos, similar a un estudio anterior [24] que se basó en un estudio teórico [25]. Las simulaciones se realizaron asumiendo tasas de mutación y recombinación constantes y un tamaño de población constante (N). Debido a la eficiencia y disponibilidad de la computación, se examinaron tamaños de población de 100 y 50, y las tasas de mutación y recombinación fueron 0.00001, que fueron mucho más altas que los valores reales para el genoma humano. El sitio total fue de 30000 pares de bases (pb), y el rango estimado fue de ± 2000 pb de la variante objetivo a menos que se especifique lo contrario. Para comenzar en un estado de equilibrio, la secuencia inicial contenía variantes basadas en una distribución beta con parámetros de 4Nμ, y se realizó un apareamiento aleatorio con tasas de mutación y recombinación constantes para las generaciones 8N. Después del apareamiento aleatorio inicial, se realizó un apareamiento aleatorio durante 1000 generaciones para examinar la diversidad de alelos derivados y ancestrales de variantes. Las estimaciones medias de variantes en cada generación (de 2 a 500) después de las simulaciones se ilustran en la Fig. 1A y la Fig. S1.

A. Resultados de la simulación de mediciones de diversidad para alelos derivados y ancestrales (N: 100, tasa de mutación de 1 par de bases por generación: 0,0001, tasa de recombinación de 1 par de bases por generación: 0,0001) B. Proporciones acumuladas de identificación correcta de alelos ancestrales según a las generaciones y frecuencias alélicas derivadas.

Debido a que una secuencia de 30000 pb no tenía suficientes variantes cuando las tasas de mutación y recombinación eran 0,0001, se examinaron juntas 20 secuencias de 30000 pb utilizando computación en paralelo. Cuando las tasas de mutación y recombinación fueron 0,00001, se analizaron juntas 300 secuencias de 30000 pb. Para las simulaciones de muestreo, se realizaron las mismas simulaciones para una secuencia de 2000 pb hasta el apareamiento aleatorio inicial para generaciones 8N, y se procedió a muestreos con reemplazo para diferentes tamaños de muestra. Este procedimiento se repitió 1000 veces en paralelo, y los valores medios y los intervalos de confianza se representan en la Fig. S2.

Análisis de los datos de secuenciación del genoma humano

Para los análisis se utilizaron datos de secuenciación del genoma completo de baja cobertura de 1092 individuos producidos por el Proyecto 1000 Genomas [17, 18]. Los archivos integrados de datos de secuenciación del Proyecto 1000 Genomas contienen el valor de 0 o 1 como alelos con la información de referencia y bases alternativas. Las frecuencias (f) de las variantes con el alelo objetivo se ordenan y se asignan uniformemente a fo 1-f para una distribución beta justa. Teniendo en cuenta las bajas tasas de mutación y recombinación en el genoma humano, los rangos alrededor de las variantes objetivo se establecieron en ± 5.000 pb para ambos θ1 y θ2 estimados. Las estimaciones requerían un número suficiente de variantes dentro del rango. Si la región cercana al objetivo no estaba suficientemente cubierta (faltaban más de 3000 pb), la variante objetivo no se incluyó en las estimaciones. A partir de las simulaciones de muestreo, las variantes con ambos alelos con más de 10 recuentos de alelos (frecuencia de alelos menores & gt0.0046) se incluyeron en el θ1 estimaciones, y las variantes con ambos alelos con más de 20 recuentos de alelos (frecuencia de alelos menores & gt0.0092) se incluyeron en el θ2 estimados.

Los datos del Proyecto 1000 Genomas contienen la información de los alelos ancestrales basada en múltiples alineaciones de secuencias [9-11]. Las secuencias ancestrales se infirieron sobre la base de la tubería EPO (Enredo, Pecan, Ortheus) utilizando cuatro secuencias de primates (es decir, humano, chimpancé, orangután y macaco rhesus) [9-11]. Las llamadas de los alelos ancestrales se basaron en la hermana y las secuencias ancestrales. Para mayor precisión, solo se incluyeron para los análisis alelos ancestrales con alta certeza basados ​​en alineaciones de secuencia, que se indican con letras mayúsculas. La alta certeza significa la concordancia de las tres secuencias, a saber, la secuencia ancestral humano-chimpancé, la secuencia del chimpancé y la secuencia ancestral humano-chimpancé-orangután (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ ftp / pilot_data / technical / reference / ancestral_alignments / README). Las variantes analizadas se resumen en la Tabla 1.

Análisis de los datos de QTL y GWAS

Un estudio reciente identificó variantes funcionales utilizando la secuenciación de ARN de líneas celulares linfoblastoides de los mismos individuos en el Proyecto 1000 Genomas [19]. Debido a las propiedades estadísticas intrínsecas, casi todos los QTL tenían altas frecuencias de alelos menores, por lo tanto, la mayoría de las variantes de QTL tenían información de alelos ancestrales tanto de θ1 y θ2 estimados. Los QTL en los que se eliminaron los duplicados en sus posiciones se utilizaron para los análisis de datos. El número de variantes totales que se examinaron se indica en la Tabla A en el Archivo S1. Había dos conjuntos de datos, EUR e YRI, y las frecuencias alélicas de las poblaciones correspondientes en el Proyecto 1000 Genomas se utilizaron para interpretar las frecuencias alélicas ancestrales. Las variantes de GWAS se descargaron del catálogo de GWAS (https://www.genome.gov/26525384). Las variantes de GWAS tenían altas frecuencias de alelos menores debido a la misma propiedad estadística intrínseca que los QTL. El número total de variantes de GWAS en las que se eliminaron los duplicados en sus posiciones fue de 11910 y el número total de variantes analizadas fue de 11833.


ApoE4 - El alelo ancestral

Según se informa, cuando se secuenciaron el genoma de James Watson y Steven Pinker, se negaron a conocer su riesgo de contraer la enfermedad de Alzheimer. Claramente, esta no es una opción para los extensionistas de vida y crionicistas, quienes están mejor si saben si tienen una copia o, peor aún, dos copias del gen ApoE4.

Patri Friedman, hijo del economista libertario David Friedman (quien a su vez es hijo del premio Nobel Milton Friedman), se enteró recientemente de que tiene dos copias del gen ApoE4 cuando 23andMe actualizó sus informes. Los portadores caucásicos y japoneses de dos alelos E4 tienen entre 10 y 30 veces el riesgo de desarrollar Alzheimer & # 8217 a los 75 años de edad, en comparación con aquellos que no portan ningún alelo E4. Patri es un extensionista de vida, practicante de la dieta paleo y recientemente hizo arreglos criónicos con toda su familia en Alcor & # 8211 y, por lo tanto, es mucho más propenso a un curso de acción proactivo.

Cuando se dio cuenta de que no había un buen recurso central para las personas con copias del gen ApoE4, comenzó un nuevo blog llamado ApoE4 - The Ancestral Allele, que tiene como objetivo compartir información práctica e investigación para los portadores de E4 conscientes de la salud. Las primeras publicaciones discuten algunos de los beneficios de tener el gen E4 (mejor memoria episódica) y qué tipo de dieta se recomienda para los portadores de E4. También anima a las publicaciones de invitados y a otros co-blogueros para que ayuden a ejecutar el sitio web.


Materiales y métodos

Siguiendo a Keightley et al. (2016), la inferencia de uSFS se lleva a cabo en dos pasos. Los parámetros de la tasa evolutiva se estiman a partir de todos los sitios en los datos (incluidos los sitios polimórficos y monomórficos) en el paso 1. En el paso 2 se calcula el uSFS, condicionado a las estimaciones de los parámetros de la tasa evolutiva. La información de los pasos 1 y 2 luego se combina en un tercer paso para inferir la probabilidad del estado ancestral para cada sitio polimórfico.

Representación de los datos y algunas definiciones

Supongamos que hemos muestreado metro copias de genes ortólogos en un conjunto de sitios de una población de una especie focal. Por lo tanto, el uSFS que requerimos estimar contiene metro - 1 elementos, excluyendo los elementos donde se fija el alelo ancestral o derivado. Suponemos que hemos muestreado aleatoriamente una sola copia de gen en cada sitio en una o más especies exóticas. Suponemos que la topología del árbol que relaciona las especies es conocida y no varía entre sitios (Figura 1). En el análisis asumimos que la variación de nucleótidos dentro de la especie focal se fusiona dentro de la rama etiquetada b1. Las consecuencias del polimorfismo en las especies exóticas y la violación de los supuestos de una topología de árbol invariante y la coalescencia dentro de la rama b1 se investigan en simulaciones. La configuración de nucleótidos observada para un sitio es el recuento de cada uno de los cuatro nucleótidos en la especie focal (etiquetada X, Y para un sitio bialélico), junto con el estado de cada grupo externo (A, C, G o T). Sea el número de grupos externos = norte (en la Figura 1, norte = 3), y denota los grupos externos o1, o2. onorte. Suponiendo un árbol sin raíces (como en la Figura 1), el número de ramas en el árbol es por lo tanto B = 2norte − 1.

Representación de los datos para uSFS e inferencia de estados ancestrales. Se supone que el polimorfismo dentro de la especie focal (nucleótidos X, Y) se fusiona dentro de la rama b1. Hay tres grupos externos, dos nodos internos desconocidos y cinco ramas en este árbol. La raíz del árbol no es identificable, por lo tanto la rama b5 se extiende desde el grupo externo 3 hasta el nodo de b3 y B4.

Modelos de sustitución de nucleótidos

Se consideran el modelo JC, el modelo K2 y un modelo que permite seis tasas simétricas (R6 Figura 2). Todos los modelos de sustitución requieren la estimación de tasas evolutivas (es decir., número medio de cambios de nucleótidos por sitio) para cada rama, K1. KB. Las tarifas son los únicos parámetros para el modelo JC. Para el modelo K2, un parámetro adicional, κ, especifica la tasa de mutaciones de transición en relación con la tasa de transversiones. Para el modelo R6, hay seis tasas de mutación relativa simétricas, r1. r6, (Figura 2), por lo que cinco parámetros independientes, r1. r5, requieren ser estimados.

Estimación de parámetros de tarifas

Suponiendo la topología de árbol de la Figura 1, hay B tasas de sustitución y estos, junto con los parámetros del modelo de sustitución (es decir., κ para el modelo K2 o r1. r5 para el modelo R6), se estiman mediante ML utilizando el algoritmo simplex para maximizar la probabilidad. Verificamos la convergencia seleccionando valores iniciales para los parámetros de distribuciones amplias, reiniciando el algoritmo cuando aparentemente se había logrado la convergencia y verificando que se alcanzó la misma probabilidad de registro máxima final en múltiples ejecuciones. Dejar ϕ ser un vector que especifica los parámetros del modelo, y dejar yI ser un vector que especifica la configuración de nucleótidos observada para las especies focales y los grupos externos en el sitio I. Se supone que los sitios evolucionan de forma independiente, por lo que la probabilidad general de los datos es el producto de las probabilidades de la configuración de nucleótidos observada para cada sitio: (1) La probabilidad de la configuración de nucleótidos para cada sitio se evalúa sumando las probabilidades de la norteárbol = 4 norte - 1 posible árbol sin raíces, formado a partir de todas las posibles combinaciones de nucleótidos [A, T, G, C] en los nodos internos desconocidos junto con la configuración de nucleótidos observada para las especies focales y los grupos externos en el sitio. (2) donde Cj es un vector que representa la configuración de nucleótidos observada para la especie focal y la norte grupos externos junto con los estados de nucleótidos para el B - 1 nodos internos para árbol j. Si la especie focal es polimórfica en un sitio, la probabilidad para ese sitio se calcula como la probabilidad promedio para cada nucleótido observado (X, Y en la Figura 1).

La probabilidad general para un árbol dado se calcula a partir del producto de las probabilidades de cada rama (k = 1. B), condicionado a los estados de nucleótidos X1,k y X2,k que representan los nucleótidos ancestrales y derivados de esa rama, dados los estados de nucleótidos especificados en Cj: (3) La probabilidad de una rama depende de si X1,k y X2,k difieren entre sí, el tipo de cualquier diferencia (excepto en el caso del modelo JC) y los parámetros de la tasa de sustitución ϕ.

Computación de pagrama

Al calcular la probabilidad de observar nucleótidos X1,k y X2,k en rama k, se supone que el número de cambios de nucleótidos en la rama tiene una distribución de Poisson. No se tienen en cuenta los términos para más de dos cambios en una rama. El método podría ampliarse para permitir más de dos cambios en una sucursal, pero los sitios muy saturados aportarían poca información útil. Dejar Kk ser el parámetro de la tasa de evolución de la rama k, que es el número medio de cambios para esa rama.

Modelo JC:

Modelo K2:

Modelo R6 (Figura 2):

Para pag(2 cambios): El algoritmo para calcular la probabilidad de observar la misma base ancestral y derivada cuando se han producido dos cambios en una rama se ilustra con un ejemplo simplificado donde todas las tasas relativas en el modelo, excepto dos (r1 y r4) son cero (Figura 2).

Para el caso de X1,k = X2,k = A, la secuencia de eventos debe ser, por tanto, un cambio A → T seguido de un cambio T → A. La probabilidad de estos eventos se obtiene de: (11) Para el ejemplo donde todas las tasas relativas en el modelo, excepto r1 y r4 son cero, esto es: (12) donde k1 = 2Kk(r1 + r2 + r3) y k2 = 2Kk(r1 + r4 + r5). En este ejemplo, las tasas relativas r2, r3, y r5 son todos cero, pero se incluyen para completarlos. La evaluación de la integral definida en (12) da una expresión en forma cerrada: (13) La lógica se puede extender para permitir que todas las tasas relativas sean distintas de cero.

Asume que solo r1 y r4 son distintos de cero (Figura 2), y que A es la base ancestral y C es la base derivada. Por lo tanto, la secuencia de eventos es un cambio A → T seguido de un cambio T → C. La probabilidad de esta secuencia de eventos se obtiene de: (15) Esto es: (16) donde k1 y k2 tienen los mismos significados que los anteriores.

El algoritmo se puede extender a los casos en los que las tasas relativas son todas distintas de cero.

Computación de elementos uSFS

El enfoque ML descrito por Keightley et al. (2016) estima la proporción de densidad, πj, atribuible a que el alelo principal es el alelo ancestral vs. el alelo principal es el alelo derivado para cada par de elementos uSFS (indexado por j y metroj, dónde metro es el número de copias de genes muestreadas). Implementamos este algoritmo de la siguiente manera, condicionado a la estimación ML de los parámetros de tasa (obtenidos mediante la evaluación de la Ecuación 1), que por lo tanto se supone que se conocen sin error. Para un uSFS que contiene metro elementos, metro/ 2 Es necesario realizar estimaciones de NM. Suponiendo que los sitios evolucionen de forma independiente (cf. Ecuación 1), la probabilidad de πj para el subconjunto de sitios (sitios de numeraciónj) teniendo j copias del alelo menor en la especie focal es: (17) donde la probabilidad de la configuración de nucleótidos observada para la especie focal y los grupos externos en el sitio viene dada por la Ecuación 2, evaluada con el alelo mayor y el alelo menor como estado de las especies focales en ese sitio (ver Figura 1).

Calcular probabilidades de estados ancestrales sitio por sitio

La probabilidad del alelo XI vs. alelo YI ser ancestral en el sitio I podrían calcularse a partir de sus probabilidades relativas, es decir., pero esto solo usa información de los parámetros de tasa estimados. No incorpora información del número de principales vs. copias menores en el sitio. Por ejemplo, si la información del grupo externo no fuera informativa, asignaríamos pag1 = pag2. Sin embargo, si hay pocos sitios en el conjunto de datos en los que el alelo derivado tiene una frecuencia alta, el uSFS estimado nos diría que es más probable que A sea ancestral.

Para inferir las probabilidades de estado ancestral para el sitio I, la información de los parámetros de tasa estimada se ve aumentada por la información casi independiente de la uSFS estimada (cf. Halligan et al. 2013). Si hay j copias del alelo menor en la especie focal en un sitio I, la probabilidad del alelo mayor XI ser ancestral es: (18) Como comprobación de esta ecuación, se puede demostrar que las sumas de las probabilidades del estado ancestral recuperan el uSFS estimado.

Simulaciones

Ampliamos un programa de simulación descrito por Keightley et al. (2016) para simular tres grupos externos para la topología ilustrada en la Figura 1. Brevemente, se simularon sitios no vinculados con cuatro estados de nucleótidos en una población diploide de tamaño norte = 100. La tasa de mutación por sitio por generación se estableció en μ = θ/norte, y la diversidad genética neutra, θ, fue típicamente 0.01. Las simulaciones permitieron que cualquier variación dentro de una población en un nodo del árbol filogenético se transmitiera a dos subpoblaciones ancestrales, que se formaron muestreando cromosomas con reemplazo en una generación. Para generar los datos para la inferencia de uSFS, se tomó una muestra aleatoria de una sola copia genética de cada especie exógena. Simulamos sitios neutrales o una mezcla de sitios neutrales y restringidos selectivamente. Si una mutación ocurrió en un sitio restringido selectivamente, su coeficiente de selección fue s/ 2, donde s es la diferencia de aptitud entre el mutante homocigoto y el heterocigoto. Los efectos de la aptitud fueron multiplicativos entre y dentro de los loci.

Datos DPGP

Analizamos cuatro sitios degenerados de las secuencias de Ruanda de los datos de la fase 2 de DPGP, que comprenden 17 genomas haploides (ver Keightley et al. 2016 para más detalles).

1000 datos de genomas

Descargamos llamadas variantes de la versión de fase 3 del Proyecto 1000 Genomes (de ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/) y extrajimos las 99 personas no relacionadas de Luhya en Webuye , Kenia (en adelante LWK) población. Primero, restringimos nuestros análisis a sitios que estaban cuatro veces degenerados en todas las transcripciones autosómicas de genes codificadores de proteínas en humanos de acuerdo con la versión 71 de Ensembl. Usamos las alineaciones múltiples de EPO de seis vías de especies de primates (disponibles en ftp: // ftp. ensembl.org/pub/release-71/emf/ensembl-compara/epo_6_primate/) para determinar los alelos en orangutanes y macacos en cada sitio degenerado cuádruple, y para determinar si esos sitios estaban dentro de un CpG en humanos o en un grupo externo especies. Usamos orangután y macaco como grupos externos en nuestro análisis. El chimpancé y el gorila son más cercanos y potencialmente más informativos, pero comparten una alta proporción de polimorfismo con los humanos y esto viola una suposición de nuestro análisis. Las alineaciones múltiples de EPO se convirtieron primero del formato .emf al formato .maf, y luego se accedió a regiones específicas utilizando el paquete WGAbed (https://henryjuho.github.io/WGAbed/). Los datos de los alelos ancestrales humanos, tal como los utilizó el Proyecto 1000 Genomas (Consorcio Proyecto 1000 Genomas 2015), se descargaron de ftp://ftp.ensembl.org/pub/release-74/fasta/ancestral_alleles/.

Los sitios se conservaron para el análisis si no faltaban datos en humanos o en especies exóticas. Los sitios se asignaron además a categorías CpG y no CpG. Los sitios CpG se definieron como sitios que eran CpG en su contexto en cualquiera de las tres especies: humana (incluidos los alelos REF y ALT), orangután o macaco. Los sitios no CpG se definieron como sitios que nunca fueron CpG en su contexto en ninguna de las mismas especies, incluidos los alelos REF y ALT en la muestra humana. Se usaron alelos en sitios polimórficos para poblar el uSFS siguiendo dos métodos: (1) usando el alelo ancestral proporcionado por el Proyecto 1000 Genomas para polarizar variantes derivadas y ancestrales, y (2) usando el método ML descrito en el presente estudio.

Declaración de disponibilidad de datos

El software está disponible para descargar desde https://sourceforge.net/projects/est-usfs/. Material complementario disponible en Figshare: https://doi.org/10.25386/genetics.6275915.


Consanguinidad y consanguinidad ☆

Depresión por consanguinidad en poblaciones pequeñas

La endogamia es inevitable en poblaciones pequeñas y cerradas porque todos los individuos eventualmente se relacionan entre sí. La consanguinidad en una población efectiva de tamaño ( nortemi) aumenta a una tasa de 1 / (2nortemi), por generación con apareamiento aleatorio. Por ejemplo, en una población efectiva de tamaño 10, hay un aumento del 5% en la endogamia por generación. En consecuencia, se espera que las poblaciones pequeñas y aisladas que han existido durante muchas generaciones muestren depresión endogámica. Se ha descubierto que pequeñas poblaciones de plantas, moscas de la fruta, un ualabí de las rocas, panteras de Florida, pollos de las praderas mayores y una serpiente sufren depresión endogámica (Frankham, 2005). Sin embargo, la depresión por endogamia puede no causar una disminución en el tamaño de la población debido a la dependencia de la densidad. Reduced fecundity and survival will only cause a population to decline to extinction if the reproductive rate drops below the replacement level ( Frankham et al., 2010 ).


Lethal Inheritance Patterns

A large proportion of genes in an individual&rsquos genome are essential for survival. Occasionally, a nonfunctional allele for an essential gene can arise by mutation and be transmitted in a population as long as individuals with this allele also have a wild-type, functional copy. The wild-type allele functions at a capacity sufficient to sustain life and is, therefore, considered to be dominant over the nonfunctional allele. However, consider two heterozygous parents that have a genotype of wild-type/nonfunctional mutant for a hypothetical essential gene. In one quarter of their offspring, we would expect to observe individuals that are homozygous recessive for the nonfunctional allele. Because the gene is essential, these individuals might fail to develop past fertilization, die in utero, or die later in life, depending on what life stage requires this gene. An inheritance pattern in which an allele is only lethal in the homozygous form and in which the heterozygote may be normal or have some altered non-lethal phenotype is referred to as recessive lethal.

For crosses between heterozygous individuals with a recessive lethal allele that causes death before birth when homozygous, only wild-type homozygotes and heterozygotes would be observed. The genotypic ratio would therefore be 2:1. In other instances, the recessive lethal allele might also exhibit a dominant (but not lethal) phenotype in the heterozygote. For instance, the recessive lethal Curly allele in Drosophila affects wing shape in the heterozygote form, but is lethal in the homozygote.


Featured article: Leveraging breeding programs and genomic data in Norway spruce (Picea abies L. Karst) for GWAS analysis

SPARK-X: non-parametric modeling enables scalable and robust detection of spatial expression patterns for large spatial transcriptomic studies

Authors: Jiaqiang Zhu, Shiquan Sun and Xiang Zhou

GxEsum: a novel approach to estimate the phenotypic variance explained by genome-wide GxE interaction based on GWAS summary statistics for biobank-scale data

Authors: Jisu Shin and Sang Hong Lee

LIQA: long-read isoform quantification and analysis

Authors: Yu Hu, Li Fang, Xuelian Chen, Jiang F. Zhong, Mingyao Li and Kai Wang

Positive natural selection of N6-methyladenosine on the RNAs of processed pseudogenes

Authors: Liqiang Tan, Weisheng Cheng, Fang Liu, Dan Ohtan Wang, Linwei Wu, Nan Cao and Jinkai Wang

GUNC: detection of chimerism and contamination in prokaryotic genomes

Authors: Askarbek Orakov, Anthony Fullam, Luis Pedro Coelho, Supriya Khedkar, Damian Szklarczyk, Daniel R. Mende, Thomas S. B. Schmidt and Peer Bork

The Kardashian index: a measure of discrepant social media profile for scientists

A survey of best practices for RNA-seq data analysis

Authors: Ana Conesa, Pedro Madrigal, Sonia Tarazona, David Gomez-Cabrero, Alejandra Cervera, Andrew McPherson, Michał Wojciech Szcześniak, Daniel J. Gaffney, Laura L. Elo, Xuegong Zhang and Ali Mortazavi

The Erratum to this article has been published in Biología del genoma 2016 17:181

Accurate normalization of real-time quantitative RT-PCR data by geometric averaging of multiple internal control genes

Authors: Jo Vandesompele, Katleen De Preter, Filip Pattyn, Bruce Poppe, Nadine Van Roy, Anne De Paepe and Frank Speleman


Ancestral Allele explanation - Biology

Penetrance refers to the probability of a gene or trait being expressed. In some cases, despite the presence of a dominant allele, a phenotype may not be present. One example of this is polydactyly in humans (extra fingers and/or toes). A dominant allele produces polydactyly in humans but not all humans with the allele display the extra digits. “Complete” penetrance means the gene or genes for a trait are expressed in all the population who have the genes. “Incomplete” or ‘reduced’ penetrance means the genetic trait is expressed in only part of the population. The penetrance of expression may also change in different age groups of a population. Reduced penetrance probably results from a combination of genetic, environmental, and lifestyle factors, many of which are unknown. This phenomenon can make it challenging for genetics professionals to interpret a person’s family medical history and predict the risk of passing a genetic condition to future generations.

Illustration modeled after similar image by Steven M. Carr, Penetrance versus expressivity.

Expressivity on the other hand refers to variation in phenotypic expression when an allele is penetrant. Back to the polydactyly example, an extra digit may occur on one or more appendages. The digit can be full size or just a stub. Hence, this allele has reduced penetrance as well as variable expressivity. Variable expressivity refers to the range of signs and symptoms that can occur in different people with the same genetic condition. As with reduced penetrance, variable expressivity is probably caused by a combination of genetic, environmental, and lifestyle factors, most of which have not been identified. If a genetic condition has highly variable signs and symptoms, it may be challenging to diagnose.

Illustration modeled after similar image by Steven M. Carr, Penetrance versus expressivity.


Ver el vídeo: ΕΙΣΤΕ ΜΑΣΟΝΟΙ:Ο ΑΓΑΝΑΚΤΙΣΜΕΝΟΣ (Agosto 2022).