Desde o desenvolvimento da tecnologia de sequenciamento de Sanger, em 1977, a evolução do Sequenciamento de Nova Geração (NGS) já atingiu sua quarta geração. Saiba mais sobre as quatro gerações de sequenciamento usadas hoje.
Sequenciamento de Sanger: o pioneiro
O método Sanger de sequenciamento de DNA foi a primeira tecnologia que permitiu a leitura de sequências do genoma de uma forma sistemática: conhecendo um trecho curto próximo da região de interesse é possível utilizar uma sequência de ácido nucleico complementar a esse trecho (um primer) e estender o fragmento para criar cópias da região que se quer conhecer.
O Sequenciamento de Sanger é a primeira geração de sequenciamento de DNA.
A metodologia de sequenciamento desenvolvida por Sanger usa o método de terminação de cadeia para identificar a ordem em que os fragmentos são inseridos na sequência estudada. Nesse método, são adicionadas na reação algumas bases nitrogenadas (Adenina, Timina, Citosina e Guanina) modificadas para não permitirem a inserção de outras bases depois delas, terminando a cadeia. Cada tipo de base é marcada com um fluoróforo de cor diferente que é reconhecido por um detector no sequenciador.
Depois da reação de extensão, os fragmentos são separados por tamanho em uma eletroforese e as bases finais de cada fragmento são identificadas pela cor de seu fluoróforo. Dessa forma é possível recriar a sequência de interesse original e identificar variações dentro dela.

O método Sanger foi desenvolvido em 1977 e é utilizado até hoje em diferentes áreas da genética. Na época em que foi desenvolvida, essa tecnologia permitiu o início de diversos projetos de estudo de genomas de diferentes espécies, incluindo o Projeto Genoma Humano, que se propôs a sequenciar o genoma humano pela primeira vez.
Hoje, com o avanço das tecnologias de Sequenciamento de Nova Geração (NGS), o sequenciamento de Sanger tem um uso mais limitado, já que o custo-benefício dessa tecnologia para analisar várias amostras simultaneamente é baixo. No entanto, ele ainda é usado para o sequenciamento de regiões mais complexas do DNA, como o gene CYP21A2, causador da Hiperplasia Adrenal Congênita (CAH).
Saiba mais sobre as contribuições do sequenciamento Sanger para a medicina contemporânea.
Sequenciamento de nova geração (NGS)
A corrida para finalizar o Projeto Genoma Humano impulsionou o desenvolvimento das tecnologias de Sequenciamento de Nova Geração (NGS, do inglês Next Generation Sequencing). O surgimento dessas tecnologias reduziu o tempo e, principalmente, o custo do sequenciamento: o projeto foi terminado anos antes do previsto e o custo final de um genoma caiu de cerca de 100 milhões de dólares, em 1991, para cerca de 50 milhões, em 2003.

Com as tecnologias NGS disponíveis hoje, é possível sequenciar um genoma humano completo em cerca de 24h por menos de mil dólares.
As tecnologias NGS também são conhecidas como sequenciamento massivo em paralelo. Esse nome indica qual é a grande vantagem dessas tecnologias: permitem sequenciar bilhões de fragmentos de DNA (sequenciamento massivo) simultaneamente (em paralelo). Além disso, a tecnologia permite analisar várias amostras em um mesmo ensaio (multiplex).
Desde o surgimento das primeiras tecnologias NGS, hoje denominadas de segunda geração, já foram desenvolvidos sequenciadores de terceira e quarta geração. De forma geral, essas tecnologias focam no sequenciamento de DNA, sendo que RNA (RNA-Seq) e proteínas podem ser analisados de forma indireta (DNA complementar).
Sequenciamento de Segunda Geração
A maioria das tecnologias de Sequenciamento de Segunda Geração utilizam a metodologia de sequenciamento por síntese. A grande diferença entre elas costuma estar no preparo das bibliotecas, método de detecção e, consequentemente, na qualidade das leituras produzidas.
Sequenciamento baseado em amplicon
As primeiras tecnologias NGS precisavam enriquecer as suas amostras com várias cópias dos fragmentos de interesse, e para isso usavam reação em cadeia da polimerase (PCR, do inglês Polymerase Chain Reaction). Assim, eram criadas milhares de cópias (amplicons) de cada fragmento original.
Ter um volume grande de cópias é vantajoso pois, quanto mais cópias são lidas durante o sequenciamento, maior a certeza de que a sequência lida está correta, minimizando erros de leitura. Porém, o uso de amplicons traz pelo menos três grandes desvantagens:
- Se um erro for inserido durante a PCR, ele será replicado e lido com alta cobertura (muitas reads).
- Se houver uma mutação na região onde se ligam os primers da PCR, é possível que esses fragmentos não sejam amplificados, gerando uma exclusão alélica (ou dropout, em inglês).
- Diferentes primers têm diferentes temperaturas ótimas de ligação com o DNA, por isso a cobertura nesse tipo de tecnologia não é uniforme ao longo de todas as regiões analisadas.
Devido a essas desvantagens, hoje o enriquecimento por amplicons está caindo em desuso.

Sequenciamento por hibridização e captura (PCR-free)
Uma alternativa aos amplicons é o enriquecimento por hibridização e captura, que não requer a etapa de PCR (PCR-free).
Nessa tecnologia, as moléculas de DNA são fragmentadas em regiões e tamanhos diferentes, criando segmentos curtos que se sobrepõem nas suas extremidades. Os fragmentos de interesse são capturados por sondas, enriquecendo a amostra somente com as regiões de interesse. Dessa forma, uma mesma base pode ser lida várias vezes em fragmentos diferentes, aumentando a cobertura de uma forma uniforme e sem erros inseridos por PCR.
A taxa de erros de leitura nessa tecnologia é menor que a baseada em amplicons e, por isso, é a melhor escolha para uso diagnóstico. A Mendelics utiliza sequenciamento Illumina baseado em hibridização e captura, o mais recomendado para a área médica atualmente.
Saiba mais sobre as diferenças entre as tecnologias baseadas em amplicons e em hibridização e captura (NGS Targeted Sequencing).
Sequenciamento Illumina: sequencing by synthesis
A tecnologia Illumina de sequenciamento, também conhecida como sequenciamento por síntese (do inglês sequencing by synthesis), é a que apresenta o melhor custo-benefício atualmente: curto tempo de leitura, baixa taxa de erro e altamente escalável, possibilitando a análise de até 798 amostras simultaneamente com o sequenciador NovaSeq 6000.
Nessa tecnologia, durante o sequenciamento, é criada uma cópia de cada fragmento de interesse onde as bases adicionadas emitem um sinal de fluorescência que é detectado pelo sequenciador, que em seguida traduz esses sinais em sequências de texto.
A Illumina já oferece sequenciamento direto de RNA, sem a necessidade de síntese de DNA complementar.
Outras tecnologias de sequenciamento de segunda geração
O sequenciamento Illumina, apesar de ser o mais comumente usado tanto na pesquisa quanto na prática clinica, não é a única tecnologia de sequenciamento de segunda geração disponível.
De uma forma geral o processo é muito semelhante para todas as tecnologias: o DNA é fragmentado em pequenos trechos de, em média, 150 a 300 pares de base, sequenciado e depois remontado como um quebra-cabeça. A grande diferença está na forma como as sequências são lidas.
Hoje existem tecnologias que transcrevem os fragmentos de DNA sequenciados a partir de sinais químicos e eletroquímicos, como é o caso da tecnologia Ion Torrent que mede a variação de pH no sistema quando as bases nitrogenadas são adicionadas, por exemplo.
Long reads: sequenciamento de terceira geração
Como descrito anteriormente, as tecnologias de sequenciamento de segunda geração produzem fragmentos curtos. Apesar de trazer mais agilidade e, consequentemente, um ótimo custo-benefício, o uso de fragmentos curtos dificulta a análise de regiões complexas, como regiões altamente repetitivas, por exemplo.
O Projeto Genoma Humano foi finalizado em 2003 tendo sequenciado cerca de 92% do genoma humano. Os 8% restantes são regiões complexas que não puderam ser elucidadas com as tecnologias de sequenciamento de primeira e segunda geração existentes na época.
Imagine um grande quebra-cabeça em que a imagem é composta de muitos padrões repetitivos. Agora imagine que existem duas versões dele: uma com milhares de peças pequenas, e outra com algumas centenas de peças bem grandes. Qual dessas versões será mais fácil de montar?

Os sequenciadores de terceira geração resolvem exatamente esse problema: eles conseguem ler fragmentos muito longos do DNA em uma única sequência e facilitam a montagem do genoma.
Essas tecnologias ainda estão sendo aperfeiçoadas para a redução das taxas de erro e, por isso, são menos usadas na prática médica, mas já são amplamente utilizadas no sequenciamento de novo de organismos que ainda não foram mapeados e em análises metagenômicas.
Sequenciamento Nanopore
A tecnologia Nanopore de sequenciamento de long reads está se tornando popular por ser muito ágil. Antes da Nanopore, as tecnologias de sequenciamento de sequências longas eram bastante custosas e demoradas.
A missão da Nanopore é possibilitar que “qualquer pessoa analise qualquer coisa em qualquer lugar” (do inglês analysis of anything, by anyone, anywhere), por isso eles oferecem equipamentos pequenos e portáteis que trabalham com preparo de amostras muito simples e rápido. Outro diferencial é que a análise dos dados do sequenciamento pode ser feita em tempo real, agilizando ainda mais os ensaios.
A Nanopore foi pioneira no sequenciamento direto de RNA (sem a necessidade de síntese de DNA complementar).
Para isso a Nanopore usa um sistema de nanoporos proteicos sintéticos em uma membrana que é capaz de medir variações de corrente elétrica. Conforme as bases da fita de DNA passam pelo nanoporo, elas alteram a corrente e essa alteração é interpretada pelo detector, que registra a base lida.

Quanto ao tamanho dos fragmentos, a Nanopore já registrou leituras de sequências com mais de 4Mb de comprimento. Hoje a tecnologia já subdivide seus produtos em sequenciamento de sequências longas (long reads – até 100 Kb) e ultra longas (ultra-long reads – mais de 100 Kb).
A tecnologia Nanopore foi utilizada no projeto que elucidou os 8% de regiões do DNA que ainda eram desconhecidos, permitindo que o genoma humano fosse sequenciado realmente por completo pela primeira vez em 2020. Saiba mais sobre o sequenciamento completo do genoma humano.
Alguns autores classificam a tecnologia Nanopore como sendo a primeira da quarta geração por permitir sequenciamento multiplex de long reads com leitura de molécula única sem a necessidade de síntese. Nesse post, seguimos a linha que considera tecnologias de long read como de terceira geração, independente do método de leitura.
Sequenciamento PacBio (SMRT)
Outra tecnologia bastante conhecida é o sequenciamento de molécula em tempo real (SMRT, do inglês Single Molecule, Real-Time Sequencing) utilizada pela PacBio. Essa tecnologia utiliza um sistema semelhante ao sequenciamento por síntese da Illumina: a detecção é feita por sinal luminoso (fluorescência) mas o sequenciamento das fitas longas de DNA é feito com cada fita isolada em um minúsculo poço na placa de sequenciamento.
A tecnologia PacBio ainda é muito utilizada para o sequenciamento de novo de organismos com genomas desconhecidos.
Sequenciamento de quarta geração: in situ sequencing
A quarta geração de sequenciamento, apesar de ainda estar em desenvolvimento e ser usada majoritariamente na pesquisa acadêmica, é uma grande aposta para a área médica, tanto para a caracterização de doenças quanto para desenvolvimento de novos tratamentos.
Essa geração, também conhecida como sequenciamento in situ ou espacial, visa mapear a localização e entender o comportamento de moléculas como proteínas e RNAs dentro da célula. Para isso, as tecnologias de quarta geração unem o sequenciamento paralelo massivo típico de tecnologias de segunda e terceira geração com detecção visual em nível celular.

As gerações anteriores não são capazes de prover informações sobre a localização das moléculas em uma célula, pois os ensaios são feitos com DNA, RNA ou proteínas extraídos de várias células e misturados em uma única solução.
Atualmente, a transcriptômica e a proteômica são as duas principais áreas desenvolvendo essas tecnologias:
- A análise de expressão gênica com sequenciamento de quarta geração não só dosa a expressão gênica de um determinado tipo de célula, como é capaz de identificar a localização de cada RNA dentro da célula, contribuindo com o estudo da função dessas moléculas e da célula.
- A caracterização de complexos proteicos e sua função na célula também ganha com o uso da quarta geração de sequenciamento: marcando cada proteína com um barcode (etiqueta molecular) é possível identificar complexos proteicos, uma vez que eles serão sequenciados num mesmo cluster na placa de sequenciamento (flow cell).
O sequenciamento de quarta geração também permite identificação de variantes mas, para isso, demanda uma cobertura bastante alta, o que pode aumentar o custo e tempo da análise.
Esse tipo de tecnologia poderá auxiliar na compreensão da progressão de tumores e doenças degenerativas, como a doença de Alzheimer, além de ser uma boa ferramenta para estudar alvos terapêuticos para novos medicamentos e verificar o efeito de edições genéticas feitas com CRISPR, por exemplo.
Referências
- Ke R, Mignardi M, Hauling T, Nilsson M. Fourth Generation of Next Generation Sequencing Technologies: Promise and Consequences. Human Mutation. 2016;37(12):1363-1367.
- Mignardi M, Nilsson M. Fourth-generation sequencing in the cell and the clinic. Genome Medicine. 2014;6(4):31.
- NHGRI. The Cost of Sequencing a Human Genome. Genome.gov. Published March 13, 2019. Accessed June 9, 2022.
- Oxford Nanopore Technologies. Advancing Human Genomics with Nanopore Sequencing. nanoporetech.com/publications; 2019.
- Wyss Institute. Fluorescent in situ sequencing. YouTube. Published online March 3, 2014. Accessed June 10, 2022.
Deixe um comentário