㈜셀레믹스

Blogs

Discover our Innovative Stories

NGS 패널 디자인과 Hard-to-Capture 영역의 특성

  • Post category:Blogs

생명체의 유전정보를 갖고 있는 게놈(Genome)은 A, T, G, C 염기들의 다양한 조합으로 이루어져 있습니다. 이 염기 서열의 조합 특성에 따라서 실험 및 분석 과정의 정확도가 영향을 받아 분석과 시퀀싱(Sequencing)이 어려워지기도 합니다. 유전자 포획 패널 디자인 과정에서도 이에 대한 고려가 필요한데, 이러한 영역들을 hard-to-capture 영역이라고 부릅니다. Hard-to-capture 영역들이 가지고 있는 특징들은 다음과 같습니다.

1. 반복 서열을 포함하는 경우

 

반복 서열은 1개, 혹은 그 이상의 염기 서열이 여러 번 반복되어 나타나는 경우를 말합니다. 반복 서열은 짧게는 수 개의 염기로부터 길게는 수천 개 이상의 염기를 포함하기도 합니다. 반복 횟수가 많거나 반복 서열 영역의 길이가 매우 긴 경우 PCR 증폭이나 시퀀싱 과정에서 오류를 유발하고, NGS 데이터의 분석에서 alignment의 정확도를 떨어뜨릴 수 있습니다.

2. 중복 서열을 포함하는 경우

 

중복 서열은 게놈 상의 서로 다른 영역들이 동일하거나 매우 유사한 염기 서열을 가지는 형태입니다. 반복 서열과는 달리 동일한 염기 서열이 멀리 떨어진 위치에 나타납니다. 중복 서열을 유전자 포획하는 경우 프로브가 중복 위치에도 결합할 수 있어 포획 효율이 감소하며, 중복 서열 영역의 크기가 큰 경우 NGS 데이터 분석에서 구별이 어려워 alignment에 실패할 수도 있습니다.

3. GC 비율이 매우 높거나 낮은 경우

 

GC 비율은 특정 영역의 염기 서열에서 G와 C가 차지하는 비율을 나타냅니다. DNA가 쌍을 이룰 때, A와 T의 결합력은 G와 C의 결합력에 비해 약합니다. GC 비율이 높을수록 DNA 더 강한 결합력을 갖게 되어 두 가닥이 서로 해리되지 않거나, 프로브가 표적이 아닌 다른 위치와 비특이적으로 결합할 가능성이 높아집니다. 또한, GC 비율이 높은 영역은 자가 구조를 형성하여 포획이나 시퀀싱을 방해할 수도 있습니다. 반면 GC 비율이 매우 낮은 영역에서는 프로브와 표적 DNA간의 결합력이 너무 약해 프로브가 제대로 결합하지 못하고 이탈할 수 있습니다.

일반적으로 위와 같은 서열 특징은 단백질 정보를 코딩하고 있는 exon 영역보다는 intron이나 intergenic 영역에서 많이 나타납니다. 이 때문에 intron이나 intergenic 영역을 많이 포함하는 패널은 그렇지 않은 패널 대비 낮은 효율을 보일 수 있습니다. 셀레믹스는 이러한 영역들에 대해서도 패널의 성능을 높이기 위하여 다양한 연구들을 수행하고 있습니다.