차세대 염기서열 분석(Next-Generation Sequencing, NGS)은 유전체학 연구에서 필수적인 도구로 자리 잡았으며, 변이 분석에서도 중요한 역할을 합니다. NGS 데이터를 이용해 변이를 분석할 때 적정 시퀀싱 깊이(depth)를 설정하는 것은 매우 중요합니다. 이는 실험의 정확성과 비용 효율성을 결정짓는 요소이기 때문입니다. 예를 들어, 시퀀싱 데이터의 생산량이 많을수록 더 낮은 Variant Allele Frequency (VAF)의 변이까지 탐지가 가능하며 검출된 변이의 신뢰도도 높아지겠지만, 분석 비용이 그만큼 증가하게 됩니다. 만약 검출하고자 하는 변이의 VAF 값이 높은 경우라면 낮은 시퀀싱 깊이만으로도 충분한 검출 성능을 확보할 수 있을 것입니다.
특정 VAF의 변이를 검출하기 위해 필요한 최소 시퀀싱 깊이는 다음과 같이 계산할 수 있습니다. 변이를 검출하기 위한 최소 리드 수를 10으로 설정했을 때, 10%의 변이를 분석하기 위해서는 100X의 시퀀싱 깊이가 필요하며, 1%의 변이를 분석하기 위해서는 1000X의 시퀀싱 깊이가 필요합니다. 이보다 낮은 시퀀싱 깊이를 가지는 경우 변이를 포함하는 리드 수가 기준 값을 넘지 못하므로 변이를 검출할 수 없습니다.
적정 시퀀싱 깊이와 검출 가능 VAF를 결정하는 또 다른 중요한 요소는 시료의 양입니다. 30억 개의 염기쌍으로 이루어진 인간 게놈은 반수체(haploid)당 약 3.3 pg의 질량을 가집니다. 따라서 3.3 ng의 인간 gDNA는 약 1000개의 인간 게놈 반수체를 포함하고 있는 셈입니다. 이와 같이 초기 시료의 양은 분석 가능한 게놈의 카피 수에 큰 영향을 끼칩니다. 실험에 사용한 게놈 카피 수보다 더 많은 시퀀싱 깊이로 데이터를 생산하는 경우 PCR duplicate 비율이 올라가게 되어 데이터 분석 효율이 감소하게 됩니다. 또한, 검출해야 하는 변이의 비율에 비해 게놈의 카피 수가 부족하다면 시퀀싱 데이터를 많이 생산하더라도 변이를 검출할 수 없습니다.
이외에도 DNA 시료의 품질 또한 변이 검출에 중요한 요소입니다. 위에서 계산한 샘플 양에 따른 반수체 수 값은 게놈에 손상이 적은 경우를 가정한 이상적인 값입니다. 만약 시료의 품질이 떨어지거나 DNA가 손상된 경우 실제로 실험 가능한 분자의 수가 줄어들게 되어, 데이터 분석 효율이 감소합니다. 이를 극복하고 충분한 성능을 확보하기 위해서는 더 많은 양의 시료를 사용하거나, 더 많은 시퀀싱 데이터를 생산해야만 합니다.
결론적으로, 적정 시퀀싱 깊이는 실험의 목적, 시료의 품질, 예산, 그리고 사용 가능한 분석 도구들을 종합적으로 고려하여 결정해야 합니다. 이러한 결정은 연구자의 경험과 지식, 그리고 분석하고자 하는 변이의 특성에 따라 달라질 수 있습니다.