㈜셀레믹스

Blogs

Discover our Innovative Stories

NGS 용어집 3편: 생물정보학(Bioinformatics) 분석

  • Post category:Blogs

NGS Key Terminology Guide Part 2: Sequencing

Glossary of common NGS terms

NGS 실험의 성공은 시퀀싱 자체에 그치지 않고, 데이터를 해석해 생물학적 의미로 전환하는 생물정보학(Bioinformatics) 분석까지 뒷받침되어야 합니다.
이번 포스트에서는 NGS 데이터 분석에서 자주 접하게 되는 주요 생물정보학 용어들을 정리했습니다.
FASTA, FASTQ, Phred Score, variant calling을 비롯해, 품질 관리(QC), 정렬(alignment), De novo 조립, 변이 주석(annotation) 등 핵심 개념을 이해하고, 각 단계가 어떻게 해석과 결과에 영향을 주는지 알려드립니다.

NGS 데이터를 기반으로 의미 있는 생물학적 정보를 도출하기 위해 사용하는 컴퓨터 기반 분석입니다.

주요 분석 예시:
– 
변이 주석 (Variant annotation)
– 유전자 발현 정량 (Gene expression quantification)
– 생물학적 경로 분석 (Pathway enrichment analysis)
– 융합 유전자 탐지 (Fusion gene detection)
– 미생물군 구성 분석 (Microbial profiling) 등

시퀀싱 결과에서 염기 하나하나가 얼마나 정확하게 판독되었는지를 수치로 표현한 로그 스케일 품질 점수입니다.

공식: Q = -10 log₁₀(P) (P는 오염기 확률, The probability of an incorrect base call).

Phred 점수가 높을수록 정확도가 높으며, FASTQ 파일 내 염기별 품질 정보를 나타내는 지표로 사용됩니다.

염기서열 또는 아미노산 서열을 텍스트 형식으로 저장하는 기본 포맷입니다.
> 기호로 시작하는 헤더 라인 다음에 실제 서열이 이어지며, 품질 정보는 포함하지 않습니다.
참조 유전체, 유전자 서열, 단백질 서열 등 레퍼런스 데이터 관리용으로 널리 사용됩니다.

FASTQ 파일은 원 시퀀싱 리드와 염기별 품질 점수를 함께 저장합니다.
각 리드는 다음 네 줄로 구성됩니다:

@ read identifier

raw nucleotide sequence

+ separator

ASCII-encoded Phred quality scores

FASTQ는 Illumina를 포함한 대부분의 차세대 시퀀싱(NGS) 플랫폼에서 표준 출력 포맷입니다.

SAM(Sequence Alignment/Map) 파일은 참조 유전체(reference genome)에 정렬된 시퀀싱 리드를 저장하는 텍스트 기반 포맷입니다.
여기에는 리드 이름, 정렬 위치, CIGAR 문자열, 매핑 품질(mapping quality), 그리고 추가 메타데이터를 위한 옵션 태그 등이 포함됩니다.
BAM 파일은 SAM 파일의 바이너리(압축) 버전으로, 파일 크기를 줄이고 계산 처리 속도를 높이기 위해 설계되었습니다.

QC는 시퀀싱 데이터의 품질을 평가하고, 저품질 리드, 어댑터 서열, 기술적 잡음을 제거하는 과정입니다.
이러한 단계는 신뢰도가 높은(high-confidence) 데이터만을 남기게 하여 downstream 분석의 신뢰성과 정확성을 높여줍니다.

절단(shearing) 이후의 DNA 조각 크기 분포는 하이브리다이제이션 효율과 시퀀싱 성능에 영향을 미칩니다.
예를 들어, 약 300 bp의 조각 크기는 150 bp 페어드엔드(paired-end) 시퀀싱에 이상적이며,  캡처 효율(capture efficiency)과 클러스터 생성(cluster generation)을 최적화합니다.

참조 유전체(reference genome)는 한 종(species)의 대표적인 조립된 DNA 서열로, 개별 시퀀싱 데이터를 정렬, 매핑, 비교할 때 기준으로 사용됩니다.
보통 한 명 또는 소수의 개체로부터 유래하며, 코딩(coding) 및 비코딩(non-coding) 영역을 포함한 복합 합의 서열(composite consensus)로 구성됩니다.

시퀀싱 리드를 참조 유전체 또는 전사체(transcriptome)에 매핑하는 계산적 과정입니다.
이 단계는 유전적 변이(genetic variants), 구조적 변이(structural alterations), 발현 프로파일(expression profiles)을 식별하는 데 기본이 됩니다.

De novo Assembly는 참조 유전체 없이 원 시퀀싱 리드로부터 유전체를 조립하는 과정입니다.
이 과정은 겹치는 리드를 이용해 contig(연속 서열)를 구성하고, 이후 scaffold로 조직하여 전체 유전체 서열을 재구성합니다.
이 방법은 특히 새로 발견된 생물체, 높은 유전체 다양성을 가진 종, 신규 바이러스나 미생물 연구에 중요합니다.

Contig는 겹치는 시퀀싱 리드를 결합해 만든 정확하고 연속적인 DNA 서열입니다.
Contig는 De novo 유전체 조립과 전사체 재구성(transcriptome reconstruction, 예: RNA-Seq)의 기본 단위입니다.

Scaffold는 여러 contig를 순서대로 정렬하고 방향을 설정하여 구성한 고차 구조(higher-order structure)입니다.
페어드엔드 리드, 메이트 페어 데이터, 물리적 맵핑(physical mapping) 기술 등의 보조 정보를 사용하여 생성됩니다.
Contig와 달리 scaffold는 contig 사이에 정확한 서열이 알려지지 않은 영역을 ‘N’으로 표시한 공백(gap)을 포함할 수 있습니다.
Scaffold는 더 큰 유전체 구간을 재구성하고 완전한 유전체 조립으로 가는 중간 단계를 제공합니다.

Coverage는 특정 유전체 영역이 몇 번 시퀀싱되었는지를 나타내는 지표입니다.

  1. Depth of coverage: 염기 하나를 평균적으로 몇 번 읽었는지 (예: 30x는 각 염기가 평균 30회 커버됨)
  2. Breadth of coverage: 특정 기준 이상(예: ≥20x)으로 커버된 타깃 영역의 비율

높은 커버리지는 변이 탐지 정확도와 시퀀싱 결과의 신뢰도를 높여줍니다.

Uniformity는 시퀀싱 리드가 전체 타깃 영역에 얼마나 고르게 분포되었는지를 측정하는 지표입니다.
균일도가 높을수록 변이 탐지의 민감도(sensitivity)가 영역 간에 일관되게 유지되며, 리드 결손(dropout)으로 인한 변이 누락 가능성을 줄여줍니다.

Variant Calling은 시퀀싱 데이터를 참조 서열과 비교하여 단일 염기 다형성(SNP), 삽입/결실(InDels) 등의 유전 변이를 식별하는 분석 과정입니다.

Variant Annotation은 시퀀싱을 통해 확인된 유전적 변이에 생물학적 맥락과 기능 정보를 추가하는 과정입니다.
이는 변이가 유전자, 전사체, 단백질에 미치는 영향을 예측하고, 질병 연관성, 인구 집단 빈도, 임상적 의미 등과 연결하는 작업을 포함합니다.

Contact Us