㈜셀레믹스

Blogs

Discover our Innovative Stories

생물정보학(Bioinformatics): NGS 데이터 표준 분석 파이프라인 소개

  • Post category:Blogs

생물정보학(Bioinformatics)은 생물학(Biology)에 컴퓨터공학과 통계학을 접목하여 방대한 생명 정보를 분석하고 조직화하는 분야입니다. 생물정보학 기술을 통해 NGS 장비(NGS equipment)에서 생산되는 대량의 데이터를 빠르고 효율적으로 처리하여 사람이 이해하기 쉬운 형태의 정보로 변환할 수 있습니다. 가장 일반적인 형태의 NGS 분석 파이프라인은 아래와 같은 형태를 하고 있습니다.

CELEMICS_blog#2_NGS DATA ANALYSIS PIPELINE

1. Raw NGS data

 

NGS 장비에서 생산된 서열 정보는 일반적으로 FASTQ라는 파일 형식을 이용하여 기록됩니다. FASTQ 형식은 장비에서 읽어들인 서열 정보와 각 서열의 정확도 정보를 하나의 파일에 기록할 수 있는 형식입니다.

Celemics reference
    1. Sequence ID
      첫 번째와 세 번째 줄은 각 read의 고유 번호를 나타냅니다. 원래 서열 정보만을 기록하던 FASTA 파일과 정확도 정보만을 기록하던 QUAL 파일이 합쳐진 형식이기 때문에 고유번호 위치가 두 곳인데 용량을 줄이기 위해 일반적으로 세 번째 줄의 고유 번호는 생략됩니다. 서열 고유 번호에는 시퀀싱 장비별로 특징적인 형식을 가지고 있어서 이를 통해 사용한 장비나 키트의 정보를 확인할 수도 있습니다. Paired-end 시퀀싱에서는 동일한 고유번호에 read 방향을 추가하는 형태로 정보가 기록됩니다 .
    2. Sequence
      두 번째 줄에는 장비에서 분석한 염기서열의 정보가 기록됩니다.
    3. Quality score
      네 번째 줄에는 각 염기 서열의 정확도 정보가 기록됩니다. 정확도는 Phred 점수를 통해 아래와 같이 계산되며, 이를 ASCII 코드를 이용하여 한 개의 문자로 변환하여 기록합니다.
Celemics reference

2. Quality filter & Adapter trimming

이 단계는 시퀀싱 데이터 분석의 품질을 높이기 위해 데이터를 정제하는 과정입니다. 우선, 각 read 말단에서 나타나는 정확도가 낮은 부분을 잘라내고, read의 정확도 점수 평균이 너무 낮거나 염기 서열이 정확히 판정되지 않아 N으로 기록된 위치가 많은 경우 read 전체를 제거합니다. 라이브러리 제작 과정에서 내부 DNA 서열 길이가 짧은 경우 시퀀싱 장비가 내부 서열을 다 읽은 후 NGS 어댑터 서열을 읽게되는데, 이 어댑터 부분은 원래 존재하지 않는 서열이므로 분석에 오류를 발생시킬 수 있습니다. 그러므로 read 말단부에서 어댑터(Adapter) 서열이 인식되는 경우 해당 서열을 제거합니다.

CELEMICS_blog#2_Quality filter & Adapter trimming

3. Alignment Mapping and Sorting

이 단계는 각 서열 정보가 표준 게놈 서열의 어느 위치로부터 온 것인지 분석하는 단계입니다. 이후 각 read를 염색체 및 좌표 순으로 정렬하여 다음 분석에 활용합니다.

4. PCR duplicates removal

PCR duplicate는 동일한 DNA 분자로부터 증폭된 산물들이 여러 번 분석된 것을 의미합니다. NGS 데이터의 read들의 비율이 원래의 DNA 분자들과 최대한 비슷한 형태로 존재하도록 하려면 PCR duplicate를 제거해주는 과정이 매우 중요합니다. 이를 통해 분석된 변이의 비율이 실제 DNA 분자 내에서의 변이 비율과 유사해집니다. PCR duplicate 분석 프로그램은 paired-end read의 위치 정보를 바탕으로 원본 DNA의 형태를 유추하고, 동일한 형태의 데이터를 제거하는 방식으로 작동합니다. Duplicate 제거의 정확도를 높이기 위해 분자 바코드와 같은 추가적인 정보를 도입하기도 합니다. PCR amplicon을 직접 시퀀싱하는 경우 원본 DNA 분자가 다르더라도 프라이머 위치에 의해 read 데이터가 동일한 형태로 생성되어 이 분석 과정을 수행할 수 없습니다.

CELEMICS_blog#2_PCR Duplicates removal

5. Base quality recalibration

이 과정은 데이터에서 보고된 서열의 정확도 점수 분포를 분석하여 실험적으로 더 정확한 분포를 갖도록 재조정하는 단계입니다. BQSR 프로그램은 알려진 SNP 위치 정보를 가지고 데이터의 에러율을 다시 계산하고, 이를 반영하여 정확도 점수를 재조정하는 두 단계로 수행됩니다.

6. Variant calling, Annotation

이 단계는 시퀀싱 데이터에서 분석된 서열 정보와 표준 게놈 서열 정보를 비교하여 변이가 발생한 위치를 찾는 과정입니다. 변이는 그 형태에 따라 아래와 같이 분류할 수 있습니다.

CELEMICS_blog#2_Variant calling_Annotation

분석한 변이에 대해 다양한 데이터베이스를 사용하여 해당 변이와 관련된 정보를 추가하는 과정을 주석(Annotation)이라고 합니다. 이러한 분석 과정을 통해 NGS 장비로 생성된 방대한 양의 데이터를 사람이 쉽게 이해할 수 있는 정보로 정제할 수 있습니다.