College Of Engineering
서울공대 이야기

바이오인포메틱스의 기술동향

2004.08.25 08:46

lee496 조회 수:4148

 

바이오인포메틱스의 기술동향


1. 머릿말


  인간게놈계획에서  일본의 공헌은 6~7%로 예산규모에 걸맞은 것이지만 전략의 결여로 늦게 시작된 점이 지적되는 등 문제도 있다. 그러나, 2002년 8월 이화학연구소를 중심으로 한 마우스 cDNA의 해독종료와 벼 게놈의 해독, 12월 일본과 미국의 협력으로 멍게게놈해독 등은 게놈과학의 새로운 진전에 큰 자취를 남겼다. 인간게놈이나 마우스cDNA의 배열이 밝혀짐으로 앞으로는 배열의 해석에서부터 총체적, 체계적인 기능의 해석에 초점이 모아질 전망이다.

  일본은 벼 게놈이나 cDNA라이브러리 등 기반기술에 강점이 있어 학술적이나 응용분야 모두에서 세계를 리드할 기회를 충분히 가지고 있다.

  최근, 해석장치의 고속화․자동화에 의해 산출되는 실험데이타의 양은 방대해지고 있어 정보기술의 역할은 한층 더 커지고 있다. 종래의 데이타 처리의 효율화뿐만 아니라 게놈을 활용한 해석의 복잡함에 대응하기 위하여 수학이나 정보과학의 지식이 필요하다. 바이오인포메틱스는 이러한 과제에 체계적으로 대응하기 위해서 생물과학과 정보과학의 경계에 태어난 새로운 학문분야이다.

  여기서는 바이오인포메틱스의 동향을 생명과학의 관점에서 개관했으며 게놈이나 생명을 시스템적으로 이해하기 위한 방법론 및 오늘의 과제인 인재육성책에 대해 설명한다.


2.바이오인포메틱스에 있어서의 정보과학적 기법


게놈연구에 있어서의 제 문제를 정보 과학적으로 정식화를 하면 그 대부분이 현재 계산기의 처리능력을 훨씬 초과하는 대단히 곤란한 문제가 된다. 이것은 게놈 배열이 대단히 길고, 해석을 대상으로 하는 문제의 성질이 조합적인 것에 따른다. 따라서, 근사해법이나 발견적 기법이 필요하다. 이 때문에 실용적 알고리즘의 개발은 바이오인포메틱스의 주요한 연구분야이며, 그 성과는 게놈 배열의 결정에 크게 공헌해 왔다. 미국 세레라․제노미쿠스사가 이용한 숏건(shotgun)법이라고 하는 배열결정기법은 몇 천만개의 랜덤(random)한 배열단편을 지그소 퍼즐(jigsaw puzzle)과 같이 서로 연결시키는 것이며, 당초에는 기법자체가 의문시되었었다.

그러나, 동(同)사는 최고성능의 계산기로 독자적인 알고리즘을 구사해서 경이적인 속도로 배열결정을 완수하고, 정보기술의 위력과 유효성을 강하게 인식시켰다. 근사해법은 반드시 최적해를 이끄는 것이 아니기 때문에, 해석결과의 생물학적인 평가와 이것에 근거한 알고리즘이나 파라메타의 개량이 필요하다. 바이오인포메틱스의 특징은 실험으로 확인해야 할 방대한 탐색공간을 짜고, 체계적이며 총체적인 해석을 가능하게 하고, 각각의 유전자의 해석에서는 눈에 들어오지 않은 생명 현상의 전체모습을 분명히 할 수 있는 점에 있다고 할 수 있다. 지금까지 바이오인포메틱스는 게놈 데이타베이스의 구축이나 데이타 해석을 위한 툴(tool) 개발과 그 이용기술이 중심이었다. 향후에는 게놈 연구에 있어서는 유전자발견이나 기능예측 등으로 보다 고도의 정보처리능력이 활용되게 될 것이다. 게놈 해독에서 시작한 연구는 DNA로부터 유전자, 단백질, 그리고 개체대상으로 복잡성․다양성은 증대하고, 해석 수준은 배열에서 기능, 작용으로 연구의 초점이 옮겨가는 것이 명확하다. 바이오인포메틱스에 있어서도 이 흐름에 따른 연구개발을 행할 필요가 있다.


2-1데이타베이스 


게놈연구에 의해 생성되는 대량의 데이타 대부분은 공공데이타베이스에 등록되어 인터넷상에서 공개되고 있다. 이들 데이타는 바이오인포메틱스의 모든 연구의 기점이 되는 연구기반으로서 위치가 부여된다. 공공의 게놈데이타베이스(GenBank(미), EMBL(歐), DDBJ(일))에 등록되는 DNA배열 데이타는 지수적으로 성장하고 있다. 지금까지의 데이타베이스는 DNA배열이나 단백질구조 데이타등 일차데이타의 집적이었지만, 게놈 프로젝트의 진전과 함께 다양화가 진행되고, 1염기다형 (SNP)이나 변이정보, 유전자나 단백질의 상호작용의 정보등 종래와는 다른 성질을 가진 데이타를 받아 들이게 되었다. 이들 다양한 데이타를 이용한 해석을 행하는 동시에서 데이터베이스와 정보기술의 고도화가 점점 필요하게 되고 있다.


(1)데이타베이스의 주석붙이기

다양한 데이타로 새로운 발견을 하기 위한 일련의 프로세스를 데이타마이닝이라고 부르며 바이오인포메틱스에 있어서 중요한 기술이다. 그러나, 실험에 의해 얻은 데이타가 데이타베이스에 등록된 상태로 방치되고, 데이타마이닝기술을 유효하게 적용할 수 없는 것이 문제가 되고 있다. 거기에 연구에 쓸 수 있게 해석정보를 부여 할 필요가 있다. 이것을 아노테션(주석붙임)이라 부른다. 현재 아노테션는 컴퓨터에 의한 자동화가 진척되고 있다. 그러나 컴퓨터만에서는 최적의 아노테션을 얻을 수 없으므로 사람에 의한 확인작업이 필요하다. 이화학연구소에서 결정된 마우스 완전장cDNA배열의 아노테션에 관한 회의가 2000년 8월에 이화학연구소(쯔쿠바)에서 열려, 각국의 연구자에 의한 2주일에 걸친 토의로 아노테션작업이 행하여졌다. 아노테션에는 개인의 해석을 넘어 각 기관의 연구자에 의한 확인, 협조작업이 불가피하다.


(2)개념과 어휘의 통합


유전자나 단백질은 그것을 대상으로 삼는 연구의 과정에서 관습적으로 붙여진 이름을 가지고 있다. 따라서 다른 연구분야에 있어서 같은 단백질이 몇 개의 이름을 가질 것도 있어 통합이 요청되고 있다. 또 인간을 비롯한 모델생물이 잇따라 해독됨으로써 생물계전체를 대상으로 하는 연구가 늘어나고 있다. 지금까지 모델생물(대장균, 효모, 마우스등)마다에 데이타베이스가 만들어졌지만, 사용되는 용어나 분자의 통칭에 통일기준이 없어 이용상의 비효율이 문제가 되어 왔다. 이러한 문제를 해결하기 위해서, 어휘의 불통일을 정리하고, 체계적으로 기술하는 시도가 시작되고 있고 온톨러지(ontology)이라고 부르고 있다. 온톨러지는 개념에 일관된 용어와 정의를 주는 것이다. 유전자를 대상으로 한 유전자 온톨러지, 분자나 세포의 상호작용을 대상으로 한 interaction 온톨러지, 시그널(signal) 전달계를 대상으로 한 시그널온톨러지등 연구분야마다에 온톨러지의 구축이 진행되어 왔다. 이러한 어휘의 통합과 체계적 분류가 진행되면 데이타베이스간의 상호운용성이 높아지고, 이종의 데이타베이스가 서로 참조해 융합된다고 메리트가 있다.


2-2 호모로지(homology) 해석


유전자나 단백질의 기능을 생물종간의 아미노산배열의 유사성에 근거해서 조사하는 기법을 호모로지(homology)해석이라고 부른다. 호모로지해석은 유전자 및 단백질의 기능을 조사하는 유력한 수단이 된다. 단백질은 近緣의 생물종사이에서 구조적, 기능적으로 유사하다. 따라서, 유사한 배열의 유전자가 다른 생물종에 발견되고, 그 기능이 비슷하면 해당유전자의 기능적 성질을 예측하는 단서가 된다. 호모로지해석에 있어서 대상이 게놈 배열과 같이 대단히 긴 배열의 경우, 배열이 일치하는 영역을 고속으로 찾는 것이 중요하다. 이 때문에 대표적인 해석 소프트웨어로서 FASTA(Fast Alignment) 및 BLAST(Basic Local Alignment Search Tool)이 있다. FASTA와 BLAST를 비교하면 BLAST 쪽이 처리속도는 빠르기 때문에 보다 일반적으로 사용되고 있다. FASTA는 검색감도에 뛰어나므로, 보다 자세한 해석으로 채용할 수 있다. BLAST나 FASTA를 사용해도 대규모 게놈 데이타베이스의 검색에는 시간이 걸린다. 이 대책으로 검색처리의 병렬화가 유효하다. 병렬화에는 SMP(Symmetric MultiProcessor)라고 불리는 multiprocessor 방식, PCcluster, 그리드(grid)등의 방식을 생각할 수 있다. multiprocessor 방식은 하나의 computer system 위로 복수의 CPU를 탑재해서 처리능력을 향상시키는 방식이다. 또한 PCcluster는 통상의 퍼스널 컴퓨터를 여러 대 네트워크 접속함으로써 낮은 가격으로 병렬계산기를 실현할 수있다. 널리 사용되고 있는 NCBI(National Center for Biotechnology Information:미국의 통합 생물정보 데이타베이스)제공의 BLAST프로그램에서는 multiprocessor형의 병렬계산에 대응하고 있지만, multiprocessor 방식은 하드웨어(hardware)가 고가라는 단점이 있다. 여기에서 저가격인 PCcluster에 대응한 BLAST가 실용화되고 있다. 또한, 그리드(grid)로 대표되는 공용계산환경의 이용도 생각된다. 그리드(grid)는 최근 주목을 모으고 있는 정보기술의 하나다. 일본에서의 바이오 관련 그리드의 움직임으로서 오사카대학의 바이오그리드프로젝트나 병렬생물정보처리 이니셔티브(initiative) (IPAB)의 OBIGrid등이 있다. OBIGrid는 바이오인포메틱스에서 필요한 최신 데이타베이스나 어프리케이션를 이용할 수 있는 환경이 제공된다. 이들을 이용하면 각각의 연구실에서는 고가인 계산설비를 가질 필요가 없어진다.


2-3단백질구조해석 


단백질은 게놈 정보를 따라서 생체 내에서 합성되는 최종의 산물이며, 생명활동의 기본적인 기능분자다. 단백질의 아미노산배열과 입체구조의 관계를 이해하는 것은 바이오인포메틱스의 큰 목표의 하나다. 최근 몇 년의 입체구조의 데이타수는 현저한 신장을 나타내고 있어, 10년 전의 10배이상이 되고 있다. 아미노산의 배열로부터 단백질의 입체구조는 결정된다. 다시 말해, 원리적으로는 배열만으로 입체구조의 예측이 가능하다. 단백질이 세포 내에서 합성되면 몇 밀리 초로부터 몇 초의 시간 안에 에너지적으로 가장 안정한 입체구조가 된다. 이 과정을 folding이라 한다. 그러나 단백질의 입체구조를 분자동력학으로 예측하려고 하면 방대한 계산량이 필요하기 때문에 충분한 정밀도를 얻을 수가 없다.

실용적인 구조예측의 수법에 호모로지모델링법이 있다. 이것은 배열이 유사한 단백질은 구조도 닮아 있다고 하는 성질을 이용한 것이다. 구조를 이미 알고 있는  단백질과 배열 수준으로 30%이상 일치하고 있을 때, 그 구조를 부분적으로 수정함으로써 요구하는 단백질입체구조를 예측할 수 있다. 단백질의 구조예측이 가능하게 된 오늘, 단백질연구의 초점은 기능해석으로 옮겨가고 있다. 기능해석에 의한 단백질의 기능특성의 예측은 창약개발에 연결되는 중요한 것이다. 여기에서 바이오인포메틱스의 역할은 지극히 중요하다.

2-4 유전자 네트워크

게놈의 모든 배열이나 단백질의 입체구조를 알았다고 해서 생명을 이해한 것은 아니다. 다음으로 중요한 것은 어느 유전자가 어떤 상호작용을 행할 것인가 하는 유전자 네트워크의 해명이다. 이를 위하여 지금까지 축적된 생명과학의 방대한 지식을 상호작용이라고 하는 관점에서 체계화하고, 계산기로 취급할 수 있도록 해 가는 것이 필요하다. 바이오인포메틱스의 새로운 적용영역으로서 주목을 받고 있다.

게놈의 기능해석에 있어서 세포 속에서 발현되고 있는 모든 유전자를 트랜스스크립톰이라 하며 유전자로 생성되는 모든 단백질을 프로테움이라 한다. 기능미지의 유전자가 언제, 어떻게 발현될지를 아는 것은 그 기능을 생각하는 큰 단서가 된다. 프로테움해석에서 얻을 수 있는 데이타는 다른 연구자에 있어서도 유용한 정보가 될 수 있다. 스위스 바이오인포메틱스연구소에서는 실험시료에 포함된 단백질의 분석결과인 電氣泳動 겔(Gel) 화상의 데이타베이스화를 추진하고 있다. 그러나 프로테움정보에는 특허성이 있어 창약등 산업이용에 직결하기 때문에, 공공이용은 제한되는 방향에 있다. 따라서 일본에서의 프로테움관련 데이타베이스의 정비를 서둘러야 한다. 더욱이 세포를 게놈에 코드(code)된 유전자가 이루는 다이나믹한 시스템으로서 이해하는 것이 바이오인포메틱스의 주요한 연구과제가 되고 있다. 쿄토대학의 KEGG(Kyoto Encyclopedia of Genes and Genomes)시스템에서는 유전자 네트워크의 연구성과를 데이타베이스로서 공개하고 있다. 유전자 네트워크의 해명은 유전자기능 기술을 중심으로 한 종래의 생물연구의 방법론에서는 불충분해서 정보 과학과의 융합이 필수적이다.


3. 정보기술로에서 본 바이오인포메틱스의 과제


바이오인포메틱스에서 사용되는 해석 툴(tool)(소프트웨어)은 대부분이 해외기술을 도입한 것에 의존하고 있어 source code가 공개되지 않는 것, 인터넷상의 서비스만으로 제공되는 것 등 기능이 블랙 박스(black box)가 되고 있다. 또 상용에서는 해외의 소프트웨어을 조합시켜서 제공되는 것이 대부분이다. 표는 미국대학의 표준적인 교과서에 소개되어 있는 평가가 정해진 게놈 배열해석 소프트웨어을 나타낸다. 이를 보면 미국이외의 나라에서 개발된 소프트웨어는 대단히 적다. 단백질입체구조예측이나 遺傳子아노테션 등 어프리케이션 소프트에 있어서, 일본산의 뛰어난 소프트웨어가 몇 개 존재하지만 표에 있는 것 같은 기반분야에서 널리 사용되어지는 소프트웨어는 상당히 적다. 이러한 이유에는 다음과 같은 의견이 있다.


● 바이오인포메틱스연구자 수는 일본과 미국이 큰 차이가 있다. 미국에서는 연구동향의 변화에 따라서 연구자의 전직 등이 신속에 행하여지는 등 인재의 유동성이 있어, 바이오인포메틱스의 연구자가 단기간에 확보된다. 바이오인포메틱스연구자의 육성이 긴요한 과제다.

●정보계와 생물계의 연구영역의 융합이 진행되지 않고 있다. BLAST의 개발자는 원래 수학을 전공했었다. 다른 분야의 연구자끼리 공동으로 연구할 수 있는 환경이 필요하다.

●바이오인포메틱스에 필요한 소프트웨어가 연구수준에서 움직이는 프로그램에 머물고 있어 유통하지 않는다. 또한, 독창성이 있는 알고리즘이 논문이 된 시점에서 단절되어, 소프트웨어개발에까지 연결되지 않는 케이스(case)가 있다. 또한, 소프트웨어의 유통을 위하여 메뉴얼이나 인스톨(install) 툴(tool), 배포 미디어(media)등의 패키지화가 필요하지만 각각의 연구자가 거기까지의 노동력을 들일 여유가 없다. 이들 문제의 해결에는 바이오인포메틱스의 인재육성을 위한 환경정비나 소프트웨어의 실용성을 평가해 유통시키는 체제의 확립이 유효하다. 이들을 국가에서 지원할 수 있는 체제를 검토해야 한다.





(표)주요한 게놈배열해석 소프트웨어


소프트웨어

考案者,作者

특       징

homology 검색

FASTA

Pearson 1988

(미, 버지니아대)

검출감도는 BLAST보다 우수

BLAST

Altschul 1990

(미,NCBI)

FASTA보다 고속, 현재 가장 많이사용됨

PSI-BLAST

Altschul 1997

(미)

단백질패밀리를 발견하기위한 대화판BLAST.

SSEARCH보다도 검출감도 높음

SEG

Wootton1997(미)

저복잡도영역과 반복배열을 제외하고 유사성비교정도를 높임

SSEARCH

Pearson 1991(미)

동적계획법에 의한 최적 얼라인먼트를 구함. 상당히 느림

Bayes block

aligner

ZHU 1998(미)

베이스통계를 이용한 것으로 SSEARCH보다도 느리지만 보다 상관관계가 먼 배열을 발견할수 있음

PROBE

Neuwald 1997(미)

PSI-BLAST와 동종기능을 가짐. 베이스통계를 이용해서 비대화적으로 가장 유의한 배열집합을 발견

다중배열배교(복수의 배열비교)

ClustalW

Higgins,Sharp

1988(영국)

누진법에 의해 복수 배열의 정렬배치를 구함. 다중배열 얼라인먼트에는 가장 잘 사용됨

PILEUP

Fen,Doolittle

1987(미국)

누진법에 의해 복수 배열의 정렬배치를 구함. 배열의 비교에는 니트르만윈슈법을 이용

MSA

Lipman1989(미)

다차원동적계획법에 의해 최적얼라인먼트를 구함

PRRP

後藤1996

(일,산총연CBRC)

계통수를 찾아 반복학습에 의해 얼라인먼트를 개선

SAGA

Notredame,Higgin

(프랑스)

유전적 알고리즘에 의해 스코아가 높은 것을 선택

HMMER

Eddy 1998(미국)

숨겨진 마르코후모델을 이용

Profile 검색(특징적인 패턴의 검색)

ProfileSearch

Gribskov1996

(미국)

배열패턴의 검색을 행함

MAST

Bailey,Gribskov

1997(미국)

캡을 포함하지 않은 배열블럭에 합치하는 배열을 검색함

유전자발견

RepeatMasker

Smit(미,워싱턴대)

반복배열을 검출해서 제거,유전자를 발견하기쉽게함

TWINSCAN

Korf(미,워싱턴대)

다른 생물종게놈을 비교해서 배열의 보존영역에서부터 유전자를 발견함. 배열비교법과 ab initio법의 하이브리드법

4 .일본의 바이오인포메틱스 사례


지금까지 서술한 것 같이 일본은 바이오인포메틱스연구의 뒤쳐짐이 지적되는 한편, 일부에는 구미 수준의 연구사례도 나오고 있다.


4-1 단백질입체구조예측 프로그램


현재, 단백질의 입체구조예측은 신약개발의 관점에서 주목받고 있다. 키타자토(北里) 대학의 우메야마(梅山)교수 등이 개발한 FAMS는 단백질구조예측의 국제콘테스트인 CASP(the Critial Assesment of Techniques for Protein Structure Prediction)의 2000년 대회에서 우수한 성적을 거뒀다. 이 분야에서는 미국제를 비롯한 해외의 프로그램이 널리 사용되고 있지만, FAMS는 이들보다 뛰어난 좋은 성적을 거두었다. 다른 프로그램은 부분구조로부터 전체를 구축하는 보텀 업(bottom up) 어프로치인데 반하여, FAMS는 우선 전체구조를 포착한 후 부분구조를 예측한다. 이것은 인간이 입체구조를 인식할 때에 우선 전체에 착안하는 것을 알고리즘에 적용한 것이다. 이러한 세계 수준의 콘테스트에 참가하는 것은 연구개발의 촉진에 연결된다.


4-2 바이오 그리드(grid)


최근, 주목을 모으고 있는 정보기술의 하나가 그리드(grid)이다. 그리드(grid)는 전기의 송전망에「전기 콘센트(concentric plug)를 연결시키는 것 만으로 전기를 얻는 것과 같이 쉽게 계산 파워(power)나 디스크를 사용할 수 있는 것 computer system이다. (과학기술동향 2002년 9월호 「그리드(grid) 기술의 동향」참조). 바이오 그리드는 바이오인포메틱스에 필요한 설계 패스(pass)을 그리드(grid)기술로 공유하자고 하는 것이다. OBIGrid(Open Bioinformatics Grid)는 문부과학성 특정영역연구 게놈 정보과학과 병렬정보처리 이니셔티브(initiative)(IPAB)가 모체가 되고, 그리드(grid)에 접속하는 것 만으로 최신 데이타베이스나 어프리케이션을 이용할 수 있는 환경의 구축을 목표로 삼고 있다. OBIGrid는 게놈 해석의 거점이 될 수 있는 가능성을 가지고 있어, 우선 바이오인포메틱스에의 연구자 참여장벽을 낮출 수 있다. 다시 말해, 바이오인포메틱스에서 필요한 여러 데이타베이스나 어프리케이션의 환경을 자력으로 갖출 수 없는 연구자를 많이 유입할 수 있는 효과를 기대할 수 있다. 또한 그리드(grid)는 실험 데이타 시작의 장소로서 기능을 할 수 있는 것이며, LAN환경과 같은 쉽게 화일(file)에 악세스(access)할 수 있기 때문에 사장되어버릴 실험 데이타에서 새로운 발견을 할 수 있는 것이 기대된다.

Login
College of Engineering Seoul National University
XE Login