College Of Engineering
서울공대 이야기

21세기식 과학, e-사이언스

2004.08.13 12:55

silver 조회 수:2699

 

21세기식 과학, e-사이언스 

컴퓨터 네트웍 이용, 짚더미서 바늘 찾기

입자 물리서 시작 과학기술 전반에 확산


알파벳 순으로 정리된 수많은 레코드판 사이를 서성이며 자신이 좋아하는 가수의 곡을 고르는 것이 80년대의 모습이었다면, 전문 음악 사이트에 접속해 단어 몇 개를 입력하고 파일을 다운 받는 것이 2000년대 식이다.

컴퓨터와 인터넷의 발달이 우리 삶의 모양 자체를 변화시킨 것이다. 과학이라고 이런 거센 변화의 물결에서 예외일리 없다.

과학을 잘 하기 위한 수단으로 등장한 컴퓨터와 인터넷은 급기야 과학의 방법까지 변화시킨 것이다. 수도원 뒤뜰에 완두를 심고는 일일이 교배하면서 유전의 법칙을 완성시킨 멘델이 19세기 식 연구방법이라면, 전 세계 20만대의 컴퓨터를 연결해 세계에서 제일 큰 소수를 찾아내는 것이 바로 21세기식 연구방법이다.


‘데이터 홍수를 정복하라’


지난 200여년동안, 관찰-가설 수립-실험-가설의 증명 또는 폐기 라는 일련의 단계가 과학 연구의 정석으로 여겨져 왔다.

그러나 컴퓨터의 연산 속도가 기하급수적으로 빨라지고, 저장할 수 있는(또는 저장해야 하는) 데이터의 양이 급속히 비대해지면서 새로운 방법의 필요성이 대두되기 시작했다. 과학자들이 그야말로 데이터의 홍수에 빠져 허우적거리는 상황에 이르렀기 때문이다. 이 시점에서, 과학 연구에 새로운 방법론을 모색했는데, 이것은 컴퓨터를 이용한 e-사이언스(science)의 시작을 예고했다.

과학 연구의 새로운 길은 입자물리학 연구에서부터 시작되었다. 입자 충돌 실험에서 생성되는 엄청난 양의 데이터는 페타바이트(1 petabyte = 1,000,000 Gb) 단위의 저장장치를 필요로 한다.

페타바이트는 지구상 인구 전체 개개인의 고해상도 사진을 보관하기에 충분할 정도로 큰 저장 용량이다. 일반적으로 쓰이는 최신형 PC 1만대분의 저장용량이니, 한 곳에 모아 놓으면 저장장치만으로도 큰 방을 꽉 채우고 남을 것임은 쉽게 짐작할 수 있다.

2006년 가동을 시작하는 유럽연합의 하드론 충돌장치(Hadron Collider)는 힉스 보존(Higgs boson)을 검출할 것으로 기대되고 있는데, 이 장치는 연간 10 페타바이트의 분석할 데이터와 초당 200 테라플롭(200 Teraflops/s, 최신형 최고급 슈퍼컴퓨터 수십대에 해당)의 연산능력을 요구한다.

2015년까지는 엑사바이트(exabyte)의 용량과 초당 페타플롭의 능력이 필요할 것으로 예측되고 있다. 인터넷의 시작이 세계에 퍼져 있는 입자물리학 연구 그룹간의 데이터 전송과 관련이 있다는 것은 널리 알려진 이야기이다.

분산 컴퓨팅(distributed computing, grid computing)의 시작도 이와 비슷하다. 너무나 큰 데이터를 저장하고, 불러내어 분석하는 것을 한 대의 컴퓨터로 처리하는 것은 아무리 슈퍼컴퓨터라 하더라도 답답하고 비효율적인 작업이 될 것이다. 분산 컴퓨팅이란, 네트워크로 연결된 수많은 컴퓨터, 또는 다수의 슈퍼컴퓨터에 데이터를 조각내어 저장하고, 또 그것을 부분부분별로 분석 처리하는 연산 방법을 말한다.

분산 컴퓨팅을 사용하면 비교적 낮은 성능의 컴퓨터 여러 대를 묶어 고성능 컴퓨터에 필적하는 연산 속도를 얻을 수 있다. 무엇보다도, 여러 곳에 흩어진 유휴 연산 능력을 적극적으로 활용하므로 더욱 효율적으로 컴퓨팅 자원을 활용할 수 있게 해준다.

외계로부터 들어오는 넓은 영역의 전파 신호를 저장했다가 잘게 나누어 개인 PC의 스크린세이버 프로그램으로 분석하는 SETI@HOME 프로젝트는 가장 대중적이고 가장 유명한 분산 컴퓨팅 사례이다.

수백만의 컴퓨터 사용자가 우연히 자신의 컴퓨터에서 외계인의 신호를 찾아낼 것을 기대하며, 또 과학 발전에 이바지한다는 뿌듯함을 갖고, 이 시간에도 컴퓨터를 사용하지 않는 동안 기꺼이 연산능력을 빌려주고 있다.

지난 6월 현재까지 확인된 가장 큰 소수(723만5733자리)를 찾는데에도 24만대의 PC를 인터넷으로 연결한 분산 컴퓨팅이 사용되었다.


새로운 방법 ‘데이터 캐내기’


분산 컴퓨팅은 단순히 수만대의 컴퓨터를 연결해서 천문학적 가격의 슈퍼컴퓨터 흉내를 내는 데에서 그치는 것이 아니다. 초대량의 데이터를 다루다 보니 종래의 과학적 연구방법-관찰, 가설, 실험으로 이어지는-과는 전혀 다른 연구방법이 탄생하였다. 바로 시뮬레이션과 데이터 캐내기(data mining)이다(이중 시뮬레이션은 실험을 대체하는 것으로 여겨지는 것이 일반적이다).

엄청난 양의 데이터에서 의미있는 데이터를 뒤져내고 찾아내는 것, 예를 들면 외계의 전파신호라는 ‘짚더미’에서 인공의 신호라는 ‘바늘’을 찾는다던가, 입자 충돌의 결과로 나오는 수많은 입자 궤적-에너지 데이터에서 이론적으로 예측된 미발견 소립자를 판별해 내는 것 등이다.

이를 수집기반 연구(collecting-based research) 라고 부른다. 컴퓨터와 네트워크의 발달은 이렇게 과학 연구의 새로운 방법을 개척하였고, 이를 가리켜 e-Science라고 부르게 되었다.

아무데나 알파벳 e를 가져다 붙여서 뭐 연구비 좀 끌어쓸만한 섹시한 포장이 없을까 하는 궁리를 하다가 나온 신 용어라는 오해도 있지만, 오해는 오해일 뿐이다.

최근 e-Science는 기존의 입자물리, 전파천문학 분야를 넘어서, 화학, 생물학, 공학 등 다양한 분야로 전파되어 나가고 있다.

화학의 경우, 분산 컴퓨팅이 신약이나 신물질을 개발하는 데에 있어서 combinatorial 합성법과 연결하여 시너지 효과를 내고 있다. 또 단백질의 구조를 분석하고, 변형 단백질의 구조와 성질을 예측하는 데에 필요한 높은 연산 능력도 분산 컴퓨팅의 도움을 받고 있다.

이러한 가상의 합성 실험, 화합물의 구조와 물성의 DB화로 인해 신약을 개발하는 시간을 비약적으로 단축할 수 있고 물성 분석에 드는 노력과 비용을 절약할 수 있다.

생명정보 분야에서는 유전정보의 저장과 판독에 e-Science가 본격 도입되고 있다.

영국의 롤스로이스사는 새로 개발 중인 세계 최대 여객기 A-380에 실시간으로 엔진 가동 데이터를 모아 데이터 센터에서 상태를 체크하는 시스템을 탑재할 예정이다. 수천개의 센서 네트워크가 뿜어내는 대용량의 데이터를 실시간 분석하는 데에 분산 컴퓨팅이 활용된다.

이밖에도, 고분해능 전자현미경이나 방사광 장치 등 지역적으로 편중된 대형 연구 설비를 원거리에서 쉽게 이용하고 결과 데이터를 분산 저장하게 해주는 엑세스 그리드(access grid)도 분산 컴퓨팅의 일종이다. 의료 분야에서는 X-ray나 MRI 촬영 화상 데이터를 네트워크로 연결된 모든 병원에서 분산 저장하여 단일 DB로 구축하거나, 환자 개개인의 건강 상태를 실시간 모니터링하고 이상 유무를 판단하는 데에 분산 컴퓨팅을 사용한다는 구상이 현실화되고 있다.(이를 e-Health라고 구분하여 부르기도 한다)

언젠가는 도래할지도 모르는 유비쿼터스 환경이 완성되면, smart dust 센서 네트워크에도 핵심적인 역할을 하게 될 것이다.

분산 컴퓨팅은 중앙 집중적 체계의 시대에 종언을 고하는 의의를 갖기도 한다. 아마 사회과학적으로도 재미있는 연구 주제가 아닐까 생각된다. 우리나라의 경우 아직 e-Science는 태동기이며, 관련한 연구자 역시 많지 않다. 특히, 전자공학/컴퓨터공학 등 IT관련한 연구자들로부터 서서히 관심을 끌고 있으나, e-Science를 제대로 구현하기 위해서는 자연과학자들의 높은 관심과 참여가 필요하다.

                            @과학신문 박상욱 (한국과학기술인연합 운영위원, 이학박사) 


Login
College of Engineering Seoul National University
XE Login