“내분비 회원 저널 소개”
코너를 소개합니다!
최훈성 (중앙대학교 광명병원 내분비내과)
내분비 소식지의 여러 코너들 중 하나인 ‘내분비 회원 저널 소개’는 2015년 2호부터 시작되었습니다. 학회에 등록된 회원들의 논문들을 소식지 발간 주기에 맞추어 분기 단위로 검색한 뒤 분야별로 정리한 것입니다. 현재 900여 명의 회원들의 영문 이름을 키워드로 사용하여 PubMed 검색을 한 뒤, 논문마다 회원들을 하나로 묶은 후 논문의 분야별로 게시하고 있습니다.
1. 시작하게 된 계기
900명이 넘는 학회 회원들의 다양한 연구들을 검색하고 분야별로 정리함으로써 회원들 간에 연구 네트워크 형성이나 연구 아이디어 구상에 도움을 드리고자 시작되었습니다. 수백 명의 회원을 3개월마다 PubMed에서 일일이 검색하고 정리하는 것은 불가능했기에 파이썬을 사용한 자동화된 검색, 추출, 정리 알고리즘을 만들어 현재까지 사용해 오고 있습니다.
2. 대략적인 방법
반복적인 작업은 파이썬 코드를 활용하고 있습니다. 작업은 자동화 과정인 두 스텝으로 구성되며, 그 결과 정리된 논문을 직접 수기로 확인하면서 분야를 분류합니다.
1) Step 1 : PubMed ID (PMID) 추출하기
우리가 논문을 찾기 위해서 Pubmed에 접속한 뒤 검색창에 키워드를 넣으면, 웹브라우저는 키워드를 가지고 질의문(query)을 만들어 PubMed 서버에 전송합니다. 질의문을 받은 서버는 명령에 해당하는 결과를 추출하여 우리의 브라우저에 결과를 보냅니다. 웹브라우저는 그 결과를 포맷에 맞추어 게시를 해 주고, 우리가 그 결과를 보게 됩니다. 회원 이름을 검색어로 넣으면 그 이름으로 검색되는 논문의 리스트를 받을 수 있는데요, 전체 회원의 이름을 일일이 검색하고 결과를 정리하기란 현실적으로 불가능합니다. 반복되는 작업은 파이썬으로 자동화하여 처리할 수 있습니다. 위에서 말한 질의문중 키워드에 해당하는 부분을 코드화하는 방법입니다. 다음의 주소 중 노란색 부분을 파이썬 반복문으로 하나씩 바꿔가면서 질의문을 전송하면 검색을 하는 것과 동일한 결과를 얻을 수 있습니다. 이것은 PubMed에서 이러한 서비스를 제공하기 때문입니다.
http://www.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db=pubmed&term=Hong Gildong[Author]
이 코드의 결과는 이름으로 검색된 논문들의 PMID 리스트입니다. 여기에는 추가로 검색 기간이나 최대 검색건수 등의 옵션을 넣을 수가 있는데, 이를 통해 결과를 좀 더 정교화할 수 있습니다. 여러 명의 회원들에서 동일한 PMID가 검색된다면, 하나의 논문에 묶여있는 공저자로 볼 수 있습니다.
2) Step 2 : 내분비대사 분야 논문 필터링 하기
Step 1의 과정을 거치면 대략 1,400건가량의 후보 논문이 추출됩니다. 이름에는 동명이인이 있기도 하고, 내분비 관련 논문이 아닌 경우도 있으므로, 추출된 논문 중에서 내분비 관련 논문을 선택하는 과정이 필요합니다. 이를 위해서 각 논문의 제목과 초록에 내분비 관련 주제 키워드가 있는지를 확인합니다. 여기에 사용되는 키워드는 'thyro', 'gluco', 'a1c', 'diabet', 'lipid', 'metabol', 'obesity', 'bone', 'osteo', 'pituit', 'cortisol' 등과 같이 내분비 관련 논문에 있을 법한 단어 30여 개를 사용합니다. 만약 어떤 논문의 제목이나 초록에 포함된 키워드가 하나도 없다면, 내분비 관련 논문이 아닌 것으로 판단하고 제거합니다. 가급적 모든 영역을 커버할 수 있도록 키워드 목록을 만들었으나, 완벽하지는 않아서 놓치는 논문이 있을 수 있습니다. 따라서, 빠진 논문을 발견하시고 이에 대해 홍보위원회에 알려 주신다면, 알고리즘을 개선하는데 큰 도움이 되겠습니다.
Step 1에서는 PMID만을 받았기 때문에, 제목, 초록 등 자세한 서지사항은 다시 Pubmed에 요청을 해야 합니다. 이번 단계에서는 PMID를 검색어로 사용하고 결과를 받습니다.
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id={id_list}&retmode=text&rettype=xml
이렇게 추출된 내용에서 키워드 포함 여부를 가지고 필터링합니다. 그 결과 선택된 논문에 대해서는 제목, 저자 리스트(회원 이름 묶음), 저널명, 발행년월일, 권호의 데이터를 정리하고 저장합니다.
3) Step 3 : 카테고리 분류 (수작업)
Step 2까지 거치면 약 400~500개가량의 논문이 남게 됩니다. 이제는 논문들을 분야별로 나누어, ‘당뇨병/비만/지질’, ‘갑상선’, ‘골대사’, ‘뇌하수체/부신’, ‘기타’로 표시합니다. 알고리즘으로 처리할 수도 있는 부분이지만, 소식지에 올리기 전 최종 확인 작업이므로, 수작업으로 진행하면서 내분비 관련 논문이 아니거나, Erratum, Letter 등 논문으로 보기 어려운 자료들을 제외하고 있습니다. 최종적으로는 200개 미만의 논문이 업로드되어 소식지에 실립니다.
3. 논문-저자 네트워크
8년간 수집된 논문-저자 데이터를 이용하여 만든 논문-저자 네트워크를 보여 드립니다.
총 저자 수는 854명, 저자 연결 수는 10,484건입니다. 가시성을 높이기 위해 공저자로 연결된 건수가 5회를 초과한 경우로 한정하여 구성하였습니다. 각각의 원은 각각 한 명의 회원을 뜻합니다. 색깔이 짙은 원(A 표시)은 매개 중심성(betweeness centrality)이 높은 경우로서, 한 회원과 다른 회원을 연결하는 데에 중요한 역할을 한다는 뜻입니다. 다시 말하면, 연구의 가교 역할을 하는 경우로서, 만약 이 회원이 없다면 많은 연구가 이루어지지 않았을 것임을 뜻합니다. 원의 크기는 논문의 개수로서, 크기가 크다면 그만큼 발표한 논문이 많다는 뜻입니다. 원과 원을 연결하는 선은 같은 논문에 공저자로 연결되어 있다는 뜻이고, 선이 굵은 것은 함께한 연구가 많다는 것을 의미합니다. 예상하시다시피, 연구자들은 클러스터를 이루며 강하게 연결되어 있음을 볼 수 있고, 그 정도는 다양해 보입니다.
4. 마치며
알고리즘의 불완전성이나 검색어로서의 이름이 가진 한계로 인해 논문이 누락되거나 오류가 생길 가능성을 피할 수는 없을 것 같습니다. 불완전한 자료이지만 회원들 간의 연구 네트워크 활동에 있어 작으나마 도움이 될 수 있기를 바라봅니다.