카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

가장 핫한 댓글은?

초심자들을 위한 논문 쓰는 팁

IF : 2

2021.10.14

84

152690

최종 업데이트: 2024년 11월 26일.
-------------------------------

조금 더 다듬은 버전은 브릭 ibric.com 연재란에 "당신의 논문 동료" 라는 제목으로 올렸습니다.
총 10편의 글이고, 이 글 내용을 상세하게 풀어봤습니다. 제가 가진 지식을 정리할 수 있게 도와 준 김박사넷 커뮤니티에 감사드립니다.

-------------------------------

몇 년 전에 제가 논문을 처음으로 쓸 때
정말 어떻게 써야할지 막막해서 선배들에게 붙잡고 물어봤습니다.
돌아오는 대답이 “그냥 쓰다보면 알게 돼” 였거든요. 야속하더라구요.

이제는 조금 쓰다보니 알게되었습니다.
그래서 논문 쓰는게 막막하신 분들에게 제가 아는 팁을 공유드립니다.
생명과학 분야를 기준으로 설명드리겠습니다.


1. 필요한 프로그램

워드, 파워포인트, 엔드노트, Grammarly, 그래프패드(유료), Quillbot, Turninit(유료), 포토스케이프, 구글 번역

워드, 파워포인트의 팁은 뒤에서 설명하겠습니다.

엔드노트: 단순히 reference를 넣는 프로그램으로 한정짓기엔 아까운 프로그램입니다. 보고 계시는 논문(PDF)을 정리하는 프로그램으로 사용하시면 더욱 좋습니다.

이미 다운받은 논문(PDF) 정리: File -> Import -> File 또는 Folder -> Import file에 이미 다운받은 PDF 또는 폴더 선택 -> Import option: PDF 선택 후 OK => 가지고 있는 논문의 서지사항을 (절반 이상의 확률로) 자동으로 넣어줍니다.

서지사항 다운: 가장 편한 것은 Pubmed입니다. 구글 또는 펍메드에서 논문 검색 후에 pubmed 사이트 -> Actions “Cite” 클릭 -> Download 클릭 -> 다운 후 열기
펍메드가 아닌 각 저널의 사이트면 “Download citation”, “Export” 등의 버튼을 찾아서 다운 받으신 후 열면 됩니다. (사이트마다 다~ 다릅니다)

서지사항 자동 PDF 다운로드: 서지사항 우클릭 후 Find full text -> (유료 구독 논문 제외하고) 자동으로 PDF를 다운해서 서지사항에 연동시켜줍니다. 이건 생각이상으로 위대한... 기능입니다. 써보셔야 합니다. (그런데 요즈음은 잘 안됩니다. 네이쳐 계열이 아니면 대부분 막혀있습니다. 너무 안타깝습니다)

서지사항 업데이트 (처음 online 버전으로 나오고, 추후 volume, issue, page가 정해질 때 사용하면 좋은 기능입니다): 서지사항 우클릭 후 Find reference update 클릭

투고할 저널에 맞춘 레퍼런스 스타일 변형: 투고 단계에서 레퍼런스 스타일을 저널에 맞게 바꿔야 할 때가 있습니다. Cell 스타일을 썼는데, 미묘하게 다른 경우가 있죠. 실험실 사람들에게 가장 많이 받는 요청 중에 하나입니다. "누구야, 이것 좀 어떻게 해줘...."
1) 스타일 다운로드: https://endnote.com/downloads/styles/
2) 스타일 직접 미세조정: (예시: Cell 스타일에서 미세조정이 필요한 경우)
Tools -> Output style -> Edit "Cell" -> (새 창) -> 왼쪽 Bibilography -> Journal Article "Author (Year). Title. Journal Volume| (Part/Supplement)|, Pages|, Article Number|. DOI|." 여기서 미세조정 하시고 창을 닫으시면 스타일이 저장됩니다 -> 워드로 가셔서 서지사항 업데이트. 몇 번 시행착오를 겪으시면 어떻게 변경하시는지 아실 수 있을겁니다.

저널 약자(abbreviation):
예를 들어서 Proceedings of the National Academy of Sciences of the United States of America 와 같은 full name을
Proc Natl Acad Sci U S A의 축약어로 줄여서 저널에 제출해야 할 때가 많습니다.
일일히 고치셔도 됩니다만 대부분
엔드노트 -> 서지사항 우클릭 -> Find References Updates 누르시면 대부분 해결됩니다.

본문 검색: 제가 이번 논문에 in silico라는 단어를 써보고 싶었습니다. 이 단어에 적합한 문장 구조나 호응하는 주어, 동사, 부사는 무엇인지 알고 싶었습니다. 이때 쓰는 기능이 본문 검색입니다. Advanced search -> PDF -> in silico 검색. 이렇게하면 가지고 있는 논문의 본문에서 in silico를 검색해 줍니다. 구글에서는 대부분 제목과 abstract까지만 찾아주는 데, 이를 극복할 수 있는 꿀팁이죠. 이를 잘 써먹기 위해서라도 엔드노트에 PDF로 논문을 잘 모아두세요. 큰 자산이 됩니다.

위의 기능만 잘 사용해도 엔드노트에서 논문 검색하고, 논문 읽고, 정리하실 수 있습니다. (지금 일일이 폴더 만들어서 논문 PDF 정리하고 계신분들은 반드시 엔드노트 쓰세요. 두 번 쓰세요)


Grammarly: https://www.grammarly.com/office-addin
들어가신 후에 설치하셔서 워드에 연동시키세요. 유료(프리미엄)는 1년 써봤는데 크게 도움이 안되었습니다. 그냥 무료버전 쓰셔도 됩니다. 기본적인 오타, 문법들을 다 잡아줍니다. 워드가 빨간줄 그어주는 것보다 훨씬 낫습니다.

그래프패드:
유료 프로그램이고, 비싸지만, 쓰시기를 권장합니다. 개인으로 구매하시든, 실험실에서 구매해서 같이 쓰시든 꼭 쓰세요. 직관적이고, 통계처리하기에 쉽고, 나중에 그래프 크기나 형태를 변형하실 때 매우 좋습니다. 저는 그래프패드 내에서 arial, 폰트크기 14, 세로 5 cm로 그래프를 제작한 후, PPT로 복사하고, 개체의 크기를 50%로 합니다. 그러면 PPT에서 arial, 폰트 크기 7로 일관적이게 쓸 수 있습니다.
- PPT에 그래프를 넣었는데 폰트가 이상한 경우가 있습니다. 그럴 땐 Graphpad --> Edit --> Preference --> File & Printer --> Copy to clipboard --> Copy graphs and layouts as: EMF (old) only로 바꿔주시면 됩니다. 이번에 논문 투고하면서 PDF로 변환하는 과정에서 그림이 깨졌었는데, 위 방법으로 해결했습니다.

Quillbot: https://quillbot.com/ AI
기반의 패러프레이징 사이트입니다. 빈약한 어휘력으로 매번 같은 표현을 쓰는 저에겐 단비같은 사이트입니다.

Turninit: 표절 검색 프로그램입니다.
국문 논문에 카피킬러가 있다면, 영어 논문은 턴인잇이 있죠. 본인이 참고한 논문이 무엇인지 적나라... 하게 잘 알려줍니다. 표절을 정의하기는 어렵습니다만, 문제의 소지가 있다면 패러프레이징 하시길 권장드립니다. 유료입니다만 학교 도서관에서 아이디를 구매했을 확률이 꽤나 높습니다. 학교 도서관 홈페이지나 전화로 문의하셔서 사용이 가능한지 여부를 확인해보세요.

포토스케이프: http://photoscape.co.kr/ps/main/download.php
사진 데이터 (특히 웨스턴) 쓰시는 분들은 꼭 사용하세요. 두 번 쓰세요. 맨날 웨스턴 밴드가 기울어져 있으신 분들은 이 프로그램 쓰시고 신세계를 맛보신 후에, 저한테 절해주세요. 미리 감사합니다.

구글 번역: https://translate.google.co.kr/?hl=ko
다들 잘 쓰고 계실텐데, 팁을 드리면 한글로 완전한 문장을 쓰시는 것이 좋습니다. 당연하지만, 번역된 영어는 다듬으셔야 합니다. 아래에 써놓은 어휘들을 참고해주세요.

ChatGPT: https://openai.com/blog/chatgpt/
ChatGPT는 다들 아실거라 생각해요.
저는 세 가지 용도로 사용하고 있습니다.
1) 문장 수정 또는 패러프레이징
구글 번역으로 괴발개발 쓴 문장을 고쳐달라고하면 원어민이 쓰는 고급진 문법과 어휘를 사용해서 수정해줍니다.
논문에 쓰기에는 어색한 표현이 있고, 아직 논문에 쓰기엔 위험부담이 커서 저는 논문에는 안썼고, 커버레터와 리뷰탈 레터를 쓸 때 많은 도움을 받았습니다.
2) 잘 모르는 분야 공부
제가 잘 모르는 새로운 분야를 공부할 때 도움을 많이 받았습니다.
ChatGPT가 얇고 넓은 지식을 가지고 있는게 많은 장점이 되는 것 같아요.
다만 아직 논문 작성에 도움이 되는 정도는 아닌 것 같습니다.
최근에 Nature와 Science에 ChatGPT를 저자로 인정할 것인지, 이를 어떻게 활용해야 하는지에 대한 논의가 올라오고 있는데 참고하시면 좋을 것 같아요.
3) 코드 짜기
적당히 어르고 구슬러서 ChatGPT에 제가 처한 상황을 설명하고 코드를 짜달라고 하면 잘 짜줍니다.

DeepL: https://www.deepl.com/en/translator
이것도 번역 사이트입니다. PDF나 워드를 번역해 주는 장점이 있습니다. 개인적으로 구글 번역보다 더 번역을 잘해주는 것 같습니다.


2. 데이터 정리 및 통계 처리

2.1. 데이터 그림 정리

PPT에 하시면 됩니다. PPT가 생각보다 괜찮습니다.

- 파일 -> 옵션 -> 고급 -> 파일 이미지 압축 안함 체크
- 디자인 -> 슬라이드 크기 -> 사용자 지정 -> 슬라이드 크기: A4 (세로).
- Arial, 글씨크기 10 (데이터가 많으면 8, 더 많으면 7).
- 쏠쏠한 단축키: Ctrl + Shift + 좌클릭 => 개체복사 기능인데 같은 자리에서 복사됩니다. 파워포인트 위에 쓴 label을 복사할 때 이보다 좋은 것은 없습니다 (써보시면 무슨 말인지 압니다).
- 상하좌우 0.5 cm 정도 여백을 주면 그림을 보기가 더 편합니다. 18 cm x 24 cm 크기의 직사각형을 한가운데에 그려놓고 그 밖을 넘어가지 않게 데이터를 배치하시면 됩니다.

2.2. 통계 처리 (그래프패드 쓰세요. 학생(대학생 ~ 포닥)용은 1년에 15만원 가량 하는데, 논문 작성하시는 분들이라면 라이센스 구매를 생각해보세요. 클릭 한 번에 p value 그림이 나옵니다! 대체품으로는 SPSS, Origin, R 등이 있습니다. 엑셀은 조금 곤란합니다...;;)
2개 비교: Student t-test
3개 이상 비교: One-way ANOVA
2개 조건에서 실험 (예: genotype x diet): Two-way ANOVA
같은 개체를 여러번 측정 (예: 몸무게, 키): Repeated measure ANOVA
데이터가 엄청 많음: Heatmap
두 변수 상관 분석: X-Y 그래프 그린 후 pearson correlation


3. 타겟 저널 정하기

데이터가 정리되면 자기 객관화의 시간을 가지셔야 합니다. 에디터에게 리젝 당하기 전에 본인 스스로 리젝하는게 덜 상처 받잖아요... ㅠㅠ
(수정 추가 사항) 그리고 더 중요한 것은 본인의 논문을 어떻게 어필할 것인지 고민하는 것입니다. 상위 저널에서는 광범위한 분야의 독자들에게도 의미가 있는 논문을 요구합니다. 본인의 연구가 어떠한 면에서 의미가 있는지 연구를 하는 초기부터 고민하는 것이 이상적입니다. 연구 중반에 방향성을 수정할 때도, 연구 후반에 하이라이트를 정할 때도 본인 연구의 강점과 의의를 고민하시는게 좋다고 생각해요. 리젝을 두려워하실 필요는 없지만 IF 5 저널도 어려운 논문을 30점 이상부터 투고하기 시작해서 10번 이상 리젝을 당하고 6개월 이상의 시간을 에디터 리젝만 당한 후에 마지막으로 투고한 저널에서 마이너 리비전만 받고 허탈해하는 주변 사람들을 보면서 저널 선정에 중요함에 대해 생각해보기 시작했습니다. 허탈함을 넘어서서 아카데미 분야에 회의를 느끼고 원래 진로였던 아카데미 분야를 떠나는 사람들을 보면서 리젝은 적당히 당하는게 좋겠다는 마음을 먹었습니다. 잡설이 길었네요...

제 분야를 기준으로 설명드리겠습니다.

- Cell, Nature, Science: 이 글을 보고 계신 분들은 어차피 여기는 생각도 안하시는 것 압니다. 저도 마찬가지입니다.
- Impact factor 20이상 (Impact factor는 https://jcr.clarivate.com/jcr/home 에서 보실 수 있습니다.): Broad conceptual advance가 있어야 합니다. 즉, 본인이 속한 field의 개념을 진전시킬 수 있는 논문이어야 합니다. 무슨 말인지 모르시겠다면, 논문 제목에 연구한 유전자 이름이 들어가면 specific conceptual advance에 가깝지, broad conceptual advance가 대체로 아니라고 보셔도 됩니다. 이러한 저널을 목표로 삼으셨다면 최소한 연구의 중반부터는 내 논문이 어떠한 점에서 broad conceptual advance, 즉 내 분야가 아닌 사람이 보더라도 흥미와 의미를 발견할 수 있는지 많이 고민해보셔야 합니다.

- Impact factor 10 이상: Tissue-specific genetic model + RNA-seq 또는 이에 준하는 omics + 이외 다양하고 탄탄한 연구 결과 + 본인이 속한 field의 유행에서 5년 이상 뒤처지지 않음 (Introduction에 인용한 논문의 대부분이 2016년 이후에 나온 것이어야 합니다). 생명과학 쪽 분야는 저널의 IF를 높이기 위해서라도 최근 연구의 유행에서 벗어나는 것을 그렇게 좋아하지 않아보입니다. 개인적으로 유행을 따라가는 것에 대해 찬성하지는 않지만, 투고하는 '을'의 입장에서는... 따라갈 수 밖에 없지요...

- Impact factor 5 이상: 특정 유전자의 역할을 특정 맥락에서 gain-of-function (overexpression)과 loss-of-function (knockdown, knockout)으로 충실하게 증명한 논문입니다. 또한 기전적 이해가 동반되어야 합니다.
예를 들어 특정 유전자가 특정 암에서 어떤 역할을 하는지를 다음과 같은 실험으로 분석하시면 됩니다. 1) 정상세포/조직과 암세포/조직에서 유전자의 발현량 (+ TCGA 분석), 2) Overexpression 및 knockdown 후 세포 분열 (CCK assay 등), 콜로니 형성, qRT-PCR, Western blot 분석, 3) 특정 유전자가 암세포의 분열을 촉진/억제하는 기전 규명. 이를 논리적으로 풀어내면 IF 5 이상의 논문은 충분히 도전해볼만 합니다.

대략적인 기준을 잡으셨으면, 구체적으로 저널을 정하세요. 연구실 선배들이 많이 낸 저널을 먼저 생각해 보시면 좋습니다. 각 저널들마다 추구하는 방향성과 범위가 모두 다릅니다. 이를 파악하는게 중요합니다. 저널 사이트에 들어가서 1년여간 출간된 논문의 제목을 다 읽으시고, 본인의 연구 내용으로 그와 비슷한 수준의 제목을 쓸 수 있는지 판단해 보세요.

구체적인 저널을 마음속으로 정했다면 Author guideline을 읽으시고 준수하시면 됩니다. 아니, 준수하셔야 합니다. 저널 가이드라인에는 분명히 initial submission에는 굳이 저널의 형식을 지키지 않아도 된다고 쓰여있긴 하지만, 사실 이건 거짓말에 가깝습니다. 정성을 들여서 에디터를 감동시키는게 생각보다 중요합니다. 예를 들어 Nature 계열은 영국식 영어에 Fig. 1a, 라고 쓰고, Cell 계열은 미국식 영어에 Figure 1A라고 씁니다. 본인이 Nature 계열 editor라고 생각해 보세요. 만약 투고된 논문이 Cell 계열의 형식과 표현이라면 성의가 없어보이겠죠. 압도적으로 좋은 데이터가 아니라면 에디터는 원고를 reject 시키는게 그리 아쉽지 않을 수 있습니다. 네이처 커뮤니케이션만 해도 1년에 5만 편 이상이 투고되는걸요. 본인의 지도교수가 1년에 한 편 씩 Cell, Nature, Science를 쓰는 대가가 아니라면, 에디터에게 성의를 보이시는게 중요합니다.


4. 논문 쓰기

일반적인 가이드라인입니다. 대충 아래와 같이 써보시고 고쳐나가시면 됩니다.

4.1. 연구실에서 나온 논문 읽기

연구실에서 나온 논문을 왠만하면 다 읽기를 권장합니다. 다 읽으시고 공통적인 특성을 분석하세요. 지도교수님이 쓰는 논리 전개, 표현 등을 알 수 있습니다. 논문이 너무 많다면 지도교수님의 박사과정/포닥 논문, 최근 5년간 연구실에서 나온 논문은 읽으시기 바랍니다.

4.2. 논문 작성

구체적인 예를 들어서 설명하는게 훨씬 좋은데, 익명 게시판의 특성상 그렇게 하기 어렵다는 것을 이해해 주시면 감사하겠습니다.

4.2.1. Times new roman, 글씨 크기 12, 줄 간격 2.0

4.2.2. 제목: 15 단어 이하
제목은 엄청 중요합니다. 같은 내용이어도 제목에 따라 갈 수 있는 저널이 달라질 수 있습니다. 아니, 달라집니다. 위에 말했듯, 본인이 희망하는 저널에서 1년 간 나온 논문의 제목을 모두 읽고 분석하셔서, 그에 준하는 제목을 정해주세요.

4.2.3. Summary/Abstract: 150 단어 이하
첫째 문장: 무엇무엇이 어떠어떠한 맥락에서 중요하다. 연구한 내용의 범위 또는 맥락을 한정지어주세요.
둘째 문장: However, 이러이러한 것들이 알려지지 않았다. 요즘에는 However 문장을 생략하고 바로 Here, we show that 으로 시작하기도 합니다.
셋째 문장: Here, (using 본인이 사용한 실험적 기법 중 특기할만 한 것들,) we show that
넷째 문장: 연구 앞 절반을 요약하는 내용
다섯째 문장: 연구 뒤 절반을 요약하는 내용
여섯째 문장: Taken together/Collectively, 연구 의의

4.2.4. Introduction: 4문단, 워드 2장 이하 (네이처 계열은 500단어, 3문단, 1.5장 이하)
글은 역삼각형의 형태로 쓰시는게 좋습니다. 넓은 주제로부터 점점 구체적인 주제로 점진적으로 차근히 좁혀나가는 것이 읽기에 좋습니다. 이거는 문단 수준과 문장 수준에서 모두 필요합니다. 즉, 문단으로 분석해도 점점 좁혀가는 형태, 문장으로 봐도 점진적으로 구체적인 수준으로 전개해 나가는 것이 좋습니다.

첫째 문단: 연구 분야. Abstract 첫째 문장을 상세히 설명.
둘째 문단: 본인이 연구한 분야에서, 연구한 유전자 family (예: 전사인자, 인산화효소 등)의 중요성 소개
셋째 문단: Abstract 둘째 문장을 상세히 설명. 즉, 본인이 연구한 유전자의 알려진 점과 알려지지 않은 점, 연구의 질문 제시
넷째 문단: Abstract 셋째 문장을 상세히 설명. 질문을 해결하기 위해 사용한 방법론을 제시 (논문의 데이터를 요약할 필요는 없음)

4.3. 어휘 사전

제 나름대로 열심히 모은 어휘 사전입니다.

증가: Increase, upregulate, enhance, potentiate, facilitate, promote, stimulate, elevate, augment, enrich, aggravate, accelerate, expand, extend, enlarge, rise, alter

감소: Decrease, downregulate, inhibit, prevent, repress, suppress, abolish, nullify, attenuate, knockout, diminish, mitigate, ameliorate, alleviate, restrain, dampen, reduce, lower, eliminate, lessen, shrink, minimize, cut down, alter

조절: Regulate, affect, modulate, control, modify, fine-tune, orchestrate, involve, govern, contribute, manage, stabilize, adjust

조사/규명/확인: Examine, investigate, analyze, explore, test, characterize, elucidate, evaluate, monitor, study, dissect, clarify, address, confirm, affirm, verify, validate

실험/처리: Treat, administrate, inject, incubate

발견: Exhibit, show, observe, identify, reveal, provide, find, prove, uncover, unveil, demonstrate, illustrate, illuminate

주목/흥미: Notably, of note, interestingly, intriguingly, surprisingly, to our surprise, unexpectedly, highlight

제안/암시: Suggest, imply, postulate, hypothesize, speculate, indicate, propose, reinforce, assume

관련/연관: Associate, correlate, implicate, in this regard, in line with, consistently, consistent with, accompanied by, associated with

비교: Compared to, than, relatively, highly, potently, remarkably

전제: As, given that, since, because (of)

추가: In addition, additionally, also, further, furthermore, moreover, additionally, besides, finally, likewise, similarly

반전: However, but, while, whereas, although, despite, nevertheless, nonetheless, conversely, meanwhile, notwithstanding

정리: Collectively, taken together, together, therefore, thus, hence, indeed


5. 잡다한 팁들

5.1. Single-cell RNA-seq

- Public single cell RNA-seq: https://satijalab.org/seurat/
들어가셔서 RStudio를 까시고, tutorial을 돌려보시기를 바랍니다. 어찌어찌 하실 수 있기를 기도합니다.
제가 알려드릴만한 유의사항이나 팁으로는
1) 윈도우 로그인 아이디는 반드시 영어로. 아니면 R studio 사용 시에 오류가 납니다.
2) R studio 실행할 때 관리자 권한으로 실행
3) Library 업데이트가 안되면 R이 설치된 폴더 -> library 에서 직접 삭제 후 재설치
4) 논문에서 쓴 코드가 Github 올라와 있을 경우 코드 그대로 따라해보기
5) ChatGPT에게 도움 요청하기 - 생각보다 많이 유용합니다. 구구절절히 본인의 상태를 설명하고 조언을 얻어보세요.
6) RStudio에서 "Set As Working Directory" 기능 사용하기 (setwd가 어려운 분들은 꼭 이 기능 많이 사용하세요)

- Single cell RNA-seq: https://tabula-muris.ds.czbiohub.org/
사람의 20개 조직에서 수행한 single cell RNA-seq 데이터 포탈입니다.

- Single cell portal: https://singlecell.broadinstitute.org/single_cell
지금까지 나온 single cell RNA-seq 포탈입니다. 22년 12월 중순 기준 496개의 데이터가 올라와 있습니다. Single cell 관심있으시다면 꼭 사용해보세요.

- Liver single cell atlas: https://www.livercellatlas.org/index.php
사람과 동물 모델의 liver에서 single cell과 spatial-seq 실험한 데이터를 올려둔 사이트입니다.

- Mouse Embryo Spatial Atlas: https://db.cngb.org/stomics/datasets/STDS0000058?tab=explore
STOMICS Database라고 중국에서 런칭한 Spatial Transcript Omics DataBase 중 하나입니다. https://db.cngb.org/stomics/
Mouse embryo 9.5 ~ 16.5 day의 단면을 spatial seq으로 조사한 데이터가 올라와 있습니다.
관련 논문은 Cell에 2022년에 발표되었습니다.

- Single-cell RNA-seq annotation: https://panglaodb.se/index.html
Single cell RNA-seq data에서 나온 cluster가 어떤 세포유형인지 찾을 수 있는 사이트입니다.

5.2. 오피스

엑셀: Vlookup 함수는 꼭 배우세요. 구글에 vlookup 함수 검색하시면 사용 방법이 나옵니다. 배우시면 두고두고 쓸 일이 있으실겁니다.

파워포인트: 정렬 기능을 자주 사용하세요. 그리고 위에서 말한 Ctrl + Shift + 좌클릭 많이 쓰세요.

오탈자: Grammarly 자주 사용하세요. 그리고 꼭 프린트 해서 종이로 보세요. 안보이는 오탈자가 많이 보입니다.

워드: 윗첨자 - Ctrl + Shift + "+", 아랫첨자 - Ctrl + "+"

5.3. Public database

5.3.1. RNA-seq/microarray
Public microarray: GEO2R과 vlookup 함수를 쓰면, 데이터셋을 사용할 수 있습니다. 값이 모두 14이하이면 log2로 표준화 된 값이고, 14 이상의 값이 존재하면 실수값입니다.

Public RNA-seq: Supplementary data에 FPKM/RPKM/TPM 등이 있으면 쓰시고, 아니면 galaxy를 쓰시면 되기는 하는데.... Public RNA-seq 데이터는 생각보다 쓰기 까다롭습니다.

- Gene Expression Portal (GTEx): https://gtexportal.org/home/
사람의 (거의) 모든 조직에서 SNP, RNA-seq 및 여러 seq들을 올려놓은 사이트입니다. eQTL에 관심있으신 분들은 꼭 사용해보세요. Version 9까지 나왔는데 엑셀에서는 version 8, 9가 안열립니다...;; Version 7만 쓰셔도 충분합니다. https://storage.googleapis.com/gtex_analysis_v7/rna_seq_data/GTEx_Analysis_2016-01-15_v7_RNASeQCv1.1.8_gene_tpm.gct.gz 링크 타고 가셔서 다운 받으시면 됩니다.

- Human Protein Atlas: https://www.proteinatlas.org/
사람에서 특정 유전자의 조직별 발현량과 세포 내 위치 정보(안티바디 기반)를 알려줍니다. 저는 세포 내 위치 정보를 찾으려고 자주 쓰고 있습니다.

- 암 포탈 (TCGA): https://portal.gdc.cancer.gov/
암 연구하시는 분들은 꼭 사용해보세요. 몇 년 안 들어가봤더니 지금은 어떻게 써야할지 저도 잘 모르겠네요...... 이전에 요긴하게 썼었습니다.

- Association to Function portal: https://a2f.hugeamp.org/
심혈관계, 소화계, 뇌혈관, 발생, 면역, 근골격계, 대사질환(1형 당뇨병, 2형 당뇨병...), 신경, 신장, 생식, 호흡, 감각...
사람의 표현형과 유전자형의 관계를 총 망라한 포털입니다. 아래 2형 당뇨병 포탈은 그 중 하나이고요.
들여다 볼만한 사이트라고 생각합니다.

- 2형 당뇨병 포털: https://t2d.hugeamp.org/
당뇨병 연구하시는 분들은 꼭 사용해보세요. 특정한 유전자와 당뇨병 및 대사질환과의 관계 (eQTL)을 알려줍니다.

- GWAS portal: https://www.gwascentral.org/
GWAS와 관련된 데이터들이 모여 있는 포탈입니다.

- Rare SNP 찾기: https://gnomad.broadinstitute.org/
Deep Exome sequencing을 통해 사람 단백질의 rare mutation을 모두 검출한 데이터를 제공하는 포탈입니다.

- Exome-based phenotype 연구: https://app.genebass.org/
Genebass는 엑솜 기반 연관성 통계 리소스로, 대중에게 공개됩니다. 이 데이터 세트는 영국 바이오뱅크의 엑솜 서열 데이터를 보유한 394,841명의 개인에 대한 유전자 기반 및 단일 변이체 테스트를 통해 4,529개의 표현형을 포함합니다.
관련 논문입니다: Weiner, D. J., et al. (2023). "Polygenic architecture of rare coding variation across 394,783 exomes." Nature 614(7948): 492-499.


5.3.2. ChIP-seq 사용법

논문에서 ChIP-seq 썼다면 Gene Expression Omnibus (GEO)에 올려야합니다.
저희는 반대로 올려진 데이터를 쓰는 것이죠.

5.3.2.1. 제가 하는 방법은 다음과 같습니다.
GSE 번호 검색 -> 쓰고자 하는 샘플 GSM -> GSM에서 쓴 genome version (ex. mm9, hg37) 확인 -> Supplementary file 중 BED/BEDGraph/BigWig 등의 파일 우클릭 -> 링크 복사 -> UCSC genome browser (https://genome.ucsc.edu/index.html) -> My data -> Custom Track -> Genome과 Assembly 확인 -> URL에 아까 복사한 링크 붙여넣기 -> Submit -> Go -> 원하는 유전자 검색

5.3.2.2
http://www.enhanceratlas.org/
이 사이트에서는 여러 데이터베이스를 모아서 putative enhancer region을 찾아줍니다.


5.3.3. 써볼법한 퍼블릭 분석 툴

- EnrichR: https://maayanlab.cloud/Enrichr/
Gene ontology 검색할 때 써보세요

- String: https://string-db.org/
여러 유전자 (예: RNA-seq에서 증가한 유전자 200여개)들의 관계를 파악하고 그림으로 표현하기에 좋습니다.

- Alphafold: https://alphafold.ebi.ac.uk/
단백질 구조 예측. 알파고로 유명한 딥마인드에서 만든 사이트입니다. 잘만 사용하면 정말 좋을 것 같습니다. 특정 아미노산 mutagenesis 한 후에 그림으로 보여주기에 좋을 것 같아서 저도 고려해보고 있습니다.

- PhosphoSitePlus: https://www.phosphosite.org/homeAction
항체로 유명한 Cell Signaling 에서 만든 사이트입니다. 출간된 mass spectrometry data를 다 모아모아 인산화, 유비퀴틴, 아세틸레이션 등의 post-translational modification을 다 알 수 있습니다.

- JASPAR: https://jaspar.genereg.net/
Transcription factor binding Motif를 찾아주는 사이트입니다.

- Sci-hub: https://sci-hub.ee/
유료 구독 저널의 논문을 볼 수 있는 사이트입니다. 많은 저널들에서 저격을 하다보니 사이트 주소가 자주 바뀝니다. 구글에서 Sci-hub 검색하신 후에 들어가시는 것을 추천합니다.

- BioRender: https://biorender.com/
생물학과 관련된 그림이 많이 있는 사이트입니다.

- 구글 스콜라: 본인의 이름(1저자 상관없이)이 들어간 논문이 3개 이상 되신다면, 구글 스콜라에 가입하세요. 구글에서 본인의 낸 논문과 관련한 최근 연구들을 찾아서 제시해줍니다. 펍메드나 구글에서 이번주에 나온 논문을 검색하는게 쉽지 않은데, 구글 스콜라는 그걸 해줍니다.

- Multiple Sequence Alignment by CLUSTALW: https://www.genome.jp/tools-bin/clustalw/
여러 DNA sequence를 align 해주는 많은 사이트 중 하나입니다.

- ApE: https://jorgensen.biology.utah.edu/wayned/ape/
클로닝 하시거나 qRT-PCR primer 짜시는 분들은 쓰면 좋은 프로그램입니다. 제한효소 리스트, ORF 찾아주기 등을 쉽게 할 수 있습니다. NCBI나 AddGene에서 'GenBank' 파일을 제공하는데, 이걸 열어서 볼 수 있는 프로그램입니다.

- Primer3: https://bioinfo.ut.ee/primer3-0.4.0/
Primer design 사이트 중에 가장 쉽게 쓸 수 있는 사이트입니다.

- 벤다이어그램 그려주는 사이트: http://bioinformatics.psb.ugent.be/webtools/Venn/
벤다이어그램 그려주는 사이트는 여러 사이트가 있는데, 가장 편리하게 교집합 또는 차집합을 뽑을 수 있는 사이트 입니다(그리고 가장 안 이쁩니다......). 어차피 그림은 PPT나 다른 거에서 그리는 게 더 이쁘니깐요.

- ChIP Atlas: https://chip-atlas.org/
Public ChIP-seq data를 다 모아놓은 사이트입니다.

- 단백질체-표현형체 아틀라스: https://proteome-phenome-atlas.com/
Atlas of the plasma proteome in health and disease in 53,026 adults 제목의 Cell 논문의 데이터를 구경할 수 있습니다.
레퍼런스는 https://www.cell.com/cell/fulltext/S0092-8674(24)01268-6 입니다.

- Single-cell RNA-seq 관련 methods: https://www.nature.com/articles/d41586-024-03762-y
Computational technologies of the Human Cell Atlas 라는 제목의 Nature 글입니다.


6. 나가며

언젠가는 한 번 써보려고 했던 글인데, 생각보다 두서없이 글을 쓰게 되었네요. 나중에 시간이 되면 더 성의를 들여서, 예시를 쓰면서 글을 수정해보도록 하겠습니다. 막상 글을 써보니 저도 제가 쓴 방법들을 모아놓기 좋네요. 팁이 추가되면 글을 계속 수정해보겠습니다. (디스커션 쓰는 방법은 꼭 제가 깨우쳐서, 글을 수정하도록 하겠습니다...!)
모쪼록 이 글이 도움이 되는 분이 있기를 희망합니다.
감사합니다.

카카오 계정과 연동하여 게시글에 달린
댓글 알람, 소식등을 빠르게 받아보세요

댓글 84개

2021.10.14

좋은 글 감사합니다.
저는 작은 ppt 팁을 하나 얹어보겠습니다..
저희분야는 윗첨자나 아랫첨자를 쓰는 경우가 많은데, ppt나 워드에서 (ctrl + shift + = ) : 윗첨자, (ctrl + = ) : 아랫첨자 활용하시면 수식 입력기 안써도 돼서 깔끔하고 편합니다.

대댓글 2개

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

2021.10.14

대박이네요..정성추+글쓴이의 똑똑함에 경의를 표합니다

대댓글 2개

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

2021.10.14

캬 퀼봇 이런게 있었네요 감사합니다 메모메모
스크랩도 할게요 작성자님 영구보관 해주세요 감사합니다

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

해당 댓글을 보려면 로그인이 필요합니다. 로그인하기

댓글쓰기

게시판 목록으로 돌아가기

김박사넷의 새로운 거인, 인공지능 김GPT가 추천하는 게시물로 더 멀리 바라보세요.