给生物学插上数据翅膀,可量化的科学更代表未来
未来新闻     2018.12.12

2015年,美国癌症研究所协会做出预测:今后30年内得癌症的几率会越来越大。预计是每三个男人就会有一个得癌症,每四个女人就会有一个得癌症。所以癌症研究不光是一个健康问题,而且是一个很重大的社会和经济问题。


如何治疗癌症?早期传统的治疗方式为手术切除、化疗、放疗。化疗即“下毒”,希望毒死癌症细胞比正常细胞多一些,这些就是比较传统的办法。而现在精准治疗癌症的办法是这样的,以Dana-Farber这样的医院为例,病人确诊患癌症后,首先会进行肿瘤测序,通过测几百个基因,来看看他有哪些基因发生了变异,看是否能找到一个合适的靶向药物。这就是大家想到的肿瘤测序,DNA测序是根据基因变异找到合适的靶向药物,精准医疗在美国起步较早,目前中国也有很多公司在做这方面的尝试。


但我们人类的遗传信息都储存在DNA中,而人类的基因组是用ATCG四种核苷酸来编码遗传信息。人类的基因组一共有30亿个碱基、30亿个核苷酸,编码两万五千个基因,而每一个基因都编码一种蛋白质。要找出哪个基因突变导致癌症,无异于大海捞针。

 

真实的情况是,目前我们人类已经知道部分基因的作用,但对于绝大部分人体基因仍不了解。幸运的是在过去十年里,生物学和医药学技术取得了巨大的进步,人类已经获得了大量的基因数据。这就让机器学习,包括深度学习成为可能,我们得以用大数据的方法了解基因,最终创造出新的诊断和治疗疾病的方法。


如今基因大数据已经成为热门学科,越来越多具有计算机背景的科研人员进入生物领域,在读计算机系学生也开始选修生物学课程。大家都清楚交叉学科和综合技能越来越重要。


以“下一代生物医学智能系统”为题的F²科学峰会专题研讨会的圆桌讨论环节,未来论坛邀请到了三位拥有计算机背景但从事生物学研究的科学家,分别是哈佛大学与Dana-Farber癌症研究所终身教授,同济大学长江讲座教授刘小乐、普林斯顿大学计算机科学系的Benjamin J. Raphael教授和普林斯顿大学的计算机科学系教授、Lewis-Sigler综合基因组学研究所教授Olga G. Troyanskaya


让这些从事交叉学科的科学家们,解读“计算机生物学”。本场研讨会由华创资本合伙人,未来论坛青年理事熊伟铭担任主持人。下面是研讨会精彩内容:


Highlights:

·计算机科学是我们做事的方式,但生物学和医药学是我们做的事情

·越来越多计算机系学生开始选修生物学,因为他们知道综合技能太重要了

·美国在医疗数据方面好于中国,但也没好很多



熊伟铭:我们探讨的主题是“下一代生物医学智能系统的发展”,今天到场分享的三位科学家均拥有计算机科学背景,但他们从事的却是生物科学相关的研究,也就是生物大数据。这样一门交叉学科,计算机和生物学是怎样合作的呢?

 


Benjamin:我更倾向于认为,我们是在从计算机的角度助力生物学。要想帮到生物学,我们首先要对生物学的情况有一个比较深入理解,然后看看有哪些问题是计算机和算法可以帮上忙的。当然,我们能做的还很有限,肯定不是整个生物学,甚至不是全部基因组学科。我们主要做的是发明算法、研发工具然后软件化。这样生物学家就可以使用它们去发现问题,解决问题。当然,这样会演化出新的问题、新的技术、新的算法、新的解决办法。基本上是一个循环。

 

刘小乐:生物学知识对计算机生物学和生物医药学来说,绝对是非常重要的。Olga和我是斯坦福大学的同学,刚开始做研究的时候,根本没多少数据可用。我们甚至要去求人家分享数据给我们。后来当我们做老师的时候,可用的数据就越来越多了。有生物学家甚至主动带着数据找到我们合作,希望从中找到灵感。现在公开的数据越来越多,我们已经可以拿公共数据做研究了。应该说,我们对生物学的了解越来越深入,结合我们的背景知识,确实有所成长。


Olga:本期研讨会的主题已经非常明确了(下一代生物医学智能系统)。可以这么说,基本上计算机科学是我们做事的方式,但生物学和医药学是我们做的事情。大家应该了解的是,生物大数据或者计算机生物学存在的原因是,很多现存的办法不能解决问题。但从长期来看,我们做的还是计算机科学。




计算机+生物学更代表未来?

 

熊伟铭:是不是可以认为,计算机科学和生物学结合应用于生物医药和肿瘤治疗是个趋势,或者说更代表未来呢?

 

Benjamin:应该说交叉学科是个趋势。生物学正在变得越来越量化(quantitative),我认为所有的学科都将被量化。因为一件事只有能被量化才能被预测。物理学和化学也是非常复杂的学科,早在几十年前这两门科学就已经开始量化了。物理和化学有太多细节测算是需要交叉学科完成的。生物这个学科已经在自我交叉化了,高校里已经出现越来多交叉化的学生。很多计算机系的学生在选修生物系的课,有的学生甚至在攻读计算机和生物学双学位。大家都明白,综合技能越来越重要。

 

刘小乐:计算机技术真的在驱动着生物医药研究发展。现在数据越来越多,人们已经意识到,你不用它就会落后。越来越多的生物学家和医生们已经意识到计算机和统计学的重要性。已经有医生拥有计算机和物理学位,他们真的想学习电脑相关技术。计算机、数据真的重要、有用而且越来越相关。我在斯坦福读博士的时候,参加过一个生物信息化的项目。项目里有人在做医院信息系统或者生物学信息化的工作。我当时在想,一个医生根本不可能听得懂一个博士在做的事情,现在这个想法改变了,数据和计算机越来越重要。诺贝尔得主Sydney Brenner说过:“所有东西都在计算机化,就像上世纪80年代分子生物化那样。拒绝计算机,就会变成一个高吞吐量,低产出的学科。”意思是说,拒绝计算机化,就会变成花了很多钱生成了数据,但成果却非常少的学科。

 

熊伟铭:对于现阶段的生物学或生物医药的发展,几位有怎样的定义呢?

 

Olga:应该说有这样一个趋势,就是双方越来越交叉和融合。我们正朝着那个方向发展,但现阶段还处于,大量数据产生,人们已经能从中的得出一些结论。但还未形成一个“生态”(loop),这个生态的意思是将生物实验+生成数据+系统化分析+医药制造结合在一起。

 

刘小乐:我认为,制药公司和生物科技初创公司也在关注机器学习、人工智能和数据分析结合的制药技术,但是仍然有一个很长的学习过程。但我相信,这些美好的想象终会实现,只是还需要时间。对于生物学和医药产业,在电脑化、数据统计、人工智能方面还有很大的潜力可以挖掘。


Benjamin:生物学现在变化真的很大,计算机和机器学习的发展速度也很快。我从事这个领域已经15年了,从5年前开始,可用的数据量越来越大。我感觉就好像在数据的大海里冲浪,如无意外,这个大浪还将持续几年。

 


生物学可用的数据越来越多,why?

  

熊伟铭:您是说5年前开始有大量可用数据出现,是什么原因让数据量迅速增加呢?

 

Benjamin:技术的发展和成本的降低,使得测序技术的使用越来越频繁,应用的面也越来越广。现在同一个问题,我们能得到不同角度的数据,这加深了我们对同一问题的了解程度。

 

刘小乐:我同意Bnejamin的观点,科学家在越来越多的应用上使用测序技术,不同的角度产生不同的数据帮助我们去做研究。以我自己为例,九年前,我开始和中国的研究机构合作。当时测序技术才刚刚引进中国。中国的医生对相关技术非常感兴趣,但他们还不知道做这些实验有什么意义。现在,有太多的企业来协助医生了,医生们只要把样本给这些企业,企业就会对样本进行测序、甚至数据分析。

 

同样的事情在美国也有例子,测序技术真正促进了临床转化。肿瘤学家已经成为使用这些技术的先锋,以前做研究的和做临床的是两批人,互相之间没有交集。现在你会看到,博士们和医生们已经开始一起开会、合作了。

 

熊伟铭:你们几位专家都来自美国,但你们各自的研究团队里有很多中国人。现在对于中美两国在科研上的交流和合作有什么样的说法吗?

 

刘小乐:中美两国对于合作和交流秉持的都是开放的态度。我认为无论从科学的角度还是从工业的角度看,合作都会是一个双赢的局面。虽然现在有些摩擦。美国方面担心知识产权,中国方面则担心中国的遗传资料流传到国外会有国家安全风险。

 

我认为是多虑了,因为现在已经公开的关于美国人和欧洲人的遗传数据已经很多了,而且说中国开放自己的数据就会造成国家安全风险也不太可能,因为在美国和欧洲的中国移民已经很多了。

 

此外,虽然中国在生物研究方面投入很大,但即使有论文发表了,相关数据也不开放。既不向国外开放,也不向国人开放。这就造成一个后果,就是中国方面的研究成果无法形成国际影响力。人们也不能拿这些数据进行新的研究,这是其实是资源的浪费。我真的希望能够在政策层面更加开放一点,这不仅能让我们的发现更加有科学影响力,也能让我们的数据与生物科学联系的更加紧密。

 

美国方面的政策对于合作交流还是比较鼓励的,我们只要保证所有的操作都在合法的层面下进行,同时也要保证研究人员的合法权益。

 

Benjamin:目前我还没看到双方交流有什么太大的改变,只是有些学生的签证被拒签。但还是有些担忧存在,担心政治因素等外部因素,阻挠了两国的学术合作。科学的发展挺依赖交流的,包括数据的交流,主要是一起头脑风暴,最聪明的人聚在一起是能产生好的想法。我本人和中国方面有合作项目,如果受到影响,真的是很不幸。

 

熊伟铭:对于中美两国的合作,比如把中国的遗传数据或者材料拿到美国的大学做研究,或者把美国的数据和材料拿到中国做研究,从学术的角度讲,应该秉持怎样的态度呢?

 

刘小乐:分享一个TCGA或者ICGC的案例,这些项目里都有数据团队,也有科学家小组。在论文发表前,数据仅在科学家小组内部分享。一旦决定对外公布数据,会给数据分级。比如,人们可以申请获取原始数据,但会有所限制。但清洗过的数据就可以无限制的公开,所有人都可以获得。

 

在美国,如果是联邦资助的研究项目,一旦成果通过验收,数据是要被强制开放的,这一点值得中国借鉴。中国现在想要建立国家级的生物数据库,但现在还是看不到什么医疗或者病患的数据,即使是已经发表了的论文,即使是清洗过的数据也不公开。

 

Benjamin:我补充一个点,刚刚提到为什么近5年基因数据增加了这么多。除了技术进步和成本降低,还有很重要的一点,就是开放是所有人的共识。在人类基因测序项目开始之初,所有国家和个人达成了一个共识,就是分享所有基因数据给全人类。但在别的生物医药领域,数据是不分享的。比如,医疗成像技术,核磁共振MRI的图像,这些领域的人是不分享数据的。这些领域的数据收集成本非常高。所以政策因素,对于数据分享或者技术发展作用还是很重要的。

 

Olga:分享数据对于基因研究来说非常重要。不是说,科研人员不能做不同的数据分析。其实重要的研究发现很要求资料库交叉对比的。即使你把自己数据库的数据分析得很好,没有数据库间的分享,也很有可能看不到你想要的答案。



美国在数据分享方面做得比中国好,但没好很多

 

熊伟铭:从研究和市场的角度看,中美两国有什么异同呢?

 

刘小乐:如果从数据分享的角度看,美国的人类基因组数据的可以分享的。比如Pat Brown、David Boston,这些机构都是开放数据理念的坚定支持者,他们分享数据帮助科学研究。比如,TCGA有一万个肿瘤数据,有成千上万的研究论文是基于这些资料产生的。这些数据简直是个金山,虽然是几年前的数据,但仍然有人能在其中找到有用信息。其实收集和整理这些数据是很费人力物力的。

 

在中国,可能一家医院一年就能产生一万个肿瘤的数据。中国的医生们也花费了巨大的资金去给这些肿瘤做基因测序,但他们的数据都不公开。有时候我们看到了相关的论文发表,即使研究的成果并不是太突出,我们仍然接受其在高端科学期刊上发表。因为我们知道背后产生了有很多高质量的数据,所以相对来说,美国在数据分享部分更开放一点,中国存在一定的政策限制。但是,如果能够开放数据,对生物学对中国生物科研的国际影响力上是有帮助的。

 

Olga:不只是美国,英国也在建立生物数据银行(UK Biobank),任何组织或个人都可以接触到他们分享的病患数据、测序数据、临床数据和遗传数据。从长期看,此举对于生物医药科学的发展帮助很大,甚至会改变世界。

 

熊伟铭:很好的观点,中国的互联网开始于2000年左右,刚开始的时候,人们对于互联网技术和其潜力完全不了解。但是,就是因为互联网的开放性,现在中国有了阿里巴巴、腾讯这样世界一流的互联网企业。所有的开放都需要一个过程,当然政策和体制的作用至关重要。请问几位老师对中国的科研工作者有什么样的建议吗?当他们在面对数据、数据分享、海外项目合作,诸如此类事情的时候。

 

刘小乐:现在,中国医院的信息系统还需要在标准化方面下功夫。有些公司想要获取这些医院的临床数据,但拿到手的数据可能不能用,因为这些数据的格式完全不同。中国的医院采用的是他们自己的内部系统,这也让数据分享存在困难。这可能需要国家层面的努力,发展出一个标准化的医院信息系统。美国这边的医院信息系统已经发展了30年,所有的医院使用的都是统一制式的临床数据。我相信这对临床技术的发展都会是有很好的帮助。

 

Olga:很多科研人员对分享数据存在抵触情绪,他们认为分享数据就是把自己辛苦换来的研究成果无偿送给别人。这就要求从事数据分享的机构要去说服科研人员,别人使用你的数据会标明出处,增加了你的学术影响力。你的数据能帮到更多的人,真正的去解决问题,这是在帮助全人类。此外,数据分享的系统做得还不够简易操作,相关机构应该在IT方面为科研人员提供帮助。

 

熊伟铭:我觉得中国实在上世纪90年代末才开始记录医保数据,所以相关工作开始的时间并不长。美国方面花了多长时间做到现在的成果呢?比如信息系统、数据分享、合作等方面。

 

Benjamin:美国的临床数据还不能大范围分享,情况比较复杂。但上述工作应该是开始于奥巴马医保期间。当时的美国政府在信息集中化方面做了很多投入,才出现了一两个比较大的公司从事相关工作。事实上,美国的医疗信息方面也是很分散的,此类工作开始的也很晚,并没有太大优势。只是在基因数据方面做得还不错。

 

熊伟铭:本次讨论还有10分钟结束,能不能请三位老师畅想下未来。未来或者说下一代生物数据学是什么样的。

 

Olga:未来很大程度上依赖于实验方法,很快我们就会拥有单细胞测序,这个概念发展得会很快。单分子DNA测序、针对蛋白的不同测序方法、代谢组学,这些领域都具有很大潜力。这些学科未来会结合在一起,形成一个完整的门类。


Benjamin:在生物学和医药学里使用机器学习还存在一定挑战。人工智能可以下象棋赢人类,那是因为有足够的数据去训练算法,也就是指导学习(supervised learning)。在生物学里,没有指导学习,因为没有标签化过的数据库。有些医疗领域使用机器学习效果很好,比如皮肤放射学。但当面临的是复杂的分子生物学、我也不知道我们什么时候能做到或者用什么实验方法,才能用计算机学真正有效的帮助生物学。

 

刘小乐:和20年前的情况相比,我对未来相当乐观。未来10-20年我们会得到足够多的数据,我真的相信科学和数据会改变生物医药研究,比如预估患病风险、早期诊断、助力医药研发、精准医疗、私人定制化医疗。虽然我不认为医疗成本会降低,但正是因为有了数据加持的医疗会更精准,人们应该能活的更久。


分享