分享一篇有趣的NC comment,作者为来自科罗拉多大学博德分校的Jeanet Mante & Chris J. Myers,后者同时为通讯作者。这位C. J. Myers是该校Genetic Logic Lab【/】的主理人,同时也是IEEE的会员;更有趣的是他曾获得Chinese history中国历史的学士学位【个人页把这个也写成. degree,估计是打错了】,可以说是尔等斜杠青年的典范了(((
本文中物种Somatogyrus aureus【你b专栏莫得斜体我真的yue】的中文翻译参考了站内up @NanikoQAQ 提供的建议,在此深表感谢。另外为保页面整洁将不再保留references而只保留“角标”,各位可前往原文自行查看相应文献。翻译内容仅供参考,如有读者愿就不合理之处郢正一二,本人先行拜谢。
(资料图片)
数据复用的相关议题已在合成生物学及更广泛的科学界内得到高度认可。但出于对机器推理之强调及实际实施的缺乏,相关政策与规范仍未落地。于此我们讨论已有的进展,遗留的挑战与潜在的解决方案。
十二年前,一封信被写就以强调出版物内序列数据的不足所导致的合成生物学界复现与重复利用的缺失[1]。这反映出人们对于数据在科研推进、创新及经济发展等方面之关键作用的认知正不断增强。这一认知已导致对于数据科学及数据基建的投资不断增加,也提高了人们对于有效的数据管理与共享实践之必要性的认知:数据必须可被查找(findable)、可被访问(accessible)、可被互动(interoperable)、可被复用(reusable,缩写为FAIR)[2],并且需被管理以达成以上目标——然而,解决基因片段复用不足的问题仍留有漫漫长路亟待求索。
已有进展
一直以来,大学、公司、期刊及资助机构等不同社群中不断提升的数据认知都在推动基因数据复用的进展。伴随着数据科学的普遍趋势,这些社群正着手改善遗传学数据的规范化与储存。为达到这一目的,他们正执行多样的政策以求确保基因数据被系统地管理与共享。其中一个最显著的范例便是联合国教科文组织的《开放科学建议书》,其对数据储存、规范化及可访问性等开放科学的实施细节制定了指导方针。另一示例是资助机构为保证数据被正确储存与管理而对数据管理方案提出的要求,例如美国国家科学基金会、疾控中心、国立卫生研究院和英国生物技术与生物科学研究理事会。此外,一些期刊现在也对序列呈递提出要求或提供建议,例如《Nature》和《Science》。一方面此类政策很好,因为它们涵盖了较大的范围从而包含了基因的部分。另一方面,它的广泛度导致了关于政策应被如何实施及它们应是激励性质的抑或带有强制色彩的不确定性。
公众认知也促进了社群规范的形成。合成生物学社群内的标准包含了合成生物学开放语言(SBOL)[3],标准欧洲矢量架构(SEVA)[4]及生物积木标准[5]。不同的数据标准服务于不同的用途。某些标准侧重于数据的格式与结构,另外一些则聚焦于可视化,还有一些专注于汇编。但所有的数据标准都服务于一项共通的目标:促进数据的复用。为数据标准的管理、分享和使用建立清晰而一致的框架有助于确保数据对于数量繁多的个人与组织是可访问且可使用的。通过协作,这些标准创建出一系列鲁棒又灵活的基础设施来支撑合成生物学的发展。
遗留挑战
合成生物学领域的发展映射着数据科学的全面推移与前进。这是由于合成生物学所面对的大量挑战与议题与更广泛的数据科学所需面临的相类似。序列数据管理时下所面对包含可查找性、可访问性、可互动性、可复用性等方面的若干议题。尽管若干政策及标准理论上可以解决这些议题,但许多政策都含糊不清因而时下无法解决针对数据的机器推理,或干脆未被充分执行。
我们在此展望这样的未来:我们将可以向数据库问出这样的问题:”堆囊菌亚目细菌中最强的启动子有哪些?“而数据库递交出一份可被基于例如对不需要的限制酶位点的排除或热稳定性等进一步的标准进行过滤的结果清单。另外,倘若获得的结果有限,数据库可以反馈其他的查询建议,例如”未能从堆囊菌亚目细菌中寻得结果,您想在粘球菌目中进行查询吗?“一旦一项结果被打开,页面内就应有足够的信息来帮助确认该原件能否胜任期望的应用。在堆囊菌亚目细菌启动子的示例中,它或许会报告在不同环境条件下测得的相对启动子单位数量(RPUs)[6]并附录对有关实验文献的引用。尽管现下它有可能回答此类问题,但这绝非易事——它所需的时间与精力阻碍人们前进,浪费科研经费。虽然看似难以置信,但这是一个可达成的目标,因为其中许多部分已经就位。下文将讨论仍待解决的阻碍。
可查找性
由于机器对于数据推理无能为力且集成化的序列数据库尚且缺失,基因片段常常是难以定位的。尽管存在诸如GenBank[7]、SynBioHub[8]、JBEI-ICE[9]、iGEM BioBrick Registry[10]、Addgene[11]之类的数据库,但能在数据库上运行的查询仍为数据库接口、数据库所存储的元数据及被输入数据库的数据等因素所限制。一些期刊对于序列的提交有清晰的准则,并为审稿人提供了待验证沉积序列的清单以进行支持。其它期刊的政策更加隐蔽:审稿人未被要求进行验证。因此,尽管对于序列数据的递交再增加,但这绝非普遍存在。另外,元数据的领域因数据库而异。例如,Addgene包含了细菌增殖的数据,而GenBank没有。包含基因组最小信息标准(MIGS)[12]所要求的全部元数据的数据库并不存在。这一问题或许可以通过被良好索引的分布式数据存储或被良好规划的中心式数据库来解决。
可访问性
目前的系统正为人与计算机无法获取数据的现状所困扰。之于”待请求数据“的通常做法往往遭遇作者回复的缺乏[13]。即便数据可供使用,也常不具备可供机器读取的格式。譬如,[14]表明绝大多数可获取的补充序列都具备PDF格式。这使得即便可能,机器提取序列并对其执行注释或其他分析也是很艰难的。为解决此类问题,序列数据必须不仅可供人获取,还可使机器通过兼容机器推理标准的中心式数据库来使用(也即机器可使用的格式)。部分元数据已可被机器获取,但这并非全部。例如Genbank在基态物种的前提下提供了分类学ID。然而,Addgene的物种未被附注。另外,所有数据库都能够增加的使用,例如ORCID、基因本体论[15]、序列本体论[16]和DOI。收集更广泛的元数据可以扩大用户搜寻与拣选的范围数量。本体论的使用使得机器归因(例如推荐子组或超组以缩小或扩大搜索范围)成为可能。最后,使用独特标识符可容许不同数据库间的整合(例如查询同一作者的期刊文章,或将Uniprot[17]与Genbank的记录连接)[18]。另一方面,以ChatGPT为代表的大语言模型(LLM)的崛起或将增加机器可访问的数据类型。然而所要求的信息仍需存在,无论格式为何。此外,大语言模型们作为机器学习的一员尚未可被解释,因此模型必须经过严谨的评估后方可作为研究进程的一部分得到信任。为此,一项TruthfulQA基准的生物学同位体是很有必要的。
可互动性
与基因片段相关联元数据的不足阻碍了它们与其他部分的整合。譬如序列通常不包含有关于限制性酶切位点的元数据。在仅有例如引物或质粒参照的部分序列信息的情况下这尤其令人困扰。然而,即便有时序列可被利用,运行单质粒注释所需的时间对研究人员来说仍是不必要的负担。如若在提交时进行限制性酶切位点修饰,研究者们将得以轻松地筛选出带有不被需要限制性位点的质粒或者构建体以完成部分初步搜索。确保全部序列可用是良好的开始,但我们建议涵盖一系列可互动性课题的元数据收集也是被需要的。所需元数据的清单可基于一项机器可访问的DNA构建协议描述用框架[19],QUEEN(生成可五等分?[译者注:此翻译仅供参考,译者本人都觉得离谱]和可被高效编辑的核苷酸序列资源的框架)。
可复用性
允许序列在新情景中被复用的信息通常并不充分。如文献[20]所述,我们有最低信息标准;然而,它们的使用仍受限制,实施较少。此外,当下的遗传最低信息标准在合成生物学的背景下表现如何尚未明确。关于预测新有机体或不同环境背景中序列功能所需信息的数据仍有限。定义何种信息为此类预测所需是必要的。一旦此事项被完成,该标准就应被以与前文所述有关可查找性、可访问性、可互动性相兼容的方式被实施。并非所有被最低信息标准要求的信息都需被存储在单一数据库中;然而,它必须被以可对完整数据集进行查阅的方式连接。这不仅能提高序列数据的可查找-访问-互动-复用性,还节省了在重复表征实验和生物信息学分析上所花费的时间与资源,使得合成构建体的设计与构造更加轻松,更加划算。
总结
我们试图以事后的方式对一投稿至ACS Synthetic Biology的文章实施大量经建议的方案[14]。然而,出于机器可读序列的缺失、自然语言处理的困难及语言的固有二义性,这被证明是极具挑战性的。S. aureus可代指美丽硬仆骨舌鱼(Scleropages aureus)、金色千里光(Senecio aureus)、辉亭鸟(Sericulus aureus)、金卵石螺(Somatogyrus aureus)及金黄色葡萄球菌(Staphylococcus aureus)等若干不同物种的事实即为此种二义性的呈现。有时我们可以从内容中获知其指代何种生物,但这并非常态。反之,我们推荐提示作者以机器可访问的格式进行所需序列数据的提交,并附加包含背景关键词的特定标签的集成综合处理[14][21]。这一综合处理进程可以是半自动化的,也可被整合入论文投稿的工作流中。这将会使得作者的额外工作最小化。使序列数据的综合处理成为投稿和审稿流程的一部分将有助于数据管理政策的执行与序列数据可查找-访问-互动-复用性的提高。这将对整个研究社群产生正面的影响,并使得数据驱动的发现变得更加轻松,更加高效。
关键词: