本篇文章2208字,读完约6分钟
这是国家科技基础条件平台运行15年来,中国人口与健康领域的大数据资源首次向公众发布。共发布了237个数据集,数据量为49.1兆字节和2.8亿条。
1月4日,国家科技基础条件平台副主任王为国家人口与健康科学数据共享平台发布了2016年国家人口与健康科学数据共享平台科技资源。
《21世纪经济报道》记者了解到,这是该平台自15年前运行以来首次向公众发布中国人口与健康领域的大数据资源。共发布了237个数据集(数据量49.1万亿字节,2.8亿件),包括生物医学、基础医学、临床、公共卫生、中医药、药学、人口和生殖健康数据集。
中国工程院院士、中国医学科学院院长曹雪涛表示:“数据共享的困难是中国医疗卫生大数据发展和应用的最大瓶颈。没有共享,就很难有应用价值。共享平台首次向公众公开发布了平台的部分科技资源,有利于进一步推动人口与健康科学数据的共享,促进相关领域科研成果和数据红利的全面发布,促进生物医学数据资源的整合与共享。”
自2015年奥巴马提出精确医学概念以来,中国一直在增加其精确医学,而生物大数据的发展对精确医学的实现至关重要。然而,国内生物大数据在科学研究中面临着标准化、分析与转化、伦理道德等问题。,而在着陆层,它面临着数据共享等困难。
促进数据共享
数据显示,共享平台源于2002年科技部科技数据共享工程。2005年,它被纳入国家科技基础设施平台,并更名为“医学与健康科学数据共享网络”。2009年,进入长期运行服务阶段,升级为“全国人口健康科学数据共享平台”。
记者了解到,共享平台的建设持续了15年,跨越了国家的四个“五年计划”:在“十五”至“十二五”期间,数据资源得到了建设,包括基础、临床、公共卫生、中医药等。;数据库建设,包括生理参数、高血压、传染病、处方和药物不良反应;专项服务建设,包括卫生决策、气象医学、脑卒中防治、农村三级网络、癌症转化医学、传染病预警等。
在2016年至2020年的“十三五”期间,共享平台将进一步推动心脑血管疾病、肿瘤等专题数据库建设和有针对性的数据共享服务落地。
中国工程院院士、共享平台管理中心主任刘德培表示,平台的数据共享服务方式包括四个方面:为政府决策和人民健康提供信息和知识服务;为科技创新、医疗保健和健康管理提供基于元数据的数据采集服务;为行业健康发展和专业人才培养提供数据产品和服务;为国家重大项目和R&D重点项目提供数据共享技术服务。
目前,共享平台的数据内容涵盖了基础医学、临床医学、公共卫生、中医药、人口与生殖健康、地方医学六大类数据资源。该平台的科学数据总量达到67.76tb,与10多个国家建立了科学数据共享。
科技部基础司司长陈文军透露,截至目前,2012年至2015年,共享平台服务用户总数为24447人,其中服务企业数量占比最大,共计3429人;此外,还有2,368所高等院校;1,287个研究所;共有718个政府部门,支持155项政府决定、8,284篇论文和156项专利。
其中,非编码数据库是一种生物数据资源,自2005年建立以来,每两年更新一次,引用的科研文献总数为767次;自2012年以来,中国国家体质健康数据库收集了受试者的血清、dna和尿液样本,用于基因组和蛋白质组研究;国家人口健康平台肝癌数据库收集肝癌样本、临床信息、基因等数据资源,为重大专项研究提供科技资源。
生物大数据开发有许多难点
随着国家“十三五”计划将大数据作为基本战略资源,全面实施推动大数据发展的行动,大数据资源的巨大潜在价值日益凸显。
医学领域也是如此。2016年8月,全国卫生大会进一步指出,要完善人口健康信息服务体系建设,推进医疗大数据应用;2016年10月,《健康中国2030》规划纲要再次强调推进医疗大数据应用。
目前,极为流行的精确医学为生物大数据的开发和共享注入了大量的想象力。
中国科学院院士、复旦大学副校长李晶表示,精密医学领域可共享的数据包括队列研究数据,即自然人群和特殊疾病的队列数据、表型+基因组的罕见病数据、10万个全基因组参考数据库;大数据平台,即100,000人的临床和组学数据以及精密医学大学的知识库;诊疗方案,即各种疾病的分子分型数据库、各种药物的基因组数据库、各种疾病的诊疗方案+CD。
然而,长期以来,国内医疗数据标准化体系一直缺乏。随着医疗信息化的发展,医院内部信息的互联互通问题逐渐得到解决。然而,医院、医院与社区、地区与地区之间的信息仍然不兼容,信息孤岛现象依然存在。
刘德培认为,大数据的标准系统构建是开发大数据应用和服务的先决条件。他透露:“为了保护数据提供者的权益,共享平台不断完善人口健康平台科技资源与标准管理系统,自动为每个数据集提供唯一标识符,要求数据用户使用唯一标识符来表示数据源。”此外,该平台还为数据提供者创建了科技资源电子注册证书。
生物大数据在科学研究中也面临多重挑战。李晶进一步指出,当前的问题和挑战主要包括高维基因组数据的处理和标准化、医疗保健数据的标准化、非结构化数据的转换和分析以及生物大数据的伦理问题。
在关键基因组参考数据库中,数据生成能力可以被行业所容忍,但资金严重不足;数据分析能力呈分布式排列;数据存储和传输能力正面临严重短缺和投资不足。
对此,金利认为,“ppp模式”可能是解决方案。“但是,有多少企业和科研机构共享和分享数据,以及如何建立合作模式,还有待探索。”
标题:国家人口与健康数据首次披露 生
地址:http://www.systoneart.com//syxw/10242.html