现在人类进行基因组检测已经比过去容易的多了,研究人员们试图在大量的基因信息中寻找特殊的规律,希望借此找到疾病的根本原因。arvados是一个免费的生物信息数据管理开源平台,由生物信息专家alexander wait zaranek开发。对用户来说,开源系统有它的好处,但是如果出了问题,没有人会为用户负责,因此最成功的开源系统都有商业公司的背后支持,能够提供认证和产品支持。而curoverse公司就看中了这块业务。
公司名片
公司简介
位于美国波士顿的curoverse公司,成立于2010年,采用开源软件为基因组和生物医学数据提供管理、计算和共享服务。curoverse的核心业务是基于arvados的免费开源系统,为arvados用户提供技术支持服务。该系统最初是为哈佛个人基因组计划开发的。
创立之初的curoverse本打算为用户生物信息数据提供储存服务,但随着包括google等多家大公司都开始了云储存服务业务,curoverse转换战略,在2013年获得融资后,宣布用170万美元购买arvados平台的使用权和开发权。
curoverse致力于提供arvados平台支持技术服务,帮助科学家分析生物医学数据,缩短医药研发的进程,让科学家和临床医生能够专注于自己最擅长的领域,不用因为数据分析处理计算而耗费精力。
ceo简介
adam berrey是一位企业家,在互联网和软件行业有着丰富的经验,曾担任brightcove的市场营销和战略高级副总裁、macromedia的副总裁。自2009年以来,adam成为一名活跃的天使投资者和顾问,与许多风险投资公司和各种创业公司有合作。
商业模式画布
核心资源
arvados平台
该公司的服务建立在arvados平台的基础之上,这是一个免费的开源平台,已经在医学领域获得了认可,并在哈佛医学院的项目中得到试用,这个平台是由生物信息专家alexander wait zaranek开发的。第一代arvados在2007年推出,旨在为个人基因组计划服务。2013年12月,curoverse宣布用170万美元购买该平台的使用权和开发权。
arvados平台上既可以在电脑硬件上运行,也可以在虚拟化及相关服务器的云上运行。主要提供两种核心服务:keep数据管理系统和crunch工作系统功能。该平台可以通过多种方式进入,用户可通过arvados 的工作平台、命令行界面、工具界面以及第三方官方app等使用该平台。每一级别的系统都具有极高的安全防卫功能,用户可以放心使用。
keep数据管理系统
arvados数据管理系统keep,是一种内容可寻址的存储系统。 它可以管理商用驱动器上的数据或其他广泛使用的底层文件系统,包括对象存储和 blob存储。
该系统能够将文件转化为不需要移动或复制的数据集,可以再现原始数据来源的网址,确保数据来源的可靠性,能够自动验证每一个文件,消除同一来源的重复数据。此外该系统还具备多级存储的管理功能,能够对来自于不同储存层平台的数据进行管理,包括生产数据管理,内部部署或云中的数据档案。
crunch工作系统
arvados工作系统crunch是一个容器化的工作流引擎,以灵活的方式来运行计算管道,重现工作运行的过程。 它利用git、docker和其他技术,使得运行更加方便快捷。
该引擎能够自动启动web应用程序,并在多个节点上运行该软件,不但可以自动配置计算机上的计算节点,安装软件,重现系统的工作运行流程,还具备自动恢复磁盘故障和节点故障的功能,优化磁盘的空间以便进行数据管理。
关键业务
curoverse提供的软件和运营服务能够持续发挥arvados集群的全部潜力,客户可以购买curoverse 的服务。因为curoverse的工程师是arvados的主要开发者,这保证了curoverse运营arvados集群的专业性。
curoverse 提供的服务主要包括以下几项:
软件服务
为用户提供经过认证且稳定的系统,包括arvados和其他必需的第三方组件,该系统可以对arvados和计算机底层的每个组件经过测试和验证,修复补丁并帮助用户预测下一个补丁日期,以避免漏洞破坏系统里面的数据或给系统带来不安全隐患,使用该软件的用户可以享受3年的免费维修服务。
群集管理
运用curoverse独特的运营数据库,强大的硬件支持和云操作经验,为arvados集群用户,提供预测、维护基础云计算和物理基础设施的服务,24小时在线监控,维护和管理用户群,实时监控系统漏洞,以最快的速度修复系统,让用户实时了解arvados集群的动态。并能够在运行时动态优化集群的性能,使系统根据价格和性能目标自动调整计算资源的配置。
终端支持和培训
提供系统管理支持和终端用户支持,由arvados的开发者和运营人员来管理系统,以确保用户的工作能够顺利进行。该服务通过实时在线研讨会和培训资源帮助用户了解平台的用法,确保用户使用该软件提高工作效率。
专业服务
curoverse可以在任何环境下为用户提供处理arvados集群的方案服务,对系统或者hpc和存储资源平台上的数据进行整合,帮助用户设置和管理协作数据联盟。此外,该服务还能够帮助用户解决从应用开发到数据整理过程中的一系列问题。
客户细分
it团队
arvados帮助it团队管理hpc和云基础架构,解决it组织面临的管理和处理海量数据集平台的问题,提高数据的利用率,降低成本,为用户提供更好的结果。
生物信息学家和研究人员
研究机构和制药公司可以利用该服务,处理和共享 pb级的下一代测序数据,进行临床研究和药物开发。该公司提供的服务可以解决科学研究中的大量数据处理运算、分析及储存的问题,与其他人共享数据结果。
临床测试实验室
临床测试实验室可以通过curoverse的服务,直接实施cap和clia兼容的生物信息学解决方案,可用于ngs相关的临床测序和诊断测试服务,可以满足全基因组,外显子,目标板和rna seq的独特要求。
合作伙伴
2016年2月10日,curoverse与微软公司合作,宣布arvados系统已经能够在微软azure系统上使用。在azure上,arvados提供管理和处理pb级基因组和健康数据的功能。
curoverse已经在12个研究中心安装了该软件,其中包括约翰·霍普金斯大学和英国wellcome trust sanger研究所。
欧美和亚洲等地的主要基因组测序中心均采用该软件,对大量数据进行分析处理、管理以及相关数据(如rna,微生物组和成像)的分析。
融资情况
2013年12月,curoverse从hatteras venture partners和point judith ventures等公司获得150万美元投资,该资金将用于开发遗传数据存储平台,投资者如下:
竞争对手
illumina正式推出了basespace,这是一套完整的基因组学软件工具,让用户能在统一且综合的平台上进行实验室信息管理、分析和共享,以及样品解释、报告和队列分析,缩短了从样品提交到获得答案的时间,解决了基因组数据处理和分析中的关键问题,并提高整体结果准确性。 basespace 适合各种实验室使用,包括临床和转化实验室、研究机构,以及产生、分析和解释基因组数据的其他任何机构。
2014年3月google公司推出googlegenomics,这款产品搭建了应用程序接口api,科学家们可以将dna数据转移到google服务器,使用相同的数据库技术索引备份人类的基因数据。google表示每年只需要花费25美元,就可以存储一个独立自然人的原始基因组信息,大约为100gb大小。另外,经过计算处理后的基因序列更加迷你,将会少于1gb,上传存储到云端的费用也更少,仅仅只需要0.25美分/年。
seven bridges genomics(sbg)开发的七桥云平台,可以与其他形式的生物医学数据一起快速协作分析数百万基因组。seven bridges genomics目前服务于政府、医药和科研实验室,包括三个世界上最大的基因组学项目:美国国家癌症研究所的癌症基因组学云计算、百万退伍军人计划和英国的十万基因组计划。2016年2月,该公司获得了4500万美元的a轮融资。
ceo berrey说:“我们的软件已经在人群中应用广泛,我们对它的稳定性非常有信心,它已经准备好接受更大的试验,并且更加广泛地应用于人群。”
微软公司的杰出科学家david heckerman表示:“作为azure上的服务层,arvados加速了科学发现、加速了使用基因组和健康数据进行临床诊断技术的发展。arvados平台构建于azure上,具有管理大型文件集和可靠运行可重现计算工作流程的高级功能。”
资料来源:
http://tuicool/articles/bff7nz
http://infoq/cn/news/2014/02/genomics-big-data-revolution/
http://xconomy/boston/2015/04/14/curoverse-begins-trial-run-for-open-source-genomics-tool/#
文|黄晓青
更多资讯欢迎关注火石官方微信或网站:火石创造(firestone-link)/hsmap