SCI医学科研助手
生信分析-Meta分析-基础实验

Hi-C辅助基因组组装现状

2017323Science发表利用Hi-C完成传播寨卡病毒和西尼罗病毒的两种蚊虫的3条染色体序列的组装

201727Nature发表利用Hi-C完成大麦基因组的组装,并阐明大麦染色体的空间结构

可谓引爆了Hi-C辅助基因组组装的热点.

但是同时我们也可以看出目前Hi-C技术并未形成较为成熟的开源分析软件.小编大体叙述以下见到的三款Hi-C辅助组装的软件:LACHESIS,3d-dna和SALSA。

    LACHESIS(https://github.com/shendurelab/LACHESIS)是一个Nature biotechnology发表的Hi-C组装的开篇的软件,相对来说通用性较强,且能组装到染色体水平,大伙想自己组装染色体建议使用此软件。但是他受基因组组装水平影响较大,尤其是在划分群组上如果不采取一定策略容易划分出超大群组;在order上此软件容易出现大片段错误需要人工纠正;此软件也缺少纠错功能,因此在组装之前必须保证scaffold版本基因组具有较高的准确性,方能取得较好的效果。由于作者自发表之后几乎没有再改进此软件,导致使用者直接利用此软件进行组装有时会面临一些准确性的问题;

    3d-dna(https://github.com/theaidenlab/3d-dna)是上述发表在Science上的一个软件,该软件具备对基因组进行先纠错再组装的功能(此软件新颖的地方),成功实现了对蚊子和人基因组组装,但对于其他一般基因组组装的通用代码作者仍然在研发中,现在并没有释放出来,目前来看此软件通用性一般。

    SALSA(https://github.com/machinegun/hi-c-scaffold)是一个针对三代组装的基因组进行Hi-C辅助组装,提升Scaffold指标(不能获得染色体)的软件。此软件也具备纠错功能,但遗憾的是作者上传的代码存在问题,纠错功能改进的代码迟迟没有进行发布,且此软件外置参数太少,非软件开发人员必须熟悉该软件原理算法相应的进行参数调整才能取得较好的效果。此软件尚未正式发表。

目前国内公司做Hi-C很多,但是需要警惕准确性问题.

一是没有对Contig或者Scaffold进行纠错的挂染色体都是耍流氓;

二是单纯跑软件组装后没有用热图评估的绝对也是耍流氓.

小编目前从各公司宣传这一块了解到貌似只有百迈客做的比较好(小编不是做广告啊),其他公司未见到体现上述两点的东西,所以大家在选择测序公司上也要注意.

参考文献:

1. Dudchenko O, Batra SS, Omer AD, et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds.[J]. Science , 2017.
2. Mascher M, Gundlach H, Himmelbach A, et al. A chromosome conformation capture ordered sequence of the barley genome[J]. Nature, 2017, 544(7651): 427-433.

3. Burton, J.N., et al., Chromosome-scale scaffolding of de novogenome assemblies based on  chromatin interactions. Nat Biotechnol, 2013. 31(12): p. 1119-25.
4. Ghurye J, Pop M, Koren S, et al. Scaffolding of long read assemblies using long range contact information[J]. bioRxiv, 2016: 083964.

欢迎关注生信人


 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

未经允许不得转载:医学SCI科研之家 » Hi-C辅助基因组组装现状

评论 抢沙发

  • QQ号
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

学习、交流、分享

生信分析交流群综合科研交流群

登录

忘记密码 ?

切换登录

注册