SeqArc

DCS Cloud大约 7 分钟

SeqArc中文用户手册

第一章 产品信息

1.1 产品描述

SeqArc是一款专为基因组测序数据设计的高效压缩工具,针对FASTQ格式文件提供卓越的压缩性能。它利用参考基因组信息进行序列对齐,或使用统计模型进行无参考压缩,兼顾了压缩率与性能。通过多线程并行处理,SeqArc可在保证数据完整性的同时大幅减小文件体积。支持所有物种的无损压缩。在保持较高压缩率的同时,也保持了较高的压缩和解压速度,可以对短读长和长读长序列进行有效压缩。

主要特性

双模式压缩:支持参考基因组辅助压缩和无参考统计压缩。

分类索引:可利用多个参考基因组构建分类索引,提高压缩率。

高性能处理:多线程并行压缩与解压,提升处理速度。

数据安全:支持压缩和解压过程中的数据完整性验证。

灵活输出:解压时支持标准输出或多种文件格式。

1.2 注意事项

索引构建:对大型参考基因组构建索引可能需要较长时间和较大内存。

数据验证:启用压缩和解压验证可提高数据安全性,但会增加处理时间。

文件覆盖:若不使用-f/--force选项,程序不会覆盖已存在的输出文件。

临时文件:压缩多文件时会创建临时目录,确保有足够的磁盘空间。

参考选择:选择合适的参考基因组可显著提高压缩率。

第二章 产品介绍

SeqArc提供三大核心功能:

索引构建 - 为参考基因组或分类数据库构建索引。

数据压缩 - 将FASTQ文件压缩为专有.arc格式。

数据解压 - 将.arc文件解压回FASTQ格式。

2.1 索引构建

构建索引是提高压缩率的重要前提步骤,需要准备好fastq对应物种的参考序列,然后执行构建步骤。

2.2 压缩流程图

SeqArc将FASTQ中的ID、序列、质量值三部分独立进行压缩,其中序列的压缩除了熵编码,还提供了基于HASH或minimap2的序列比对模块,以提高比对成功的序列的压缩率。此外,还使用了数据块的设计,以达到压缩率与性能的平衡,而封装格式的引入,使得数据安全、部分数据独立访问、向下兼容都能轻松完成。

如下是压缩流程图:

seqarc_com.png
图2-1 压缩流程图

2.3 解压流程图

SeqArc根据压缩文件记录的数据压缩信息,分别读取每个压缩块,依次还原id, 序列和质量值,然后拼接成完整的fastq数据块,然后计算校验值,并和记录的原始校验值进行比对,确保解压的正确性。

如下是解压的流程图:

seqarc_dec.png
图2-2 解压的流程图

第三章 使用说明书

SeqArc通过DCS智能云平台进行压缩和解压流程的完全管理。下面介绍基于DCS智能云平台使用SeqArc的操作指南。

3.1指南概述

3.1.1 概述

本章介绍如何使用SeqArc进行fastq数据的压缩和解压。在使用之前,请认真阅读并理解其中的内容,保证能够正确使用。

3.1.2 流程包含工具

1)seqarc_index

2) seqarc_encode

3) seqarc_decode

3.2 使用场景

操作一共包括五个步骤:上传数据、添加工作流、索引构建、执行压缩流程、执行解压流程。运行任务后,当看到任务状态为completed时,代表任务已经完成。

3.2.1 上传数据

1)点击左侧导航栏【数据管理】,进入数据管理页面,进入目标文件夹,点击右上角【+添加文件】-【工具上传】上传数据(图3-1):

图片3-1.png
图3-1 文件上传步骤一

2)点击【上传】浏览并选择所需文件(图3-2),上传完成后文件会在目标文件夹中显示(如首次上传,则需点击【安装并启动传输客户端】安装所需工具):

图片3-2.png
图3-2 文件上传步骤二

3.2.2 添加工作流

  1. 点击顶部导航栏【项目】进入项目列表页面,在搜索框输入项目名称/项目编号,点击进入项目(图3-3):
图片3-3.png
图3-3 添加工作流步骤一
  1. 点击左侧导航栏【流程分析】进入流程分析页面,点击右上角【+添加工作流】添加工作流,点击【从公共库复制】(图3-4):
图片3-4.png
图3-4 添加工作流步骤二
  1. 以seqarc_index为例,在搜索框中输入流程名称seqarc_index, 选择,点击【复制】,点击【确定】,其他流程套件,也进行相同的操作:
image.png
image.png
image.png
图3-5 添加工作流步骤三
  1. 工作流添加成功:
image.png
图3-6 添加工作流步骤四

3.2.3 seqarc构建压缩参考索引

  1. 点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入seqarc_index,点击【运行】:
image.png
图3-7 seqarc构建索引步骤一
  1. 输入实体 ID,点击【下一步】(图3-8):
image.png
图3-8 seqarc构建索引步骤二
  1. 录入参数信息,完成后点击【下一步】(图3-9):
image.png
图3-9 seqarc构建索引步骤三

seqarc_index流程变量说明:

refpath:存放参考序列文件的路径

thread:  构建索引文件时的线程数

maxmem: 构建索引文件时的最大内存

  1. 点击【运行】启动分析(图3-10):
image.png
图3-10 seqarc构建索引步骤四
  1. 点击左侧导航栏【任务管理】进入流程分析页面,在流程名称中选择seqarc_index,查看任务状态,任务完成后,任务状态显示为图片 27完成,复制任务编号,点击导航栏【数据管理】,将任务编号输入文件夹/文件名进行搜索。进入结果文件,其中 reference文件夹作为 seqarc_encodeseqarc_decode  流程中 refpath 参数输入:
image.png
图3-11 seqarc构建索引步骤五

3.2.4 压缩fastq流程

  1. 点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入seqarc_encode,点击【运行】(参考3.2.3):

  2. 输入实体 ID(一般为样品ID),点击【下一步】(参考3.2.3):

image.png
图3-12 seqarc压缩步骤一
  1. 输入fastq路径和参考序列路径和名称,点击【下一步】:
image.png
图3-13 seqarc压缩步骤二

seqarc_encode参数说明:

inputfq: 输入的fastq路径

outpath: 输出的文件名称,流程会自动在后面添加后缀’.arc‘

refpath: 输入的参考序列目录路径

refname: 输入的参考序列名称

thread: 压缩时的线程数

mamxmem: 压缩时的最大内存数

3.2.5 解压arc的流程

  1. 点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入seqarc_decode,点击【运行】(参考3.2.3):

  2. 输入实体 ID(一般为样品ID),点击【下一步】(参考3.2.3):

image.png
图3-14 seqarc解压步骤一
  1. 输入要解压的arc文件和对应参考序列,点击【下一步】:
image.png
图3-15 seqarc解压步骤二

seqarc_decode参数说明:

inputarc: 输入的arc路径

outpath: 输出的文件名称

refpath: 输入的参考序列目录路径

refname: 输入的参考序列名称

thread: 压缩时的线程数

mamxmem: 压缩时的最大内存数

上次编辑于: