SeqArc
SeqArc中文用户手册
第一章 产品信息
1.1 产品描述
SeqArc是一款专为基因组测序数据设计的高效压缩工具,针对FASTQ格式文件提供卓越的压缩性能。它利用参考基因组信息进行序列对齐,或使用统计模型进行无参考压缩,兼顾了压缩率与性能。通过多线程并行处理,SeqArc可在保证数据完整性的同时大幅减小文件体积。支持所有物种的无损压缩。在保持较高压缩率的同时,也保持了较高的压缩和解压速度,可以对短读长和长读长序列进行有效压缩。
主要特性
双模式压缩:支持参考基因组辅助压缩和无参考统计压缩。
分类索引:可利用多个参考基因组构建分类索引,提高压缩率。
高性能处理:多线程并行压缩与解压,提升处理速度。
数据安全:支持压缩和解压过程中的数据完整性验证。
灵活输出:解压时支持标准输出或多种文件格式。
1.2 注意事项
索引构建:对大型参考基因组构建索引可能需要较长时间和较大内存。
数据验证:启用压缩和解压验证可提高数据安全性,但会增加处理时间。
文件覆盖:若不使用-f/--force选项,程序不会覆盖已存在的输出文件。
临时文件:压缩多文件时会创建临时目录,确保有足够的磁盘空间。
参考选择:选择合适的参考基因组可显著提高压缩率。
第二章 产品介绍
SeqArc提供三大核心功能:
索引构建 - 为参考基因组或分类数据库构建索引。
数据压缩 - 将FASTQ文件压缩为专有.arc格式。
数据解压 - 将.arc文件解压回FASTQ格式。
2.1 索引构建
构建索引是提高压缩率的重要前提步骤,需要准备好fastq对应物种的参考序列,然后执行构建步骤。
2.2 压缩流程图
SeqArc将FASTQ中的ID、序列、质量值三部分独立进行压缩,其中序列的压缩除了熵编码,还提供了基于HASH或minimap2的序列比对模块,以提高比对成功的序列的压缩率。此外,还使用了数据块的设计,以达到压缩率与性能的平衡,而封装格式的引入,使得数据安全、部分数据独立访问、向下兼容都能轻松完成。
如下是压缩流程图:

2.3 解压流程图
SeqArc根据压缩文件记录的数据压缩信息,分别读取每个压缩块,依次还原id, 序列和质量值,然后拼接成完整的fastq数据块,然后计算校验值,并和记录的原始校验值进行比对,确保解压的正确性。
如下是解压的流程图:

第三章 使用说明书
SeqArc通过DCS智能云平台进行压缩和解压流程的完全管理。下面介绍基于DCS智能云平台使用SeqArc的操作指南。
3.1指南概述
3.1.1 概述
本章介绍如何使用SeqArc进行fastq数据的压缩和解压。在使用之前,请认真阅读并理解其中的内容,保证能够正确使用。
3.1.2 流程包含工具
1)seqarc_index
2) seqarc_encode
3) seqarc_decode
3.2 使用场景
操作一共包括五个步骤:上传数据、添加工作流、索引构建、执行压缩流程、执行解压流程。运行任务后,当看到任务状态为completed时,代表任务已经完成。
3.2.1 上传数据
1)点击左侧导航栏【数据管理】,进入数据管理页面,进入目标文件夹,点击右上角【+添加文件】-【工具上传】上传数据(图3-1):

2)点击【上传】浏览并选择所需文件(图3-2),上传完成后文件会在目标文件夹中显示(如首次上传,则需点击【安装并启动传输客户端】安装所需工具):

3.2.2 添加工作流
- 点击顶部导航栏【项目】进入项目列表页面,在搜索框输入项目名称/项目编号,点击进入项目(图3-3):

- 点击左侧导航栏【流程分析】进入流程分析页面,点击右上角【+添加工作流】添加工作流,点击【从公共库复制】(图3-4):

- 以seqarc_index为例,在搜索框中输入流程名称seqarc_index, 选择,点击【复制】,点击【确定】,其他流程套件,也进行相同的操作:


- 工作流添加成功:

3.2.3 seqarc构建压缩参考索引
- 点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入seqarc_index,点击【运行】:

- 输入实体 ID,点击【下一步】(图3-8):

- 录入参数信息,完成后点击【下一步】(图3-9):

seqarc_index流程变量说明:
refpath:存放参考序列文件的路径
thread: 构建索引文件时的线程数
maxmem: 构建索引文件时的最大内存
- 点击【运行】启动分析(图3-10):

- 点击左侧导航栏【任务管理】进入流程分析页面,在流程名称中选择seqarc_index,查看任务状态,任务完成后,任务状态显示为
完成,复制任务编号,点击导航栏【数据管理】,将任务编号输入文件夹/文件名进行搜索。进入结果文件,其中 reference文件夹作为 seqarc_encode和seqarc_decode 流程中 refpath 参数输入:

3.2.4 压缩fastq流程
点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入
seqarc_encode
,点击【运行】(参考3.2.3):输入实体 ID(一般为样品ID),点击【下一步】(参考3.2.3):

- 输入fastq路径和参考序列路径和名称,点击【下一步】:

seqarc_encode参数说明:
inputfq: 输入的fastq路径
outpath: 输出的文件名称,流程会自动在后面添加后缀’.arc‘
refpath: 输入的参考序列目录路径
refname: 输入的参考序列名称
thread: 压缩时的线程数
mamxmem: 压缩时的最大内存数
3.2.5 解压arc的流程
点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入seqarc_decode,点击【运行】(参考3.2.3):
输入实体 ID(一般为样品ID),点击【下一步】(参考3.2.3):

- 输入要解压的arc文件和对应参考序列,点击【下一步】:

seqarc_decode参数说明:
inputarc: 输入的arc路径
outpath: 输出的文件名称
refpath: 输入的参考序列目录路径
refname: 输入的参考序列名称
thread: 压缩时的线程数
mamxmem: 压缩时的最大内存数