GSC
GSC中文用户手册
第一章 产品信息
1.1 产品描述
GSC (Genomic Sequence Compressor) 是一个专门用于压缩和解压 VCF (Variant Call Format) 文件的高性能工具。它支持对标准 VCF 文件和 BGZF 压缩的 VCF.gz 文件进行处理。
主要特性
多线程支持:并行处理提高压缩/解压速度。
自动检测:支持 VCF 和 VCF.gz 格式自动识别。
高压缩率:针对基因组数据特点优化的压缩算法。
灵活输出:支持解压为普通VCF或BGZF压缩格式。
1.2 注意事项
- 不支持破损或格式不规范的 VCF 文件。
- 多线程模式下内存占用会相应增加。
- BGZF 压缩模式最多支持 8 个写入线程。
- 建议使用 SSD 存储设备以获得最佳性能。
2.第二章 产品介绍
GSC提供三大核心功能:
数据压缩 - 将vcf文件压缩为专有.gsc格式。
数据解压 - 将.gsc文件解压回vcf格式。
数据查询 - 从.gsc文件中查询指定的位点和样品数据。
2.1 压缩流程图
为了提升压缩速度,会将将vcf按行分成若干个chunk,每个chunk再按列分成若干个block,从而可以利用多线程去并行处理数据。

2.2 解压流程图
解压时先读取压缩的chunk和数据块信息,然后根据记录的偏移量和大小读取数据,进而获取每个数据块的压缩数据。利用多线程并行解压各个数据块,然后拼凑成完成的chunk,最后写入到vcf.gz文件中。

3.第三章 使用说明书
GSC可以通过DCS智能云平台进行压缩和解压流程的完全管理。下面介绍基于DCS智能云平台使用GSC的操作指南。
3.1指南概述
3.1.1 概述
本章介绍如何使用GSC进行vcf数据的压缩和解压。在使用之前,请认真阅读并理解其中的内容,保证能够正确使用。
3.1.2 流程套件
- gsc_compress
- gsc_decompress
3.2 使用场景
操作一共包括五个步骤:上传数据、添加工作流、执行压缩流程、执行解压流程。运行任务后,当看到任务状态为completed时,代表任务已经完成。
3.2.1 上传数据
1)点击左侧导航栏【数据管理】,进入数据管理页面,进入目标文件夹,点击右上角【+添加文件】-【工具上传】上传数据(图3-1):

2)点击【上传】浏览并选择所需文件(图3-2),上传完成后文件会在目标文件夹中显示(如首次上传,则需点击【安装并启动传输客户端】安装所需工具):

3.2.2 添加工作流
- 点击顶部导航栏【项目】进入项目列表页面,在搜索框输入项目名称/项目编号,点击进入项目(图3-3):

- 点击左侧导航栏【流程分析】进入流程分析页面,点击右上角【+添加工作流】添加工作流,点击【从公共库复制】(图3-4):

3)以gsc_compress为例,在搜索框中输入流程名称gsc_compress,选择, 点击【复制】,点击【确定】,其他流程套件,也进行相同的操作:


4)工作流添加成功:

3.2.3 压缩vcf流程
- 点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入gsc_compress,点击【运行】:

- 输入实体 ID(一般为样品ID),点击【下一步】:

- 填写输入的vcf路径和输出的文件名称, 点击【下一步】:

gsc_compress 参数说明
inputvcf: 输入的vcf路径
thread: 压缩时使用的线程数
maxmem: 压缩时消耗最大内存
outpath: 压缩输出的文件名称
rowcnt: 设置每个chunk的vcf行数
blkcolcnt: 设置每个block数据块的sample数
3.2.4 解压gsc流程
- 点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入gsc_decompress,点击【运行】:

- 输入实体 ID(一般为样品ID),点击【下一步】:

- 填写输入的gsc路径和输出的文件名称, 点击【下一步】:

gsc_decompress参数说明
inputgsc:输入的gsc文件路径
thread:解压时使用的线程数
maxmem:解压时使用的最大内存
outpath:解压输出的文件名称,目前支持文本或者bgzf格式输出