GSC

DCS Cloud大约 5 分钟

GSC中文用户手册

第一章 产品信息

1.1 产品描述

GSC (Genomic Sequence Compressor) 是一个专门用于压缩和解压 VCF (Variant Call Format) 文件的高性能工具。它支持对标准 VCF 文件和 BGZF 压缩的 VCF.gz 文件进行处理。

主要特性

多线程支持:并行处理提高压缩/解压速度。

自动检测:支持 VCF 和 VCF.gz 格式自动识别。

高压缩率:针对基因组数据特点优化的压缩算法。

灵活输出:支持解压为普通VCF或BGZF压缩格式。

1.2 注意事项

  • 不支持破损或格式不规范的 VCF 文件。
  • 多线程模式下内存占用会相应增加。
  • BGZF 压缩模式最多支持 8 个写入线程。
  • 建议使用 SSD 存储设备以获得最佳性能。

2.第二章 产品介绍

GSC提供三大核心功能:

数据压缩 - 将vcf文件压缩为专有.gsc格式。

数据解压 - 将.gsc文件解压回vcf格式。

数据查询 - 从.gsc文件中查询指定的位点和样品数据。

2.1 压缩流程图

为了提升压缩速度,会将将vcf按行分成若干个chunk,每个chunk再按列分成若干个block,从而可以利用多线程去并行处理数据。

gsc_com.drawio.png
图2-1 压缩流程图

2.2 解压流程图

解压时先读取压缩的chunk和数据块信息,然后根据记录的偏移量和大小读取数据,进而获取每个数据块的压缩数据。利用多线程并行解压各个数据块,然后拼凑成完成的chunk,最后写入到vcf.gz文件中。

gsc1.png
图2-2 解压流程图

3.第三章 使用说明书

GSC可以通过DCS智能云平台进行压缩和解压流程的完全管理。下面介绍基于DCS智能云平台使用GSC的操作指南。

3.1指南概述

3.1.1 概述

本章介绍如何使用GSC进行vcf数据的压缩和解压。在使用之前,请认真阅读并理解其中的内容,保证能够正确使用。

3.1.2 流程套件

  1. gsc_compress
  2. gsc_decompress

3.2 使用场景

操作一共包括五个步骤:上传数据、添加工作流、执行压缩流程、执行解压流程。运行任务后,当看到任务状态为completed时,代表任务已经完成。

3.2.1 上传数据

1)点击左侧导航栏【数据管理】,进入数据管理页面,进入目标文件夹,点击右上角【+添加文件】-【工具上传】上传数据(图3-1):

图片3-1.png
图3-1 文件上传步骤一

2)点击【上传】浏览并选择所需文件(图3-2),上传完成后文件会在目标文件夹中显示(如首次上传,则需点击【安装并启动传输客户端】安装所需工具):

图片3-2.png
图3-2 文件上传步骤二

3.2.2 添加工作流

  1. 点击顶部导航栏【项目】进入项目列表页面,在搜索框输入项目名称/项目编号,点击进入项目(图3-3):
图片3-3.png
图3-3 添加工作流步骤一
  1. 点击左侧导航栏【流程分析】进入流程分析页面,点击右上角【+添加工作流】添加工作流,点击【从公共库复制】(图3-4):
图片3-4.png
图3-4 添加工作流步骤二

3)以gsc_compress为例,在搜索框中输入流程名称gsc_compress,选择, 点击【复制】,点击【确定】,其他流程套件,也进行相同的操作:

image.png
image.png
image.png
图3-5 添加工作流步骤三

4)工作流添加成功:

image.png
图3-6 添加工作流步骤四

3.2.3 压缩vcf流程

  1. 点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入gsc_compress,点击【运行】:
image.png
图3-7 压缩步骤一
  1. 输入实体 ID(一般为样品ID),点击【下一步】:
image.png
图3-8 压缩步骤二
  1. 填写输入的vcf路径和输出的文件名称, 点击【下一步】:

![image.png](https://alidocs.oss-cn-zhangjiakou.aliyuncs.com/res/jP2lRXG9vAzAq8g5/img/0634cfd6-9eab-4a40-aafb-0bac01518ba3.pngopen in new window "图3-9 压缩步骤三" =1912x928)

gsc_compress 参数说明

inputvcf: 输入的vcf路径

thread: 压缩时使用的线程数

maxmem: 压缩时消耗最大内存

outpath: 压缩输出的文件名称

rowcnt: 设置每个chunk的vcf行数

blkcolcnt: 设置每个block数据块的sample数

3.2.4 解压gsc流程

  1. 点击左侧导航栏【流程分析】进入流程分析页面,在搜索框输入gsc_decompress,点击【运行】:
image.png
图3-10 解压步骤一
  1. 输入实体 ID(一般为样品ID),点击【下一步】:
image.png
图3-11 解压步骤二
  1. 填写输入的gsc路径和输出的文件名称, 点击【下一步】:

![image.png](https://alidocs.oss-cn-zhangjiakou.aliyuncs.com/res/jP2lRXG9vAzAq8g5/img/f0381312-6063-406d-bfb8-5a666652a876.pngopen in new window "图3-12 解压步骤三"=1912x928)

gsc_decompress参数说明

inputgsc:输入的gsc文件路径

thread:解压时使用的线程数

maxmem:解压时使用的最大内存

outpath:解压输出的文件名称,目前支持文本或者bgzf格式输出

上次编辑于: