概述

DCS Cloud大约 4 分钟

Genpilot基于人工智能大语言模型,结合华大专业的知识库、文献库、工具库、数据库及联网搜索功能,从用户实际场景出发,创新性的整合智能问答与写作功能于一身,为DCS Cloud用户及科研人员提供综合性解决方案。

  • 针对DCS Cloud用户:Genpilot不仅能使用原生大语言模型解决基础问题,还支持联网搜索学术搜索获取额外信息进行总结和加工。同时Genpilot内嵌了DCS Cloud产品操作手册和常见问题,提供DCS客服服务。
  • 针对科研人员:Genpilot提供全流程学术科研场景的智能辅助,在项目前期、期间、写文章阶段通过文献知识库、智能写作两个科研应用,科研人员可高效处理重复且耗时的科研工作、挖掘创新性发明及发现,并实现最终科研成果的快速转化、成文。

大语言模型简介

大语言模型(Large Language Model, LLM)是一种基于机器学习和自然语言处理技术的人工智能模型,它可以理解人类语言,并具有一定的记忆能力,能够生成具有上下文相关性的回答。尽管大语言模型在生成文本方面取得了巨大的进步,但在回答准确性及处理罕见问题能力上仍存在一些挑战。在处理专业的生命科学领域问题上,大语言模型还存在信息落后、缺少专业语料的问题。

Genpilot在大语言模型强大的文本处理能力基础上,加强数据建设、关注用户体验,提升回答的准确性、专业性、时效性,但Genpilot仍存在一些目前技术暂未突破的问题。以下是Genpilot的能力及局限性说明:

  • 能力:
  1. 智能问答:Genpilot可以理解用户问题,并能够结合数据做出合理的推理和预测,给出相对准确的答案。
  2. 记忆能力:在同一个会话内,Genpilot可以在一定范围内容记住用户的历史问题及回答,生成更连贯、更有逻辑性的回答。
  3. 获取最新信息:Genpilot解析用户问题并进行联网搜索,结合搜索结果生成发现最新信息和见解。
  4. 验证回答:对于生成的回答,Genpilot给出参考的文献、文档及网页来源及内容,供用户查看、验证、评估、修改最终回答的准确性。
  • 局限性:
  1. 长度限制:受限于大语言模型目前的能力,Genpilot在用户输入、回答生成及记忆能力均受token限制,只能考虑到有限的上下文信息。
  2. 数据偏见:大语言模型仍然会存在无法回答、回答错误的情况,需用户谨慎评估、使用。
  3. 模态单一:目前Genpilot仅支持文本输入及输出。

名词解释

以下Genpilot用户手册中涉及的部分名词,为避免歧义,特此说明。

  • 对话:包括用户的问题及Genpilot生成的答案。一个对话指一个问题及其对应的答案,其中答案可能有多个。
  • 会话:是指一系列对话的合集。
  • 助手:一种特殊的工具,旨在为Genpilot提供额外的功能和能力。使用助手可以访问数据库、API等,并将获取的信息整合生成回答,以便更好地应对各种任务和需求。
  • 应用:指Genpilot针对DCS Cloud用户提供的“智能问答”应用以及针对科研人员提供的文献知识库、智能写作,不同的应用对应不同的数据库及功能。
  • token:是大语言模型中文本的最小单位,它可以是一个单词、一个标点符号、一个数字、一个符号或其他语言元素。每个token都有一个对应的编码表示,模型使用这些编码表示来处理和生成文本。对于英文,1个token大约是4个字符或0.75个单词;对于中文,1个token大约等于0.5个字。目前,大语言模型在处理和理解文本时均有token的限制。
  • 流式输出:是指以连续的流的形式逐步生成结果,而不是一次性地生成所有结果。Genpilot按流式输出形式返回答案。

产品形态

Genpilot目前有web平台、钉钉小程序两种产品形态。

上次编辑于: