小塔数字人功能:形象、声音、知识库及模型对接解析

该思维导图概述了小塔数字人的多项功能,包括青年与小塔数字人形象、电话式对话声音、专业知识库对接、内部系统集成、同时执行多条指令的能力,以及图像、音频和文档处理能力。数字人可通过微调模型识别指令目标、音频内容及情绪,并进行文本分类和句法分析,提升用户互动体验与信息获取效率。

源码
# 小塔数字人功能
## 数字人形象
- 提供两种形象
  - 青年数字人
    - 凭空生成
  - 小塔数字人
    - 基于小塔形象生成
  
## 数字人声音
- 连续对话功能
  - 模拟电话式用户体验
- 提供5种对话声音
  - 包含队长的克隆声音
  - 风格多样化

## 数字人知识库
- 对接智联和能源知识库
  - 专业问题回答
  - 精确性高
- 非专业领域
  - 自动路由到文心一言
  - 提供可联网的闲聊问答
  - 自学习能力增强

## 对接内部系统
- 对接5w路摄像头基本信息
  - 可搜索某一位置附近摄像头
  - 方便后续控制操作
  - 实时监控能力
- 对接内部TI平台文生图能力
  - 生成多种类型图片
  - 支持个性化定制

## 多指令同时执行
- 识别并执行多条指令
  - 提高处理效率
  - 优化用户体验

## 对接模型能力
### 能看
- 对接微调后的grounding dino模型
  - 物体识别
  - 背景分析
- 对接qwen vl模型
  - 框出指令目标
  - 对图像进行文字描述
  - 上下文理解

### 能听
- 对接qwen audio模型
  - 识别音频中说话人的人数
  - 年龄和情绪识别
  - 检测说话内容
  - 检测是否包含敏感词

### 能读
- 对接qwen模型
  - 文档转换为脑图
  - 提取信息的可视化
- 对excel中特定列内容的基础操作
  - 地址提取
  - 分词
  - 情绪识别
  - 意图识别
  - 文本分类
  - 句法分析
  - 数据分析与处理能力增强
图片
小塔数字人功能:形象、声音、知识库及模型对接解析