小塔数字人功能:形象、声音、知识库及模型对接解析
该思维导图概述了小塔数字人的多项功能,包括青年与小塔数字人形象、电话式对话声音、专业知识库对接、内部系统集成、同时执行多条指令的能力,以及图像、音频和文档处理能力。数字人可通过微调模型识别指令目标、音频内容及情绪,并进行文本分类和句法分析,提升用户互动体验与信息获取效率。
源码
# 小塔数字人功能
## 数字人形象
- 提供两种形象
- 青年数字人
- 凭空生成
- 小塔数字人
- 基于小塔形象生成
## 数字人声音
- 连续对话功能
- 模拟电话式用户体验
- 提供5种对话声音
- 包含队长的克隆声音
- 风格多样化
## 数字人知识库
- 对接智联和能源知识库
- 专业问题回答
- 精确性高
- 非专业领域
- 自动路由到文心一言
- 提供可联网的闲聊问答
- 自学习能力增强
## 对接内部系统
- 对接5w路摄像头基本信息
- 可搜索某一位置附近摄像头
- 方便后续控制操作
- 实时监控能力
- 对接内部TI平台文生图能力
- 生成多种类型图片
- 支持个性化定制
## 多指令同时执行
- 识别并执行多条指令
- 提高处理效率
- 优化用户体验
## 对接模型能力
### 能看
- 对接微调后的grounding dino模型
- 物体识别
- 背景分析
- 对接qwen vl模型
- 框出指令目标
- 对图像进行文字描述
- 上下文理解
### 能听
- 对接qwen audio模型
- 识别音频中说话人的人数
- 年龄和情绪识别
- 检测说话内容
- 检测是否包含敏感词
### 能读
- 对接qwen模型
- 文档转换为脑图
- 提取信息的可视化
- 对excel中特定列内容的基础操作
- 地址提取
- 分词
- 情绪识别
- 意图识别
- 文本分类
- 句法分析
- 数据分析与处理能力增强
图片