logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
功能特性
控制台介绍
产品计费
API说明
常见问题
相关协议
文档中心
模型介绍功能特性多模态模型

多模态模型


平台提供支持图片与视频理解的多模态大模型,支持接收用户上传的图片或视频,并结合文本指令进行内容理解与智能问答。相比纯文本模型,这类多模态模型能够处理图文融合任务,适用于图像描述、视觉问答、视频摘要等场景。

核心能力

图像理解

  • 图像描述(Image Captioning)

自动生成对图像内容的自然语言描述,涵盖主体对象、场景、动作和氛围等关键信息。例如,输入一张街景照片,模型可输出:“一个阳光明媚的下午,行人走在林荫道上,路边有咖啡馆和自行车。”

  • 视觉问答(VQA)

根据用户提出的关于图像的问题,结合视觉内容进行精准回答。例如,提问“图中有几只猫?”,模型会识别并返回数量及位置信息。

  • OCR 文字识别与语义理解

不仅能从图像中提取文字(如截图、票据、文档),还能理解文字的语义上下文,实现结构化解析。例如,识别发票后自动提取“金额”“开票日期”“销售方”等字段。

  • 物体检测与定位

识别图像中多个目标物体,并提供其类别、位置(如边界框坐标)及相互关系。适用于安防监控、零售货架分析、自动驾驶感知等场景。

  • 图像分类与场景分析

判断图像所属的类别(如“室内/室外”“医疗影像/自然风景”)并分析整体场景语义,支持细粒度分类(如“狗的品种”“服装风格”)。

视频理解

  • 视频摘要与关键帧提取

自动提炼视频的核心内容,生成文字摘要,并识别最具代表性的关键帧,用于快速浏览或内容索引。

  • 动作识别与事件理解

识别视频中人物或物体的动作(如“跑步”“跌倒”“开门”)及复合事件(如“顾客进店后拿起商品”),适用于行为分析、体育判罚、工业操作合规检测等。

  • 基于视频内容的问答

支持用户针对视频内容提问,模型结合时序信息进行推理回答。例如:“视频中穿红衣服的人什么时候离开画面?”、“发生了几次碰撞?”

使用方式

图像理解

图像URL输入

curl 'https://wanqing.streamlakeapi.com/api/gateway/v1/endpoints/chat/completions' \
-H "Authorization: Bearer $WQ_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "模型 id/推理点 id",
"messages": [
{
"role": "user",
"content": [
{"type": "text","text": "这是什么"},
{"type": "image_url","image_url": {"url": "图片 URL 链接"}}
]
}
]
}'

图像格式说明

模型支持的图像格式如下,请根据实际的图像格式,匹配输入的文件后缀。当您传入本地图像时,请将代码中的image/{format}设置为对应的 Content Type值。

图片格式

文件扩展名

Content Type

JPEG

.jpg, .jpeg

image/jpeg

PNG

.png

image/png

BMP

.bmp

image/bmp

视频理解

视频URL输入

curl 'https://wanqing.streamlakeapi.com/api/gateway/v1/endpoints/chat/completions' \
-H "Authorization: Bearer $WQ_API_KEY" \
-H 'Content-Type: application/json' \
-d '{
"model": "模型 id/推理点 id",
"messages": [
{
"role": "user",
"content": [
{"type": "video_url","video_url": {"url": "视频 URL 链接"}},
{"type": "text","text": "这段视频的内容是什么?"}
]
}
]
}'

视频格式支持说明

支持MP4、AVI、MOV三种类型格式视频文件。

  • MP4:base64格式为video/mp4
  • AVI:base64格式为video/avi
  • MOV:base64格式为video/quicktime

适用模型参见 模型列表

上一篇:语言模型下一篇:深度思考
该篇文档内容是否对您有帮助?
有帮助没帮助