热门活动

HOT

产品

解决方案

售前咨询

快手万擎(Vanchin)

开始使用

产品介绍

模型介绍

功能特性

模型服务

系统管理

产品计费

API说明

常见问题

多模态模型

更新时间：2025-12-22 14:35:47

平台提供支持图片与视频理解的多模态大模型，支持接收用户上传的图片或视频，并结合文本指令进行内容理解与智能问答。相比纯文本模型，这类多模态模型能够处理图文融合任务，适用于图像描述、视觉问答、视频摘要等场景。

核心能力

图像理解

图像描述（Image Captioning）

自动生成对图像内容的自然语言描述，涵盖主体对象、场景、动作和氛围等关键信息。例如，输入一张街景照片，模型可输出：“一个阳光明媚的下午，行人走在林荫道上，路边有咖啡馆和自行车。”

视觉问答（VQA）

根据用户提出的关于图像的问题，结合视觉内容进行精准回答。例如，提问“图中有几只猫？”，模型会识别并返回数量及位置信息。

OCR 文字识别与语义理解

不仅能从图像中提取文字（如截图、票据、文档），还能理解文字的语义上下文，实现结构化解析。例如，识别发票后自动提取“金额”“开票日期”“销售方”等字段。

物体检测与定位

识别图像中多个目标物体，并提供其类别、位置（如边界框坐标）及相互关系。适用于安防监控、零售货架分析、自动驾驶感知等场景。

图像分类与场景分析

判断图像所属的类别（如“室内/室外”“医疗影像/自然风景”）并分析整体场景语义，支持细粒度分类（如“狗的品种”“服装风格”）。

视频理解

视频摘要与关键帧提取

自动提炼视频的核心内容，生成文字摘要，并识别最具代表性的关键帧，用于快速浏览或内容索引。

动作识别与事件理解

识别视频中人物或物体的动作（如“跑步”“跌倒”“开门”）及复合事件（如“顾客进店后拿起商品”），适用于行为分析、体育判罚、工业操作合规检测等。

基于视频内容的问答

支持用户针对视频内容提问，模型结合时序信息进行推理回答。例如：“视频中穿红衣服的人什么时候离开画面？”、“发生了几次碰撞？”

使用方式

图像理解

图像URL输入

curl 'https://wanqing.streamlakeapi.com/api/gateway/v1/endpoints/chat/completions' \
-H "Authorization: Bearer $WQ_API_KEY"  \
-H 'Content-Type: application/json' \
-d '{
    "model": "模型 id/推理点 id",
    "messages": [
        {
            "role": "user",
            "content": [
                {"type": "text","text": "这是什么"},
                {"type": "image_url","image_url": {"url": "图片 URL 链接"}}
            ]
        }
    ]
}'

图像格式说明

模型支持的图像格式如下，请根据实际的图像格式，匹配输入的文件后缀。当您传入本地图像时，请将代码中的image/{format}设置为对应的 Content Type值。

图片格式	文件扩展名	Content Type
JPEG	.jpg, .jpeg	image/jpeg
PNG	.png	image/png
BMP	.bmp	image/bmp

视频理解

视频URL输入

curl 'https://wanqing.streamlakeapi.com/api/gateway/v1/endpoints/chat/completions' \
-H "Authorization: Bearer $WQ_API_KEY"  \
-H 'Content-Type: application/json' \
-d '{
    "model": "模型 id/推理点 id",
    "messages": [
        {
            "role": "user",
            "content": [
                {"type": "video_url","video_url": {"url": "视频 URL 链接"}},
                {"type": "text","text": "这段视频的内容是什么?"}
            ]
        }
    ]
}'

视频格式支持说明

支持MP4、AVI、MOV三种类型格式视频文件。

MP4:base64格式为video/mp4
AVI:base64格式为video/avi
MOV:base64格式为video/quicktime

适用模型参见模型列表

该篇文档内容是否对您有帮助？

有帮助没帮助

关于我们

支持与服务

法律支持

联系我们

友情链接