Qwen3.5-Omni
全模态模型
视频理解
音频理解
语音识别
语音合成
编码模型
256K
版本名称:Qwen3.5-Omni
所属模型:千问
所属公司:阿里巴巴
发布时间:2026年3月30日
最新版本:3.5
参数规模:未知
上下文长度:256K
支持语言:中文,英文,毛利语,海南方言等113种语言及方言
授权协议:未知
体验方式:https://chat.qwen.ai/

简介

Qwen3.5-Omni是阿里云于2026年3月30日发布的新一代全模态大模型,是千问系列全模态模型的升级迭代产品。

该模型采用混合注意力MoE架构,在海量文本、视觉以及超过1亿小时的音视频数据上进行原生多模态预训练,可实现图片、视频、语音、文字等全模态内容的输入与输出。模型在音视频理解、跨模态推理、Agent方面实现了性能飞跃,在215项第三方性能测试任务中取得SOTA,性能超越Gemini-3.1 Pro,是目前全球最强的全模态大模型之一。

Qwen3.5-Omni支持113种语言及方言的语音识别、36种语言及方言的语音生成,还自然涌现出音视频Vibe Coding能力,同时具备语义打断、音色克隆、语音控制、自主工具调用等特性,后续将在更多实体场景落地,为多行业生产力升级提供技术支撑。

应用

  • 内容创作领域:可应用于短视频/直播平台、自媒体行业,支持对10小时以上音视频内容生成带时间戳的结构化描述,自动完成章节切片、内容审核、字幕生成等工作,大幅降低内容后期处理成本。
  • 编程开发领域:依托音视频Vibe Coding能力,开发者可通过口述需求+展示草图的方式,快速生成APP、网页、游戏等产品的代码与原型,大幅缩短创意验证周期。
  • 智能交互领域:可搭载于智能硬件、数字人系统,实现高自然度的多语言实时对话,支持音色克隆、语义打断、情绪语调调节,可应用于智能客服、AI陪伴助手等场景。
  • 行业服务领域:可服务于互联网、金融、消费电子、汽车等行业,通过工具调用能力完成实时信息查询、多模态信息分析、智能任务执行等工作,助力企业实现智能化升级。
以上信息来自企数智AI小编,如有错误可反馈给我们
22
热度
相关模型
人工导购
咨询服务