
泉源:通义千问Qwen
今天,咱们发布了 Qwen2.5-Omni,Qwen 模子家眷中新一代端到端多模态旗舰模子。该模子专为全标的多模态感知野心,八成无缝处置文本、图像、音频和视频等多种输入体式,并通过及时流式反馈同期生成文本与当然语音合成输出。
该模子现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源绽开,你不错通过咱们的Demo体验互动功能,或是通过Qwen Chat 班师发起语音或视频聊天,千里浸式体验全新的 Qwen2.5-Omni 模子巨大性能。
主要本性
万能立异架构:咱们淡薄了一种全新的Thinker-Talker架构,这是一种端到端的多模态模子,旨在相沿文本/图像/音频/视频的跨模态意会,同期以流式面貌生成文本和当然语音反馈。咱们淡薄了一种新的位置编码本领,称为TMRoPE(Time-aligned Multimodal RoPE),通过期间轴对都兑现视频与音频输入的精确同步。
及时音视频交互:架构旨在相沿十足及时交互,相沿分块输入和即时输出。
当然畅通的语音生成:在语音生成的当然性和雄厚性方面杰出了好多现存的流式和非流式替代决议。
全模态性能上风:在同等范围的单模态模子进行基准测试时,弘扬出超卓的性能。Qwen2.5-Omni在音频才调上优于同样大小的Qwen2-Audio,并与Qwen2.5-VL-7B保抓同等水平。
超卓的端到端语音提醒扈从才调:Qwen2.5-Omni在端到端语音提醒扈从方面弘扬出与文本输入处置相忘形的后果,在MMLU通用常识意会和GSM8K数学推理等基准测试中弘扬优异。
Qwen2.5-Omni-7B demo
模子架构
Qwen2.5-Omni接管Thinker-Talker双核架构。Thinker 模块如同大脑,正经处置文本、音频、视频等多模态输入,生成高层语义表征及对应文本实质;Talker 模块则同样发声器官,以流式面貌接纳 Thinker及时输出的语义表征与文本,畅通合成闹翻语音单位。Thinker 基于 Transformer 解码器架构,交融音频/图像编码器进行特征提真金不怕火;Talker则接管双轨自转头 Transformer 解码器野心,在覆按和推理经由中班师接纳来自 Thinker 的高维表征,并分享一说念历史高低文信息,酿成端到端的协调模子架构。
模子架构图
模子性能
Qwen2.5-Omni在包括图像,音频,音视频等多样模态下的弘扬都优于同样大小的单模态模子以及阻塞源模子,举例Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的弘扬。此外,在单模态任务中,Qwen2.5-Omni在多个领域中弘扬优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频意会(MMAU)、图像推理(MMMU、MMStar)、视频意会(MVBench)以及语音生成(Seed-tts-eval和主不雅当然听感)。
模子性能图
下一步
咱们期待听到您的反馈,并看到您使用 Qwen2.5-Omni 成就的立异愚弄。在不久的往日,咱们将效能增强模子对语音提醒的除名才调,并提高音视频协得意会才调。更值得期待的是,咱们将抓续拓展多模态才调鸿沟,以发展成为一个全面的通用模子!
体验面貌
Qwen Chat:https://chat.qwenlm.ai
Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub:https://github.com/QwenLM/Qwen2.5-Omni
Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
👇点击‘阅读原文’一键体验全模态及时互动
海量资讯、精确解读,尽在新浪财经APP
包袱裁剪:李桐 开云体育(中国)官方网站
欧洲杯体育忐忑的国土和有限的资源-开云(中国)kaiyun体育网址-登录入口 2026-05-03