Qwen3.5-Omni는 Alibaba Qwen 팀의 완전 옴니모달 LLM — 텍스트·이미지·오디오·영상을 모두 이해하고 생성. Thinker-Talker 아키텍처 + Hybrid-Attention MoE 구조. Plus/Flash/Light 3가지 크기. 256K 컨텍스트, 10시간+ 오디오, 720P 400초+ 영상 처리. 215개 오디오-비주얼 벤치마크에서 SOTA, 전 영역에서 Gemini-3.1 Pro 초과. 74개 언어 ASR + 39개 중국어 방언 + 36개 언어 TTS + 보이스 클론·웹검색·감정 제어.
모델 ID: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
API: Offline (OpenAI 호환) + Realtime (WebSocket)
모델 라인업
버전
크기
용도
Plus
대형
최고 성능 (SOTA)
Flash
중형
균형
Light
소형
경량·엣지
모두 256K 롱컨텍스트 지원
핵심 스펙
항목
값
입력 모달리티
텍스트 + 이미지 + 오디오 + 영상
출력 모달리티
텍스트 + 음성
컨텍스트
256K 토큰
오디오 입력
10시간+
영상 입력
720P, 1FPS, 400초+
ASR 언어
74개 + 중국어 방언 39개
TTS 언어
36개
한국어 보이스
Sohee ⭐
학습 데이터
텍스트 + 시각 + 1억 시간+ 오디오-비주얼
아키텍처: Thinker-Talker + ARIA
Thinker-Talker 구조
입력 (텍스트·이미지·오디오·영상)
↓
[Thinker] — Hybrid-Attention MoE
- 멀티모달 이해·추론
- 텍스트 응답 생성
↓
[Talker] — Hybrid-Attention MoE + ARIA
- 텍스트 → 음성 스트리밍 합성
- 감정·속도·볼륨 제어
- 보이스 클론 적용
ARIA (Adaptive Rate Interleave Alignment) ⭐
문제:
텍스트 토큰과 음성 토큰의 인코딩 효율 차이
→ 누락·오독·발음 불명확
이전 방식 (Qwen3-Omni):
고정 1:1 텍스트-음성 토큰 비율
→ 유연성 부족
ARIA 해법:
텍스트-음성 단위를 동적으로 정렬(interleave)
→ 실시간 성능 유지 + 자연스러움 대폭 향상
Qwen3-Omni → Qwen3.5-Omni 변화
항목
Qwen3-Omni
Qwen3.5-Omni
백본
MoE
Hybrid-MoE
시퀀스
32K
256K
캡셔닝
오디오만
오디오-비주얼
시맨틱 인터럽션
❌
✅
WebSearch/Tool
❌
✅
보이스 컨트롤·클론
❌
✅
Talker 구조
Dual-Track
Interleave + ARIA
ASR 언어
11 + 방언 8
74 + 방언 39
TTS 언어
29 + 방언 7
36
벤치마크 성능 ⭐
오디오-비주얼 이해 (Plus vs Gemini-3.1 Pro)
벤치마크
Qwen3.5-Omni-Plus
Gemini-3.1 Pro
DailyOmni
84.6
82.7
AVUT
85.0
85.6
VideoMME (w/ audio)
83.7
89.0
OmniGAIA
57.2
68.9
오디오 (Plus vs Gemini-3.1 Pro)
벤치마크
Qwen3.5-Omni-Plus
Gemini-3.1 Pro
MMAU
82.2
81.1
VoiceBench
93.1
88.9
Fleurs S2TT (59언어)
35.4
34.6
TTS 안정성 WER↓ (낮을수록 좋음)
모델
WER
Qwen3.5-Omni-Plus
6.24 ⭐
GPT-Audio
8.19
Gemini-2.5 Pro
11.57
ElevenLabs
27.70
→ TTS 안정성에서 압도적 1위
종합
215개 오디오-비주얼 서브태스크/벤치마크에서 SOTA
영역별:
✅ 일반 오디오 이해·추론: Gemini-3.1 Pro 초과
✅ 오디오-비주얼 이해: Gemini-3.1 Pro 수준 도달
✅ 비주얼·텍스트: 동일 크기 Qwen3.5와 동등
✅ TTS 안정성: 전 모델 중 1위
실시간(Realtime) 기능
시맨틱 인터럽션 ⭐
기존 문제:
배경 잡음이나 맞장구에도 AI가 말을 끊김
해법:
오딘 기반 턴테이킹 의도 인식
→ backchanneling 구분
→ 불필요한 끊김 방지
→ API에 기본 탑재
WebSearch & FunctionCall
모델이 자율적으로 웹검색 호출 여부 결정
→ 실시간 질의 대응
→ enable_search 파라미터로 제어
보이스 컨트롤
엔드투엔드 제어:
✓ 발화 볼륨 조절
✓ 발화 속도 조절
✓ 감정 표현 제어
✓ 사람처럼 지시 따름
보이스 클론
사용자가 음성 업로드
↓
AI 어시스턴트의 목소리를 해당 음성으로 커스터마이징
↓
Realtime API를 통해 제공
보이스 목록
한국어 보이스
Sohee ⭐
다국어 (23개 언어 23종)
독일어 (Lenn), 일본어 (Ono Anna), 스페인어, 프랑스어, 러시아어 등
중국어 방언 (8종)
쓰촨어, 베이징, 톈진, 광둥어 등
커스텀 보이스 (5종)
Tina, Cindy, Liora Mira, Sunnybobi, Raymond
시나리오 보이스 (19종)
감정 동반·롤플레이 (Ethan, Harvey, Maia 등)
Audio-Visual Vibe Coding
새로운 옴니모달 기능:
오디오-비주얼 명령어 → 직접 코드 생성
예시:
사용자: [영상 + 음성으로] "이 UI 화면을 React로 구현해줘"
모델: 영상 이해 + 음성 이해 → React 코드 생성
→ [[Claude 스크린샷 루프 (3D 작업)]]의 역방향:
AI가 "보고 들으면서" 코드를 짜는 것
import dashscope# WebSocket 기반 실시간 대화# 음성 입출력 스트리밍 지원
VLM/음성 비교
모델
텍스트
이미지
오디오
영상
음성 생성
실시간
Qwen3.5-Omni ⭐
✅
✅
✅
✅
✅
✅
Gemini 3.1 Pro
✅
✅
✅
✅
❌
△
GPT-5.4
✅
✅
✅
△
✅
✅
Claude Opus 4.6
✅
✅
❌
❌
❌
❌
크래프톤 Raon
✅
(VE)
✅
❌
✅
✅
→ Qwen3.5-Omni = 가장 완전한 옴니모달 (모든 모달리티 입출력)
의의
1. "진짜 옴니모달"의 도달
- 이해 + 생성 모두 = 텍스트·이미지·오디오·영상
- 다른 모델: 일부만 지원
2. 중국 AI의 글로벌 경쟁력
- Gemini-3.1 Pro 초과 (오디오 전 영역)
- TTS 안정성 전 모델 1위
3. 다국어 커버리지
- 74개 언어 ASR + 39개 중국어 방언
- 한국어 보이스 Sohee 포함
4. ARIA = TTS 혁신
- 고정 비율 → 동적 정렬
- 스트리밍 안정성 WER 6.24 (ElevenLabs 27.70 대비 4.4×)
5. 실시간 인터랙션 완성
- 시맨틱 인터럽션 + 웹검색 + 감정 제어 + 보이스 클론