Qwen3.5-Omni

개요

Qwen3.5-Omni는 Alibaba Qwen 팀의 완전 옴니모달 LLM — 텍스트·이미지·오디오·영상을 모두 이해하고 생성. Thinker-Talker 아키텍처 + Hybrid-Attention MoE 구조. Plus/Flash/Light 3가지 크기. 256K 컨텍스트, 10시간+ 오디오, 720P 400초+ 영상 처리. 215개 오디오-비주얼 벤치마크에서 SOTA, 전 영역에서 Gemini-3.1 Pro 초과. 74개 언어 ASR + 39개 중국어 방언 + 36개 언어 TTS + 보이스 클론·웹검색·감정 제어.

공식: https://qwen.ai
모델 ID: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
API: Offline (OpenAI 호환) + Realtime (WebSocket)

모델 라인업

버전	크기	용도
Plus	대형	최고 성능 (SOTA)
Flash	중형	균형
Light	소형	경량·엣지

모두 256K 롱컨텍스트 지원

핵심 스펙

항목	값
입력 모달리티	텍스트 + 이미지 + 오디오 + 영상
출력 모달리티	텍스트 + 음성
컨텍스트	256K 토큰
오디오 입력	10시간+
영상 입력	720P, 1FPS, 400초+
ASR 언어	74개 + 중국어 방언 39개
TTS 언어	36개
한국어 보이스	Sohee ⭐
학습 데이터	텍스트 + 시각 + 1억 시간+ 오디오-비주얼

아키텍처: Thinker-Talker + ARIA

Thinker-Talker 구조

입력 (텍스트·이미지·오디오·영상)
  ↓
[Thinker] — Hybrid-Attention MoE
  - 멀티모달 이해·추론
  - 텍스트 응답 생성
  ↓
[Talker] — Hybrid-Attention MoE + ARIA
  - 텍스트 → 음성 스트리밍 합성
  - 감정·속도·볼륨 제어
  - 보이스 클론 적용

ARIA (Adaptive Rate Interleave Alignment) ⭐

문제:
  텍스트 토큰과 음성 토큰의 인코딩 효율 차이
  → 누락·오독·발음 불명확

이전 방식 (Qwen3-Omni):
  고정 1:1 텍스트-음성 토큰 비율
  → 유연성 부족

ARIA 해법:
  텍스트-음성 단위를 동적으로 정렬(interleave)
  → 실시간 성능 유지 + 자연스러움 대폭 향상

Qwen3-Omni → Qwen3.5-Omni 변화

항목	Qwen3-Omni	Qwen3.5-Omni
백본	MoE	Hybrid-MoE
시퀀스	32K	256K
캡셔닝	오디오만	오디오-비주얼
시맨틱 인터럽션	❌	✅
WebSearch/Tool	❌	✅
보이스 컨트롤·클론	❌	✅
Talker 구조	Dual-Track	Interleave + ARIA
ASR 언어	11 + 방언 8	74 + 방언 39
TTS 언어	29 + 방언 7	36

벤치마크 성능 ⭐

오디오-비주얼 이해 (Plus vs Gemini-3.1 Pro)

벤치마크	Qwen3.5-Omni-Plus	Gemini-3.1 Pro
DailyOmni	84.6	82.7
AVUT	85.0	85.6
VideoMME (w/ audio)	83.7	89.0
OmniGAIA	57.2	68.9

오디오 (Plus vs Gemini-3.1 Pro)

벤치마크	Qwen3.5-Omni-Plus	Gemini-3.1 Pro
MMAU	82.2	81.1
VoiceBench	93.1	88.9
Fleurs S2TT (59언어)	35.4	34.6

TTS 안정성 WER↓ (낮을수록 좋음)

모델	WER
Qwen3.5-Omni-Plus	6.24 ⭐
GPT-Audio	8.19
Gemini-2.5 Pro	11.57
ElevenLabs	27.70

→ TTS 안정성에서 압도적 1위

종합

215개 오디오-비주얼 서브태스크/벤치마크에서 SOTA

영역별:
  ✅ 일반 오디오 이해·추론: Gemini-3.1 Pro 초과
  ✅ 오디오-비주얼 이해: Gemini-3.1 Pro 수준 도달
  ✅ 비주얼·텍스트: 동일 크기 Qwen3.5와 동등
  ✅ TTS 안정성: 전 모델 중 1위

실시간(Realtime) 기능

시맨틱 인터럽션 ⭐

기존 문제:
  배경 잡음이나 맞장구에도 AI가 말을 끊김

해법:
  오딘 기반 턴테이킹 의도 인식
  → backchanneling 구분
  → 불필요한 끊김 방지
  → API에 기본 탑재

WebSearch & FunctionCall

모델이 자율적으로 웹검색 호출 여부 결정
→ 실시간 질의 대응
→ enable_search 파라미터로 제어

보이스 컨트롤

엔드투엔드 제어:
  ✓ 발화 볼륨 조절
  ✓ 발화 속도 조절
  ✓ 감정 표현 제어
  ✓ 사람처럼 지시 따름

보이스 클론

사용자가 음성 업로드
  ↓
AI 어시스턴트의 목소리를 해당 음성으로 커스터마이징
  ↓
Realtime API를 통해 제공

보이스 목록

한국어 보이스

Sohee ⭐

다국어 (23개 언어 23종)

독일어 (Lenn), 일본어 (Ono Anna), 스페인어, 프랑스어, 러시아어 등

중국어 방언 (8종)

쓰촨어, 베이징, 톈진, 광둥어 등

커스텀 보이스 (5종)

Tina, Cindy, Liora Mira, Sunnybobi, Raymond

시나리오 보이스 (19종)

감정 동반·롤플레이 (Ethan, Harvey, Maia 등)

Audio-Visual Vibe Coding

새로운 옴니모달 기능:

  오디오-비주얼 명령어 → 직접 코드 생성

예시:
  사용자: [영상 + 음성으로] "이 UI 화면을 React로 구현해줘"
  모델: 영상 이해 + 음성 이해 → React 코드 생성

→ [[Claude 스크린샷 루프 (3D 작업)]]의 역방향:
   AI가 "보고 들으면서" 코드를 짜는 것

API 사용법

Offline API (OpenAI 호환)

from openai import OpenAI
 
client = OpenAI(
    api_key="your-key",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)
 
response = client.chat.completions.create(
    model="qwen3.5-omni-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "video_url", "video_url": {"url": "video.mp4"}},
                {"type": "text", "text": "이 영상을 요약해줘"}
            ]
        }
    ]
)

Realtime API (WebSocket)

import dashscope
 
# WebSocket 기반 실시간 대화
# 음성 입출력 스트리밍 지원

VLM/음성 비교

모델	텍스트	이미지	오디오	영상	음성 생성	실시간
Qwen3.5-Omni ⭐	✅	✅	✅	✅	✅	✅
Gemini 3.1 Pro	✅	✅	✅	✅	❌	△
GPT-5.4	✅	✅	✅	△	✅	✅
Claude Opus 4.6	✅	✅	❌	❌	❌	❌
크래프톤 Raon	✅	(VE)	✅	❌	✅	✅

→ Qwen3.5-Omni = 가장 완전한 옴니모달 (모든 모달리티 입출력)

의의

1. "진짜 옴니모달"의 도달
   - 이해 + 생성 모두 = 텍스트·이미지·오디오·영상
   - 다른 모델: 일부만 지원

2. 중국 AI의 글로벌 경쟁력
   - Gemini-3.1 Pro 초과 (오디오 전 영역)
   - TTS 안정성 전 모델 1위

3. 다국어 커버리지
   - 74개 언어 ASR + 39개 중국어 방언
   - 한국어 보이스 Sohee 포함

4. ARIA = TTS 혁신
   - 고정 비율 → 동적 정렬
   - 스트리밍 안정성 WER 6.24 (ElevenLabs 27.70 대비 4.4×)

5. 실시간 인터랙션 완성
   - 시맨틱 인터럽션 + 웹검색 + 감정 제어 + 보이스 클론

다른 노트와의 연결

노트	연결
VLM Model Comparison	멀티모달 비교
크래프톤 Raon (라온)	음성 LLM 비교
음성 AI (Speech AI)	TTS·ASR 기술
LLM Model Comparison	LLM 비교
Claude 스크린샷 루프 (3D 작업)	비주얼 AI 워크플로우
Ollama MLX (Apple Silicon 가속)	Qwen 모델 로컬 실행
Omnilingual MT	다국어 AI

Bigstones

Explorer