개요

Qwen3.5-Omni는 Alibaba Qwen 팀의 완전 옴니모달 LLM — 텍스트·이미지·오디오·영상을 모두 이해하고 생성. Thinker-Talker 아키텍처 + Hybrid-Attention MoE 구조. Plus/Flash/Light 3가지 크기. 256K 컨텍스트, 10시간+ 오디오, 720P 400초+ 영상 처리. 215개 오디오-비주얼 벤치마크에서 SOTA, 전 영역에서 Gemini-3.1 Pro 초과. 74개 언어 ASR + 39개 중국어 방언 + 36개 언어 TTS + 보이스 클론·웹검색·감정 제어.

  • 공식: https://qwen.ai
  • 모델 ID: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
  • API: Offline (OpenAI 호환) + Realtime (WebSocket)

모델 라인업

버전크기용도
Plus대형최고 성능 (SOTA)
Flash중형균형
Light소형경량·엣지

모두 256K 롱컨텍스트 지원


핵심 스펙

항목
입력 모달리티텍스트 + 이미지 + 오디오 + 영상
출력 모달리티텍스트 + 음성
컨텍스트256K 토큰
오디오 입력10시간+
영상 입력720P, 1FPS, 400초+
ASR 언어74개 + 중국어 방언 39개
TTS 언어36개
한국어 보이스Sohee ⭐
학습 데이터텍스트 + 시각 + 1억 시간+ 오디오-비주얼

아키텍처: Thinker-Talker + ARIA

Thinker-Talker 구조

입력 (텍스트·이미지·오디오·영상)
  ↓
[Thinker] — Hybrid-Attention MoE
  - 멀티모달 이해·추론
  - 텍스트 응답 생성
  ↓
[Talker] — Hybrid-Attention MoE + ARIA
  - 텍스트 → 음성 스트리밍 합성
  - 감정·속도·볼륨 제어
  - 보이스 클론 적용

ARIA (Adaptive Rate Interleave Alignment) ⭐

문제:
  텍스트 토큰과 음성 토큰의 인코딩 효율 차이
  → 누락·오독·발음 불명확

이전 방식 (Qwen3-Omni):
  고정 1:1 텍스트-음성 토큰 비율
  → 유연성 부족

ARIA 해법:
  텍스트-음성 단위를 동적으로 정렬(interleave)
  → 실시간 성능 유지 + 자연스러움 대폭 향상

Qwen3-Omni → Qwen3.5-Omni 변화

항목Qwen3-OmniQwen3.5-Omni
백본MoEHybrid-MoE
시퀀스32K256K
캡셔닝오디오만오디오-비주얼
시맨틱 인터럽션
WebSearch/Tool
보이스 컨트롤·클론
Talker 구조Dual-TrackInterleave + ARIA
ASR 언어11 + 방언 874 + 방언 39
TTS 언어29 + 방언 736

벤치마크 성능 ⭐

오디오-비주얼 이해 (Plus vs Gemini-3.1 Pro)

벤치마크Qwen3.5-Omni-PlusGemini-3.1 Pro
DailyOmni84.682.7
AVUT85.085.6
VideoMME (w/ audio)83.789.0
OmniGAIA57.268.9

오디오 (Plus vs Gemini-3.1 Pro)

벤치마크Qwen3.5-Omni-PlusGemini-3.1 Pro
MMAU82.281.1
VoiceBench93.188.9
Fleurs S2TT (59언어)35.434.6

TTS 안정성 WER↓ (낮을수록 좋음)

모델WER
Qwen3.5-Omni-Plus6.24
GPT-Audio8.19
Gemini-2.5 Pro11.57
ElevenLabs27.70

TTS 안정성에서 압도적 1위

종합

215개 오디오-비주얼 서브태스크/벤치마크에서 SOTA

영역별:
  ✅ 일반 오디오 이해·추론: Gemini-3.1 Pro 초과
  ✅ 오디오-비주얼 이해: Gemini-3.1 Pro 수준 도달
  ✅ 비주얼·텍스트: 동일 크기 Qwen3.5와 동등
  ✅ TTS 안정성: 전 모델 중 1위

실시간(Realtime) 기능

시맨틱 인터럽션 ⭐

기존 문제:
  배경 잡음이나 맞장구에도 AI가 말을 끊김

해법:
  오딘 기반 턴테이킹 의도 인식
  → backchanneling 구분
  → 불필요한 끊김 방지
  → API에 기본 탑재

WebSearch & FunctionCall

모델이 자율적으로 웹검색 호출 여부 결정
→ 실시간 질의 대응
→ enable_search 파라미터로 제어

보이스 컨트롤

엔드투엔드 제어:
  ✓ 발화 볼륨 조절
  ✓ 발화 속도 조절
  ✓ 감정 표현 제어
  ✓ 사람처럼 지시 따름

보이스 클론

사용자가 음성 업로드
  ↓
AI 어시스턴트의 목소리를 해당 음성으로 커스터마이징
  ↓
Realtime API를 통해 제공

보이스 목록

한국어 보이스

  • Sohee

다국어 (23개 언어 23종)

  • 독일어 (Lenn), 일본어 (Ono Anna), 스페인어, 프랑스어, 러시아어 등

중국어 방언 (8종)

  • 쓰촨어, 베이징, 톈진, 광둥어 등

커스텀 보이스 (5종)

  • Tina, Cindy, Liora Mira, Sunnybobi, Raymond

시나리오 보이스 (19종)

  • 감정 동반·롤플레이 (Ethan, Harvey, Maia 등)

Audio-Visual Vibe Coding

새로운 옴니모달 기능:

  오디오-비주얼 명령어 → 직접 코드 생성

예시:
  사용자: [영상 + 음성으로] "이 UI 화면을 React로 구현해줘"
  모델: 영상 이해 + 음성 이해 → React 코드 생성

→ [[Claude 스크린샷 루프 (3D 작업)]]의 역방향:
   AI가 "보고 들으면서" 코드를 짜는 것

API 사용법

Offline API (OpenAI 호환)

from openai import OpenAI
 
client = OpenAI(
    api_key="your-key",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
)
 
response = client.chat.completions.create(
    model="qwen3.5-omni-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "video_url", "video_url": {"url": "video.mp4"}},
                {"type": "text", "text": "이 영상을 요약해줘"}
            ]
        }
    ]
)

Realtime API (WebSocket)

import dashscope
 
# WebSocket 기반 실시간 대화
# 음성 입출력 스트리밍 지원

VLM/음성 비교

모델텍스트이미지오디오영상음성 생성실시간
Qwen3.5-Omni
Gemini 3.1 Pro
GPT-5.4
Claude Opus 4.6
크래프톤 Raon(VE)

Qwen3.5-Omni = 가장 완전한 옴니모달 (모든 모달리티 입출력)


의의

1. "진짜 옴니모달"의 도달
   - 이해 + 생성 모두 = 텍스트·이미지·오디오·영상
   - 다른 모델: 일부만 지원

2. 중국 AI의 글로벌 경쟁력
   - Gemini-3.1 Pro 초과 (오디오 전 영역)
   - TTS 안정성 전 모델 1위

3. 다국어 커버리지
   - 74개 언어 ASR + 39개 중국어 방언
   - 한국어 보이스 Sohee 포함

4. ARIA = TTS 혁신
   - 고정 비율 → 동적 정렬
   - 스트리밍 안정성 WER 6.24 (ElevenLabs 27.70 대비 4.4×)

5. 실시간 인터랙션 완성
   - 시맨틱 인터럽션 + 웹검색 + 감정 제어 + 보이스 클론

다른 노트와의 연결

노트연결
VLM Model Comparison멀티모달 비교
크래프톤 Raon (라온)음성 LLM 비교
음성 AI (Speech AI)TTS·ASR 기술
LLM Model ComparisonLLM 비교
Claude 스크린샷 루프 (3D 작업)비주얼 AI 워크플로우
Ollama MLX (Apple Silicon 가속)Qwen 모델 로컬 실행
Omnilingual MT다국어 AI

관련 항목