Полный гид по AI-моделям 2025 — Текст, Изображения, Видео, Аудио

📝

Текстовые модели (LLM)

Чат-боты, генерация текста, анализ, перевод

🟢

Топ 2024

GPT-4o

OpenAI

Флагманская модель OpenAI. Отлично понимает контекст, пишет код, анализирует изображения. Быстрее GPT-4 Turbo.

Контекст

128K токенов

Скорость

Быстрая

Качество

⭐⭐⭐⭐⭐

Vision

Да

Плюсы

Лучшее качество
Мультимодальность
Быстрые ответы

Минусы

Дорого
Закрытая модель
Недоступен в РФ

Input / Output

$5 / $15 за 1M токенов

🟢

Дёшево Быстро

GPT-4o mini

OpenAI

Облегчённая версия GPT-4o. Отличный баланс цены и качества для большинства задач.

Контекст

128K токенов

Скорость

Очень быстрая

Качество

⭐⭐⭐⭐

Vision

Да

Плюсы

Очень дёшево
Быстрый
128K контекст

Минусы

Хуже GPT-4o
Недоступен в РФ

Input / Output

$0.15 / $0.60 за 1M токенов

🟣

Топ 2024

Claude 3.5 Sonnet

Anthropic

Лучшая модель для кода и длинных текстов. Огромный контекст 200K. Превосходит GPT-4 в бенчмарках кода.

Контекст

200K токенов

Скорость

Быстрая

Качество

⭐⭐⭐⭐⭐

Vision

Да

Плюсы

Лучший для кода
200K контекст
Отличный русский

Минусы

Недоступен в РФ
Строгие фильтры

Input / Output

$3 / $15 за 1M токенов

🟣

Дёшево Быстро

Claude 3 Haiku

Anthropic

Самая быстрая и дешёвая модель Claude. Идеальна для чат-ботов и простых задач.

Контекст

200K токенов

Скорость

Мгновенная

Качество

⭐⭐⭐⭐

Vision

Да

Плюсы

Очень дёшево
Мгновенный ответ
200K контекст

Минусы

Проще рассуждения
Недоступен в РФ

Input / Output

$0.25 / $1.25 за 1M токенов

🟣

Дорого

Claude 3 Opus

Anthropic

Самая умная модель Claude. Лучшая для сложных аналитических задач и исследований.

Контекст

200K токенов

Скорость

Медленная

Качество

⭐⭐⭐⭐⭐

Vision

Да

Плюсы

Самая умная
Глубокий анализ
Сложные задачи

Минусы

Очень дорого
Медленная

Input / Output

$15 / $75 за 1M токенов

🔵

Топ 2024

Gemini 1.5 Pro

Google

Модель Google с рекордным контекстом 2M токенов. Анализирует часовые видео целиком.

Контекст

2M токенов!

Скорость

Быстрая

Качество

⭐⭐⭐⭐⭐

Vision

Да + Видео

Плюсы

2M контекст
Видео анализ
Бесплатный tier

Минусы

Хуже в коде
Цензура контента

Input / Output

$1.25 / $5 за 1M токенов

🔵

Дёшево Быстро

Gemini 1.5 Flash

Google

Быстрая и дешёвая модель Google. Большой контекст 1M токенов.

Контекст

1M токенов

Скорость

Очень быстрая

Качество

⭐⭐⭐⭐

Vision

Да

Плюсы

Почти бесплатно
1M контекст
Очень быстрая

Минусы

Проще Pro
Цензура

Input / Output

$0.075 / $0.30 за 1M токенов

🦙

Open Source 2024

Llama 3.1 405B

Meta

Крупнейшая открытая модель. Конкурирует с GPT-4. Можно запустить локально или через API.

Контекст

128K токенов

Параметры

405B

Качество

⭐⭐⭐⭐⭐

Лицензия

Open

Плюсы

Бесплатная
Open source
Близко к GPT-4

Минусы

Нужно много GPU
Нет vision

Цена (через Groq/Together)

$0.90 / $0.90 за 1M токенов

🦙

Open Source Дёшево

Llama 3.1 70B

Meta

Оптимальная открытая модель. Баланс качества и скорости. Можно запустить на 1 GPU.

Контекст

128K токенов

Параметры

70B

Качество

⭐⭐⭐⭐

Лицензия

Open

Плюсы

Почти бесплатно
Быстрая
Можно локально

Минусы

Хуже 405B
Нет vision

Цена (Groq)

$0.59 / $0.79 за 1M токенов

Ⓜ️

2024

Mistral Large 2

Mistral AI

Европейская альтернатива GPT-4. Хорошо работает с европейскими языками и кодом.

Контекст

128K токенов

Параметры

123B

Качество

⭐⭐⭐⭐

Vision

Нет

Плюсы

Хороший код
Европа (GDPR)
Доступен в РФ*

Минусы

Нет vision
Меньше известен

Input / Output

$2 / $6 за 1M токенов

Ⓜ️

Open Source Дёшево

Mixtral 8x22B

Mistral AI

Открытая MoE модель. Быстрая благодаря архитектуре Mixture of Experts.

Контекст

64K токенов

Архитектура

MoE 8x22B

Качество

⭐⭐⭐⭐

Лицензия

Apache 2.0

Плюсы

Бесплатная
Быстрая (MoE)
Хороший код

Минусы

64K контекст
Нет vision

Цена (Together)

$0.60 / $0.60 за 1M токенов

🔴

🇷🇺 Россия

YandexGPT 4

Яндекс

Российская модель. Доступна без VPN, оплата рублями. Хорошо знает русский контекст.

Контекст

32K токенов

Скорость

Быстрая

Качество

⭐⭐⭐

Доступ РФ

Да

Плюсы

Работает в РФ
Оплата рублями
Хороший русский

Минусы

Хуже GPT-4
32K контекст
Цензура

Цена

~1.6₽ / 1K токенов

🟡

🇷🇺 Россия

GigaChat Pro

Сбер

Модель от Сбера. Интеграция с российскими сервисами. Генерирует изображения.

Контекст

32K токенов

Скорость

Быстрая

Качество

⭐⭐⭐

Картинки

Kandinsky

Плюсы

Работает в РФ
Генерит картинки
Бесплатный tier

Минусы

Хуже GPT-4
Сильная цензура

Цена

Бесплатно / от 1₽ за запрос

🎨

Генерация изображений

Создание картинок, арта, фото по описанию

🚀

Лучшее качество

Midjourney v6.1

Midjourney

Лучшее качество изображений. Фотореализм и художественные стили. Работает через Discord.

Качество

⭐⭐⭐⭐⭐

Разрешение

до 2048×2048

Скорость

~30 сек

Интерфейс

Discord

Плюсы

Лучшее качество
Художественность
Стабильные руки

Минусы

Только Discord
Нет API
Подписка обязательна

$10-120/мес

🟢

API Текст в картинке

DALL-E 3

OpenAI

Лучшая для текста на изображениях. Понимает сложные промпты. Есть API.

Качество

⭐⭐⭐⭐

Разрешение

1024×1024+

Скорость

~15 сек

API

Да

Плюсы

Лучший текст
Есть API
Понимает промпт

Минусы

Дорого
Строгая цензура
Недоступен в РФ

За картинку

$0.04-0.12

🟠

Open Source 2024

Stable Diffusion 3

Stability AI

Открытая модель нового поколения. Можно запускать локально. Улучшенный текст.

Качество

⭐⭐⭐⭐

Разрешение

1024×1024+

Локально

Да (8GB VRAM)

Лицензия

Open

Плюсы

Бесплатно локально
Нет цензуры
Кастомизация

Минусы

Нужен GPU
Сложн
Нужен GPU
Сложная настройка
Хуже Midjourney

Цена

Бесплатно локально / $0.03 API

🟠

Open Source Бесплатно

SDXL 1.0

Stability AI

Проверенная открытая модель. Огромное сообщество, тысячи LoRA и моделей.

Качество

⭐⭐⭐⭐

Разрешение

1024×1024

VRAM

6-8 GB

Сообщество

Огромное

Плюсы

100% бесплатно
Тысячи LoRA
Civitai модели

Минусы

Хуже SD3
Проблемы с руками

Цена

Бесплатно

⚡

Новый лидер 2024

FLUX.1 Pro

Black Forest Labs

Новая топовая модель от создателей Stable Diffusion. Превосходит Midjourney в некоторых задачах.

Качество

⭐⭐⭐⭐⭐

Разрешение

до 2048×2048

Текст

Отличный

API

Да

Плюсы

Топ качество
Хороший текст
API доступен

Минусы

Дорогой Pro
Новый (меньше LoRA)

За картинку

$0.05 (Pro) / Бесплатно (Schnell)

⚡

Open Source Быстро

FLUX.1 Schnell

Black Forest Labs

Быстрая открытая версия FLUX. Генерация за 1-4 шага. Отлично для прототипов.

Качество

⭐⭐⭐⭐

Скорость

1-4 шага

VRAM

12+ GB

Лицензия

Apache 2.0

Плюсы

Очень быстро
Бесплатно
Хорошее качество

Минусы

Нужен GPU 12GB+
Хуже Pro версии

Цена

Бесплатно

💡

Лучший текст

Ideogram 2.0

Ideogram

Специализируется на тексте в изображениях. Идеален для постеров, логотипов, мемов.

Качество

⭐⭐⭐⭐

Текст

Лучший

Free tier

25/день

API

Да

Плюсы

Лучший текст
Бесплатный tier
Логотипы

Минусы

Менее художественно
Лимиты

Бесплатно / $8-48/мес

🎨

Игры/Дизайн Free tier

Leonardo.ai

Leonardo

Платформа для игрового арта и дизайна. Много встроенных моделей и стилей.

Качество

⭐⭐⭐⭐

Стили

Много

Free tier

150 токенов/день

API

Да

Плюсы

Хороший free tier
Игровой арт
Много инструментов

Минусы

Сложный интерфейс
Система токенов

Бесплатно / $12-60/мес

🎨

🇷🇺 Россия Бесплатно

Kandinsky 3.1

Сбер

Российская модель от Сбера. Бесплатная, работает без VPN, понимает русский.

Качество

⭐⭐⭐

Русский

Отлично

Доступ РФ

Да

API

Бесплатный

Плюсы

Бесплатно
Работает в РФ
Русские промпты

Минусы

Хуже Midjourney
Цензура

Цена

Бесплатно

🔥

Коммерческое

Adobe Firefly 3

Adobe

Безопасно для коммерческого использования. Интеграция с Photoshop. Обучена на лицензированном контенте.

Качество

⭐⭐⭐⭐

Лицензия

Коммерческая

Интеграция

Adobe CC

Free tier

25 кредитов

Плюсы

Безопасно юридически
Photoshop интеграция
Generative Fill

Минусы

Консервативнее MJ
Нужна подписка Adobe

Цена

Включено в Adobe CC / $5/мес

🎬

Генерация видео

Создание видео из текста и изображений

🟢

Революция 2024

Sora

OpenAI

Революционная модель генерации видео. До 1 минуты в высоком качестве. Понимает физику мира.

Качество

⭐⭐⭐⭐⭐

Длина

до 60 сек

Разрешение

1080p

Доступ

Ограничен

Плюсы

Лучшее качество
Понимает физику
Длинные видео

Минусы

Ограниченный доступ
Очень дорого
Недоступен в РФ

Цена

$20-200/мес (ChatGPT Plus+)

🛫

Доступно

Runway Gen-3 Alpha

Runway

Профессиональный инструмент для видео. Много режимов: text-to-video, image-to-video, video-to-video.

Качество

⭐⭐⭐⭐

Длина

до 10 сек

Режимы

Много

API

Да

Плюсы

Много инструментов
Image-to-video
Есть API

Минусы

Дорого
10 сек макс

$15-95/мес

⚡

Free tier

Pika 1.5

Pika Labs

Быстрая генерация коротких видео. Хороший бесплатный tier. Работает через веб и Discord.

Качество

⭐⭐⭐⭐

Длина

3-4 сек

Free tier

250 кредитов

Скорость

Быстро

Плюсы

Хороший free tier
Быстро
Lip sync

Минусы

Короткие видео
Менее детально

Бесплатно / $10-60/мес

🇨🇳

2024 Длинное видео

Kling AI

Kuaishou

Китайская модель с впечатляющими результатами. До 2 минут видео. Конкурент Sora.

Качество

⭐⭐⭐⭐⭐

Длина

до 2 мин

Разрешение

1080p

Доступ

Китай/VPN

Плюсы

Длинные видео
Качество как Sora
Дешевле конкурентов

Минусы

Сложный доступ
Китайский интерфейс

Цена

~$10-30/мес

💭

Free tier

Luma Dream Machine

Luma AI

Быстрая генерация видео с хорошим качеством движения. Отличный бесплатный план.

Качество

⭐⭐⭐⭐

Длина

5 сек

Free tier

30 видео/мес

Скорость

~2 мин

Плюсы

Хороший free tier
Реалистичное движение
Быстрая генерация

Минусы

Только 5 сек
Watermark на free

Бесплатно / $30-100/мес

🟠

Open Source

Stable Video Diffusion

Stability AI

Открытая модель для генерации видео из изображений. Можно запустить локально.

Качество

⭐⭐⭐

Длина

2-4 сек

Локально

Да (24GB VRAM)

Лицензия

Open

Плюсы

Бесплатно
Open source
Кастомизация

Минусы

Нужен мощный GPU
Короткие видео
Только img2vid

Цена

Бесплатно

👤

Аватары

HeyGen

Генерация говорящих аватаров. Идеально для маркетинга, обучения, презентаций.

Тип

Аватары

Качество

⭐⭐⭐⭐

Языки

40+

Lip sync

Отличный

Плюсы

Реалистичные аватары
Много языков
Свой аватар

Минусы

Только аватары
Дорого

$29-89/мес

🎵

Аудио и музыка

Генерация музыки, голоса, транскрибация

🗣️

Лучший голос

ElevenLabs

Лучший TTS (текст в речь). Клонирование голоса, множество языков, эмоции.

Качество

⭐⭐⭐⭐⭐

Языки

29

Клонирование

Да

Free tier

10K символов/мес

Плюсы

Самый реалистичный
Клонирование голоса
Хороший API

Минусы

Дорого при объёме
Ограничения РФ

Бесплатно / $5-330/мес

🟢

API

OpenAI TTS

OpenAI

Простой и качественный TTS от OpenAI. 6 голосов, быстрый, доступный через API.

Качество

⭐⭐⭐⭐

Голоса

6

Скорость

Мгновенно

API

Да

Плюсы

Простой API
Быстрый
Хорошее качество

Минусы

Мало голосов
Нет клонирования

Цена

$15 / 1M символов

🟢

Open Source Лучшая STT

Whisper

OpenAI

Лучшая модель распознавания речи. Открытый исходный код. 99 языков.

Качество

⭐⭐⭐⭐⭐

Языки

99

Локально

Да

Лицензия

MIT

Плюсы

Бесплатно локально
Лучшая точность
99 языков

Минусы

Нужен GPU для скорости

Цена

Бесплатно / $0.006/мин (API)

🎵

Лучшая музыка 2024

Suno v3.5

Suno AI

Генерация полноценных песен с вокалом. Любой жанр, собственные тексты.

Качество

⭐⭐⭐⭐⭐

Длина

до 4 мин

Вокал

Да

Free tier

10 песен/день

Плюсы

Полные песни с вокалом
Все жанры
Хороший free tier

Минусы

Нет stems (отд. дорожки)
Права на музыку

Бесплатно / $10-30/мес

🎶

2024

Udio

Конкурент Suno. Более детальный контроль над генерацией. Хорош для электронной музыки.

Качество

⭐⭐⭐⭐⭐

Длина

до 15 мин

Контроль

Высокий

Free tier

10 песен/день

Плюсы

Длинные треки
Больше контроля
Extend feature

Минусы

Сложнее Suno
Права на музыку

Бесплатно / $10-30/мес

🎼

Open Source

MusicGen

Meta

Открытая модель генерации музыки от Meta. Без вокала, но полностью бесплатна.

Качество

⭐⭐⭐⭐

Длина

до 30 сек

Вокал

Нет

Лицензия

Open

Плюсы

Полностью бесплатно
Локальный запуск
Коммерческое использование

Минусы

Нет вокала
Короткие треки

Цена

Бесплатно

🐢

Open Source

Tortoise TTS

Open Source

Высококачественный открытый TTS. Клонирование голоса. Медленный, но качественный.

Качество

⭐⭐⭐⭐

Клонирование

Да

Скорость

Медленно

Лицензия

Apache 2.0

Плюсы

Бесплатно
Клонирование
Высокое качество

Минусы

Очень медленно
Нужен мощный GPU

Цена

Бесплатно

💻

Генерация кода

Специализированные модели для программирования

🐙

Самый популярный

GitHub Copilot

GitHub / Microsoft

Интеграция в IDE. Автодополнение, генерация функций, объяснение кода. Работает на GPT-4.

Качество

⭐⭐⭐⭐⭐

IDE

VS Code, JetBrains

Языки

Все популярные

Chat

Да

Плюсы

Лучшая интеграция
Понимает контекст
Chat в IDE

Минусы

Подписка $10-19/мес
Проблемы с доступом РФ

$10-19/мес

➤

AI-first IDE 2024

Cursor

IDE построенная вокруг AI. GPT-4 и Claude. Редактирование кода через чат.

Качество

⭐⭐⭐⭐⭐

Модели

GPT-4, Claude

Контекст

Весь проект

Free tier

2000 запросов

Плюсы

Понимает весь проект
Composer (мультифайл)
Хороший free tier

Минусы

Отдельная IDE
Привыкание

Бесплатно / $20/мес

🟣

Лучший для кода

Claude 3.5 Sonnet

Anthropic

Лучшая модель для программирования по бенчмаркам. 200K контекст для больших проектов.

Качество кода

⭐⭐⭐⭐⭐

Контекст

200K токенов

Artifacts

Да

API

Да

Плюсы

#1 в кодинге
Огромный контекст
Artifacts для превью

Минусы

Недоступен в РФ
Нет IDE плагина

Цена

$20/мес (Pro) / $3-15/1M API

Ⓜ️

Open Source 2024

Codestral

Mistral AI

Специализированная модель для кода от Mistral. 32K контекст, 80+ языков программирования.

Качество

⭐⭐⭐⭐

Контекст

32K токенов

Языки

80+

Лицензия

Open (non-commercial)

Плюсы

Бесплатно для личного
Очень быстрая
Много языков

Минусы

Не для коммерции
Меньше контекст

Цена

Бесплатно / $1/1M API

🔍

Open Source Очень дёшево

DeepSeek Coder V2

DeepSeek

Открытая модель для кода. Конкурирует с GPT-4 в кодинге при минимальной цене.

Качество

⭐⭐⭐⭐

Контекст

128K токенов

Параметры

236B (MoE)

Лицензия

MIT

Плюсы

Почти бесплатно
MIT лицензия
Близко к GPT-4

Минусы

Китайская компания
Меньше известен

Цена

$0.14 / $0.28 за 1M токенов

🦙

Open Source Бесплатно

Code Llama 70B

Meta

Версия Llama специально для кода. Полностью бесплатная, можно запустить локально.

Качество

⭐⭐⭐⭐

Контекст

100K токенов

Локально

Да

Лицензия

Llama License

Плюсы

100% бесплатно
Локальный запуск
Приватность

Минусы

Хуже Claude/GPT-4
Нужен GPU

Цена

Бесплатно

⚡

Бесплатно

Codeium

Бесплатная альтернатива Copilot. Работает в 70+ IDE. Без ограничений для индивидуалов.

Качество

⭐⭐⭐⭐

IDE

70+

Free tier

Безлимит

Chat

Да

Плюсы

Полностью бесплатно
Много IDE
Без ограничений

Минусы

Хуже Copilot
Меньше контекста

Цена

Бесплатно навсегда

🔮

Мультимодальные модели

Работа с текстом, изображениями, аудио и видео одновременно

🟢

Самая универсальная

GPT-4o (Omni)

OpenAI

Полностью мультимодальная: текст, изображения, аудио на входе и выходе. Голосовой режим.

Текст

✓ In/Out

Изображения

✓ In/Out (DALL-E)

Аудио

✓ In/Out

Видео

Анализ (Sora отдельно)

Плюсы

Все модальности
Голосовой режим
Низкая задержка

Минусы

Дорого
Недоступен в РФ

Цена

$20/мес (ChatGPT Plus)

🔵

Лучший для видео

Gemini 1.5 Pro

Google

Рекордный контекст 2M токенов. Анализирует часовые видео, большие кодовые базы.

Текст

✓ 2M контекст

Изображения

✓ In

Аудио

✓ In

Видео

✓ Анализ (до 1 часа)

Плюсы

2M контекст
Анализ видео
Бесплатный tier

Минусы

Не генерирует видео
Цензура

Цена

Бесплатно / $20/мес

🟣

Vision + Artifacts

Claude 3.5 Sonnet

Anthropic

Vision + Artifacts. Анализирует изображения, создаёт интерактивные превью кода.

Текст

✓ 200K контекст

Изображения

✓ In

Artifacts

✓ HTML/React превью

PDF

✓ Анализ

Плюсы

Лучший для кода
Artifacts уникальны
200K контекст

Минусы

Нет аудио/видео
Недоступен в РФ

Цена

$20/мес / API $3-15/1M

🦙

Open Source 2024

Llama 3.2 Vision

Meta

Открытая мультимодальная модель. Понимает изображения. 11B и 90B версии.

Текст

✓ 128K

Изображения

✓ In

Локально

✓

Лицензия

Llama License

Плюсы

Бесплатно
Open source
Vision из коробки

Минусы

Хуже GPT-4o
Нет аудио

Цена

Бесплатно

🇨🇳

Open Source 2024

Qwen2-VL 72B

Alibaba

Мощная открытая vision-модель. Конкурирует с GPT-4V. Понимает видео до 20 минут.

Текст

✓

Изображения

✓ In

Видео

✓ До 20 мин

Лицензия

Apache 2.0

Плюсы

Видео анализ
Open source
Близко к GPT-4V

Минусы

Нужен мощный GPU
Китайская модель

Цена

Бесплатно

Ⓜ️

Open Source 2024

Pixtral 12B

Mistral AI

Компактная мультимодальная модель от Mistral. Хорошее соотношение размер/качество.

Текст

✓ 128K

Изображения

✓ In

Размер

12B (компакт)

Лицензия

Apache 2.0

Плюсы

Компактная
Быстрая
Европейская

Минусы

Меньше больших
Только изображения

Цена

Бесплатно / $0.15/1M API

🆓

Бесплатные и Open Source модели

Лучшие варианты без затрат или с минимальными расходами

💡 Как использовать бесплатно

1. Локально: Ollama, LM Studio, text-generation-webui — запуск на своём компьютере
2. Free tier API: Groq, Together, Google AI Studio — бесплатные квоты
3. Веб-интерфейсы: HuggingChat, Poe, Perplexity — бесплатный доступ с ограничениями

🏆 Лучшие бесплатные модели по категориям

Категория	Модель	Качество	Где запустить	Требования
Текст (большая)	Llama 3.1 405B	⭐⭐⭐⭐⭐	Groq, Together, Fireworks	Только API (8× A100 для локального)
Текст (средняя)	Llama 3.1 70B	⭐⭐⭐⭐	Groq (бесплатно!), Ollama	48GB VRAM или API
Текст (маленькая)	Llama 3.2 3B / Qwen2.5 7B	⭐⭐⭐	Ollama, LM Studio	8GB RAM, без GPU
Код	DeepSeek Coder V2	⭐⭐⭐⭐	DeepSeek API, Ollama	API или 48GB VRAM
Изображения	FLUX.1 Schnell	⭐⭐⭐⭐	ComfyUI, Replicate	12GB VRAM
Изображения (лёгкие)	SDXL / SD 1.5	⭐⭐⭐	Automatic1111, ComfyUI	6-8GB VRAM
Музыка	MusicGen	⭐⭐⭐⭐	HuggingFace, локально	8GB VRAM
TTS	Coqui TTS / Piper	⭐⭐⭐	Локально	CPU достаточно
STT	Whisper	⭐⭐⭐⭐⭐	Локально, API	4-8GB VRAM
Vision	Llama 3.2 Vision 11B	⭐⭐⭐⭐	Ollama, Together	16GB VRAM

🚀 Бесплатные API-провайдеры

⚡

Groq

Бесплатный tier

Llama 3.1, Mixtral, Gemma

🔵

Google AI Studio

Бесплатный tier

Gemini 1.5 Pro/Flash

🤗

HuggingFace

Inference API

1000+ моделей

🔍

DeepSeek

Очень дёшево

DeepSeek V2, Coder

🌐

Cloudflare AI

Free tier

Llama, Whisper, SD

🔥

Fireworks

$1 бесплатно

Llama, Mixtral, FLUX

💻 Локальный запуск

🦙

Ollama

Самый простой способ запустить LLM локально. Одна команда: ollama run llama3.1

macOS, Linux, Windows

🖥️

LM Studio

GUI для локальных моделей. Скачивание с HuggingFace, чат-интерфейс.

Для новичков

🌐

text-generation-webui

Продвинутый веб-интерфейс. Много настроек, расширения, API.

Для продвинутых

🎨

ComfyUI

Нодовый интерфейс для генерации изображений. SD, SDXL, FLUX.

Для дизайнеров

🖼️

Automatic1111

Классический WebUI для Stable Diffusion. Много расширений.

Stable Diffusion

🔧

vLLM

Высокопроизводительный inference сервер. Для продакшена.

API сервер

📊

Сравнительные таблицы

Быстрое сравнение всех моделей по категориям

📝 Текстовые модели (LLM)

Модель	Компания	Контекст	Vision	Качество	Скорость	Цена (1M in/out)	Доступ РФ
GPT-4o	OpenAI	128K	✓	⭐⭐⭐⭐⭐	Быстрая	$5 / $15	VPN + карта
GPT-4o mini	OpenAI	128K	✓	⭐⭐⭐⭐	Очень быстрая	$0.15 / $0.60	VPN + карта
Claude 3.5 Sonnet	Anthropic	200K	✓	⭐⭐⭐⭐⭐	Быстрая	$3 / $15	VPN + карта
Claude 3 Haiku	Anthropic	200K	✓	⭐⭐⭐⭐	Мгновенная	$0.25 / $1.25	VPN + карта
Gemini 1.5 Pro	Google	2M (!)	✓ + видео	⭐⭐⭐⭐⭐	Быстрая	$1.25 / $5	Частично
Gemini 1.5 Flash	Google	1M	✓	⭐⭐⭐⭐	Очень быстрая	$0.075 / $0.30	Частично
Llama 3.1 405B	Meta	128K	✗	⭐⭐⭐⭐⭐	Средняя	$0.90 / $0.90	✓
Llama 3.1 70B	Meta	128K	✗	⭐⭐⭐⭐	Быстрая	$0.59 / $0.79	✓
Mixtral 8x22B	Mistral	64K	✗	⭐⭐⭐⭐	Быстрая (MoE)	$0.60 / $0.60	✓
DeepSeek V2	DeepSeek	128K	✗	⭐⭐⭐⭐	Быстрая	$0.14 / $0.28	✓
YandexGPT 4	Яндекс	32K	✗	⭐⭐⭐	Быстрая	~1.6₽/1K	✓ Рубли
GigaChat	Сбер	32K	✓ Kandinsky	⭐⭐⭐	Быстрая	Бесплатно / ~1₽	✓ Рубли

🎨 Генерация изображений

Модель	Качество	Текст в картинке	Скорость	API	Локально	Цена
Midjourney v6.1	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	~30 сек	✗	✗	$10-120/мес
DALL-E 3	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	~15 сек	✓	✗	$0.04-0.12/img
FLUX.1 Pro	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	~20 сек	✓	✗	$0.05/img
FLUX.1 Schnell	⭐⭐⭐⭐	⭐⭐⭐⭐	~5 сек	✓	✓ (12GB)	Бесплатно
Stable Diffusion 3	⭐⭐⭐⭐	⭐⭐⭐⭐	~15 сек	✓	✓ (8GB)	Бесплатно
SDXL	⭐⭐⭐⭐	⭐⭐	~20 сек	✓	✓ (6GB)	Бесплатно
Ideogram 2.0	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	~15 сек	✓	✗	Бесплатно / $8/мес
Leonardo.ai	⭐⭐⭐⭐	⭐⭐⭐	~10 сек	✓	✗	Бесплатно / $12/мес
Kandinsky 3.1	⭐⭐⭐	⭐⭐	~10 сек	✓	✗	Бесплатно 🇷🇺
Adobe Firefly	⭐⭐⭐⭐	⭐⭐⭐	~10 сек	✓	✗	Adobe CC / $5/мес

🎬 Генерация видео

Модель	Качество	Макс. длина	Разрешение	Free tier	Цена
Sora	⭐⭐⭐⭐⭐	60 сек	1080p	✗	$20-200/мес
Kling AI	⭐⭐⭐⭐⭐	2 мин	1080p	Ограничен	~$10-30/мес
Runway Gen-3	⭐⭐⭐⭐	10 сек	1080p	✓ (ограничен)	$15-95/мес
Pika 1.5	⭐⭐⭐⭐	4 сек	1080p	250 кредитов	$10-60/мес
Luma Dream Machine	⭐⭐⭐⭐	5 сек	720p	30 видео/мес	$30-100/мес
Stable Video	⭐⭐⭐	4 сек	576p	Open Source	Бесплатно (24GB)
HeyGen	⭐⭐⭐⭐ (аватары)	Любая	1080p	1 мин	$29-89/мес

🎵 Аудио

Модель	Тип	Качество	Клонирование	Локально	Цена
ElevenLabs	TTS	⭐⭐⭐⭐⭐	✓	✗	Бесплатно / $5-330/мес
OpenAI TTS	TTS	⭐⭐⭐⭐	✗	✗	$15/1M символов
Whisper	STT	⭐⭐⭐⭐⭐	—	✓	Бесплатно
Suno v3.5	Музыка	⭐⭐⭐⭐⭐	—	✗	Бесплатно / $10-30/мес
Udio	Музыка	⭐⭐⭐⭐⭐	—	✗	Бесплатно / $10-30/мес
MusicGen	Музыка	⭐⭐⭐⭐	—	✓ (8GB)	Бесплатно
Tortoise TTS	TTS	⭐⭐⭐⭐	✓	✓	Бесплатно
Coqui TTS	TTS	⭐⭐⭐	✓	✓ (CPU)	Бесплатно

🎯

Примеры стоимости стека

Сколько стоит полноценное использование AI в месяц

🆓

$0/мес

Бесплатный стек

Для экспериментов и личного использования

Текст: Llama 3.1 через Groq / Gemini Free
Код: Codeium (бесплатно навсегда)
Изображения: FLUX Schnell / Leonardo Free
Музыка: Suno Free (10/день)
Видео: Luma Free (30/мес)
TTS: ElevenLabs Free / Coqui
STT: Whisper (локально)

Итого

$0/мес

💸

~$30/мес

Бюджетный стек

Для фрилансеров и небольших проектов

Текст: Claude Pro ($20) или ChatGPT Plus ($20)
Код: Включён в Claude/ChatGPT
Изображения: Midjourney Basic ($10)
Музыка: Suno Free
Видео: Pika Free / Luma Free
TTS: ElevenLabs Free
STT: Whisper API (~$1)

Итого

~$30-40/мес

💼

~$100/мес

Профессиональный стек

Для студий и активного использования

Текст: Claude Pro ($20) + API ($20)
Код: Cursor Pro ($20)
Изображения: Midjourney Standard ($30)
Музыка: Suno Pro ($10)
Видео: Runway Standard ($15)
TTS: ElevenLabs Starter ($5)
STT: Whisper API (~$2)

Итого

~$100-120/мес

👑

~$300/мес

Премиум стек

Для агентств и продакшена

Текст: Claude + GPT-4 API ($50)
Код: Cursor + Copilot ($40)
Изображения: Midjourney Pro ($60)
Музыка: Suno + Udio Pro ($40)
Видео: Runway Pro ($95)
TTS: ElevenLabs Creator ($22)
Аватары: HeyGen ($29)

Итого

~$300-350/мес

🔌

API-провайдеры и агрегаторы

Где получить доступ к моделям через API

Провайдер	Модели	Особенности	Доступ из РФ	Оплата
OpenRouter	GPT-4, Claude, Llama, Mistral, 100+	Агрегатор, единый API для всех моделей	✓ (через VPN)	Крипто, карты СНГ
Groq	Llama 3.1, Mixtral, Gemma	Бесплатный tier, сверхбыстрый	✓	Бесплатно / карта
Together AI	Llama, Mixtral, FLUX, 50+	Open source модели, дёшево	✓	Карта
Fireworks	Llama, Mixtral, FLUX	$1 бесплатно, быстрый	✓	Карта
DeepSeek	DeepSeek V2, Coder	Очень дёшево, хорошее качество	✓	Крипто, карты
Google AI Studio	Gemini 1.5 Pro/Flash	Бесплатный tier, большой контекст	Частично	Карта Google
Replicate	FLUX, SD, Llama, 1000+	Pay per use, много моделей	✓	Карта
HuggingFace	Все открытые модели	Inference API, Spaces	✓	Бесплатно / Pro
Cloudflare AI	Llama, Whisper, SD	Free tier, edge computing	✓	Бесплатно / карта
ProxyAPI.ru	GPT-4, Claude	Российский посредник	✓ Рубли	Рубли, крипто
vsegpt.ru	GPT-4, Claude, Llama	Российский посредник	✓ Рубли	Рубли

💡 Рекомендация для России

Лучший вариант: OpenRouter + оплата криптой (USDT). Доступ ко всем топовым моделям через единый API.

Бесплатный вариант: Groq (Llama 3.1) — бесплатный tier без карты, очень быстрый.

Рубли: YandexGPT / GigaChat для текста, Kandinsky для изображений.

📚

Глоссарий терминов

Расшифровка аббревиатур и терминов

Термин	Расшифровка	Объяснение
LLM	Large Language Model	Большая языковая модель (GPT-4, Claude, Llama)
Токен	Token	Единица текста (~4 символа или ~0.75 слова). Модели считают токены, не символы
Контекст	Context Window	Сколько токенов модель может "помнить" за раз. 128K = ~100 страниц текста
TTS	Text-to-Speech	Преобразование текста в речь (ElevenLabs)
STT	Speech-to-Text	Распознавание речи, транскрибация (Whisper)
Vision	Computer Vision	Способность модели понимать изображения
Multimodal	Мультимодальный	Работа с несколькими типами данных (текст + картинки + аудио)
MoE	Mixture of Experts	Архитектура с несколькими "экспертами" — быстрее при том же качестве
LoRA	Low-Rank Adaptation	Метод дообучения моделей. Популярен для кастомных стилей в SD
VRAM	Video RAM	Память видеокарты. Для Llama 70B нужно ~48GB, для SDXL ~8GB
Inference	Инференс	Процесс генерации ответа моделью (в отличие от обучения)
Open Source	Открытый исходный код	Модель можно скачать и запустить локально (Llama, Mistral)
API	Application Programming Interface	Программный интерфейс для доступа к модели из кода
Fine-tuning	Дообучение	Адаптация модели под конкретную задачу на своих данных
Prompt	Промпт	Текстовая инструкция/запрос для модели

🎯 Краткие итоги

📝 Лучшие текстовые

Качество: Claude 3.5 Sonnet / GPT-4o
Цена/качество: GPT-4o mini / Claude Haiku
Бесплатно: Llama 3.1 через Groq

🎨 Лучшие для картинок

Качество: Midjourney v6.1 / FLUX Pro
Текст: Ideogram 2.0 / DALL-E 3
Бесплатно: FLUX Schnell / Leonardo Free

🎬 Лучшие для видео

Качество: Sora / Kling AI
Доступность: Runway Gen-3 / Pika
Бесплатно: Luma Dream Machine

🎵 Лучшие для аудио

TTS: ElevenLabs
STT: Whisper (бесплатно!)
Музыка: Suno / Udio

💻 Лучшие для кода

IDE: Cursor / GitHub Copilot
Модель: Claude 3.5 Sonnet
Бесплатно: Codeium / DeepSeek Coder

🇷🇺 Доступ из России

API: OpenRouter + крипто / Groq
Рубли: YandexGPT, GigaChat
Картинки: Kandinsky (бесплатно)

💡 Главный совет: Не переплачивайте за топовые модели там, где хватит бюджетных. Claude Haiku или GPT-4o mini справятся с 80% задач за 1/10 цены. Для экспериментов используйте бесплатные tier'ы и открытые модели.

Текстовые модели (LLM)

GPT-4o

GPT-4o mini

Claude 3.5 Sonnet

Claude 3 Haiku

Claude 3 Opus

Gemini 1.5 Pro

Gemini 1.5 Flash

Llama 3.1 405B

Llama 3.1 70B

Mistral Large 2

Mixtral 8x22B

YandexGPT 4

GigaChat Pro

Генерация изображений

Midjourney v6.1

DALL-E 3

Stable Diffusion 3

SDXL 1.0

FLUX.1 Pro

FLUX.1 Schnell

Ideogram 2.0

Leonardo.ai

Kandinsky 3.1

Adobe Firefly 3

Генерация видео

Sora

Runway Gen-3 Alpha

Pika 1.5

Kling AI

Luma Dream Machine

Stable Video Diffusion

HeyGen

Аудио и музыка

ElevenLabs

OpenAI TTS

Whisper

Suno v3.5

Udio

MusicGen

Tortoise TTS

Генерация кода

GitHub Copilot

Cursor

Claude 3.5 Sonnet

Codestral

DeepSeek Coder V2

Code Llama 70B

Codeium

Мультимодальные модели

GPT-4o (Omni)

Gemini 1.5 Pro

Claude 3.5 Sonnet

Llama 3.2 Vision

Qwen2-VL 72B

Pixtral 12B

Бесплатные и Open Source модели

🏆 Лучшие бесплатные модели по категориям

🚀 Бесплатные API-провайдеры

💻 Локальный запуск

Сравнительные таблицы

📝 Текстовые модели (LLM)

🎨 Генерация изображений

🎬 Генерация видео

🎵 Аудио

Рекомендации по задачам

Примеры стоимости стека

Бесплатный стек

Бюджетный стек

Профессиональный стек

Премиум стек

API-провайдеры и агрегаторы

Глоссарий терминов

🎯 Краткие итоги

📝 Лучшие текстовые

🎨 Лучшие для картинок

🎬 Лучшие для видео

🎵 Лучшие для аудио

💻 Лучшие для кода

🇷🇺 Доступ из России