AI модели
Классификация аудио
audio_classifier - общая классификация (курс)emotion_classifier - эмоции в речи
Zero-Shot аудио классификатор
Распознавание реч
whisper - distil-whisper/distil-small.en (курс),
wav2vec2 - openai/whisper-small
Text-to-Speech
facebook/mms-tts-rus
Google TTS
Детекция объектов
object_detection_conditional_detr - microsoft/conditional-detr-resnet-50
object_detection_yolos_small - hustvl/yolos-small
Сегментация
Глубина (Depth Estimation)
Описание изображений
captioning_blip_base - Salesforce/blip-image-captioning-base (курс)
captioning_blip_large - Salesforce/blip-image-captioning-large
Visual Question Answering
vqa_blip_base - Salesforce/blip-vqa-base (курс)
vqa_vilt_b32 - dandelin/vilt-b32-finetuned-vqa
Zero-Shot классификация
clip_large_patch14 - openai/clip-vit-large-patch14 (курс)
clip_base_patch32 - openai/clip-vit-base-patch32
Поиск изображений
clip_large_patch14 - openai/clip-vit-large-patch14 (курс)
clip_base_patch32 - openai/clip-vit-base-patch32 (альтернатива)
Задачи:
- Аудио: классификация, распознавание речи, синтез речи
- Компьютерное зрение: детекция объектов, сегментация, оценка глубины, генерация описаний изображений
- Мультимодальные задачи: вопросы к изображению, zero-shot классификация изображений, поиск по изображениям по текстовому запросу