- Регистрация
- 18.01.2023
- Сообщения
- 1 674
- Реакции
- 295
- Депозит
- 𝟎.𝟓 𝐁𝐓𝐂
- Сделок через Гаранта
- 135
Microsoft представила нейросеть Kosmos-1, которая объединяет различные режимы ввода – текст, аудио, изображения и видео, – и станет основой для создания универсального искусственного интеллекта. Исследователи назвали систему «мультимодальной моделью большого языка» (MLLM). Мультимодальная модель способна:
После обучения исследователи оценили способности Kosmos-1 в нескольких тестах, а именно:
Kosmos-1 также смогла правильно ответить на вопрос теста Raven только в 22% случаев (при более тонкой настройке - в 26% случаев).
Исследователи планируют увеличить размер модели, а также интегрировать голосовые возможности. Кроме того, Kosmos-1 скоро будет открыта для разработчиков.
- анализировать изображения;
- решать визуальные головоломки;
- распознавать текст;
- проходить визуальные тесты на IQ с точностью 22-26%;
- понимать инструкции на естественном языке.
После обучения исследователи оценили способности Kosmos-1 в нескольких тестах, а именно:
- понимание языка;
- генерация текста;
- классификация текста без оптического распознавания символов;
- генерация подписей к изображениям;
- визуальные ответы на вопросы;
- ответы на вопросы веб-страниц;
- классификация изображений.
Kosmos-1 также смогла правильно ответить на вопрос теста Raven только в 22% случаев (при более тонкой настройке - в 26% случаев).
Исследователи планируют увеличить размер модели, а также интегрировать голосовые возможности. Кроме того, Kosmos-1 скоро будет открыта для разработчиков.