Новый чат-бот с ИИ на арабском - Jais

ОАЭ выпускают своего чат-бота
Время чтения6 мин
Share

Знакомьтесь, Jais – новый чат-бот с ИИ от ОАЭ

Современные большие языковые модели (LLM) на самом деле не обучены такому большому набору языков.

По большей части, народное средство, лежащее в основе работающих прямо сейчас платформ генеративного искусственного интеллекта (ИИ), — это язык, который доминирует в обучении моделей искусственного интеллекта: английский.

Но компания по искусственному интеллекту (ИИ) запустила то, что они называют самым качественным в мире программным обеспечением для искусственного интеллекта, обученным арабскому языку, под названием Jais.

Модель, названная в честь высочайшего пика в Объединенных Арабских Эмиратах, была совместно разработана Inception — дочерней компанией технологической компании из Абу-Даби G42, калифорнийской исследовательской фирмой в области искусственного интеллекта Cerebras и Университетом искусственного интеллекта имени Мохамеда бен Зайда (MBZUAI).

G42 возглавляет советник ОАЭ по национальной безопасности шейх Тахнун бен Заид аль-Нахайян.

Модель с 13 миллиардами параметров обучалась в течение 21 дня на суперкомпьютере, совместно разработанном G42 и Cerebras, с использованием специально созданного набора данных из 116 миллиардов арабских символов и 279 миллиардов английских слов, предназначенных для отражения сложности и нюансов арабского языка.

"Этим выпуском мы устанавливаем новый стандарт развития искусственного интеллекта на Ближнем Востоке и гарантируем, что арабский язык с его глубиной и наследием найдет свое звучание в среде искусственного интеллекта" - сказал Эндрю Джексон, генеральный директор Inception, в заявлении, в котором объявляется о Jais.

"Разработка такого высококлассного арабского LLM потребовала передовых исследований в области искусственного интеллекта в дополнение к глубокому и детализированному пониманию арабского языка, его разнообразия и наследия, а также растущей важности LLM во всех слоях общества", - добавил президент MBZUAI Эрик Син.

Несколько организаций, в том числе Министерство иностранных дел ОАЭ, Министерство промышленности и передовых технологий ОАЭ, Департамент здравоохранения Абу–Даби, Национальная нефтяная компания Абу-Даби (ADNOC), Etihad Airways, First Abu Dhabi Bank (FAB) подписали контракты на использование платформы Jais в качестве партнеров по запуску.

Гонка за лидирующую роль в мире по разработке ИИ

Хотя двуязычный Jais предназначен для использования более чем 400 миллионами носителей арабского языка в мире, это не первая платформа LLM, ориентированная на арабский язык, запущенная на Ближнем Востоке.

ОАЭ уже разработали отдельный LLM с открытым исходным кодом Falcon в государственном институте технологических инноваций в Масдар-Сити. Однако, согласно технической документации Jais, точность арабского языка Falcon слабее, чем у Jais.

Это потому, что программное обеспечение Falcon не было предварительно обучено арабскому языку, в то время как Jais был специально разработан для использования не в США, что дает ему более точное понимание культуры и поведенческих контекстов Ближнего Востока. Jais может создавать контент, используя как современный стандартный арабский, так и многие из разнообразных разговорных диалектов Ближнего Востока.

По словам команды, стоящей за Jais, LLM также может противостоять английским моделям аналогичного размера несмотря на то, что обучается на меньшем количестве английских токенов. Команда заявила, что это показало, что английская составляющая Jais извлекла уроки из арабских данных и наоборот, указывая на новые возможности в развитии LLM и обучении.

Многие из самых передовых на сегодняшний день LLM, включая GPT-4 от OpenAI, PaLM от Google и LLaMA от Meta с открытым исходным кодом, способны понимать и генерировать текст на арабском языке, а по мере того, как технология генеративного искусственного интеллекта становится коммерческой по всему миру, возможность адаптировать LLM к различным культурным потребностям и предпочтениям может оказаться конкурентным преимуществом.

Телекоммуникационный сектор уже работает над созданием многоязычного LLM для глобальных телекоммуникационных компаний с языковыми возможностями, которые включают корейский, английский, немецкий, японский, арабский, испанский и другие.

Jais обучался с использованием арабских средств массовой информации, извлекая контент из платформ социальных сетей и сочетая арабские команды с кодовыми последовательностями на английском языке.

Геополитический элемент в ИИ

По мере того, как все больше стран стремятся разрабатывать свои собственные платформы искусственного интеллекта, начнут проявляться различия в генеративных возможностях базовых языковых моделях.

Например, Китай, чьи правила в области искусственного интеллекта уже вступили в силу, уже запрещает LLM, которые генерируют контент, который "пытается подорвать государственную власть".

ОАЭ установили аналогичные ограждения для Jais, который предварительно обучен не создавать контент, выходящий за разумные рамки с точки зрения культурных и религиозных чувств Ближнего Востока или не представляющий ценности организаций, участвующих в разработке LLM.

Участие советника по национальной безопасности ОАЭ шейха Тахнуна бен Заида аль-Нахайяна в разработке Jais также вызвало опасения по поводу возможного неправильного использования технологии автократическими лидерами региона. А США в свою очередь расширили ограничение на экспорт чипов NVIDIA AI, включив в него ряд нераскрытых стран Ближнего Востока.

И конечно же напоминаем, что Meta – это запрещенная организация на территории РФ.