Датасет

#1
by Arketov - opened

Было бы просто супер, если бы вы выложили бы датасет)

Тулчейн выложу, датасет может чьи-нибудь авторские права затронуть

привет! а можешь хотя бы частью датасета поделиться, возможно в лс? очень хочу в эксперименты попробовать, а собрать даже 1гб ну вообще не просто)

Привет, в данный момент перевожу pipa (датасет ролеплей для таверны) какой то сборник и blue moon с суммированием диалогов под роль. Как доделаю или пока лимит у deepl не исчерпаю выложу.

Датасет zlc с фикбука очень легко запарсить и обработать тулчейном.

а чем не устроила переведенная пипа от Ильи Гусева? IlyaGusev/pippa_ru (на хф)

Я ее мельком поглядел, как будто качество не оч, но до pipa я ещё не добрался

а чем не устроила переведенная пипа от Ильи Гусева? IlyaGusev/pippa_ru (на хф)

Думаю, что pippа маленькая и ниачем :)

привет! а можешь хотя бы частью датасета поделиться, возможно в лс? очень хочу в эксперименты попробовать, а собрать даже 1гб ну вообще не просто)

А что именно нужно? У меня солянка из story с тематических сайтов, выжимки из всей базы фикбука, плюс несколько вариаций для TiMe (смена пола, стороны диалога + модификации для расширения "галлюцинация" сетки)

"raw" датасет сейчас около 34 Гб

вообще, я пока стремлюсь к диалогам NSFW, хочу обучить модель для секстинга попробовать (странный пет проджект, но таковы реалии...)

Вообще я думал в идеале обучить по методу zlsl с доп токеном char, а потом с добавлением это же токена обучить на полноценный roleplay с датасетом на ролеплей. Но боюсь что более менее получиться адекватно только с большими моделями (предположение). И опять же в ролеплей с хорошим описанием роли с контекстом в 2048 ну так се. Хотя бы 4к.

Вообще я думал в идеале обучить по методу zlsl с доп токеном char, а потом с добавлением это же токена обучить на полноценный roleplay с датасетом на ролеплей. Но боюсь что более менее получиться адекватно только с большими моделями (предположение). И опять же в ролеплей с хорошим описанием роли с контекстом в 2048 ну так се. Хотя бы 4к.

Даже rugpt3 medium модель будет работать хорошо. Размер контекста нелинейно увеличивает сложность обучения, есть иные принципы работы с большим контекстом, но по реальным тестам ( а не метрикам) эти способы сильно ухудшают качество. Токен это не основа, важна вариативность. Возможность продолжать генерацию при смене смысловых фрагментов, не превращая результат в бред.

Пока лучшим алгоритмом (для сложного русского языка) на мой взгляд является TiMe, создавая варианты датасета с сменой действующего лица (я - ты, ты - я), пола (я сказал - я сказала), коррекции контекста, замены имён собственных на соответствующие местоимения (Маша сделала - ты сделала/я сделала). Даже при четверти или более грамматически не совсем верным преобразованиям в итоге результат порядково выше "классического" дообучшения в стиле вопрос-ответ или котекст-вопрос-ответ. Опять же, это верно только для сложных "литературных" языков.Использование в базе моделей вроде LLama, LLama2, Falcon и прочего искажает результат, так как модели мультиязычные и почти всегдя для языков, отличных от EN происходят внутренние переводы RU-EN, EN-RU, причём в цепочке этих переводов может быть очень большое количество, в том числе и одних и тех же фраз.

Ну так что, получится поделиться?👉🏻👈🏻

хотя бы частью опять же)

@Arketov привет! У тебя получилось перевести PIPPA? Сможешь выложить, если не затруднит?

@Arketov привет! У тебя получилось перевести PIPPA? Сможешь выложить, если не затруднит?

Буквально, не давно писал в другой теме.
Нет ещё не всё перевел.
Но уже испытал частично на модели zlsl получилается весьма не плохо.

Как до делают выложу, но я там допустил ошибку. И заменил все переменные на имена. Что печально :с и вообще не все так гуд надо ещё доочищать как и Lima и Bluemoon

@Arketov Привет! Все еще нет апдейтов? Понимаю, труд титанический, просто уточняю, чтобы ты не забыл, если что)

@Arketov Привет! Все еще нет апдейтов? Понимаю, труд титанический, просто уточняю, чтобы ты не забыл, если что)

Перевожу я не сам. Так что труд не титанический)

Чуда ждать не стоит, проблема с местоимениями я вот ее вообще не ожидал. Lima перевел, Bluemoon на половину, с pipa медленно идёт. Плюс я по смотрел как там че там, надо фильтровать и приводить в нормальный результат, как и сказал zxcl. Сейчас бошьше думаю о нормальном переводчика en-ru, желательно с контекстом, чтоб можно было "бесплатно" переводить датасеты и с русскими нюансами речи.

Owner

Чуда ждать не стоит, проблема с местоимениями я вот ее вообще не ожидал. Lima перевел, Bluemoon на половину, с pipa медленно идёт. Плюс я по смотрел как там че там, надо фильтровать и приводить в нормальный результат, как и сказал zxcl. Сейчас бошьше думаю о нормальном переводчика en-ru, желательно с контекстом, чтоб можно было "бесплатно" переводить датасеты и с русскими нюансами речи.

Датасет ручками надо делать, машинный перевод превращает адалт тематику в сочинение на уроке английского языка"я провел лето" ученика 6 класса, плоско и однобоко. Большая часть часть креативов на русском языке в моих моделях уже есть, плюс модифицированная straight база под нестандартности

Датасет ручками надо делать, машинный перевод превращает адалт тематику в сочинение на уроке английского языка"я провел лето" ученика 6 класса, плоско и однобоко. Большая часть часть креативов на русском языке в моих моделях уже есть, плюс модифицированная straight база под нестандартности

В итоге не ученика 6 класса. Постарше :}.
Дак выложил бы датасет)))

Я изначально не надеялся на супер вау резьтат. Особенно после того как ты обратил мое внимание на то как отвечают англ модели на русском языке. Сходу вроде норм, но если вглядываться можно без глаз остаться. И я стал это замечать везде. По этому я подумал что всеровно цп простаивает, пусть работает)))

Датасет ручками надо делать, машинный перевод превращает адалт тематику в сочинение на уроке английского языка"я провел лето" ученика 6 класса, плоско и однобоко. Большая часть часть креативов на русском языке в моих моделях уже есть, плюс модифицированная straight база под нестандартности

Про ручками делать согласен, но это довольно долго/дорого) вроде deepl довольно неплохо переводит все же (в отличие с другими переводчиками)

Дак выложил бы датасет)))

было бы действительно очень здорово)

Про ручками делать согласен, но это довольно долго/дорого) вроде deepl довольно неплохо переводит все же (в отличие с другими переводчиками)

Пробовал deepl только с api ключами траблы, либо очень дорого, либо если покупать типо с фан пея, то там быстро блокают его. :с

а ты не через него переводишь в итоге?

а ты не через него переводишь в итоге?

Увы, на это денег нет.* По этому и хочется сделать нормальный переводчик.

    • хотя вроде есть парсер с сайта deepl и если менять ip то парсить можно бесконечно, но не было времени этим заниматься.
Owner

Может кому интересно будет:
https://github.com/zlsl/pocketai

Фронт под андроид для text-generation-webui, заточен под русский язык пока и обычные gpt-2 модели, но работает и под Llama, LLama2 и прочие клоны.

Нужно указать в настройках адрес локального сервера и естественно включить доступ через API, по умолчанию http://x.x.x.x:5000

Долгий тап - удаление элемента.
В чате тап по реплике - реген реплики.

Долгий тап по аватарке в чате - добавление persistent персонажа, в вкладке "Персонаже" можно ебу задать аватарку (позже эмбеддинги будут)

Схема работы - создать шаблон, потом таппо шаблону - создастся экземпляр чата

В чате очень рекомендуется придерживаться схемы:

Ваши слова

Действия и прочее (с новой строки)

Сорцы позже будут, разработка на локале

Блин круто! Но есть ведь tavern и sillytavern. Они так же запускаются на мобилке и так же поддерживают api oobabooga / text-generation-webui/, но чуток с другим форматом

случайно закрыл

Arketov changed discussion status to closed
Arketov changed discussion status to open
Owner

tavern это вроде чисто web-приложение, всякие pwa неудобны, браузер жрет батарею.
Еще со времен разработки ficlet чтение в браузере фикбука за пару часов съедало батарею, а фикбука хватало на весь день, батарею только экран кушал

pocketai обрабатывает ответ от LLM, фильтруя, обрезая и модифицируя лишнее, работы еще много, но результат поразил даже на small модели.
Чат с несколькими персонажами стал более реалистичным, также удобно банить появление новых чаров и нет ситуации когда при общении начинают сыпаться Маша1, Маша2 ... МашаN.

Интерфейс пока scratch, многое меняю, т.к. четкого понимания финального продукта нет. Планируется импорт-экспорт, бэкапы, поддержка стороннего сервера для обмена шаблонами и выгрузка готового диалога в workflow для дообучения моделей.

Tavern чисто браузер с селфхост на компуктере, да. Особо не замечал что кушают батарейку. Не знаю кто целыми днями тыкается с ИИ, но им наверное мас хев.

Посмотри, потыкай sillytavern с oobabooga, может какие фичи себе перенесешь.

Сам с мобилки не тыкаю ИИ, но обязательно чекну, по возможности)

Owner

У пользователей хотелки - минимальная вероятность утечки, модели специфичные :))
Браузер это ну совсем не секурно

Фичи пилятся под эти модели и под русский язык

Браузер это ну совсем не секурно

Да тот же front как и android приложенька. В Браузере через devtools можно увидеть куда запросы улетают. А с мобилкой не так просто). И были бы проблемы с секурностью в таверн, мне кажется, люди бы давно заметили бы.

Sign up or log in to comment