zlsl
/

m_erotic_chat

Text Generation

porn

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Датасет

#1

by Arketov - opened Oct 12, 2023

Arketov

Oct 12, 2023

Было бы просто супер, если бы вы выложили бы датасет)

zlsl

Owner Oct 12, 2023

Тулчейн выложу, датасет может чьи-нибудь авторские права затронуть

ponik7

Dec 13, 2023

привет! а можешь хотя бы частью датасета поделиться, возможно в лс? очень хочу в эксперименты попробовать, а собрать даже 1гб ну вообще не просто)

Arketov

Dec 13, 2023

•

edited Dec 13, 2023

Привет, в данный момент перевожу pipa (датасет ролеплей для таверны) какой то сборник и blue moon с суммированием диалогов под роль. Как доделаю или пока лимит у deepl не исчерпаю выложу.

Датасет zlc с фикбука очень легко запарсить и обработать тулчейном.

ponik7

Dec 13, 2023

а чем не устроила переведенная пипа от Ильи Гусева? IlyaGusev/pippa_ru (на хф)

Arketov

Dec 13, 2023

Я ее мельком поглядел, как будто качество не оч, но до pipa я ещё не добрался

zlsl

Owner Dec 13, 2023

•

edited Dec 13, 2023

а чем не устроила переведенная пипа от Ильи Гусева? IlyaGusev/pippa_ru (на хф)

Думаю, что pippа маленькая и ниачем :)

привет! а можешь хотя бы частью датасета поделиться, возможно в лс? очень хочу в эксперименты попробовать, а собрать даже 1гб ну вообще не просто)

А что именно нужно? У меня солянка из story с тематических сайтов, выжимки из всей базы фикбука, плюс несколько вариаций для TiMe (смена пола, стороны диалога + модификации для расширения "галлюцинация" сетки)

zlsl

Owner Dec 13, 2023

"raw" датасет сейчас около 34 Гб

ponik7

Dec 13, 2023

вообще, я пока стремлюсь к диалогам NSFW, хочу обучить модель для секстинга попробовать (странный пет проджект, но таковы реалии...)

Arketov

Dec 13, 2023

•

edited Dec 13, 2023

Вообще я думал в идеале обучить по методу zlsl с доп токеном char, а потом с добавлением это же токена обучить на полноценный roleplay с датасетом на ролеплей. Но боюсь что более менее получиться адекватно только с большими моделями (предположение). И опять же в ролеплей с хорошим описанием роли с контекстом в 2048 ну так се. Хотя бы 4к.

zlsl

Owner Dec 13, 2023

Вообще я думал в идеале обучить по методу zlsl с доп токеном char, а потом с добавлением это же токена обучить на полноценный roleplay с датасетом на ролеплей. Но боюсь что более менее получиться адекватно только с большими моделями (предположение). И опять же в ролеплей с хорошим описанием роли с контекстом в 2048 ну так се. Хотя бы 4к.

Даже rugpt3 medium модель будет работать хорошо. Размер контекста нелинейно увеличивает сложность обучения, есть иные принципы работы с большим контекстом, но по реальным тестам ( а не метрикам) эти способы сильно ухудшают качество. Токен это не основа, важна вариативность. Возможность продолжать генерацию при смене смысловых фрагментов, не превращая результат в бред.

Пока лучшим алгоритмом (для сложного русского языка) на мой взгляд является TiMe, создавая варианты датасета с сменой действующего лица (я - ты, ты - я), пола (я сказал - я сказала), коррекции контекста, замены имён собственных на соответствующие местоимения (Маша сделала - ты сделала/я сделала). Даже при четверти или более грамматически не совсем верным преобразованиям в итоге результат порядково выше "классического" дообучшения в стиле вопрос-ответ или котекст-вопрос-ответ. Опять же, это верно только для сложных "литературных" языков.Использование в базе моделей вроде LLama, LLama2, Falcon и прочего искажает результат, так как модели мультиязычные и почти всегдя для языков, отличных от EN происходят внутренние переводы RU-EN, EN-RU, причём в цепочке этих переводов может быть очень большое количество, в том числе и одних и тех же фраз.

ponik7

Dec 13, 2023

Ну так что, получится поделиться?👉🏻👈🏻

хотя бы частью опять же)

ponik7

Jan 11

@Arketov привет! У тебя получилось перевести PIPPA? Сможешь выложить, если не затруднит?

Arketov

Jan 11

•

@Arketov привет! У тебя получилось перевести PIPPA? Сможешь выложить, если не затруднит?

Буквально, не давно писал в другой теме.
Нет ещё не всё перевел.
Но уже испытал частично на модели zlsl получилается весьма не плохо.

Как до делают выложу, но я там допустил ошибку. И заменил все переменные на имена. Что печально :с и вообще не все так гуд надо ещё доочищать как и Lima и Bluemoon

ponik7

Jan 22

@Arketov Привет! Все еще нет апдейтов? Понимаю, труд титанический, просто уточняю, чтобы ты не забыл, если что)

Arketov

Jan 22

@Arketov Привет! Все еще нет апдейтов? Понимаю, труд титанический, просто уточняю, чтобы ты не забыл, если что)

Перевожу я не сам. Так что труд не титанический)

Чуда ждать не стоит, проблема с местоимениями я вот ее вообще не ожидал. Lima перевел, Bluemoon на половину, с pipa медленно идёт. Плюс я по смотрел как там че там, надо фильтровать и приводить в нормальный результат, как и сказал zxcl. Сейчас бошьше думаю о нормальном переводчика en-ru, желательно с контекстом, чтоб можно было "бесплатно" переводить датасеты и с русскими нюансами речи.

zlsl

Owner Jan 22

Чуда ждать не стоит, проблема с местоимениями я вот ее вообще не ожидал. Lima перевел, Bluemoon на половину, с pipa медленно идёт. Плюс я по смотрел как там че там, надо фильтровать и приводить в нормальный результат, как и сказал zxcl. Сейчас бошьше думаю о нормальном переводчика en-ru, желательно с контекстом, чтоб можно было "бесплатно" переводить датасеты и с русскими нюансами речи.

Датасет ручками надо делать, машинный перевод превращает адалт тематику в сочинение на уроке английского языка"я провел лето" ученика 6 класса, плоско и однобоко. Большая часть часть креативов на русском языке в моих моделях уже есть, плюс модифицированная straight база под нестандартности

Arketov

Jan 22

Датасет ручками надо делать, машинный перевод превращает адалт тематику в сочинение на уроке английского языка"я провел лето" ученика 6 класса, плоско и однобоко. Большая часть часть креативов на русском языке в моих моделях уже есть, плюс модифицированная straight база под нестандартности

В итоге не ученика 6 класса. Постарше :}.
Дак выложил бы датасет)))

Я изначально не надеялся на супер вау резьтат. Особенно после того как ты обратил мое внимание на то как отвечают англ модели на русском языке. Сходу вроде норм, но если вглядываться можно без глаз остаться. И я стал это замечать везде. По этому я подумал что всеровно цп простаивает, пусть работает)))

ponik7

Jan 22

Датасет ручками надо делать, машинный перевод превращает адалт тематику в сочинение на уроке английского языка"я провел лето" ученика 6 класса, плоско и однобоко. Большая часть часть креативов на русском языке в моих моделях уже есть, плюс модифицированная straight база под нестандартности

Про ручками делать согласен, но это довольно долго/дорого) вроде deepl довольно неплохо переводит все же (в отличие с другими переводчиками)

Дак выложил бы датасет)))

было бы действительно очень здорово)

Arketov

Jan 22

Про ручками делать согласен, но это довольно долго/дорого) вроде deepl довольно неплохо переводит все же (в отличие с другими переводчиками)

Пробовал deepl только с api ключами траблы, либо очень дорого, либо если покупать типо с фан пея, то там быстро блокают его. :с

ponik7

Jan 22

а ты не через него переводишь в итоге?

Arketov

Jan 22

•

а ты не через него переводишь в итоге?

Увы, на это денег нет.* По этому и хочется сделать нормальный переводчик.

- хотя вроде есть парсер с сайта deepl и если менять ip то парсить можно бесконечно, но не было времени этим заниматься.

zlsl

Owner Feb 18

Может кому интересно будет:
https://github.com/zlsl/pocketai

Фронт под андроид для text-generation-webui, заточен под русский язык пока и обычные gpt-2 модели, но работает и под Llama, LLama2 и прочие клоны.

Нужно указать в настройках адрес локального сервера и естественно включить доступ через API, по умолчанию http://x.x.x.x:5000

Долгий тап - удаление элемента.
В чате тап по реплике - реген реплики.

Долгий тап по аватарке в чате - добавление persistent персонажа, в вкладке "Персонаже" можно ебу задать аватарку (позже эмбеддинги будут)

Схема работы - создать шаблон, потом таппо шаблону - создастся экземпляр чата

В чате очень рекомендуется придерживаться схемы:

Ваши слова

Действия и прочее (с новой строки)

Сорцы позже будут, разработка на локале

Arketov

Feb 20

•

Блин круто! Но есть ведь tavern и sillytavern. Они так же запускаются на мобилке и так же поддерживают api oobabooga / text-generation-webui/, но чуток с другим форматом

случайно закрыл

Arketov changed discussion status to closed Feb 20

Arketov changed discussion status to open Feb 20

zlsl

Owner Feb 20

tavern это вроде чисто web-приложение, всякие pwa неудобны, браузер жрет батарею.
Еще со времен разработки ficlet чтение в браузере фикбука за пару часов съедало батарею, а фикбука хватало на весь день, батарею только экран кушал

pocketai обрабатывает ответ от LLM, фильтруя, обрезая и модифицируя лишнее, работы еще много, но результат поразил даже на small модели.
Чат с несколькими персонажами стал более реалистичным, также удобно банить появление новых чаров и нет ситуации когда при общении начинают сыпаться Маша1, Маша2 ... МашаN.

Интерфейс пока scratch, многое меняю, т.к. четкого понимания финального продукта нет. Планируется импорт-экспорт, бэкапы, поддержка стороннего сервера для обмена шаблонами и выгрузка готового диалога в workflow для дообучения моделей.

Arketov

Feb 20

Tavern чисто браузер с селфхост на компуктере, да. Особо не замечал что кушают батарейку. Не знаю кто целыми днями тыкается с ИИ, но им наверное мас хев.

Посмотри, потыкай sillytavern с oobabooga, может какие фичи себе перенесешь.

Сам с мобилки не тыкаю ИИ, но обязательно чекну, по возможности)

zlsl

Owner Feb 20

У пользователей хотелки - минимальная вероятность утечки, модели специфичные :))
Браузер это ну совсем не секурно

Фичи пилятся под эти модели и под русский язык

Arketov

Feb 20

Браузер это ну совсем не секурно

Да тот же front как и android приложенька. В Браузере через devtools можно увидеть куда запросы улетают. А с мобилкой не так просто). И были бы проблемы с секурностью в таверн, мне кажется, люди бы давно заметили бы.

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment