conversational workflow collaboration
Твой подход с кастомной архитектурой и полным AI pipeline выглядит реально интересно, особенно то, что ты делаешь всё не только через готовые transformer-решения, а пробуешь строить собственную систему вокруг модели, инференса и conversational workflow. Я сам сейчас работаю вокруг LLM/dataset workflow, conversational systems, AI-oriented UI concepts и немного вокруг AI coding/integration направления, и мне было бы интересно попробовать поучаствовать или помочь в каком-то формате, если тебе вообще интересны коллаборации или совместные эксперименты. Особенно интересны conversational AI, dataset preparation, AI UX/interface ideas и open-source AI ecosystem
Привет, рад что тебя заинтересовала моя модель. Честно, её успех стал для меня приятным сюрпризом. По поводу коллаборации - я всегда за, лишняя помощь не помешает. Я делаю полностью открытую экосистему моделей, так что никакой закрытости, только опенсорс. Мне было бы очень интересно поработать над датасетами. Сейчас как раз создаю свой в формате «вопрос-ответ». Проблема в том, что это адски долго: 3 749 диалогов с учетом "парсинга" через другие ИИ, но для моих моделей этого катастрофически мало. Было бы здорово, если бы смог помочь.
Я бы реально хотел попробовать помочь с dataset workflow и conversational formatting, тем более мне самому сейчас интересно глубже уходить в эту сторону. Особенно интересно всё, что связано с dialogue structure, synthetic conversations, cleaning/formatting и общей подготовкой данных. Думаю, можно будет попробовать придумать способ хотя бы частично ускорить pipeline, потому что вручную делать такие объёмы крайне сложно...
Я по крайней мере работал так: У меня есть отдельный файл с вопросами, например "Что такое Я" или "Отличие Яндекса от Сбера". Далее в том же Gemini я вставлял промпт: "Я обучаю ИИ-ассистента Vexion-LM. Мне нужен качественный синтетический датасет. Характер Vexion-LM: Это Senior-разработчик и AI-архитектор. Он общается вежливо, четко и по делу. Он не использует корпоративную воду («Здравствуйте, чем могу помочь», «Важно отметить»), но и НЕ использует чрезмерный молодежный сленг. Его речь звучит как у опытного инженера, который объясняет сложные вещи простым, но технически грамотным языком. Задача: Сгенерируй 10 пар "вопрос-ответ" на тему: Базовая математика (700+900 и т.д разные числа, это как пример). Требования: Строгий формат: <|user|> Вопрос <|end|> <|assistant|> Ответ <|end|> (без переносов внутри диалога). Делай 3-4 перефразированных вопроса на одну суть, НО обязательно немного меняй текст ответа, чтобы они не были клонами. ГЛАВНОЕ: Ответы должны быть ГЛУБОКИМИ и ИНФОРМАТИВНЫМИ. Используй реальные факты, термины, цифры и архитектурные особенности. Не делай ответы слишком короткими и размытыми. Объясняй суть технически точно, но без духоты." И вот там где надпись "На тему:" вставлял нужную тему. У меня так проделано около 140 вопросов и каждый из них составлен от 8 до 12 пар. Если нужно - я могу загрузить как раз свой датасет, чтобы было понятно как он выглядит и если нужно - прикреплю еще файл с вопросами.
Хорошо но можно ускорить данный процесс, я лично делаю так, покупаю API доступ к определенной ИИ и начинаю автоматически создавать под формат датасет, валидатор мой уже позже проходится по каждой строчке и проверяет повторы и контекстные повторы (использую эмбеддинг модели и разные подходы для выявления повторов или иных артефактов но и этот метод не прям уж и лучший). Тем самым добиваюсь почти полной автоматизации, как я понял, ваш подход более ручной, когда закидываете в ИИ или же используете API? А если задача требует более тщательного и "чистого" подхода то проверял вручную и собирал тоже вручную
Я да, вручную закидываю в нейронку, быстро пробегаюсь по тексту - чтобы понять есть ли артефакты или "сломанные слова", и просто дальше копирую по диалогам. Тем самым стараюсь добиться уникальности датасета, чистого формата и своего рода уникальности в модели.
Ох, это просто крайне долго, я могу потом связаться с вами и помочь с автоматизацией создания датасета
А куда лучше написать вам и как связаться?
Написать если в телеграмм можно будет попробовать
Вот мой тг companysquid