trocr-small-ru ?
спасибо за модель , я конвертировал ее в onnx - https://youtu.be/EMiEY54_etU
но скорость все равно хромает.
нет возможности выложить trocr-small-ru ?
Здравствуйте. А как можно с Вами связаться? Хотел обсудить моменты, связанные с обучением модели.
Моя почта для связи osv20@bk.ru
Здравствуйте. Я попробовал вашу модель на своих данных, и он показал отличные результаты. Тоже хотелось бы версию trocr-small-ru, сейчас сам пытаюсь на своем датасете файнтюнить, но пока результаты не очень. И вот такой вопрос еще - почему ваша модель, которая зафайнтюнилась на рукописном датасете, хорошо показывает результат на моих документов, где понятное дело печатный текст. И стоит ли мне тогда файнтюнить на тех же датасетах, что и вы?
Здравствуйте. Я попробовал вашу модель на своих данных, и он показал отличные результаты. Тоже хотелось бы версию trocr-small-ru, сейчас сам пытаюсь на своем датасете файнтюнить, но пока результаты не очень. И вот такой вопрос еще - почему ваша модель, которая зафайнтюнилась на рукописном датасете, хорошо показывает результат на моих документов, где понятное дело печатный текст. И стоит ли мне тогда файнтюнить на тех же датасетах, что и вы?
Я не автор опубликованной модели, но постараюсь ответить на вопрос: "стоит ли файнтюнить на тех же датасетах, что и вы?"
Ответ: Если речь идет про модель автора, то нет. Поскольку модель уже дообучена на этих датасетах и дальнейшее обучение навряд ли приведет к лучшим результатам.
Я не эксперт в этой области, поэтому не следует воспринимать мой ответ как 100% достоверный факт:)
спасибо за модель , я конвертировал ее в onnx - https://youtu.be/EMiEY54_etU
но скорость все равно хромает.
нет возможности выложить trocr-small-ru ?
К сожалению, обучение trocr-small не планируеся
Здравствуйте. А как можно с Вами связаться? Хотел обсудить моменты, связанные с обучением модели.
Моя почта для связи osv20@bk.ru
Вы можете связаться со мной в телеграм @TemurbRax или по почте raxtemur@gmail.com
Здравствуйте. Я попробовал вашу модель на своих данных, и он показал отличные результаты. Тоже хотелось бы версию trocr-small-ru, сейчас сам пытаюсь на своем датасете файнтюнить, но пока результаты не очень. И вот такой вопрос еще - почему ваша модель, которая зафайнтюнилась на рукописном датасете, хорошо показывает результат на моих документов, где понятное дело печатный текст. И стоит ли мне тогда файнтюнить на тех же датасетах, что и вы?
Рад что модель оказалась полезной, спасибо за фидбек! Базовая модель trocr-base видела печатные шрифты, правда только на английском, но, видимо этого вместе с русскоязычным рукописным текстом оказалось достаточно для ваших документов! Единственное, для работы с текстом в документах я бы предложил рассмотреть ещё tesseract и doctr, так как может оказаться, что меньшие модели могут дать сравнимое качество.
Если же у вас есть возможность и желание обучить trocr-small-ru, то думаю обучать на тех же датасетах -- довольно неплохая идея. Там сложные для распознования рукописные слова/фразы собранные командой ИСП РАН. Обучать на печатном тексте вряд ли имеет много смысла, разве что долить в первую эпоху, чтобы модели было проще привыкнуть к русскому языку.