Language Classifier

Описание

Данная модель обучена для классификации тувинского или русского текста. Модель основана на логистической регрессии и использует TF-IDF векторизацию для преобразования текста в числовые признаки. Она может быть использована для определения языка текста, что особенно полезно для многоязычных приложений.

Архитектура модели

Модель состоит из следующих компонентов:

  • TF-IDF Vectorizer: Преобразует текстовые данные в векторные представления.
  • Logistic Regression: Классификатор, обученный на данных, размеченных по языкам.

Автор

Иргит Валерий Алдын-оолович

Использование

Вы можете использовать эту модель для определения языка текста. Пример использования:

from transformers import pipeline

# Загрузка модели и пайплайна
classifier = pipeline("text-classification", model="tuva/turu")

# Пример текстов для классификации
texts = ["В Туве приступили к разработке проектно-сметной документации новой котельной Шагонара", "Тыва Шагаан-Арыгга чаа котельная тудар төлевилел-санаашкын саавырларын кылып эгелээн"]

# Получение предсказаний
predictions = classifier(texts)
print(predictions)
Downloads last month
0
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.