metadata

language:
  - ru
  - tyv
tags:
  - language-classification
  - russian
  - tuvan
datasets:
  - turu_corpuse.csv
license: mit
metrics:
  - accuracy
widget:
  - text: >-
      В Туве приступили к разработке проектно-сметной документации новой
      котельной Шагонара
    example_title: Russian language
  - text: >-
      Тыва Шагаан-Арыгга чаа котельная тудар төлевилел-санаашкын саавырларын
      кылып эгелээн
    example_title: Tuvan language
pipeline_tag: text-classification
library_name: sklearn

Language Classifier

Описание

Данная модель обучена для классификации тувинского или русского текста. Модель основана на логистической регрессии и использует TF-IDF векторизацию для преобразования текста в числовые признаки. Она может быть использована для определения языка текста, что особенно полезно для многоязычных приложений.

Архитектура модели

Модель состоит из следующих компонентов:

TF-IDF Vectorizer: Преобразует текстовые данные в векторные представления.
Logistic Regression: Классификатор, обученный на данных, размеченных по языкам.

Автор

Иргит Валерий Алдын-оолович

Использование

Вы можете использовать эту модель для определения языка текста. Пример использования:

from transformers import pipeline

# Загрузка модели и пайплайна
classifier = pipeline("text-classification", model="tuva/turu")

# Пример текстов для классификации
texts = ["В Туве приступили к разработке проектно-сметной документации новой котельной Шагонара", "Тыва Шагаан-Арыгга чаа котельная тудар төлевилел-санаашкын саавырларын кылып эгелээн"]

# Получение предсказаний
predictions = classifier(texts)
print(predictions)