|
--- |
|
language: |
|
- ru |
|
- tyv |
|
tags: |
|
- language-classification |
|
- russian |
|
- tuvan |
|
datasets: |
|
- turu_corpuse.csv |
|
license: mit |
|
metrics: |
|
- accuracy |
|
widget: |
|
- text: >- |
|
В Туве приступили к разработке проектно-сметной документации новой котельной |
|
Шагонара |
|
example_title: Russian language |
|
- text: >- |
|
Тыва Шагаан-Арыгга чаа котельная тудар төлевилел-санаашкын саавырларын кылып |
|
эгелээн |
|
example_title: Tuvan language |
|
pipeline_tag: text-classification |
|
library_name: sklearn |
|
--- |
|
|
|
# Language Classifier |
|
|
|
## Описание |
|
|
|
Данная модель обучена для классификации тувинского или русского текста. Модель основана на логистической регрессии и использует TF-IDF векторизацию для преобразования текста в числовые признаки. Она может быть использована для определения языка текста, что особенно полезно для многоязычных приложений. |
|
|
|
## Архитектура модели |
|
|
|
Модель состоит из следующих компонентов: |
|
- **TF-IDF Vectorizer**: Преобразует текстовые данные в векторные представления. |
|
- **Logistic Regression**: Классификатор, обученный на данных, размеченных по языкам. |
|
|
|
|
|
## Автор |
|
Иргит Валерий Алдын-оолович |
|
|
|
|
|
## Использование |
|
|
|
Вы можете использовать эту модель для определения языка текста. Пример использования: |
|
|
|
```python |
|
from transformers import pipeline |
|
|
|
# Загрузка модели и пайплайна |
|
classifier = pipeline("text-classification", model="tuva/turu") |
|
|
|
# Пример текстов для классификации |
|
texts = ["В Туве приступили к разработке проектно-сметной документации новой котельной Шагонара", "Тыва Шагаан-Арыгга чаа котельная тудар төлевилел-санаашкын саавырларын кылып эгелээн"] |
|
|
|
# Получение предсказаний |
|
predictions = classifier(texts) |
|
print(predictions) |