Spaces:
Running
title: Anonymizace českých textů
emoji: 🕵️
colorFrom: blue
colorTo: red
sdk: docker
app_port: 8501
license: mit
Anonymizace českých textů
Tento projekt poskytuje nástroj pro anonymizaci osobních údajů v českých textech pomocí knihovny Microsoft Presidio a dalších pokročilých NLP technik.
Funkce
- Detekce širokého spektra osobních údajů v českém jazyce
- Flexibilní metody anonymizace (nahrazení, maskování, hashování)
- Podpora různých formátů vstupních textů
- Uživatelsky přívětivé webové rozhraní pomocí Streamlit
- Možnost generování syntetických dat pro anonymizované texty
Instalace
Pomocí Dockeru
Naklonujte tento repozitář:
git clone https://github.com/vas-projekt/anonymizacni-platforma.git cd anonymizacni-platforma
Sestavte Docker obraz:
docker build -t anonymizace-ceskych-textu .
Spusťte kontejner:
docker run -p 8501:8501 anonymizace-ceskych-textu
Lokální instalace
Naklonujte repozitář a přejděte do jeho adresáře.
Vytvořte a aktivujte virtuální prostředí:
python -m venv venv source venv/bin/activate # Pro Windows použijte `venv\Scripts\activate`
Nainstalujte potřebné závislosti:
pip install -r requirements.txt
Stáhněte český jazykový model pro spaCy:
python -m spacy download cs_core_news_sm
Použití
Spusťte aplikaci:
streamlit run presidio_streamlit.py
Otevřete webový prohlížeč a přejděte na
http://localhost:8501
.Vložte text, který chcete anonymizovat, nebo nahrajte soubor.
Vyberte typy osobních údajů, které chcete anonymizovat, a metodu anonymizace.
Klikněte na tlačítko "Anonymizovat" a zobrazte výsledky.
Konfigurace
Pro konfiguraci aplikace můžete upravit soubor .env
s následujícími proměnnými:
OPENAI_API_KEY
: Váš API klíč pro OpenAI (volitelné, pro generování syntetických dat)DEBUG
: Nastavte na "True" pro zobrazení podrobných chybových hlášení
Přispívání
Příspěvky jsou vítány! Prosím, otevřete issue pro návrhy na vylepšení nebo pošlete pull request s vašimi změnami.
Licence
Tento projekt je licencován pod MIT licencí. Viz soubor LICENSE
pro více detailů.
Kontrola konfigurace na https://huggingface.co/docs/hub/spaces-config-reference