AnonyMizator / README.md
petrsovadina's picture
Update README.md
7303058 verified
metadata
title: Anonymizace českých textů
emoji: 🕵️
colorFrom: blue
colorTo: red
sdk: docker
app_port: 8501
license: mit

Anonymizace českých textů

Tento projekt poskytuje nástroj pro anonymizaci osobních údajů v českých textech pomocí knihovny Microsoft Presidio a dalších pokročilých NLP technik.

Funkce

  • Detekce širokého spektra osobních údajů v českém jazyce
  • Flexibilní metody anonymizace (nahrazení, maskování, hashování)
  • Podpora různých formátů vstupních textů
  • Uživatelsky přívětivé webové rozhraní pomocí Streamlit
  • Možnost generování syntetických dat pro anonymizované texty

Instalace

Pomocí Dockeru

  1. Naklonujte tento repozitář:

    git clone https://github.com/vas-projekt/anonymizacni-platforma.git
    cd anonymizacni-platforma
    
  2. Sestavte Docker obraz:

    docker build -t anonymizace-ceskych-textu .
    
  3. Spusťte kontejner:

    docker run -p 8501:8501 anonymizace-ceskych-textu
    

Lokální instalace

  1. Naklonujte repozitář a přejděte do jeho adresáře.

  2. Vytvořte a aktivujte virtuální prostředí:

    python -m venv venv
    source venv/bin/activate  # Pro Windows použijte `venv\Scripts\activate`
    
  3. Nainstalujte potřebné závislosti:

    pip install -r requirements.txt
    
  4. Stáhněte český jazykový model pro spaCy:

    python -m spacy download cs_core_news_sm
    

Použití

  1. Spusťte aplikaci:

    streamlit run presidio_streamlit.py
    
  2. Otevřete webový prohlížeč a přejděte na http://localhost:8501.

  3. Vložte text, který chcete anonymizovat, nebo nahrajte soubor.

  4. Vyberte typy osobních údajů, které chcete anonymizovat, a metodu anonymizace.

  5. Klikněte na tlačítko "Anonymizovat" a zobrazte výsledky.

Konfigurace

Pro konfiguraci aplikace můžete upravit soubor .env s následujícími proměnnými:

  • OPENAI_API_KEY: Váš API klíč pro OpenAI (volitelné, pro generování syntetických dat)
  • DEBUG: Nastavte na "True" pro zobrazení podrobných chybových hlášení

Přispívání

Příspěvky jsou vítány! Prosím, otevřete issue pro návrhy na vylepšení nebo pošlete pull request s vašimi změnami.

Licence

Tento projekt je licencován pod MIT licencí. Viz soubor LICENSE pro více detailů.


Kontrola konfigurace na https://huggingface.co/docs/hub/spaces-config-reference