Jpd650 commited on
Commit
7c4583e
·
verified ·
1 Parent(s): 9ee56ab

Create README.md

Browse files

### Training Data
- **Dataset 1:** DocBank (Version 1.0)
- Beschreibung: Enthält strukturierte Dokumentenlayouts, ideal für Tabellenerkennung und -extraktion.
- Quelle: [DocBank Dataset](https://huggingface.co/datasets/docbank)
- **Dataset 2:** PubTables-1M (Version 1.1)
- Beschreibung: Tabellen aus wissenschaftlichen PDFs mit Layout- und Inhaltsinformationen.
- Quelle: [PubTables-1M](https://github.com/DocAnalysis/PubTables-1M)
- **Dataset 3:** SROIE (Version 1.0)
- Beschreibung: Extraktion von Text und Tabellen aus Rechnungen und Quittungen.
- Quelle: [SROIE Dataset](https://github.com/zzsza/SROIE2019)

Files changed (1) hide show
  1. README.md +10 -0
README.md ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ datasets:
3
+ - 0x22almostEvil/words-operations-rewards-5k
4
+ - flax-community/german_common_crawl
5
+ - bsmock/pubtables-1m
6
+ - maveriq/DocBank
7
+ new_version: deepseek-ai/DeepSeek-V3-Base
8
+ library_name: fasttext
9
+ ---
10
+ pdf to text table converter