Daniel van Strien's picture

Daniel van Strien PRO

davanstrien

·

https://danielvanstrien.xyz/

AI & ML interests

Machine Learning Librarian

Recent Activity

updated a dataset 16 minutes ago

librarian-bots/dataset_cards_with_metadata

updated a dataset about 1 hour ago

librarian-bots/dataset-columns

updated a dataset about 2 hours ago

data-is-better-together/fineweb-c-progress

View all activity

Organizations

Posts 53

Post

2934

Inspired by Hugging Face's official MCP server, I've developed a complementary tool that exposes my semantic search API to enhance discovery across the HF platform.

Key capabilities:

- AI-powered semantic search for models and datasets
- Parameter count analysis via safetensors metadata
- Trending content discovery
- Find similar models/datasets functionality
- 11 tools total for enhanced ecosystem navigation

The semantic search goes beyond simple keyword matching, understanding context and relationships between different models and datasets.

Example query: "Find around 10 reasoning Hugging Face datasets published in 2025 focusing on topics other than maths and science. Show a link and a short summary for each dataset." (results in video!)

https://github.com/davanstrien/hub-semantic-search-mcp

Articles 22

Article

26

FineWeb-C: A Community-Driven Dataset for Educational Quality Annotations in 122 Languages

View all Articles

Collections 11

View 11 collections

Papers 4

arxiv:2211.10086

arxiv:2211.05100

arxiv:2205.04738

arxiv:2204.05211

spaces 55

Temp Argilla

Progress Test

Display progress leaderboards and annotations

Liftoscript MCP Validator

Validate Liftoscript syntax and access documentation

Running on Zero

OCR Time Machine

Convert images to text using OCR models

Running on CPU Upgrade

Huggingface Datasets Search V2

Display API documentation

Hub Semantic Search Mcp

Search and find Hugging Face models and datasets

models 152

davanstrien/Smol-Hub-tldr-IQ4_NL-GGUF

0.4B • Updated Jun 6 • 10

davanstrien/Smol-Hub-tldr

Text Generation • 0.4B • Updated May 28 • 39 • 9

davanstrien/ModernBERT-web-topics-1m

Text Classification • 0.1B • Updated May 13 • 43

davanstrien/dfine-test

Object Detection • 0.0B • Updated May 8 • 4

davanstrien/ModernBERT-based-Reasoning-Required

Text Classification • 0.1B • Updated Apr 8 • 8 • 7

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_19-02

Text Generation • 0.1B • Updated Mar 13 • 6

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_19-02-Q8_0-GGUF

0.1B • Updated Mar 12 • 10

davanstrien/SmolLM2-135M-tldr-sft-2025-03-12_18-10-Q8_0-GGUF

0.1B • Updated Mar 12 • 7

davanstrien/SmolLM2-360M-tldr-sft-2025-03-12_17-46-Q8_0-GGUF

0.4B • Updated Mar 12 • 10

davanstrien/SmolLM2-360M-tldr-sft-2025-03-12_17-46-Q4_K_M-GGUF

0.4B • Updated Mar 12 • 8

View 152 models

datasets 394

davanstrien/hfjobs-uv-run-20250711-095351-b32d3ce5

Updated about 18 hours ago

davanstrien/magpie-preference

Viewer • Updated 1 day ago • 559 • 474 • 13

davanstrien/test-my-cool-uf-job

Updated 2 days ago • 10

davanstrien/hfjobs-uv-run-20250710-095627-09175516

Updated 2 days ago • 11

davanstrien/hfjobs-uv-run-20250709-162611-09175516

Updated 2 days ago • 18

davanstrien/hfjobs-uv-run-20250709-162302-09175516

Updated 2 days ago • 17

davanstrien/hfjobs-uv-run-20250704-105902-530c3088

Updated 8 days ago • 90

davanstrien/test-multi-scripts

Updated 8 days ago • 97

davanstrien/test-uv-scripts-with-readme

Updated 8 days ago • 101

davanstrien/hfjobs-uv-run-20250703-180748-d41230bb

Updated 8 days ago • 88

View 394 datasets