Spaces:

Hansimov
/

web-search-api

Running

web-search-api / networks /network_configs.py

:recycle: [Refactor] WebpageContentExtractor: Separate html and markdown processing

a636bcb 10 months ago

430 Bytes

	IGNORE_TAGS = ["script", "style", "button"]
	IGNORE_CLASSES = [
	"sidebar",
	"footer",
	"related",
	"comment",
	"topbar",
	# "menu",
	"offcanvas",
	"navbar",
	"post_side",
	]

	IGNORE_HOSTS = [
	"weibo.com",
	"hymson.com",
	]

	REQUESTS_HEADERS = {
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.62",
	}