web-scraping

Star

Here are 10,220 public repositories matching this topic...

Language:All

Filter by language

All10,220 Python4,478 Jupyter Notebook1,588 JavaScript749 TypeScript407 HTML381 Go138 R135 Java120 PHP75 Rust64

Sort:Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

firecrawl /firecrawl

Star84.2k

🔥 The Web Data API for AI - Turn entire websites into LLM-ready markdown or structured data

markdown crawler scraper ai html-to-markdown web-crawler scraping web-scraper web-scraping data-extraction webscraping web-data-extraction ai-agents web-search ai-search web-data llm ai-crawler ai-scraping

UpdatedFeb 20, 2026
TypeScript

scrapy /scrapy

Star59.8k

Scrapy, a fast high-level web crawling & scraping framework for Python.

python crawler framework scraping crawling web-scraping hacktoberfest web-scraping-python

UpdatedFeb 20, 2026
Python

Mintplex-Labs /anything-llm

Sponsor

Star54.8k

The all-in-one Desktop & Docker AI application with built-in RAG, AI agents, No-code agent builder, MCP compatibility, and more.

mcp web-scraping no-code ai-agents kimi multimodal rag moonshot vector-database llm localai local-llm ollama lmstudio deepseek llama3 custom-ai-agents mcp-servers qwen3

UpdatedFeb 19, 2026
JavaScript

Best and simplest tool for website change detection, web page monitoring, and website change alerts. Perfect for tracking content changes, price drops, restock alerts, and website defacement monitoring—all for free or enjoy our SaaS plan!

notifications rss monitoring self-hosted web-scraping website-monitor url-monitor change-alert change-detection website-change-monitor website-change-tracker website-monitoring change-monitoring website-watcher website-change-detector restock-monitor website-change-detection website-change-notification back-in-stock website-defacement-monitoring

UpdatedFeb 20, 2026
Python

ScrapeGraphAI /Scrapegraph-ai

Sponsor

Star22.7k

Python scraper based on AI

markdown crawler web-crawler scraping web-scraper web-scraping data-extraction webscraping web-data-extraction web-search ai-search rag web-data scraping-python web-crawlers llm ai-crawler large-language-model ai-scraping firecrawl-alternative

UpdatedFeb 16, 2026
Python

apify /crawlee

Star21.8k

Crawlee—A web scraping and browser automation library for Node.js to build reliable crawlers. In JavaScript and TypeScript. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. With proxy rotation.

nodejs javascript npm crawler scraper automation typescript web-crawler headless scraping crawling web-scraping web-crawling headless-chrome apify puppeteer playwright

UpdatedFeb 20, 2026
TypeScript

Evil0ctal /Douyin_TikTok_Download_API

Sponsor

Star16.3k

🚀「Douyin_TikTok_Download_API」是一个开箱即用的高性能异步抖音、快手、TikTok、Bilibili数据爬取工具，支持API调用，在线批量解析及下载。

python api crawler scraper spider async web-scraping douyin tiktok fastapi tiktok-scraper tiktok-api douyin-api pywebio tiktok-signature no-watermark online-parsing douyin-tiktok-api douyin-tiktok-download douyin-scraper

UpdatedOct 12, 2025
Python

getmaxun /maxun

Star15.1k

✨ The open-source no-code platform for web scraping, crawling, search and AI data extraction • Turn websites into structured APIs in minutes ✨

api crawler scraper automation crawling web-scraper self-hosted web-scraping data-extraction webscraping agents browser-automation no-code web-search rpa robotic-process-automation nocode playwright

UpdatedFeb 20, 2026
TypeScript

seleniumbase /SeleniumBase

Star12.4k

Python APIs for web automation, testing, and bypassing bot-detection with ease.

python webdriver selenium test-automation pytest web-scraping chromedriver webkit pytest-plugin cdp behave bot-detection web-automation python-scraper selenium-python e2e-testing cloudflare-bypass seleniumbase anti-detection web-scraping-python

UpdatedFeb 20, 2026
Python

yusufkaraaslan /Skill_Seekers

Star9.7k

Convert documentation websites, GitHub repositories, and PDFs into Claude AI skills with automatic conflict detection

github python pdf documentation automation ocr mcp code-analysis web-scraping ast-parser documentation-generator conflict-detection multi-source github-scraper ai-tools claude-ai mcp-server claude-skills

UpdatedFeb 20, 2026
Python

D4Vinci /Scrapling

Sponsor

Star9.1k

🕷️ An adaptive Web Scraping framework that handles everything from a single request to a full-scale crawl!

python crawler data automation ai mcp scraping crawling web-scraper web-scraping selectors xpath data-extraction stealth webscraping crawling-python playwright web-scraping-python ai-scraping mcp-server

UpdatedFeb 18, 2026
Python

mherrmann /helium

Star8.2k

Lighter web automation with Python

python firefox chrome webdriver selenium python3 web-scraping helium web-automation selenium-python

UpdatedFeb 4, 2026
Python

apify /crawlee-python

Star8.1k

Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation.

python crawler scraper automation web-crawler headless scraping crawling pip web-scraping beautifulsoup web-crawling hacktoberfest headless-chrome apify playwright