老八资源网-致力于打造全网最强免费精品资源分享站~
广告合作 我要投稿 联系老八
北城分享 辅助.png 流量卡.png 副业网.jpg 项目zy.jpg
北城分享 辅助.png 流量卡.png 副业网.jpg 项目zy.jpg
当前位置:网站首页 > 软件仓库 > Windows > 正文

Crawl4AI:开源 LLM 友好型 Web 爬虫和抓取工具

作者:老八日期:2024-10-03分类:Windows

Crawl4AI是什么

Crawl4AI 是一款开源的 LLM 友好型 Web 爬虫工具,旨在简化异步 Web 爬取和数据提取,专为大型语言模型 (LLM) 和 AI 应用程序设计。它可以作为 Python 包或通过 Docker 安装,提供灵活的使用方式。Crawl4AI 的主要特点包括支持多 URL 并行爬取、提取所有媒体标签、外部和内部链接、元数据等。它支持自定义钩子、用户代理、页面截图、JavaScript 执行,并能生成结构化的输出,适合各种复杂的爬取场景,工具还具备异步架构和隐私保护功能。

Crawl4AI特点

  • 🆓 完全免费且开源

  • 🚀 性能超快,超越许多付费服务

  • 🤖 LLM 友好的输出格式(JSON、清理的 HTML、markdown)

  • 🌍 支持同时抓取多个 URL

  • 🎨 提取并返回所有媒体标签(图像、音频和视频)

  • 🔗 提取所有外部和内部链接

  • 📚 从页面中提取元数据

  • 🔄 爬取之前用于身份验证、标头和页面修改的自定义钩子

  • 🕵️ 用户代理自定义

  • 🖼️ 截取页面截图

  • 📜 抓取前执行多个自定义 JavaScript

  • 📊 使用 JsonCssExtractionStrategy 生成无需 LLM 的结构化输出

  • 📚 各种分块策略:基于主题、正则表达式、句子等

  • 🧠 高级提取策略:余弦聚类、LLM 等

  • 🎯 CSS 选择器支持精确的数据提取

  • 📝 传递指令/关键字以优化提取

  • 🔒 代理支持,增强隐私和访问

  • 🔄 针对复杂的多页面爬取场景的会话管理

  • 🌐 异步架构,提高性能和可扩展性

Crawl4AI如何安装

Crawl4AI 提供灵活的安装选项,以适应各种用例。您可以将其安装为 Python 包或使用 Docker。

使用 pip 🐍

选择最适合您需求的安装选项:

基本安装

对于基本的网页爬取和抓取任务:

pip install crawl4ai

默认情况下,这将安装 Crawl4AI 的异步版本,使用 Playwright 进行网络爬取。

👉 注意:安装 Crawl4AI 时,安装脚本应自动安装并设置 Playwright。但是,如果遇到任何与 Playwright 相关的错误,则可以使用以下方法之一手动安装它:

  1. 通过命令行:

    playwright install
  2. 如果上述方法不起作用,请尝试这个更具体的命令:

    python -m playwright install chromium

在某些情况下,第二种方法已被证明更为可靠。

同步版本安装

如果您需要使用 Selenium 的同步版本:

pip install crawl4ai[sync]

开发安装

对于计划修改源代码的贡献者:

git clone https://github.com/unclecode/crawl4ai.gitcd crawl4ai
pip install -e .

使用 Docker

我们正在创建 Docker 镜像并将其推送到 Docker Hub。这将提供一种在容器化环境中运行 Crawl4AI 的简便方法。敬请期待更新!

Crawl4AI如何使用

在线体验:在 Colab 中打开

本文链接:https://www.lb1581.xyz/post/8522.html 转载需授权!

下载链接失效或者打不开的记得在评论区留言或者直接联系老八喔!

分享到:

亲!有什么想法呢?
  • 流泪

    0

  • 打酱油

    0

  • 开心

    44

  • 鼓掌

    42

  • 恐怖

    0

暂无评论,来添加一个吧。

取消回复欢迎 发表评论:

Copyright© 老八资源网 只分享精品!

本站资源来自互联网收集,仅供用于学习和交流,我们尊重任何软件和教程作者的版权,请遵循相关法律法规,本站一切资源不代表本站立场
侵权删帖/违法举报/商务合作/投稿等事宜联系QQ2780396291 或飞机:Laoba88Bot