老八资源网-致力于打造全网最强免费精品资源分享站~

广告合作 我要投稿 联系老八

当前位置：网站首页 > 软件仓库 > Windows > 正文

Crawl4AI：开源 LLM 友好型 Web 爬虫和抓取工具

作者：老八日期：2024-10-03分类：Windows

Crawl4AI是什么

Crawl4AI 是一款开源的 LLM 友好型 Web 爬虫工具，旨在简化异步 Web 爬取和数据提取，专为大型语言模型 (LLM) 和 AI 应用程序设计。它可以作为 Python 包或通过 Docker 安装，提供灵活的使用方式。Crawl4AI 的主要特点包括支持多 URL 并行爬取、提取所有媒体标签、外部和内部链接、元数据等。它支持自定义钩子、用户代理、页面截图、JavaScript 执行，并能生成结构化的输出，适合各种复杂的爬取场景，工具还具备异步架构和隐私保护功能。

Crawl4AI特点

🆓 完全免费且开源
🚀 性能超快，超越许多付费服务
🤖 LLM 友好的输出格式（JSON、清理的 HTML、markdown）
🌍 支持同时抓取多个 URL
🎨 提取并返回所有媒体标签（图像、音频和视频）
🔗 提取所有外部和内部链接
📚 从页面中提取元数据
🔄 爬取之前用于身份验证、标头和页面修改的自定义钩子
🕵️ 用户代理自定义
🖼️ 截取页面截图
📜 抓取前执行多个自定义 JavaScript
📊 使用 JsonCssExtractionStrategy 生成无需 LLM 的结构化输出
📚 各种分块策略：基于主题、正则表达式、句子等
🧠 高级提取策略：余弦聚类、LLM 等
🎯 CSS 选择器支持精确的数据提取
📝 传递指令/关键字以优化提取
🔒 代理支持，增强隐私和访问
🔄 针对复杂的多页面爬取场景的会话管理
🌐 异步架构，提高性能和可扩展性

Crawl4AI如何安装

Crawl4AI 提供灵活的安装选项，以适应各种用例。您可以将其安装为 Python 包或使用 Docker。

使用 pip 🐍

选择最适合您需求的安装选项：

基本安装

对于基本的网页爬取和抓取任务：

pip install crawl4ai

默认情况下，这将安装 Crawl4AI 的异步版本，使用 Playwright 进行网络爬取。

👉 注意：安装 Crawl4AI 时，安装脚本应自动安装并设置 Playwright。但是，如果遇到任何与 Playwright 相关的错误，则可以使用以下方法之一手动安装它：

通过命令行：
```
playwright install
```
如果上述方法不起作用，请尝试这个更具体的命令：
```
python -m playwright install chromium
```

在某些情况下，第二种方法已被证明更为可靠。

同步版本安装

如果您需要使用 Selenium 的同步版本：

pip install crawl4ai[sync]

开发安装

对于计划修改源代码的贡献者：

git clone https://github.com/unclecode/crawl4ai.gitcd crawl4ai
pip install -e .

使用 Docker

我们正在创建 Docker 镜像并将其推送到 Docker Hub。这将提供一种在容器化环境中运行 Crawl4AI 的简便方法。敬请期待更新！

Crawl4AI如何使用

在线体验：在 Colab 中打开

本文链接：https://www.lb1581.xyz/post/8522.html 转载需授权!

下载链接失效或者打不开的记得在评论区留言或者直接联系老八喔！

分享到：

亲！有什么想法呢？

流泪
0人
打酱油
0人
开心
44人
鼓掌
42人
恐怖
0人

猜你还喜欢

04-22 Ungoogled-Chromium v135.0.7049.95-1.1
04-22 如快(sofast) v0.4.7
04-22 Readest(电子书阅读器) v0.9.36
04-22 Tuboshu(桌面应用转换工具) v2.0.5
04-22 EasyTidy(文件整理工具) v1.3.1.420
04-22 qBittorrent(BT种子下载器) v5.0.5.10 便携版
04-22 微信PC v4.0.3.42 官方版
04-22 Fan Control(风扇控制工具) v220 绿色版
04-22 By Click Downloader(视频下载器) v2.4.20 中文版
04-22 Balabolka(文本转语音) v2.15.0.893 绿色版
04-22 PhotoScissors(AI智能抠图工具) v9.3.0 绿色汉化版
04-22 MPC-BE(媒体播放器) v1.8.4 正式版

暂无评论，来添加一个吧。

取消回复欢迎你发表评论:

搜一搜，看一看

最新文章
热评文章
热门文章

本站资源来自互联网收集，仅供用于学习和交流，我们尊重任何软件和教程作者的版权，请遵循相关法律法规，本站一切资源不代表本站立场

侵权删帖/违法举报/商务合作/投稿等事宜联系QQ2780396291 或飞机：Laoba88Bot