分类 AI技术 中的文章

Agent Zero:打造你的专属AI助理

Agent Zero:一个动态、可定制的AI框架,赋能你的个人助理

Agent Zero 是一个与众不同的 AI 框架,它并非预先定义,而是随着你的使用而有机地成长和学习。它旨在成为一个透明、易读、可理解、可定制和交互式的工具,能够利用你的电脑来完成各项任务。它就像一个通用的个人助理,可以帮你搜集信息、执行命令和代码,与其他智能体协作,尽其所能地完成你给定的任务。

……

阅读全文

CrewAI:角色扮演自主 AI 代理编排框架

CrewAI:用于编排角色扮演自主 AI 代理的框架

CrewAI 是一个 Python 框架,旨在帮助开发者更轻松地创建和管理多代理 AI 系统。它通过提供一个结构化的方式来定义代理、角色、任务以及它们之间的协作方式,从而简化了复杂 AI 任务的自动化。

核心概念:

  • 代理 (Agents): 具有特定角色、目标和背景故事的 AI 实体。
  • 任务 (Tasks): 代理需要完成的具体工作。
  • 团队 (Crews): 由一组代理组成,它们协同工作以完成复杂的任务。
  • 流程 (Flows): 事件驱动的工作流程,提供对复杂自动化的精确控制。

CrewAI 的优势:

……

阅读全文

LLaMA-Factory:统一高效的LLM/VLM微调工具

LLaMA-Factory: 统一高效地微调100+ LLMs & VLMs (ACL 2024)

LLaMA-Factory 是一个强大的工具,旨在简化和加速大规模语言模型(LLMs)和视觉语言模型(VLMs)的微调过程。它支持超过 100 种不同的模型架构,并集成了多种先进的微调技术和优化算法。

项目地址: https://github.com/hiyouga/LLaMA-Factory

核心特性

  • 广泛的模型支持: 支持 LLaMA, LLaVA, Mistral, Mixtral-MoE, Qwen, Qwen2-VL, DeepSeek, Yi, Gemma, ChatGLM, Phi 等超过100个模型。

  • 多种训练方法: 包括 (Continuous) pre-training, (multimodal) supervised fine-tuning, reward modeling, PPO, DPO, KTO, ORPO 等。

    ……

    阅读全文

LLM Function-Calling与模型上下文协议(MCP):构建智能企业系统的双重引擎

LLM Function-Calling与模型上下文协议 (MCP):构建智能企业系统的双重引擎

将大型语言模型 (LLM) 集成到企业系统正在改变企业与其工具和工作流程交互的方式。通过使用自然语言 (NL) 输入来控制复杂操作,LLM 简化了对企业功能的访问,使其更加直观和高效。然而,这种集成需要一个结构良好的方法来处理将提示转换为可操作指令以及执行这些指令。LLM Function-Calling 和模型上下文协议 (MCP) 应运而生,它们各自提供独特且互补的功能。

……

阅读全文

Magentic:让 LLM 与 Python 函数无缝集成

Magentic:无缝集成LLM到Python函数中

Magentic 是一个 Python 库,旨在简化将大型语言模型(LLMs)集成到 Python 代码中的过程。它允许开发者使用 @prompt@chatprompt 装饰器创建函数,这些函数实际上是 LLM 的提示模板,并返回结构化的输出。

核心特性

  • 结构化输出: 支持使用 Pydantic 模型和 Python 内置类型来定义 LLM 函数的输出结构。
  • 流式输出: 支持流式传输结构化输出和函数调用,允许在生成过程中使用它们。
  • LLM辅助重试: 通过 LLM 辅助的重试机制,提高LLM生成符合复杂输出模式结果的可能性。
  • 可观测性: 利用 OpenTelemetry 提供了可观测性,并原生集成了 Pydantic Logfire。
  • 类型注解: 类型注解能与代码检查工具和 IDE 良好配合。
  • 灵活的配置: 支持多种 LLM 提供商,包括 OpenAI、Anthropic 和 Ollama。
  • 其他特性: 包括 Chat Prompting、并行函数调用、视觉能力、格式化和异步支持等。

安装

使用 pip 安装:

……

阅读全文

AI Toolkit:Stable Diffusion 的 AI 脚本工具集

AI Toolkit:各种 AI 脚本,主要用于 Stable Diffusion

ostris/ai-toolkit 是一个 GitHub 仓库, 包含多种 AI 脚本,主要用于 Stable Diffusion 相关任务。该项目使用 MIT 许可证,目前已获得 4.2k star, 470 forks, 59 watching。

主要功能:

  • Stable Diffusion 脚本: 提供各种用于 Stable Diffusion 的脚本和工具。
  • FLUX.1 模型训练: 支持对 FLUX.1 系列模型进行训练,包括 FLUX.1-dev 和 FLUX.1-schnell。
  • LoRA 和 LoKr 训练: 支持 LoRA (Low-Rank Adaptation) 和 LoKr 训练,允许针对特定层进行训练。
  • Gradio UI: 提供一个基于 Gradio 的用户界面,方便用户上传图片、标注、训练和发布 LoRA 模型。
  • UI界面: 基于Node.js 和 React 搭建的WEB UI界面, 它可以让你方便地启动、停止、监控训练任务,也能更容易地开始新的训练模型。该UI还处于早期beta阶段,可能存在bug 并且UI安全性未知,不建议暴露到公网。

安装步骤:

……

阅读全文

Nanobrowser: 开源AI驱动Web自动化Chrome扩展

Nanobrowser:一款开源的AI驱动的Web自动化Chrome扩展

想体验强大的AI网页自动化,但又不想花费OpenAI Operator每月200美元的高昂费用吗?Nanobrowser,这款开源的Chrome扩展,为你提供了一个免费且更灵活的替代方案。

项目地址: https://github.com/nanobrowser/nanobrowser

核心特性

  • **完全免费:**无需订阅,只需安装并使用自己的API密钥,按实际用量付费。
  • **隐私至上:**所有操作都在本地浏览器中运行,保护你的凭证安全。
  • **灵活的LLM选择:**自由选择不同的LLM供应商,为不同的agent分配不同的模型。目前支持OpenAI和Anthropic,未来将支持更多。
  • **完全开源:**透明的自动化过程,告别黑盒操作。
  • 多Agent系统: 特化的AI agents 协同工作,完成复杂的web 工作流。
  • 交互式侧边栏: 直观聊天界面,实时查看状态更新。
  • 任务自动化: 无缝自动化跨网站的重复网络自动化任务。
  • 后续问题: 针对已完成的任务,可以提问上下文后续问题。
  • 对话历史: 轻松访问和管理你的 AI Agent 交互历史。

快速开始

  1. 从Github Release页面下载最新的 nanobrowser.zip 文件。
  2. 在Chrome中打开 chrome://extensions/
  3. 启用开发者模式(右上角)。
  4. 点击“加载已解压的扩展程序”(左上角)。
  5. 选择解压后的 nanobrowser 文件夹。
  6. 点击浏览器工具栏中的Nanobrowser图标打开侧边栏。
  7. 点击设置图标 (右上角)。
  8. 添加你的LLM API keys。
  9. 选择为不同的agent (Navigator, Planner, Validator)使用哪个模型。

从源码构建

如果你想自己构建Nanobrowser,可以按照以下步骤操作:

……

阅读全文

HeyGem.ai:完全离线的AI视频合成工具,打造专属数字形象

HeyGem.ai:一款完全离线的AI视频合成工具,打造你的专属数字形象

HeyGem.ai 是一个开源项目,致力于打造一款完全离线的视频合成工具,它可以在Windows系统上运行,并能精准地克隆你的外貌和声音,实现你的数字形象化。你可以通过文字和语音驱动虚拟形象,创作个性化的视频内容。由于完全离线运行,它能有效保护你的隐私,同时提供便捷高效的数字化体验。

核心功能:

  • 精准的外貌和声音克隆: 使用先进的AI算法捕捉人脸特征,构建逼真的虚拟模型;精准克隆声音,捕捉和重现人声的细微特征,支持各种声音参数设置,创造高相似度的克隆效果。
  • 文本和语音驱动的虚拟形象: 通过自然语言处理技术理解文本内容,将其转化为自然流畅的语音来驱动虚拟形象;也可以直接使用语音输入,让虚拟形象根据语音的节奏和语调执行相应的动作和面部表情,使虚拟形象的表演更加自然生动。
  • 高效的视频合成: 高度同步数字人视频图像和声音,实现自然流畅的口型同步,智能优化音视频同步效果。
  • 多语言支持: 脚本支持八种语言,包括英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

主要优势:

……

阅读全文

AstrBot:易上手、多平台 LLM 聊天机器人及开发框架

AstrBot:一款易上手的多平台 LLM 聊天机器人及开发框架

AstrBot 是一款开源的聊天机器人及开发框架,旨在让用户能够轻松地构建和部署基于大型语言模型 (LLM) 的聊天机器人。

主要特点:

  • 多平台支持: 支持 QQ、QQ 频道、Telegram、微信、企微、飞书等多个消息平台。
  • LLM 集成: 支持 OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等多种 LLM,以及本地部署的大模型。
  • Agent 能力: 原生支持代码执行器、自然语言待办、网页搜索等 Agent 能力,并可对接 Dify 平台。
  • 插件扩展: 拥有高度优化的插件系统,方便开发者扩展功能。
  • 可视化管理面板: 提供可视化配置、插件管理和日志查看功能,降低使用门槛。
  • 高稳定性、高模块化: 采用事件总线和流水线架构,实现高度模块化和低耦合。

功能亮点:

……

阅读全文

olmOCR:大语言模型PDF处理开源工具包

olmOCR:用于大语言模型数据集/训练的PDF线性化工具包

olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 旗下的 AllenNLP 团队开发并维护的开源工具包,旨在帮助研究人员和开发人员构建能够更好地处理 “wild” PDF 文档的大语言模型 (LLM)。

项目地址: https://github.com/allenai/olmocr

主要功能:

  • 自然文本解析: 提供了一种 prompting 策略,可以利用 ChatGPT 4o 实现高质量的自然文本解析。 (通过 buildsilver.py 实现)
  • 评估工具: 提供了一个 side-by-side eval 工具包,用于比较不同pipeline版本的效果。(通过runeval.py实现)
  • 数据清洗: 具备基础的 语言过滤 和 SEO 垃圾信息移除功能。(通过filter.py实现)
  • 模型微调: 提供 Qwen2-VL 和 Molmo-O 模型微调代码。(通过train.py实现)
  • 大规模处理: 支持使用 Sglang 处理数百万个 PDF 文档,并提供使用 finetuned 模型的示例。(通过pipeline.py实现)
  • 结果查看: 提供 Dolma 文档查看器,方便浏览从 PDF 中提取的内容。(通过dolmaviewer.py实现)

安装与使用:

……

阅读全文

最近文章

分类

标签

Agent AgentGPT AI AI Agent AI Agents AI Development AI Models AI 应用 AI 搜索引擎 AI 智能体 AI 框架 AI 赋能 AI代理 AI工具 AI应用 AI换装 AI文档处理 AI框架 AI绘图 AI编程助手 AI翻译 AI虚拟角色 AI视觉 AI视频 AI视频合成 AI辅助 AI驱动 API API开发 API测试 Article Generation Audio Audio Processing Audio Transcription Authentication AutoGen Automation Bert Blog Caddy Canvas Centos Cheat Sheet Cheat Sheets Checkmate Chrome Chrome扩展 Chrome插件 Chromium自动化 Command-Line Commix CPU CPU优化 Crawling CrewAI CSS动画 CTranslate2 Curl Cursor AI Cursor AI免费试用限制 Cursor IDE Data Channel Data Extraction Debian Deep Learning Deepfake Developer Tools DevOps DIY Docker Docker Hub限流 Docker注册表代理 Docker镜像加速 DOMPurify Download Emotional Synthesis ESP32 Extension Face Swapping FastAPI FastRTC Few-Shot Learning FFmpeg File Transfer Firefox Translations Freqtrade Frontmatter Function-Calling Git Github GitHub项目 Golang GOT-OCR2.0 Go语言 GPT定制 Gradio UI Helium Hexo Hitomi-Downloader HLS Hoppscotch HTML HTML Sanitization HTML5 视频播放器 HTML文件 HTTP Live Streaming Http Proxy HTTP 调试 Httpdbg HTTPS Hugging Face Huggingface Hugo Hugo Theme Stack Image Translation Iphone Java JavaScript JSON Kubectl Langflow LangGraph Large Language Model Library Linux Linux命令 LiveKit LLM LLM Integration LLM入门 LLM微调 LoRA Lora模型 Mac Machine Learning Magentic MagicMirror² Manga Translation Markdown MAS (Microsoft Activation Scripts) Matplotlib Meilisearch Midscene.js MiniMind MoneyPrinterTurbo Monolith Mtls MTranServer Multi-Agent Systems Multi-Lingual Nari Labs Dia Networking NFS Nginx Nginx代理 Ngrok Node.js OAuth Obsidian OCR OIDC Ollama OlmOCR Open Source OpenAI OpenAI Whisper OpenResty Openvpn OWL框架 Pandas Pdf PDF处理 PDF翻译 Peer Connection Peer-to-Peer Pigo Plyr Postman替代 PowerShell脚本 Prompt Engineering Prompt Injection Proxy.py Pydoll Python Python Framework Python GUI Python Library Python工具 Python库 Python框架 Pywebview QuantumultX RAG Realtime Transcription Reinforcement Learning REST API RTMP Rust SciPy Scripting SEC EDGAR Security Selenium SeleniumBase Shadowsocks ShareDrop Shell Socks5 SOTA Speaker Diarization Speaker Embedding Speech Recognition SQLite Ssh SSL证书 Stable Diffusion Story-Flicks Streaming Streamlit Swarms框架 Tcp Telnet Terraform Text-to-Speech Transcription TTS Ubuntu UFW UI 测试 UI自动化测试 Vector Search Video Chat Video Server VLM微调 Voice Activity Detection Voice Activity Detection (VAD) Voice Assistant Voice Assistants Voice Cloning Voice Conversion VTuber Wake Word Detection Web Clipper Web Development Web Scraping Web 自动化 WebDriver WebdriverIO WebGL WebRTC WebSocket WebUI Web开发 Web技术 Web服务器 Web管理 Web自动化 Whisper Wikipedia Windows 10 Windows Activation Windows优化 WordPress XML XSS YAML YouTube Yt-Dlp Yum Zapier替代方案 Zotero插件 下载工具 个人云存储 个人助理 个性化定制 书签 书签管理 云计算 交易机器人 人工智能 人脸检测 代理工具 代理服务器 代码分析 代码安全 代码工具 代码提示词生成 代码智能体 代码编写工具 任务自动化 企业系统集成 企业级应用 低代码/无代码 低代码/无代码 低延迟 低资源占用 信息检索 信息管理 元数据管理 光学字符识别 光学字符识别(OCR) 全文搜索 公众号文章同步 内容创作 凝视检测 分流 创意工具 前端技术 加密货币交易 动态密码 动画 协同办公 博客主题 卡片式布局 反向代理 可定制 命令注入 命令行 命令行工具 回测引擎 图像处理 图像生成 图数据库 图片编辑 在线工具 在线赚钱 基础设施即代码 (IaC) 基础设施监控 声音克隆 多 Agent 多协议支持 多平台 多平台支持 多智能体 多智能体协作 多智能体系统 多模态LLM 多语言 多语言支持 大型语言模型 大型语言模型(LLM) 大模型训练 大语言模型 大语言模型(LLM) 姿态迁移 学术研究 学术论文 实时同声传译 实时数据处理 实时语音理解 实时通信 家居科技 对冲基金 对话生成 屏幕朗读 峰值检测 工作流程自动化 工具 工具包 广告屏蔽 开发工具 开发者工具 开源 开源工具 开源框架 开源模型 开源软件 开源项目 异步 异步编程 微调 微软 微软商店 快速响应 快速生成 情感控制 批量下载 技术指标 投资工具 投资策略 报警系统 排版 搜索引擎 故障排除 效率优化 效率提升 数字分身 数字形象 数据分析 数据处理 数据备份 数据安全 数据清洗 数据生成 文件格式转换 文本处理 文本转语音 文本转语音 (TTS) 文档转换 文档预处理 文献翻译 文章同步助手 易用 智能体协作 智能体开发 智能魔镜 有声书 服务器监控 服务器管理 本地部署 机器人模拟 机器学习 机器学习模型 机器翻译 桌面应用开发 模型上下文协议(MCP) 模型微调 模型服务引擎 模型训练 模型部署 正常运行时间监控 注册表设置 浏览器API 浏览器图片工具 浏览器应用 浏览器端 浏览器自动化 深度学习 渗透测试 漏洞利用 照片管理 物理引擎 独立开发 独立开发者 生成式AI 电子书 知识图谱 知识库 知识库构建 知识提取 知识获取 短视频 短视频生成 硬件开发 神经机器翻译(NMT) 离线token 离线图片处理 离线支付 离线浏览 离线运行 私有部署 端到端模型 端到端测试 简历生成器 简易部署 算法交易 算法比较 系统监控 系统管理员 系统精简 组策略 细节控制 终端命令 编程框架 编程语言 编译器 网站爬虫 网络安全 网络爬虫 网络营销 网络请求 网页保存 网页抓取 网页爬虫 群智协同 翻译工具 聊天机器人 聊天记录导出 职场摸鱼 股市行情 股票监控 股票软件 背景移除 自主 AI Agent 自动化 自动化交易 自动化工具 自动化测试 自动证书管理 自定义 自托管 自托管应用 自然语言处理 自然语言处理(NLP) 自然语言编程 英语学习 英语考试 英语词汇 虚拟形象 视频下载 视频制作 视频生成 视频管理 解析器 证件照 词库 语言模型 语音AI 语音克隆 语音合成 语音对话 语音机器人 语音识别 调试工具 资源下载 跨平台 跨平台应用 转折点检测 软件安装 软件源 软件破解工具 轻量级 轻量级模型 速查表 邮件安全 邮件服务器 配置 重写 量化交易 金融 金融数据分析 镜像缓存 防火墙 隐私保护 静态网站生成器 音乐生成 音频处理 项目管理 高吞吐量 高性能 高性能交易平台 高性能计算 高效 高效搜索 高画质

友情链接

其它