LLaMA-Factory:统一高效的LLM/VLM微调工具

LLaMA-Factory: 统一高效地微调100+ LLMs & VLMs (ACL 2024)

LLaMA-Factory 是一个强大的工具,旨在简化和加速大规模语言模型(LLMs)和视觉语言模型(VLMs)的微调过程。它支持超过 100 种不同的模型架构,并集成了多种先进的微调技术和优化算法。

项目地址: https://github.com/hiyouga/LLaMA-Factory

核心特性

  • 广泛的模型支持: 支持 LLaMA, LLaVA, Mistral, Mixtral-MoE, Qwen, Qwen2-VL, DeepSeek, Yi, Gemma, ChatGLM, Phi 等超过100个模型。

  • 多种训练方法: 包括 (Continuous) pre-training, (multimodal) supervised fine-tuning, reward modeling, PPO, DPO, KTO, ORPO 等。

    ……

阅读全文

LLM Function-Calling与模型上下文协议(MCP):构建智能企业系统的双重引擎

LLM Function-Calling与模型上下文协议 (MCP):构建智能企业系统的双重引擎

将大型语言模型 (LLM) 集成到企业系统正在改变企业与其工具和工作流程交互的方式。通过使用自然语言 (NL) 输入来控制复杂操作,LLM 简化了对企业功能的访问,使其更加直观和高效。然而,这种集成需要一个结构良好的方法来处理将提示转换为可操作指令以及执行这些指令。LLM Function-Calling 和模型上下文协议 (MCP) 应运而生,它们各自提供独特且互补的功能。

……

阅读全文

Magentic:让 LLM 与 Python 函数无缝集成

Magentic:无缝集成LLM到Python函数中

Magentic 是一个 Python 库,旨在简化将大型语言模型(LLMs)集成到 Python 代码中的过程。它允许开发者使用 @prompt@chatprompt 装饰器创建函数,这些函数实际上是 LLM 的提示模板,并返回结构化的输出。

核心特性

  • 结构化输出: 支持使用 Pydantic 模型和 Python 内置类型来定义 LLM 函数的输出结构。
  • 流式输出: 支持流式传输结构化输出和函数调用,允许在生成过程中使用它们。
  • LLM辅助重试: 通过 LLM 辅助的重试机制,提高LLM生成符合复杂输出模式结果的可能性。
  • 可观测性: 利用 OpenTelemetry 提供了可观测性,并原生集成了 Pydantic Logfire。
  • 类型注解: 类型注解能与代码检查工具和 IDE 良好配合。
  • 灵活的配置: 支持多种 LLM 提供商,包括 OpenAI、Anthropic 和 Ollama。
  • 其他特性: 包括 Chat Prompting、并行函数调用、视觉能力、格式化和异步支持等。

安装

使用 pip 安装:

……

阅读全文

AI Toolkit:Stable Diffusion 的 AI 脚本工具集

AI Toolkit:各种 AI 脚本,主要用于 Stable Diffusion

ostris/ai-toolkit 是一个 GitHub 仓库, 包含多种 AI 脚本,主要用于 Stable Diffusion 相关任务。该项目使用 MIT 许可证,目前已获得 4.2k star, 470 forks, 59 watching。

主要功能:

  • Stable Diffusion 脚本: 提供各种用于 Stable Diffusion 的脚本和工具。
  • FLUX.1 模型训练: 支持对 FLUX.1 系列模型进行训练,包括 FLUX.1-dev 和 FLUX.1-schnell。
  • LoRA 和 LoKr 训练: 支持 LoRA (Low-Rank Adaptation) 和 LoKr 训练,允许针对特定层进行训练。
  • Gradio UI: 提供一个基于 Gradio 的用户界面,方便用户上传图片、标注、训练和发布 LoRA 模型。
  • UI界面: 基于Node.js 和 React 搭建的WEB UI界面, 它可以让你方便地启动、停止、监控训练任务,也能更容易地开始新的训练模型。该UI还处于早期beta阶段,可能存在bug 并且UI安全性未知,不建议暴露到公网。

安装步骤:

……

阅读全文

Nanobrowser: 开源AI驱动Web自动化Chrome扩展

Nanobrowser:一款开源的AI驱动的Web自动化Chrome扩展

想体验强大的AI网页自动化,但又不想花费OpenAI Operator每月200美元的高昂费用吗?Nanobrowser,这款开源的Chrome扩展,为你提供了一个免费且更灵活的替代方案。

项目地址: https://github.com/nanobrowser/nanobrowser

核心特性

  • **完全免费:**无需订阅,只需安装并使用自己的API密钥,按实际用量付费。
  • **隐私至上:**所有操作都在本地浏览器中运行,保护你的凭证安全。
  • **灵活的LLM选择:**自由选择不同的LLM供应商,为不同的agent分配不同的模型。目前支持OpenAI和Anthropic,未来将支持更多。
  • **完全开源:**透明的自动化过程,告别黑盒操作。
  • 多Agent系统: 特化的AI agents 协同工作,完成复杂的web 工作流。
  • 交互式侧边栏: 直观聊天界面,实时查看状态更新。
  • 任务自动化: 无缝自动化跨网站的重复网络自动化任务。
  • 后续问题: 针对已完成的任务,可以提问上下文后续问题。
  • 对话历史: 轻松访问和管理你的 AI Agent 交互历史。

快速开始

  1. 从Github Release页面下载最新的 nanobrowser.zip 文件。
  2. 在Chrome中打开 chrome://extensions/
  3. 启用开发者模式(右上角)。
  4. 点击“加载已解压的扩展程序”(左上角)。
  5. 选择解压后的 nanobrowser 文件夹。
  6. 点击浏览器工具栏中的Nanobrowser图标打开侧边栏。
  7. 点击设置图标 (右上角)。
  8. 添加你的LLM API keys。
  9. 选择为不同的agent (Navigator, Planner, Validator)使用哪个模型。

从源码构建

如果你想自己构建Nanobrowser,可以按照以下步骤操作:

……

阅读全文

HeyGem.ai:完全离线的AI视频合成工具,打造专属数字形象

HeyGem.ai:一款完全离线的AI视频合成工具,打造你的专属数字形象

HeyGem.ai 是一个开源项目,致力于打造一款完全离线的视频合成工具,它可以在Windows系统上运行,并能精准地克隆你的外貌和声音,实现你的数字形象化。你可以通过文字和语音驱动虚拟形象,创作个性化的视频内容。由于完全离线运行,它能有效保护你的隐私,同时提供便捷高效的数字化体验。

核心功能:

  • 精准的外貌和声音克隆: 使用先进的AI算法捕捉人脸特征,构建逼真的虚拟模型;精准克隆声音,捕捉和重现人声的细微特征,支持各种声音参数设置,创造高相似度的克隆效果。
  • 文本和语音驱动的虚拟形象: 通过自然语言处理技术理解文本内容,将其转化为自然流畅的语音来驱动虚拟形象;也可以直接使用语音输入,让虚拟形象根据语音的节奏和语调执行相应的动作和面部表情,使虚拟形象的表演更加自然生动。
  • 高效的视频合成: 高度同步数字人视频图像和声音,实现自然流畅的口型同步,智能优化音视频同步效果。
  • 多语言支持: 脚本支持八种语言,包括英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

主要优势:

……

阅读全文

Cursor Export:导出你的 Cursor IDE 聊天记录和编辑器数据

Cursor Export:导出你的 Cursor IDE 聊天记录和编辑器数据

在使用 Cursor IDE 的过程中,你是否希望能够方便地导出你的聊天记录和编辑器数据,进行备份、分享或者进一步分析呢?现在,cursor-export 这个命令行工具就能帮你轻松实现!

cursor-export 是一款用于从 Cursor IDE 导出聊天历史和编辑器数据的实用工具。它能帮你将宝贵的聊天记录保存为多种格式,方便你随时查阅和利用。

……

阅读全文

Commix: 自动化命令注入漏洞利用利器

Commix:自动化 OS 命令注入漏洞利用工具

Commix (Command Injection Exploiter) 是一个开源的渗透测试工具,由 Anastasios Stasinopoulos (@ancst) 开发,旨在自动化检测和利用命令注入漏洞。

主要功能:

  • 自动化检测和利用命令注入漏洞
  • 支持多种平台
  • 提供丰富的用户手册和使用示例
  • 支持多种语言的翻译

安装:

你可以通过克隆官方 Git 仓库来下载 commix:

$ git clone https://github.com/commixproject/commix.git commix

或者,你也可以下载最新的 tarball 或 zipball。

注意: 运行 commix 需要 Python (版本 2.6, 2.7 或 3.x)。

……

阅读全文

AI驱动的对冲基金概念验证项目

AI驱动的对冲基金:一个概念验证项目

近年来,人工智能在金融领域的应用日益广泛。一个名为ai-hedge-fund的开源项目,展示了如何利用AI构建对冲基金的概念验证。该项目旨在探索使用AI进行交易决策的可能性,但仅供教育目的,不应用于实际交易或投资。

项目概述

ai-hedge-fund项目通过模拟一个由多个AI Agent组成的团队,做出交易决策。这些Agent模仿了不同投资大师的策略,协同工作,从而实现投资组合的管理。

……

阅读全文

Imich:你的自托管高性能照片和视频管理利器

Imich:高性能的自托管照片和视频管理解决方案

近年来,随着个人数据安全意识的提高,越来越多的人开始选择将数据存储在自己掌控的服务器上。Imich 是一款开源的自托管照片和视频管理解决方案,可以让你拥有如同 Google Photos 一般的体验,但数据完全掌握在自己手中。

项目简介

Imich 旨在提供一个高性能、易于使用的平台,用于存储、管理和分享你的照片和视频。

  • 核心功能:
    • 上传、查看和管理照片与视频。
    • 自动备份(移动端)。
    • 重复照片检测。
    • 相册和共享相册。
    • 支持 RAW 格式。
    • 元数据查看 (EXIF, 地图)。
    • 基于元数据、物体、人脸和 CLIP 的搜索。
    • 时间线滚动浏览
    • 用户定义存储结构
    • 公共共享
    • 合作共享
    • 面部识别和聚类
    • 标签
  • 多平台支持:
    • Web 界面
    • 移动 App (iOS 和 Android)
  • 技术栈:
    • 后端: NestJS
    • 前端: SvelteKit、Flutter
    • 编程语言:Typescript、Dart。

功能特性对比 (Web vs. Mobile)

功能 Web Mobile
上传和查看视频与照片 Yes Yes
自动备份 N/A Yes
防止资源重复 Yes Yes
选择性相册备份 N/A Yes
下载照片与视频到本地设备 Yes Yes
多用户支持 Yes Yes
相册和共享相册 Yes Yes
可拖动滚动条 Yes Yes
支持 RAW 格式 Yes Yes
元数据视图 (EXIF, map) Yes Yes
按元数据、对象、人脸和 CLIP 搜索 Yes Yes
管理功能 (用户管理) Yes No
后台备份 N/A Yes
虚拟滚动 Yes Yes
OAuth 支持 Yes Yes
API 密钥 Yes N/A
LivePhoto/MotionPhoto 备份和播放 Yes Yes
支持 360 度图像显示 Yes No
用户自定义存储结构 Yes Yes
公共分享 Yes Yes
归档和收藏夹 Yes Yes
全球地图 Yes Yes
合作分享 Yes Yes
人脸识别和聚类 Yes Yes
“X 年前” 回忆 Yes Yes
离线支持 No Yes
只读图库 Yes Yes
堆叠照片 Yes Yes
标签 Yes No
文件夹视图 Yes No

快速上手

你可以访问 Imich 官方网站 https://immich.app/ 获取更多信息,包括安装指南。 你也可以访问官方Demo体验: https://demo.immich.app/ 用户名:demo@immich.app 密码:demo

……

阅读全文

最近文章

分类

标签

Agent AgentGPT AI AI Agent AI Agents AI Development AI Models AI 应用 AI 搜索引擎 AI 智能体 AI 框架 AI 赋能 AI代理 AI工具 AI应用 AI换装 AI文档处理 AI框架 AI绘图 AI编程助手 AI翻译 AI虚拟角色 AI视觉 AI视频 AI视频合成 AI辅助 AI驱动 API API开发 API测试 Article Generation Audio Audio Processing Audio Transcription Authentication AutoGen Automation Bert Blog Caddy Canvas Centos Cheat Sheet Cheat Sheets Checkmate Chrome Chrome扩展 Chrome插件 Chromium自动化 Command-Line Commix CPU CPU优化 Crawling CrewAI CSS动画 CTranslate2 Curl Cursor AI Cursor AI免费试用限制 Cursor IDE Data Channel Data Extraction Debian Deep Learning Deepfake Developer Tools DevOps DIY Docker Docker Hub限流 Docker注册表代理 Docker镜像加速 DOMPurify Download Emotional Synthesis ESP32 Extension Face Swapping FastAPI FastRTC Few-Shot Learning FFmpeg File Transfer Firefox Translations Freqtrade Frontmatter Function-Calling Git Github GitHub项目 Golang GOT-OCR2.0 Go语言 GPT定制 Gradio UI Helium Hexo Hitomi-Downloader HLS Hoppscotch HTML HTML Sanitization HTML5 视频播放器 HTML文件 HTTP Live Streaming Http Proxy HTTP 调试 Httpdbg HTTPS Hugging Face Huggingface Hugo Hugo Theme Stack Image Translation Iphone Java JavaScript JSON Kubectl Langflow LangGraph Large Language Model Library Linux Linux命令 LiveKit LLM LLM Integration LLM入门 LLM微调 LoRA Lora模型 Mac Machine Learning Magentic MagicMirror² Manga Translation Markdown MAS (Microsoft Activation Scripts) Matplotlib Meilisearch Midscene.js MiniMind MoneyPrinterTurbo Monolith Mtls MTranServer Multi-Agent Systems Multi-Lingual Nari Labs Dia Networking NFS Nginx Nginx代理 Ngrok Node.js OAuth Obsidian OCR OIDC Ollama OlmOCR Open Source OpenAI OpenAI Whisper OpenResty Openvpn OWL框架 Pandas Pdf PDF处理 PDF翻译 Peer Connection Peer-to-Peer Pigo Plyr Postman替代 PowerShell脚本 Prompt Engineering Prompt Injection Proxy.py Pydoll Python Python Framework Python GUI Python Library Python工具 Python库 Python框架 Pywebview QuantumultX RAG Realtime Transcription Reinforcement Learning REST API RTMP Rust SciPy Scripting SEC EDGAR Security Selenium SeleniumBase Shadowsocks ShareDrop Shell Socks5 SOTA Speaker Diarization Speaker Embedding Speech Recognition SQLite Ssh SSL证书 Stable Diffusion Story-Flicks Streaming Streamlit Swarms框架 Tcp Telnet Terraform Text-to-Speech Transcription TTS Ubuntu UFW UI 测试 UI自动化测试 Vector Search Video Chat Video Server VLM微调 Voice Activity Detection Voice Activity Detection (VAD) Voice Assistant Voice Assistants Voice Cloning Voice Conversion VTuber Wake Word Detection Web Clipper Web Development Web Scraping Web 自动化 WebDriver WebdriverIO WebGL WebRTC WebSocket WebUI Web开发 Web技术 Web服务器 Web管理 Web自动化 Whisper Wikipedia Windows 10 Windows Activation Windows优化 WordPress XML XSS YAML YouTube Yt-Dlp Yum Zapier替代方案 Zotero插件 下载工具 个人云存储 个人助理 个性化定制 书签 书签管理 云计算 交易机器人 人工智能 人脸检测 代理工具 代理服务器 代码分析 代码安全 代码工具 代码提示词生成 代码智能体 代码编写工具 任务自动化 企业系统集成 企业级应用 低代码/无代码 低代码/无代码 低延迟 低资源占用 信息检索 信息管理 元数据管理 光学字符识别 光学字符识别(OCR) 全文搜索 公众号文章同步 内容创作 凝视检测 分流 创意工具 前端技术 加密货币交易 动态密码 动画 协同办公 博客主题 卡片式布局 反向代理 可定制 命令注入 命令行 命令行工具 回测引擎 图像处理 图像生成 图数据库 图片编辑 在线工具 在线赚钱 基础设施即代码 (IaC) 基础设施监控 声音克隆 多 Agent 多协议支持 多平台 多平台支持 多智能体 多智能体协作 多智能体系统 多模态LLM 多语言 多语言支持 大型语言模型 大型语言模型(LLM) 大模型训练 大语言模型 大语言模型(LLM) 姿态迁移 学术研究 学术论文 实时同声传译 实时数据处理 实时语音理解 实时通信 家居科技 对冲基金 对话生成 屏幕朗读 峰值检测 工作流程自动化 工具 工具包 广告屏蔽 开发工具 开发者工具 开源 开源工具 开源框架 开源模型 开源软件 开源项目 异步 异步编程 微调 微软 微软商店 快速响应 快速生成 情感控制 批量下载 技术指标 投资工具 投资策略 报警系统 排版 搜索引擎 故障排除 效率优化 效率提升 数字分身 数字形象 数据分析 数据处理 数据备份 数据安全 数据清洗 数据生成 文件格式转换 文本处理 文本转语音 文本转语音 (TTS) 文档转换 文档预处理 文献翻译 文章同步助手 易用 智能体协作 智能体开发 智能魔镜 有声书 服务器监控 服务器管理 本地部署 机器人模拟 机器学习 机器学习模型 机器翻译 桌面应用开发 模型上下文协议(MCP) 模型微调 模型服务引擎 模型训练 模型部署 正常运行时间监控 注册表设置 浏览器API 浏览器图片工具 浏览器应用 浏览器端 浏览器自动化 深度学习 渗透测试 漏洞利用 照片管理 物理引擎 独立开发 独立开发者 生成式AI 电子书 知识图谱 知识库 知识库构建 知识提取 知识获取 短视频 短视频生成 硬件开发 神经机器翻译(NMT) 离线token 离线图片处理 离线支付 离线浏览 离线运行 私有部署 端到端模型 端到端测试 简历生成器 简易部署 算法交易 算法比较 系统监控 系统管理员 系统精简 组策略 细节控制 终端命令 编程框架 编程语言 编译器 网站爬虫 网络安全 网络爬虫 网络营销 网络请求 网页保存 网页抓取 网页爬虫 群智协同 翻译工具 聊天机器人 聊天记录导出 职场摸鱼 股市行情 股票监控 股票软件 背景移除 自主 AI Agent 自动化 自动化交易 自动化工具 自动化测试 自动证书管理 自定义 自托管 自托管应用 自然语言处理 自然语言处理(NLP) 自然语言编程 英语学习 英语考试 英语词汇 虚拟形象 视频下载 视频制作 视频生成 视频管理 解析器 证件照 词库 语言模型 语音AI 语音克隆 语音合成 语音对话 语音机器人 语音识别 调试工具 资源下载 跨平台 跨平台应用 转折点检测 软件安装 软件源 软件破解工具 轻量级 轻量级模型 速查表 邮件安全 邮件服务器 配置 重写 量化交易 金融 金融数据分析 镜像缓存 防火墙 隐私保护 静态网站生成器 音乐生成 音频处理 项目管理 高吞吐量 高性能 高性能交易平台 高性能计算 高效 高效搜索 高画质

友情链接

其它