AI开发平台

共 329 篇网址

AI开发平台分类页汇集了各种人工智能开发平台、工具和服务，为广大视频创作者、自媒体人、企业用户和开发者提供一站式资源导航。无论您需要机器学习平台、深度学习框架还是AI云服务，这里都能快速找到所需，助您加速AI项目研发。

DDColor

让尘封的影像重获新生，DDColor开启智能着色新时代

03920

AI开源项目 # AI图像着色 # 动漫场景转换 # 开源工具

Real-ESRGAN

AI图像修复领域的开源突破者

04650

AI开源项目 # AI图像修复 # 动漫视频增强 # 开源AI工具

Ovis1.6

多模态大语言模型领域的开源革命者，用结构对齐技术实现视觉与语言的精准对话

01960

AI开源项目 # HuggingFace集成 # 图像识别 # 多模态大模型

DemoFusion

要我说这项目最绝的地方，是它把学术界的前沿成果真正落在了实处。不同于那些只能跑benchmark的论文，他们的项目主页直接给出现成的工作流，连Colab新手都能三天上手——这才是真正的技术民主化！

03880

AI开源项目 # ControlNet兼容 # 开源AI框架 # 开源社区的高分辨率图像革命，消费级显卡也能生成4K级AI图像 DemoFusion

Draw an Audio

Draw an Audio通过多模态指令系统实现精准的视频到音频合成，开创音效创作新模式

02770

AI开源项目 # AI音效分层编辑 # 多指令控制技术 # 开源音频数据集

ActAnywhere

全球首款实现电影级人景互动的AI视频生成解决方案

03260

AI开源项目 # AI影视特效 # 动态光照模拟 # 多主体协同渲染

FineVideo

开源多模态训练领域的里程碑式资源库

03180

AI开源项目 # AI视频分析 # 多模态AI训练 # 开源视频数据集

Vary-toy

专业级视觉语言处理消费级硬件需求多模态文档转换科研效率工具工业级物体识别

02650

AI开源项目 # 多模态任务处理 # 开源视觉语言模型 # 文档OCR技术

abab-music-1

MiniMax AI通过海螺智能平台突破创意门槛，让文字、音乐、视频创作像发朋友圈一样简单

03410

AI开源项目 # 全链路音乐制作 # 多语种情感语音 # 海螺智能平台

Lepton Search

Lepton Search是一个开源的对话式搜索引擎，开发者可用不到500行代码快速构建类Perplexity的AI驱动搜索工具，支持谷歌/Bing并集成RAG技术。

03440

AI开源项目 # AI驱动搜索 # Python代码构建搜索系统 # RAG引擎

Follow Your Pose

Follow Your Pose

通过姿势与文字的双重指引生成可编辑风格化视频

02920

AI开源项目 # AI动作捕捉 # 多风格模型 # 姿势引导视频生成

IP-Adapter

IP-Adapter：无需代码就能实现的跨模态AI图像生成方案

03000

AI开源项目 # 图像提示技术 # 多模态生成 # 开源AI工具

OLMo

全栈开源的AI大模型框架，推动技术民主化的关键基石

02790

AI开源项目 # 开源语言模型 # 指令调优方案 # 模型量化技术

MetaGPT

MetaGPT将复杂软件开发流程压缩成一键式智能协作，重新定义AI辅助开发的生产力边界

01620

AI开源项目 # 全流程项目管理 # 复杂需求解析 # 多角色协同开发

PDF2Audio

能随时随地"听论文"的感觉有多爽？这么说吧，现在我的运动手环都统计到——用PDF2Audio后思维活跃度提升46%，真是学习工作两开花！

03620

AI开源项目 # AI生成播客 # PDF转音频工具 # 多语言语音转换

SafeEar

一款无需窃听内容即可识破语音伪造的跨时代安全工具

02930

AI开源项目 # ACM CCS 2024 # 低错误率检测 # 多语言深度伪造识别

Make-A-Character

Make-A-Character

数字内容生产工具革新者，重新定义3D角色创作流程

02030

AI开源项目 # AI角色生成 # 元宇宙建模 # 动画绑定系统

MotionCtrl

精准控制每帧镜头语言与物体轨迹的视频控制框架

02150

AI开源项目 # MotionCtrl # 物体轨迹生成 # 相机运动独立控制

Llama 3.2

Llama 3.2革命性整合文本推理与多模态处理，首次实现手机端本地运行视觉大模型

02860

AI开源项目 # 低资源占用 # 多模态AI模型 # 本地化推理

MMMLU

嘿，你见过能考57门专业课的AI吗？MMMLU这个神奇的数据集就能让语言模型参加"多国联考"，而且还是用14种语言！作为开放科学社区最火爆的测评工具，它正在帮全球研究者突破AI的认知边界。

02650

AI开源项目 # 专业翻译数据集 # 人工智能多语言能力评估 # 大规模模型基准测试

AnimateDiff

特别提示：根据ComfyUI-AnimateDiff-Evolved的README，商业用途得额外授权。想靠这个接单的同学记得走官方渠道申请license！

05400

AI开源项目 # Stable Diffusion动画扩展 # 个性化模型动画适配 # 人工智能动态图像生成

PortraitGen

突破传统三维重建技术瓶颈的多模态肖像编辑神器

02940

AI开源项目 # 3D一致渲染 # 4D高斯场重建 # 多模态视频编辑

GOT-OCR2.0

端到端OCR模型革新文字识别全流程

02650

AI开源项目 # 多任务文本识别 # 多页PDF处理 # 开源OCR框架

onewebot2

通过Coze API快速搭建微信AI聊天机器人的一键部署方案

02930

AI开源项目 # Coze API集成 # GoodWeBot迁移 # 一键运行包

V-JEPA

Meta V-JEPA通过非生成式预测突破视频理解瓶颈，以自监督学习实现类人推理能力

02620

AI开源项目 # 物体互动识别 # 自监督学习模型 # 视频抽象特征预测

Boximator

用AI重塑视频创作的动态美学

02480

AI开源项目 # AI动作生成 # 影视级模拟算法 # 硬盒约束技术

DiT

基于Transformer架构的扩散模型在图像生成质量与运算效率上实现双重突破

02820

AI开源项目 # 可伸缩AI架构 # 图像生成性能优化 # 扩散模型Transformer

VideoPoet

Google VideoPoet突破传统视频制作流程，用大语言模型技术实现多模态零样本生成。

02710

AI开源项目 # LLM驱动创作 # 多模态视频生成 # 文本转视频工具

ConsiStory

无需微调即可实现跨图像主题一致性的革命性AI生成技术

02280

AI开源项目 # 免训练生成 # 多主题控制 # 实时文生图

ScreenAgent

计算机视觉操控革命：基于VLM的自主任务执行系统

02730

AI开源项目 # VNC协议操作 # 人机协作增强 # 多步骤任务自动化