AI怪打工人

帅气的我简直无法用语言描述！

文章150 网址2691 软件0 评论0

Draw an Audio

Draw an Audio通过多模态指令系统实现精准的视频到音频合成，开创音效创作新模式

02910

AI开源项目 # AI音效分层编辑 # 多指令控制技术 # 开源音频数据集

ActAnywhere

全球首款实现电影级人景互动的AI视频生成解决方案

03390

AI开源项目 # AI影视特效 # 动态光照模拟 # 多主体协同渲染

FineVideo

开源多模态训练领域的里程碑式资源库

03460

AI开源项目 # AI视频分析 # 多模态AI训练 # 开源视频数据集

Vary-toy

专业级视觉语言处理消费级硬件需求多模态文档转换科研效率工具工业级物体识别

02830

AI开源项目 # 多模态任务处理 # 开源视觉语言模型 # 文档OCR技术

abab-music-1

MiniMax AI通过海螺智能平台突破创意门槛，让文字、音乐、视频创作像发朋友圈一样简单

03640

AI开源项目 # 全链路音乐制作 # 多语种情感语音 # 海螺智能平台

Lepton Search

Lepton Search是一个开源的对话式搜索引擎，开发者可用不到500行代码快速构建类Perplexity的AI驱动搜索工具，支持谷歌/Bing并集成RAG技术。

03600

AI开源项目 # AI驱动搜索 # Python代码构建搜索系统 # RAG引擎

Follow Your Pose

Follow Your Pose

通过姿势与文字的双重指引生成可编辑风格化视频

03200

AI开源项目 # AI动作捕捉 # 多风格模型 # 姿势引导视频生成

IP-Adapter

IP-Adapter：无需代码就能实现的跨模态AI图像生成方案

03250

AI开源项目 # 图像提示技术 # 多模态生成 # 开源AI工具

OLMo

全栈开源的AI大模型框架，推动技术民主化的关键基石

02910

AI开源项目 # 开源语言模型 # 指令调优方案 # 模型量化技术

MetaGPT

MetaGPT将复杂软件开发流程压缩成一键式智能协作，重新定义AI辅助开发的生产力边界

01770

AI开源项目 # 全流程项目管理 # 复杂需求解析 # 多角色协同开发

PDF2Audio

能随时随地"听论文"的感觉有多爽？这么说吧，现在我的运动手环都统计到——用PDF2Audio后思维活跃度提升46%，真是学习工作两开花！

03880

AI开源项目 # AI生成播客 # PDF转音频工具 # 多语言语音转换

SafeEar

一款无需窃听内容即可识破语音伪造的跨时代安全工具

03120

AI开源项目 # ACM CCS 2024 # 低错误率检测 # 多语言深度伪造识别