DiT DiT是一个专注于扩散模型架构创新的研究项目页面,由William Peebles的个人网站托管。该项目主要围绕DiT(Diffusion Transformer)模型展开,这是一种将Transformer架构成功应用于扩散模型,以替代传统U-Net骨干网络的前沿研究。 3.2K0 AI开发平台AI开源项目# DiT
Boximator Boximator是一个专注于为视频合成生成丰富且可控运动的AI工具。它通过创新的“框引导”控制方法,允许用户使用简单的边界框来精确约束视频中人物或物体的运动轨迹与姿态,显著提升了生成视频的运动质量和可控性。 12.7K0 AI开发平台AI开源项目# Boximator
Salesforce Salesforce是全球领先的客户关系管理平台,其官方网站提供的“AI研究”博客专栏,是该公司分享其在人工智能领域前沿洞察、技术突破和行业应用的核心知识库。该专栏定位为连接AI理论研究与商业实践的桥梁,旨在展示Salesforce如何通过其统一的AI CRM平台,将人工智能、数据和客户360度视图应用整合,赋能企业与客户共同成功。 7.9K0 AI开发平台AI开源项目# Salesforce
Depth Anything Depth Anything 是一个专注于单目深度估计的先进AI模型与工具集。其核心目标是从单一的2D图像中,精准、高效地预测出每个像素点的深度信息,从而重建出场景的3D几何结构。该项目由研究团队开发并开源,旨在为计算机视觉社区提供一个强大且实用的基础模型。 15.8K0 AI开发平台AI开源项目# Depth Anything
USTC-3DV USTC-3DV是由中国科学技术大学(USTC)3DV实验室维护的官方网站。该平台主要聚焦于三维视觉(3D Vision) 领域,是一个集研究展示、开源项目发布、学术资源分享于一体的综合性站点。网站内容体现了实验室在计算机视觉、图形学等前沿方向的研究成果。 3.2K0 AI开发平台AI开源项目# USTC-3DV
AnimateDiff AnimateDiff是一个开源的AI动画生成框架,专注于将静态的文本到图像(T2I)模型转化为文本到视频(T2V)模型。其核心思想是通过训练一个轻量级的运动模块,捕捉通用的运动先验知识,并将其插入到预训练的T2I模型中,从而无需针对每个基础模型进行微调,即可生成高质量、连贯的短视频序列。 3.2K0 AI开发平台AI开源项目# AnimateDiff
Llama 3.2 Llama 3.2 是 Meta 公司推出的先进人工智能模型平台。该平台提供了包括 Scout 和 Maverick 在内的业界领先的 AI 模型,旨在为用户带来顶级的性能体验。其核心优势在于支持多模态处理,在保证高效率的同时,显著降低了使用成本。 14.3K0 AI开发平台AI开源项目# Llama 3.2
Yifang Men Yifang Men 是一个基于 GitHub Pages 搭建的个人或项目展示网站。根据其域名推测,该网站很可能用于展示个人作品集、技术博客、开源项目文档或学术研究资料,服务于开发者、研究人员及技术爱好者群体。 240 AI开发平台AI开源项目# Yifang Men
MotionCtrl MotionCtrl是一个由Zhouxia Wang开发的开源AI视频生成与控制工具。它专注于为用户提供对视频中物体运动轨迹和摄像机运动的精细化控制能力,旨在解决传统视频生成模型在运动控制方面的局限性。 12.7K0 AI开发平台AI开源项目# MotionCtrl
Make-A-Character Make-A-Character(MACH)是一个基于人工智能技术的3D数字角色生成平台。根据其域名信息推测,它很可能由研究团队开发,专注于利用先进的生成式AI模型,从简单的文本描述或参考图像快速、高质量地创建可动画化的3D人体模型。 15.8K0 AI开发平台AI开源项目# Make-A-Character
MetaGPT MetaGPT是由深度求索(Deepwisdom)公司开发的一款多智能体AI协作框架,旨在将软件开发生命周期自动化。其核心创新在于将单一需求指令作为输入,通过模拟一个规范化、标准化的公司团队工作流程,自动输出包括用户故事、竞品分析、需求文档、数据结构设计、API接口乃至项目文件在内的全套软件开发物料。 6.3K0 AI开发平台AI开源项目# agents# AI Agent# deepwisdom
DiffusionGPT DiffusionGPT 是一个基于大语言模型驱动的文本到图像生成系统。该系统旨在通过整合多种顶尖的开源图像生成模型,为用户提供一个统一且智能的生成入口。其核心思想是利用大语言模型的理解和分发能力,将用户的文本描述自动路由到最合适的图像生成模型,从而获得更高质量、更符合预期的图片。 1.6K0 AI开发平台AI开源项目# DiffusionGPT
OLMo from Ai2 OLMo是由艾伦人工智能研究所(Ai2)开发的开源语言模型。Ai2由保罗·艾伦创立,阿里·法哈迪领导,致力于开展高影响力的人工智能研究与工程。OLMo项目旨在通过提供完全开放的语言模型框架,包括模型权重、训练代码、数据集和评估工具,推动人工智能领域的透明度和可重复性研究。 15.8K0 AI开发平台AI开源项目# OLMo from Ai2
IP-Adapter IP-Adapter是一个专注于图像生成与编辑领域的AI模型适配器。其核心功能是通过引入图像提示,实现对预训练文生图扩散模型(如Stable Diffusion)的精准控制。该技术允许用户将参考图像的风格、主体或视觉特征迁移到新生成的图像中,有效弥补了纯文本提示在细节控制上的不足。 12.7K0 AI开发平台AI开源项目# IP-Adapter
Follow Your Pose Follow Your Pose 是一个基于人工智能的姿态引导图像生成开源项目。它通过先进的扩散模型技术,允许用户根据输入的参考姿态和文本描述,生成符合特定姿势要求的人物图像。该项目由研究团队开发,旨在为图像生成领域提供更精准、可控的姿态复现能力。 45.3K0 AI开发平台AI开源项目# KEYWORDS SHOULD BE PLACED HERE
Lepton Search Lepton Search是由Lepton AI推出的一个开源项目,旨在帮助开发者和企业快速构建自己的对话式搜索引擎。其核心价值在于极简的代码实现,宣称在少于500行代码内即可完成一个功能完整的搜索引擎搭建。该平台充分利用了现代人工智能技术,特别是大语言模型在自然语言理解和信息检索方面的能力。 3.2K0 AI开发平台AI开源项目# Lepton Search
Vary-toy Vary-toy是一个专注于提升大型视觉语言模型能力的开源项目。其核心目标是通过扩展模型的视觉词汇,解决现有模型在文档理解、视觉定位等复杂任务中遇到的瓶颈。该项目旨在构建一个更强大、更通用的视觉语言基础模型。 4.8K0 AI开发平台AI开源项目# Vary-toy
Void Void 是一款开源的代码编辑器,定位为 Cursor 编辑器的替代品。该产品强调完全的数据隐私保护,确保用户的代码和数据不会离开本地环境。作为一个功能完备的开发工具,Void 致力于为开发者提供一个既强大又安全的编程环境。 12.7K0 AI开发平台AI开源项目# Void
ActAnywhere ActAnywhere是一个专注于视频背景生成的先进人工智能平台。其核心创新在于主体感知技术,能够根据视频前景中的主体人物,智能地生成与之合理互动、物理关系正确的动态背景。该技术由学术研究驱动,旨在解决视频制作中背景替换的复杂挑战,实现高度逼真和情境协调的视频合成效果。 4.8K0 AI开发平台AI开源项目# ActAnywhere
Draw an Audio Draw an Audio 是一款基于 Jekyll 静态网站生成器构建的学术主题。该主题设计简洁、专业,旨在为学者、研究人员及学生提供一个优雅的个人学术成果展示平台。其设计灵感源于 *folio 项目,确保了代码的规范性与可扩展性。 9.5K0 AI开发平台AI开源项目# Draw an Audio
Demofusion Demofusion是一个专注于AI图像生成与演示的在线工具平台,由开发者Ruoyi创建并维护。该网站作为其个人主页的一部分,旨在为用户提供便捷、高效的AI图像生成体验。其核心价值在于通过先进的算法模型,帮助用户快速将文本描述转化为高质量的视觉内容。 1.6K0 AI开发平台AI开源项目# Demofusion
Real-ESRGAN Real-ESRGAN是一个开源的图像超分辨率与修复模型,托管在Replicate平台上。该平台致力于让开发者能够通过简单的云API,便捷地运行各类开源机器学习模型。Real-ESRGAN模型本身旨在从低质量图像中恢复出高质量细节,特别擅长处理真实世界中的复杂退化问题。 6.3K0 AI开发平台AI开源项目
ddcolor ddcolor是一个运行开源机器学习模型的云API平台。用户无需深厚的技术背景或昂贵的本地硬件,即可通过简单的API调用访问和运行各类先进的AI模型。本页面展示的“ddcolor”模型,是一个专门用于图像黑白照片上色的开源项目,由开发者piddnad托管在该平台上。 250 AI开发平台AI开源项目# ddcolor# Replicate
Screenshot to Code Screenshot to Code 是一个基于人工智能技术的在线工具,其主要功能是将用户上传的网站截图自动转换为前端代码。该工具旨在简化网页开发流程,帮助开发者、设计师和产品经理快速实现从视觉稿到代码的转换,显著提升工作效率。 11.1K0 AI开发平台AI开源项目# Screenshot to Code
Motionshop Motionshop是一个基于人工智能技术的3D内容生成平台,由美国团队开发并托管于GitHub Pages。该平台专注于通过AI算法实现动态3D模型的快速生成与编辑,主要服务于数字内容创作领域。根据其技术架构推测,平台可能整合了生成式对抗网络(GAN)和神经辐射场(NeRF)等前沿技术,为用户提供高效的3D建模解决方案。 3.2K0 AI开发平台AI编程工具# Motionshop
书生·物华2.0(3DTopia 2.0) 核心功能是文本到视频和图像到视频的生成。平台支持用户输入简短的文本提示词,即可自动生成一段符合描述的视频。同时,它也允许用户上传参考图像,并基于此生成风格一致或内容延续的视频片段。其多阶段处理技术,可能包括潜在扩散模型与去噪过程的结合,有效提升了视频的帧率、分辨率和整体动态效果,显著减少了画面闪烁和扭曲。 1.6K0 AI开发平台AI开源项目# 书生·物华2.0(3DTopia 2.0)
PhotoMaker V2 核心功能包括文本到图像生成和身份特征保持。用户可以通过输入文本提示词并结合一张或多张人物参考图,快速生成该人物在不同场景、着装和艺术风格下的图像。此外,该工具支持风格定制与属性编辑,允许用户轻松调整人物的发型、妆容、服饰乃至整体画风。其生成过程高效快速,能够在短时间内产出大量高质量结果。 15.8K0 AI开发平台AI开源项目# PhotoMaker V2
Outfit Anyone 核心功能包括虚拟试衣、多风格服装适配以及高真实度渲染。 平台支持用户上传自定义人物图像,并为其“穿上”各类虚拟服装,实现无缝贴合。同时,系统提供丰富的服装库,涵盖日常、职业、运动等多种风格。AI技术确保服装能根据用户体型自动调整,保持自然褶皱和光影效果,生成高质量的试穿图片。 6.3K0 AI开发平台AI开源项目# Outfit Anyone