AI大模型

阿里云百炼

阿里云百炼是基于通义大模型、行业大模型以及三方大模型的一站式大模型开发平台。面向企业客户和个人开发者，提供完整的模型服务工具和全链路应用开发套件，预置丰富的能力插件，提供API及SDK等便捷的集成方式，高效完成大模型应用构建。

InstructAvatar

InstructAvatar是一个先进的AI框架，它使用自然语言界面来控制2D头像的情绪和面部动作。这个系统允许用户通过文本指令来精细控制头像的表情和运动，从而生成具有情感表现力的视频。

孟子生成式大模型

孟子生成式大模型（孟子 GPT）是由澜舟科技研发的一款功能强大的生成式可控大语言模型。它能够通过多轮对话，帮助用户在特定场景中完成各种工作任务，包括内容生成、语言理解、知识问答、推理、代码理解和生成、金融任务等。

书生通用大模型

书生通用大模型是由上海人工智能实验室发布的大型预训练模型。它包括多个基础模型，如书生·多模态、书生·浦语和书生·天际等。这些模型旨在支持科研创新和产业应用，提供一个全链条开源的研发与应用平台。

Magic Clothing

Magic Clothing是一个专注于控制性的服装驱动图像合成的项目，它是OOTDiffusion模型的一个分支版本，旨在通过服装来控制图像的生成。

Gen-3 Alpha

Gen-3 Alpha是Runway公司开发的一款先进的AI视频生成模型。它能够根据用户的输入（如文本描述、图像或视频片段）创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。

Hallo

Hallo是一个百度开源的AI对口型人脸视频生成框架，用户只需提供一段音频和所选人像，它利用人工智能技术，让图片中的人物能够根据语音的变化做出相应的面部表情和嘴唇动作。

神力霓裳

神力霓裳是阿里大文娱发布的自研影视妆造大模型。这个模型可以根据要求快速生成影视级的各朝代服饰造型，辅助造型师进行创意设计。它主要服务于古装剧，包含造型设计、妆发设计和纹样设计三大功能。

ClotheDreamer

ClotheDreamer 是一种基于 3D 高斯方法的工具，用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法，使得服装和人体模型可以分别优化。

Hyper-SD

Hyper-SD 是字节跳动推出的一种先进图像生成框架，结合了轨迹分段一致性蒸馏（TSCD）和人类反馈学习（RLHF），显著提升了扩散模型在少步骤推理下的图像生成性能。通过 Hyper-SD，用户可以在 1 到 8 步的推理过程中生成高质量的图像，极大地提高了生成速度和效率。

Idea-2-3D

Idea-2-3D 是一个3D 模型生成框架，能够从多模态输入（如文本、图像和 3D 模型）中生成高质量的 3D 模型。该框架由三个基于大型多模态模型（LMM）的智能代理组成，分别负责生成提示、选择模型和反馈反映。通过这些代理的协作和批评循环，Idea-2-3D 能够自动生成与输入高度一致的 3D 模型。

GPT-4o mini

GPT-4o Mini 是 OpenAI 最新推出的小型智能模型，专为高性能和低成本的人工智能解决方案而设计。它支持文本、视觉、音频等多模态输入输出，响应速度极快，适用于实时应用场景。

沃研Turbo大模型

沃研Turbo是由沃恩智慧公司专为大学生打造的科研大模型。它集成了多项科研辅助功能，包括期刊推荐、文献摘要、论文精读、翻译润色、创新点评估、个性化论文推荐和AI降重。通过多模态AIGC技术，沃研Turbo能够快速响应科研需求，提升科研效率。用户只需在网页上上传论文、文本或链接，即可享受便捷的科研辅助服务。沃研Turbo致力于简化科研过程，帮助大学生在学术道路上取得更大成就。

HoloDreamer

HoloDreamer是一款文本驱动的3D场景生成框架，通过用户的文本描述生成沉浸式且视角一致的完整3D场景。它由风格化全景生成和增强型全景重建两个核心模块组成，该框架首先生成高清晰度的全景图作为完整3D场景的整体初始化，然后利用3D高斯散射（3D-GS）技术快速重建3D场景，从而实现视角一致和完全封闭的3D场景生成。HoloDreamer在虚拟现实、游戏和影视行业中有广泛应用，为这些领域提供了新的解决方案。

MusiConGen

MusiConGen是一种基于Transformer的文本到音乐生成模型。它通过引入时间条件机制，显著提升了对音乐节奏和和弦的控制能力。该模型是在预训练的MusicGen-melody框架基础上进行微调的，主要用于生成各种风格的音乐片段。

Aiuni AI

Aiuni AI 是一款基于 Unique3D 开源技术的在线 AI 图片转 3D 模型生成建模工具，它能够在 30 秒内将单张图片转换为高质量的 3D 模型。用户通过简单的图片上传和点击生成，用户即可获得 360 度无死角的 3D 模型，确保每个角度都具有一致性和高质量的细节。

UniVG

UniVG是百度推出的一种统一模态视频生成系统。它能够处理多种输入模态，如文本和图像，并生成与输入语义高度一致的视频。UniVG采用了多条件交叉注意力技术和偏置高斯噪声方法，以提高生成视频的质量和保留原始内容。

Tora

Tora 是阿里团队推出的一个视频生成模型，能够根据轨迹、图像、文本或其组合，快速生成精确运动控制的视频。它支持多种输入方式，如轨迹、文本和图像，并能生成高分辨率、运动可控的视频。

MiracleVision奇想智能

MiracleVision奇想智能是由美图秀秀公司推出的自研AI视觉大模型。它具备高度的美学导向和图像处理能力，并能广泛应用于多个行业，以提高工作流效率。该模型不仅提供了简单易用的AI视觉创作工具，使用户能够快速进行图像的创作和编辑，还支持多种图像类型和视频效果的生成。

CodeGemma

CodeGemma是一个由Google基于Gemma模型开发的开源代码模型系列。它专为代码生成和理解而设计，提供了强大的代码自动补全和生成功能。CodeGemma支持多种编程语言，适用于软件开发、编程教育和跨语言开发项目。它的主要功能包括智能代码补全、代码生成、代码理解、多语言支持、代码优化建议以及错误检测与修正，旨在提高开发者的编码效率和软件质量。

Etna模型

Etna大模型是七火山科技推出的一个文生视频的AIGC模型，它能够根据简短的文本描述生成相应的视频内容。七火山科技发布的Etna文生视频模型支持生成视频时长达到8~15秒，每秒可达60帧，分辨率最高可达4K（3840*2160），画面细腻逼真。

Animate Anyone

DreaMoving是一种基于扩散模型打造的可控视频生成框架，通过图文就能制作高质量人类跳舞视频。用户只需上传一张人像，以及一段提示词，就能生成对应的视频，而且改变提示词，生成的人物的背景和身上的衣服也会跟着变化。简单来说就是，一张图、一句话就能让任何人或角色在任何场景里跳舞。

Boximator

Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动，从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说，Boximator可以通过文本精准控制生成视频中人物或物体的动作，能生成包含多个角色以及特定类型运动的复杂场景，并能精确生成物体和背景的细节。

MagicVideo-V2

MagicVideo-V2是字节跳动公司团队开发的一款AI视频生成模型和框架。它通过集成文本到图像（Text-to-Image, T2I）模型、图像到视频（Image-to-Video, I2V）模型、视频到视频（Video to Video, V2V）模型和视频帧插值（Video Frame Interpolation, VFI）模块，以实现从文字描述到高分辨率、流畅且具有高度美学的视频的自动化生成。

PixelDance

PixelDance是由字节跳动开发的一款高动态视频生成模型，它能够根据用户提供的图片和文本描述来生成具有复杂场景和动态效果的视频。这项技术特别在于它结合了图像指令（针对视频片段的首尾帧）和文本指令，使得生成的视频不仅视觉上丰富，而且动作细节丰富，能够展现出高度的动态性。

Moonvalley.ai

Moonvalley.ai是一款功能强大的文本到视频生成式AI模型。它可以从简单的文字描述中生成高清视频和动画，涵盖各种不同的风格，包括超现实视频、动漫以及介于两者之间的所有内容。用户只需提供简要的文字提示，即可创造电影级的视觉效果。该模型主打高清、16:9电影画质，视频质量比大多数其他一代AI视频工具要好得多。

Harmonai

Harmonai是一个开源生成音频工具，让音乐创作更有趣。您可以使用舞蹈扩散模型生成各种风格的音乐，或者使用Harmonai Studio在线制作自己的音乐作品。加入Harmonai，体验AI音乐的魅力。

M2UGen

M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型，它具备音乐生成、理解和编辑的能力。具体来说，M2UGen可以接收文字、图片、视频或音频作为输入，然后生成与之相匹配的音乐。例如，给它一段文字，如诗句或故事，它能够创作出与文字内容相应的音乐；对于图片，它能创作出匹配的音乐，让图片仿佛“动起来”；对于视频，它可以根据视频内容创作出合适的背景音乐。

MuseTalk

MuseTalk是由腾讯推出的一个实时的高质量音频驱动唇形同步模型，能够根据输入的音频信号自动调整数字人物的面部图像，使其唇形与音频内容高度同步，支持多种语言，并实现每秒30帧以上的实时处理速度。这意味着观众可以看到数字人物的口型与声音完美匹配的效果。

V-Express

V-Express是由南京大学和腾讯AI实验室共同开发的一项技术，旨在通过参考图像、音频和一系列V-Kps图像来生成说话的头像视频。这项技术可以根据不同的信号，如声音、姿势、图像参考等来控制视频内容，确保即使是弱信号也能有效地影响最终生成的视频，使视频生成更加逼真和多样化。

网域探索者