一、开源大模型

不定期更新一下最新 AI 模型进展, 主要偏向应用/开源的模型, 不涉及技术细节。

mistral-7b

mistral-7b 是一个 7B 的语言模型, 在全部任务上超过了 llama-13b, 在部分任务上超过了 llama-34b, 社区内使用反响很好。

Yi-34b

Yi-34b 是 01.AI 从头开始训练的 LLM, 它采用了与 Llama 相同的架构, 因此可与 Llama 生态系统兼容。34B 基本上是消费级显卡能跑起来的最大模型了, 社区内使用反响很好。

Deepseek 67B

Deepseek LLM 模型在代码理解方面接近 gpt4 水平, 67B 模型很棒, 34B 的效果也很好。

RWKV 模型

RWKV 是一个很有潜力的架构, 它是一种无需注意力机制的循环神经网络,因此速度更快且更省显存, 它还支持 GPT 模式并行训练;

WIKI 介绍

HF 在线 DEMO 运行在 T4 卡的非量化模型, 飞快.

TheBloke

TheBloke 专注开源 LLM 的量化和 finetune, 可以直接下载到量化后的 llm, 省去本地量化步骤。可以快速尝鲜各类 LLM。

二、图像模型

Stable Video Diffusion

Stable Video Diffusion 能够通过现有的图片生成视频, 单图-> 25 帧 576 x 102 的图像,可以进一步生成 4s 左右视频。

sdxl-turbo

sdxl-turbo 4 步的 sdxl 生成图像质量和文本 prompt 一致上就能够超过 SDXL(50 步) 目前只能生成 512px 图片,但是速度飞快。

fuyu8b

fuyu8b 是一个的图像->文本的模型,它拥有一个简单的架构,可以 tokenize 图像,并允许输入任意大小的图像。

demo 网站提供简单应用: 1) 看图回答问题, 2)描述图片.

PixArt-α

华为发布的低成本训练的文生图模型, 不过效果媲美 Midjourney.

在线体验 输入为自然语言, 而非 prompt(魔法指令)。

PixArt-α + LCM 2 秒出图。

中文: 流星坠地,烈焰冲天而起,火焰所过之处,峰顶万年不化的冰雪瞬间被蒸发得干干净净。

英文(deepL): The meteor crashed to the ground, the flames rose to the sky, and wherever the flames passed, the ice and snow on the peak that had not melted for ten thousand years was instantly vaporized cleanly.

DeepFloyd IF

DeepFloyd IF 是 DeepFloyd Lab 联合 StabilityAI 开源的模型, 同时训练了 3 个不同的扩散模型来实现图像的生成,第一个模型实现 64x64 图片的生成,而后面两个模型分别实现 64x64->256x256 和 256x256->1024x1024 的图像超分。

三、音频方向

whisper-v3

whisper-v3 是 OpenAI 开源的全新 ASR 模型, whisper-large-v3 采用了更多的数据(500 万小时),其中 400 万小时是 v2 生成的。

whisper-v3 相比 whisper-v2 在各个语言上有 10%-20%的效果提升.

musicgen

musicgen 是 meta 开源的音乐生成模型, 它可以将文本和已有的旋律转化为完整乐曲,例如你可以提出生成 “一首轻快的曲目” 并同时要求 “将它与贝多芬的《欢乐颂》结合起来”。

styleTTS2

styleTTS2利用大型语音语言模型 (SLM) 的风格扩散和对抗训练来实现人类级别的 TTS 合成

四、其他

next-gpt

next-gpt 是 Any-to-Any 多模块大语言模型。猜测 GPT4 不是直接训练一个多模态模型,而是在已经预训练好的语言大模型中引入图像理解能力。