时间: 2023.4.3-2023.4.9
本周大事记
1. meta发布SAM
Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。
博客链接:ai.facebook.com
相关项目:
IEA: Image Editing Anything:Stable Diffusion + Segmentation Anything 实现图像内容编辑 github.com
分割任何视频 github.com
国内报道:
本周TOP10论文:
Segment Anything Model
Instruction Tuning with GPT-4
A Survey of LLMs
8 Things to Know about LLMs
Baize - an open-source chat model fine-tuned with LoRA
Machiavelli Benchmark
Self-Improving Code LLMs
Instruction Tuning with GPT-4
Summary of ChatGPT/GPT-4 Research
SegGPT
Segment Anything Model
meta发布了SAM, 第一个图像分割的基础模型,能够从任何照片或者视频中一键分割任何对象并且零样本转移到其他任务。
Instruction Tuning with GPT-4
“第一次尝试”使用 GPT-4 生成用于 LLM 微调的instruction-following数据:包括 52K 的英文和中文instruction-following数据,用于instruction-tune LLaMA 模型
A Survey of LLMs
关于大模型语言模型的50页的概述
8 Things to Know about LLMs
关于 LLM 的八件事 ,主要是 讨论关于 LLM 的能力和限制的重要考虑因素。
Baize - an open-source chat model fine-tuned with LoRA
一种使用 LoRA 微调的开源聊天模型。利用 ChatGPT 与自身聊天生成的 100K 对话;它与 7B、13B 和 30B 参数模型一起发布对话框。
Machiavelli Benchmark
134 个基于文本的 Choose-Your-Own-Adventure 游戏的新基准,用于评估 LLM 的能力和不道德行为。
Self-Improving Code LLMs
自我改进代码 LLMs——根据通过预训练和微调获得的知识生成伪数据;将数据添加到下一步的训练数据集中;表明不同的代码生成框架可以在性能上得到提升。
Summary of ChatGPT/GPT-4 Research
ChatGPT和GPT-4的应用概览;该分析是在 194 篇相关论文中完成的,并讨论了能力、局限性、关注点等。
Pythia - a suite for analyzing LLMs across training and scaling
Pythia——一个用于分析 LLM 的训练和扩展套件;包括 16 个 LLM,参数大小从 70M 到 12B 。
SegGPT
通过支持不同类型数据的上下文框架将分割任务统一到通用模型中。
最新技术:
Training-Free Layout Control with Cross-Attention Guidance
论文: arxiv.org
InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning
论文: arxiv.org
主页: jshi31.github.io
Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos
论文: arxiv.org
SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections
论文: arxiv.org
DreamFace:Progressive Generation of Animatable 3D Faces under Text Guidance
论文:arxiv.org
TagGPT: Large Language Models are Zero-shot Multimodal Taggers
论文: arxiv.org
TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration
论文: arxiv.org
Generative Novel View Synthesis with 3D-Aware Diffusion Models
论文: arxiv.org
主页: nvlabs.github.io
Koala: A Dialogue Model for Academic Research
有哪些省内存的大语言模型训练/微调/推理方法?
揭秘ChatGPT情感对话能力
课程:
免费的sd模型的课程
使用 diffusers 训练你自己的 ControlNet mp.weixin.qq.com
商业:
GPT-5不能停!吴恩达LeCun直播回怼马斯克:汽车都还没发明,要什么安全带
ChatGPT热引发年薪千万高管辞职潮
ChatGPT 背后的 OpenAI 是家怎样的公司?
Inworld:AI NPC能否将《失控玩家》的游戏体验带入现实?
独家首发!YC爆发AIGC潮,100+项目完整盘点
案例:
HuggingGPT在线演示
阿里版ChatGPT突然上线邀测!大模型热战正剧开始,这是第一手体验实录
人格AI 语音版本
AIGC|探索AIGC在网易严选中的应用
YC-Interview-Bot