Sora(人工智能模型)是什么?Sora的核心作者都是谁?

行业干货2个月前发布 ikj168
196 0 0
echotik

Sora(人工智能模型)是什么?

Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。

Sora这一名称源于日文“空”(そら sora),即天空之意,以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。模型的训练数据既包含公开可用的视频,也包括了专为训练目的而获授权的著作权视频,但OpenAI没有公开训练数据的具体数量与确切来源。

OpenAI于2024年2月15日向公众展示了由Sora生成的多个高清视频,称该模型能够生成长达一分钟的视频。同时,OpenAI也承认了该技术的一些缺点,包括在模拟复杂物理现象方面的困难。《麻省理工科技评论》的报道称演示视频令人印象深刻,但指出它们可能是经精心挑选的,并不一定能代表Sora生成视频的普遍水准。

由于担心Sora可能被滥用,OpenAI表示目前没有计划向公众发布该模型,而是给予小部分研究人员有限的访问权限,以理解模型的潜在危害。Sora生成的视频带有C2PA元数据标签,以表示它们是由人工智能模型生成的。OpenAI还与一小群创意专业人士分享了Sora,以获取对其实用性的反馈。

Sora的核心作者都是谁?

目前,Sora的核心作者是Bill Peebles和Tim brooks,Bill Peebles 在伯克利人工智能研究所完成了博士学位,导师是Alyosha Efros。

在此之前,他在麻省理工学院攻读本科,指导老师是Antonio Torralba。他曾在FAIR、Adobe研究院和NVIDIA实习。

Tim brooks 在伯克利人工智能研究所获得了博士学位,导师是Alyosha Efros,他是InstructPix2Pix的作者。在此之前他曾在谷歌工作,参与Pixel手机相机的研发,在NVIDIA从事视频生成模型的研究。

Sora团队的Leader是Aditya Ramesh, 他是DALLE、DALLE2、DALLE3的主要作者。

如何理性看待sora?

业界共识,Sora在技术领域是跨时代的进步,技术影响力类似chatgpt2.0版本的阶段。但破圈的效果甚至超过了2023年初的chatgpt3.5。

但截止2月20日,依然open ai官方只放出了demo。(每天都在陆续公布新作品)。

距离商业化能力有多远,还是个未知数。

现阶段是拼产品力的阶段,需要大量的产业机构和个体前仆后继的进行炮灰实验,最终迭代出最合适的场景。

第一, 可控性。无论是商业场景还是创作场景, 视频要按照人的意志或规律完成动作, 这无疑是个巨大的挑战。目前Diffusion+transformer还无法解决的物理问题依然是难题及硬伤。

第二, prompt(提示词)的门槛依然高,一般非专业人员很难用好视觉的生成, 这既需要训练, 更有待技术突破, 让外行变内行。 视频要按照人的意志或规律完成动作, 这无疑是个巨大的挑战。

© 版权声明
商业保险

相关文章