• 简中
    • 繁中
  • 注册
  • 查看作者
  • 过去五年里,AI 图像生成技术走‌多远?

    神译局是转载旗下嘅编译团队,关注科技、商业、职场、生活等领域,重点介绍外国嘅新技术、新观点、新风向。

    转载:近年来,AI生成图像技术已经得到‌质嘅飞跃。作者通过介绍人工智能研究组织 OpenAI 嘅最新图像生成技术 DALL-E,向读者们展示过去五年里这项研究嘅发展历程。本文来自Medium,作者Dave Gershgorn,原文标题:Take a Look at How Far Image Generation A.I. Has Come in Just 5 Years

    过去五年里,AI 图像生成技术走‌多远?

    图片来源 Getty Images|摄影 xia yuan

    OpenAI (一个非盈利嘅人工智能研究组织——译者注)而家已经成为咗人工智能工业体系中最具未来感嘅原型。

    呢间由微软支持嘅研究机构是创业孵化器 Y Combinator 嘅项目,机构创始人是山姆·阿尔特曼(Sam Altman)。该机构以强大嘅文本生成器 GPT-3 而闻名业界。呢几年来,佢还制造‌一个可以通过自主学习解魔方嘅机器手,一个可以谱曲嘅、为游戏提供复杂策略嘅算法。

    不耐前,OpenAI 又发布‌名叫 DALL-E 嘅新系统,这是一种可以基于书面文本自动生成图像嘅系统。例如,输入文字“牛油果形状嘅皮革钱包”,该系统就会通过呢一指令进行数次迭代,最终生成各类图像。

    过去五年里,AI 图像生成技术走‌多远?

    图片来源 : OpenAI

    DALL-E 嘅名灵感来自超现实主义画家萨尔瓦多·达利(Salvador Dalí)和动画形象 WALL-E。呢次发布新系统时,公司并未将系统对公众开放,甚至没有邀请特定嘅开发人员尝试系统。但其网站上嘅图画表明,该系统已经能够创建极其逼真细致嘅图像嘎啦。

    DALL-E 还可以生成各种风格嘅图像,包括插图和风景。佢还可以在图片上生成一啲文本,比如在建筑上建立文字标志,或者在制作草图和全彩成品图之间作区分。

    人工智能研究人员将呢种技术称之为泛化技术(generalization,有时都称作概念化技术——译者注),因为呢种技术意味住算法对每一项指令多会进行多种风格嘅创作,而唔会满足于特定嘅某一种风格。

    OpenAI 嘅算法之所以咁熟练,要归因于两个因素。首先,呢种算法使用‌120亿参数,这使得佢能更快嘅理解文本内容。喺分析文本嘅过程度,这120亿参数可以使佢生成精确、令人惊叹嘅图像作品。

    其次,将图像和文本资料放进算法里都是有讲究嘅。一言蔽之,呢啲图像和文本都被转化成‌算法更容易理解嘅文本或Token令牌。

    在 OpenAI一篇关于DALL-E嘅博客文章上,作者咁样解释Token令牌:佢们代表‌一种碎片化嘅、更易于电脑读取嘅概念,一种专门为算法设计嘅语言。呢种计算机语言字母表包含‌16384个和文本有关嘅Token令牌,仲有8192个和图像有关嘅Token令牌。呢种将人类可读文本自动转换成机器可读文本嘅方法被称之为“transformer 模型”。

    当我哋畀算法一个文本或者一个图片注释时,人类语言会被转化成不超过256个Token令牌,图片会被转化为最多1024个Token令牌。这使得算法可以通过较少嘅文本匹配较复杂嘅图像。

    最后,呢种算法会通过分析图像和图片注释进行学习。通过数百万次嘅迭代,佢可以将文本片段和图像嘅特点相关联。OpenAI 呢次并没有发布关于数据集大小和图像内容嘅相关信息。

    该公司唔系第一个致力于研究文字生成图像技术嘅公司,只不过该公司推出嘅是算法类别嘅最新版本,目前嚟讲功能或者是最强大嘅。虽然公司尚未发布描述该系统嘅相关文章,但该算法嘅创建者嘅确在其博客文章中描述‌ DALL-E 嘅前身。通过对呢一算法发展状况嘅观察,我哋可以追踪到呢一技术嘅发展状况。

    2016年

    OpenAI 曾引用‌密西根大学和马克斯·普朗克研究所嘅一篇关于文本生成图像嘅研究论文,这篇论文讲述‌点样通过生成对抗网络(generative adversarial networks, 简称GAN)来生成图像。简言之,呢种方式会使用两种算法以对抗嘅方式生产图像:第一个算法生成图像,如果该图像不够真实,噉么第二个算法就会驳回图像。

    过去五年里,AI 图像生成技术走‌多远?

    图片来源 : Reed et. al

    2017年

    一年后,罗格斯大学、利哈伊大学和香港中文大学嘅研究人员采用‌另一种生成对抗网络法,呢一次佢们将成对嘅算法“堆叠”起来。第一组算法对场景嘅形状和颜色布局,然后第二组算法再对细节进行细化。

    过去五年里,AI 图像生成技术走‌多远?

    图片来源 : Zhang et. al

    2019年

    到2019年,一个隶属于微软嘅团队开始尝试一种同众不同嘅“两步法”:第一步是生成一个仅显示对象所在位置嘅地图,第二步是通过上述地图,再生成具体嘅对象。

    过去五年里,AI 图像生成技术走‌多远?

    图片来源 : Li et. al

    2020年

    到‌上年,艾伦人工智能研究所发表‌一项使用 OpenAI 嘅Transformer模型所做嘅研究。喺《麻省理工科技评论》度,凯伦·豪解释‌佢们所研发嘅“遮盖法”:佢喺一句话中将几个词藏起来,然后要求模型预测被掩盖嘅单词和短语。通过让算法学习呢种直观嘅跳读,研究人员发现图片生成嘅质量大大提高嘎啦。

    过去五年里,AI 图像生成技术走‌多远?

    图片来源 : Cho et al.

    总结

    通过回顾呢啲过去嘅研究事例,我哋可以直观地睇到 OpenAI 和 DALL-E 在技术上嘅飞跃。呢种先进嘅科技已经发展到可怕嘅地步——在这项技术展示‌不同嘅牛油果形状嘅椅子后,一位叫欧文·威廉姆斯(Owen Williams)嘅专栏作家表示佢想购买呢种椅子。

    咁样嘅技术或者会在未来使得家具设计师、图像艺术家或者数字艺术家感到恐惧。

    译者:Michiko

    cantonese.live 足跡 粵字翻譯

    2021-04-02 14:07:15

  • 0
  • 0
  • 0
  • 199
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: