天博体育官网入口 - 世界首个AI程序员Devin视频竟造假?博主逐帧解析Dev
发布时间:2024-04-16 05:33:33

  天博体育官网入口 - 世界首个AI程序员Devin视频竟造假?博主逐帧解析Devin代码任务完成很糟糕【新智元导读】全球首个AI程序员Devin被爆视频造假?YouTube博主近日揭露了背后明星初创公司Cognition的谎言,通过逐帧分析发现,Devin并不能独立完成Upwork工作。

  最近,一位有35年软件工程师经验的YouTube博主去逐帧复现了,Devin完成Upwork任务的宣传视频。

  他将25分钟「揭穿Devin的谎言」视频公开后,一时间引爆全网并在HN、Reddit等社交平台上掀起轩然大波。

  有网友表示,「正如博主详细解释的那样,尽管其试图在演示中暗示,Devin并不能独立完成Upwork的工作。它正在创建混乱、过于复杂的代码」。

  Devin发布之初,背后初创公司Cognition AI更新的官方博文中,通过七个视频介绍了这一AI的「魔力」。

  其中,一个视频是,让Devin自主完成了全球最大的综合类自由职业平台Upwork的一项任务。

  博主称,我们首先看到Devin并不是能做Upwork上的任何工作,而是在这项任务中,研究者精心挑选了「road damage」任务。

  然后,在实际对话中,开发者You向Devin提出的要求如下,「我想用这个储存库中的模型进行推理,请弄清楚」。

  值得注意的是,客户的要求是「你需要在亚马逊EC2实例中提交这一操作的详细说明」,与开发者提出要求显然不同。

  比如,可以建立一个网页界面来处理,也可以通过SSH上传,或者放在S3 bucket里。那输出结果的访问方式又是怎样的呢?

  总而言之,博主称,这也是我之前视频里提到的,软件开发者的工作中最难的、最关键的、最耗时的一部分:

  不过,这个代码库最初依赖的一些库是四年前的版本,而现在其中一些库已经不再提供下载,所以不得不进行修改。

  再此,视频中提到了Devin更新了代码。博主表示,「Devin能够做到这一点确实令人赞叹」。

  这个错误出现在一个名为visualize_detections.py的代码文件中。博主称自己并没有遇到这一问题,是因为在代码库中不存在名为visualize_detections.py的文件。

  回到命令行,如果放大窗口的其他部分,便会看到,Devin将一些内容写入一个名为inspect_results.py的文件中,接着运行Python执行这个文件,结果出现了语法错误。

  在Python文件中使用/n是不行,而且echo命令也不该这么使用。这整个过程都是错误的毫无意义。

  Devin在创建这些含错误的文件后,又进行了修正。视频中提到,Devin实际上是在进行打印行调试。这是一个很常见的做法,很多人都会用到。

  放大观察这一部分,可以看到一个奇特的循环。它正在读取一个文件,并把数据读入一个缓冲区。这是update_image_ids.py文件。

  屏幕上显示三个的原因是,其中一个是另一个的分支版本,它们与Devin正在使用的文件完全不同。

  但问题在于Devin此处正在调试一个自己创建的文件,而这个文件完全不在项目代码仓库中,非常不妥。

  其实,Devin并不是在修正自己在网上发现的代码,也不是在处理客户指定的问题代码,而是在修正自己生成的错误代码。

  readme文件说明了其功能及使用方法。在右侧,甚至还有一个小按钮,可以复制整条命令,粘贴至命令行窗口,然后按下回车。

  博主认为开发这个「检测道路损坏」的代码仓库的人已经尽可能地简化了使用说明,但Devin似乎还是没能理解。

  「解决这个问题总共花了我大约一分钟七秒的时间,只需这么短的时间我就修正了错误。这只是一个快速的谷歌搜索而已」软件工程

  根据Devin官方视频中时间,从最初2024年3月9日3:25pm开始,一直到9:41pm完成,中间经历了6个小时天博体育官网入口。

  为了复制Devin的结果,博主只需要在云实例上设置合适硬件的环境,并实际运行两个带有正确路径的命令。

  然而,只要你设置好环境,实际上你只需要运行2个命令。些代码修正全都无关紧要,因为它们都是 Devin 自生成的代码。

  在视频的最后,研究者You表示Devin做得好。而实际上,Devin完成的任务对于AI来说的确很酷。

  它不仅能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型!

咨询电话
020-23651423