AI全球视野 | Midjourney支持外部编辑器、ComfyUI桌面版本发布
原创 派生万物 派生万物AI
全球视野
派生万物汇总全球AI资讯01谷歌紧跟Claude脚步,‘贾维斯’从梦想到现实/NEW
提起钢铁侠随叫随到的智能体‘贾维斯’,人们总是难掩羡慕和激动之情。上周Claude 3.5 sonnet升级后,仅发布指令就能让AI操作电脑的重大更新让人惊叹是不是现实世界的‘贾维斯’要来了。
近日谷歌宣布正在研发的Project Jarvis项目,将结合Gemini实现AI接管用户的浏览器操作行为,可能会在12月份发布。谷歌透露,该项目无需用户有编程基础、也不用通过调用API,仅仅是在网页简单发布指令,就能帮助用户实现购物、预定航班、阅读和整理文档等等。02
Midjourney 宣布引入外部图像编辑器,让图像编辑更灵活/NEW
比起开源的Stable diffusion,闭源的Midjourney虽然保证了艺术性和美学,可其单一的功能也颇受用户质疑。近日Midjourney发布更新,宣布引入外部图像编辑器,这让图像的编辑更加的灵活了。这次的更新2部分功能:1,支持用户本地直接上传图片,用户可以通过文本、裁剪或者重新绘制来丰富或者修改图片的内容。2、图像重塑模式,可以智能识别不同场景的背景纹理、光影和颜色的效果,通过文本提示或者局部图像选择,能够重新生成同样布局但不同风格的图像。
不过,新版本的功能暂时还未对全部用户发布,只邀请满足以下条件的用户内测:订阅了月度会员1年以上或者是年度订阅会员,以及生成10000张图片的高频使用用户。
03
ComfyUI发布V1.0桌面版本,普通人也能轻松使用/NEW
ComfyUI以其灵活的工作流、用户自定义节点得到不少人的青睐,但对比“开网页即用”的Stable Diffusion Web UI,ComfyUI对小白用户来说始终不算是太友好。
ComfyUI官方示例桌面版本功能
好在,ComfyUI近日声明V1.0桌面版本已经发布,这个软件包只有200M,用户下载后不需要再手动集成Python环境,也不需要再手动拉更新分支,它会自动更新。支持Windows / macOS / Linux平台使用。
目前此版本官方正在邀请内测中,有兴趣的朋友可以到官方注册申请名额。
04
Stable Diffusion 3.5 Medium版本上线,9.9G内存就能用/NEW
官方宣布SD3.5系列最后一个版本发布前段时间Stabilityai公司宣布SD 3.5系列中的Large和Turbo上线,并且3.5系列开放了免费商用,一时间热议沸腾。在当天的官方宣告中,“最强的Medium”版本并未释放,在日前终于单独面世了!
官方给出的SD3.5系列各个版本在不同硬件的兼容性和性能表现,绿色标志代表可运行,黄色代表运行可能存在问题,需要使用量化版本Stabilityai称,Medium版本拥有25亿个参数,做到了家用消费级别的硬件也能使用,甚至是“烤面包机上都能用”。
SD3.5 Medium 版本的效果,看得出光影和动态的处理比较细腻
SD3.5系列也无法避免的手部的问题…
SD3.5 Medium版本画动画还不错,就是细节仍需要细化由于在预训练过程使用了MMDiT提高了文本编码器对复杂语句的推理能力,同时还采用了渐进式训练阶段:从256到1440 分辨率循序训练使得图像生成的稳定性也得到了提高。官方称9.9G内存就能用,这实属让大部分对AIGC跃跃欲试又苦于硬件条件的爱好者热泪盈眶了。
05
英伟达与xAI 联手打造超级计算机集群,由超100,000个GPU集成/NEW
自从Stable Diffusion横空出世,让人类的想象力脱离专业技能落地成图,当中的硬件支持方英伟达也因此备受关注。日前英伟达( NVIDIA) 宣布与xAI联手打造的超级计算机集群Colossus已经落地。
Colossus使用了超过100,000个英伟达( NVIDIA) Hopper GPU,该集群通过使用 NVIDIA Spectrum-X 以太网网络平台实现了这一大规模,旨在为使用基于标准的以太网的多租户、超大规模 AI 工厂提供卓越的性能。是目前世界上最大的人工智能超级计算机。
据悉,xAI 和英伟达( NVIDIA) 仅用 122 天就建造了这个配套设施和最先进的超级计算机集群,而这种规模的集群通常需要数月甚至数年的时间。但英伟达和xAI从第一个机架滚到地面到训练开始,一共才花了 19 天。而xAI正计划继续扩大Colossus的规模,预计集成更多的英伟达显卡打造二代超级计算机集群。06
Ultralight Digital Human项目支持移动设备运行轻量级数字人/NEW
数字人已经成为当下很多行业热门使用的AI工具之一。不过,数字人的训练仍旧离不开技术人员的专业支持,整个训练过程也颇显漫长。但这一困境马上就要解除啦!
Ultralight Digital Human项目发起人在开源社区的介绍近日,开源社区一个叫Ultralight Digital Human的项目备受瞩目!这个开源项目支持在移动端实时运行数字人模型。
根据项目发起人所说,上传一个3-5分钟的、带有正面人脸且声音清晰无杂音的视频,按照指南开始运行提取音频特征,等待运行结束就可以开始训练。
07
苹果第一代Apple Intelligence已推出,深度融合iPhone、Mac和iPad打造AI个人助手/NEW
近日,苹果宣布第一代Apple Intelligence开始推送!Apple Intelligence是苹果全新打造的个人智能系统,它利用 Apple 芯片的强大功能来理解和创建语言和图像、跨应用程序采取行动以及从个人背景中汲取灵感,以简化和加速日常任务。
第一代Apple Intelligence搭载的重写功能,可以让用户在任意写作文本内(包括第三方软件)进行校对、重写或者总结。同时,重写功能会根据用户的文本内容进行创作建议。Siri也有了文本、语音随时切换但保持问答的新改进,官方称Siri已经可以回答有关苹果产品的功能和参数等上千个问题。最具亮点的应该是Apple Intelligence支持照片应用内使用自然语言进行搜索,直接快速定位到照片或视频。苹果官方展示了Apple Intelligence重写功能的流程
Apple Intelligence的图片搜索功能支持自然语言搜索值得一提的是,Apple Intelligence集成了ChatGPT,如果选择启用ChatGPT,则无需创建账户也可以使用ChatGPT来使用Siri、对文本创作进行修改以及对图像相册搜索。
美区账户的iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 可以通过更新下载体验,苹果计划在12月推出第二代Apple Intelligence,官方称二代Apple Intelligence将会搭载更多的功能。

