AI全球视野 | Midjourney支持外部编辑器、ComfyUI桌面版本发布

派生万物澎湃新闻旗下独立技术品牌

2024-11-01 14:12

上海

原创派生万物派生万物AI

全球视野

派生万物汇总全球AI资讯01

谷歌紧跟Claude脚步，‘贾维斯’从梦想到现实/NEW

提起钢铁侠随叫随到的智能体‘贾维斯’，人们总是难掩羡慕和激动之情。上周Claude 3.5 sonnet升级后，仅发布指令就能让AI操作电脑的重大更新让人惊叹是不是现实世界的‘贾维斯’要来了。

近日谷歌宣布正在研发的Project Jarvis项目，将结合Gemini实现AI接管用户的浏览器操作行为，可能会在12月份发布。谷歌透露，该项目无需用户有编程基础、也不用通过调用API，仅仅是在网页简单发布指令，就能帮助用户实现购物、预定航班、阅读和整理文档等等。

Midjourney 宣布引入外部图像编辑器，让图像编辑更灵活/NEW

比起开源的Stable diffusion，闭源的Midjourney虽然保证了艺术性和美学，可其单一的功能也颇受用户质疑。近日Midjourney发布更新，宣布引入外部图像编辑器，这让图像的编辑更加的灵活了。

这次的更新2部分功能：1，支持用户本地直接上传图片，用户可以通过文本、裁剪或者重新绘制来丰富或者修改图片的内容。2、图像重塑模式，可以智能识别不同场景的背景纹理、光影和颜色的效果，通过文本提示或者局部图像选择，能够重新生成同样布局但不同风格的图像。

不过，新版本的功能暂时还未对全部用户发布，只邀请满足以下条件的用户内测：订阅了月度会员1年以上或者是年度订阅会员，以及生成10000张图片的高频使用用户。

ComfyUI发布V1.0桌面版本，普通人也能轻松使用/NEW

ComfyUI以其灵活的工作流、用户自定义节点得到不少人的青睐，但对比“开网页即用”的Stable Diffusion Web UI，ComfyUI对小白用户来说始终不算是太友好。

ComfyUI官方示例桌面版本功能

好在，ComfyUI近日声明V1.0桌面版本已经发布，这个软件包只有200M，用户下载后不需要再手动集成Python环境，也不需要再手动拉更新分支，它会自动更新。支持Windows / macOS / Linux平台使用。

目前此版本官方正在邀请内测中，有兴趣的朋友可以到官方注册申请名额。

Stable Diffusion 3.5 Medium版本上线，9.9G内存就能用/NEW

官方宣布SD3.5系列最后一个版本发布

前段时间Stabilityai公司宣布SD 3.5系列中的Large和Turbo上线，并且3.5系列开放了免费商用，一时间热议沸腾。在当天的官方宣告中，“最强的Medium”版本并未释放，在日前终于单独面世了！

官方给出的SD3.5系列各个版本在不同硬件的兼容性和性能表现，绿色标志代表可运行，黄色代表运行可能存在问题，需要使用量化版本

Stabilityai称，Medium版本拥有25亿个参数，做到了家用消费级别的硬件也能使用，甚至是“烤面包机上都能用”。

SD3.5 Medium 版本的效果，看得出光影和动态的处理比较细腻

SD3.5系列也无法避免的手部的问题…

SD3.5 Medium版本画动画还不错，就是细节仍需要细化

由于在预训练过程使用了MMDiT提高了文本编码器对复杂语句的推理能力，同时还采用了渐进式训练阶段：从256到1440 分辨率循序训练使得图像生成的稳定性也得到了提高。官方称9.9G内存就能用，这实属让大部分对AIGC跃跃欲试又苦于硬件条件的爱好者热泪盈眶了。

英伟达与xAI 联手打造超级计算机集群，由超100,000个GPU集成/NEW

自从Stable Diffusion横空出世，让人类的想象力脱离专业技能落地成图，当中的硬件支持方英伟达也因此备受关注。日前英伟达（ NVIDIA）宣布与xAI联手打造的超级计算机集群Colossus已经落地。

Colossus使用了超过100,000个英伟达（ NVIDIA） Hopper GPU，该集群通过使用 NVIDIA Spectrum-X 以太网网络平台实现了这一大规模，旨在为使用基于标准的以太网的多租户、超大规模 AI 工厂提供卓越的性能。是目前世界上最大的人工智能超级计算机。

据悉，xAI 和英伟达（ NVIDIA）仅用 122 天就建造了这个配套设施和最先进的超级计算机集群，而这种规模的集群通常需要数月甚至数年的时间。但英伟达和xAI从第一个机架滚到地面到训练开始，一共才花了 19 天。而xAI正计划继续扩大Colossus的规模，预计集成更多的英伟达显卡打造二代超级计算机集群。

Ultralight Digital Human项目支持移动设备运行轻量级数字人/NEW

数字人已经成为当下很多行业热门使用的AI工具之一。不过，数字人的训练仍旧离不开技术人员的专业支持，整个训练过程也颇显漫长。但这一困境马上就要解除啦！

Ultralight Digital Human项目发起人在开源社区的介绍

近日，开源社区一个叫Ultralight Digital Human的项目备受瞩目！这个开源项目支持在移动端实时运行数字人模型。

根据项目发起人所说，上传一个3-5分钟的、带有正面人脸且声音清晰无杂音的视频，按照指南开始运行提取音频特征，等待运行结束就可以开始训练。

苹果第一代Apple Intelligence已推出，深度融合iPhone、Mac和iPad打造AI个人助手/NEW

近日，苹果宣布第一代Apple Intelligence开始推送！Apple Intelligence是苹果全新打造的个人智能系统，它利用 Apple 芯片的强大功能来理解和创建语言和图像、跨应用程序采取行动以及从个人背景中汲取灵感，以简化和加速日常任务。

第一代Apple Intelligence搭载的重写功能，可以让用户在任意写作文本内（包括第三方软件）进行校对、重写或者总结。同时，重写功能会根据用户的文本内容进行创作建议。Siri也有了文本、语音随时切换但保持问答的新改进，官方称Siri已经可以回答有关苹果产品的功能和参数等上千个问题。最具亮点的应该是Apple Intelligence支持照片应用内使用自然语言进行搜索，直接快速定位到照片或视频。

苹果官方展示了Apple Intelligence重写功能的流程

Apple Intelligence的图片搜索功能支持自然语言搜索

值得一提的是，Apple Intelligence集成了ChatGPT，如果选择启用ChatGPT，则无需创建账户也可以使用ChatGPT来使用Siri、对文本创作进行修改以及对图像相册搜索。

美区账户的iOS 18.1、iPadOS 18.1 和 macOS Sequoia 15.1 可以通过更新下载体验，苹果计划在12月推出第二代Apple Intelligence，官方称二代Apple Intelligence将会搭载更多的功能。

关于我们：派生万物是澎湃新闻旗下独立技术品牌，专注于AI科技创新与应用。助力媒体、政务及各行业客户实现数智化转型。

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。