生成式AI 一、OpenAI总裁Greg出走3月终于归来!专注重大技术挑战
Greg Brockman结束休假,重返OpenAI并将专注技术挑战,每周投入100小时编写代码;OpenAI经历高层离职潮,Mira Murati等人离开后,Brockman的回归有助于稳定公司;Brockman的工作风格受到争议,虽然技术能力强,但其代码常缺乏文档,影响团队协作。
二、吴佳俊团队新作:场景语言,智能补全文本到3D的场景理解
斯坦福团队提出“场景语言”(Scene Language),通过自然语言生成和编辑三维场景;该方法结合程序语言、自然语言和神经网络表征,有效描述和调整物体位置、风格等细节;相较传统方法,Scene Language在用户偏好和物体数量控制上表现出显著优势,具有广泛应用潜力。
三、对标谷歌NotebookLM!语音生成模型PlayDialog beta版本
PlayDialog是一个端到端AI语音生成模型,能根据对话历史调节语调、情感和语速,适用于对话播客、旁白等应用;另外,还有PlayNote是一款将多种媒体文件转化为对话体验的工具,支持快速生成播客、简报和旁白,并提供API接口;PlayDialog经过数亿次对话训练,具备超越市场竞争对手的语音生成表现,能够理解对话上下文,实现更自然、富有表现力的语音合成。
四、苹果新AI硬件曝光,Apple Intelligence家居版“贾维斯”登场
苹果将于明年3月推出一款AI智能家居控制设备,配备6英寸屏幕,结合Siri和Apple Intelligence;设备支持家电控制、视频通话和安全功能,并与苹果的智能家居框架HomeKit兼容;计划推出更高端版本,配备机械臂和AI个性化功能,专注于家庭或工作空间的AI伴侣角色。
五、秘塔AI引入“专题”功能,用搜索结果和信息源生成个人知识库
秘塔AI新增“知识库”功能,可将AI搜索结果和信息源收藏至专题;专题支持自定义分类,用户可上传文件,形成私域知识库,方便后续查询和管理;提供协同编辑和API接口,知识库可共享,进一步扩展了AI搜索和内容管理的应用场景。
六、宇树科技也来玩开源了:开源Unitree G1机器人操作数据集
宇树科技开源了Unitree G1机器人操作数据集,包含数据采集、学习算法、数据集和模型,并将持续更新;数据集基于HuggingFace 的LeRobot框架进行训练和测试,涵盖五种操作,如拧瓶盖、叠积木等;G1机器人搭载三指灵巧手和视觉传感器,已实现量产,售价9.9万元起,支持深度强化学习和仿真训练。
前沿科技 七、AI面临的五个蛋白质设计问题,Nature找了一群专家来讨论
蛋白质设计面临挑战,特别是如何可靠预测蛋白质间的结合,尤其是针对药物开发的结合剂;生成式AI在蛋白质催化剂设计中发挥重要作用,但天然酶的功能和结构之间的关系仍是难题;计算蛋白质设计的进展加速了复杂结构的应用,如疫苗和纳米粒子,但需要更多数据与合作以克服算法的局限性。
报告观点 八、不只有硅谷在讨论AI,神父和技术专家也在梵蒂冈研讨AI
梵蒂冈研讨会讨论AI技术的伦理,专家提议应谨慎发展AI,区分工具型AI与通用AI(AGI)。深伪视频播放模拟教皇支持AGI开发,现场反响轻松,讨论转向AI如何与人类社会共存。技术哲学家与神父们认为,AI技术发展不应视为必然,需质疑现有假设并深入思考技术对人类本质的影响。
九、OpenAI首位投资者《时代》刊文:AI将重新定义人类意义
人工智能将重新定义人类的意义,通过增强人类大脑能力,推动社会和经济结构的根本变革;AI有潜力提供近乎免费的教育、医疗和专业知识,提升全球福祉,减少不平等;未来社会将摆脱传统工作压力,人类将聚焦于创造力、激情和人际关系,而不是生计。
十、Scaling Laws终结,量化无用?AI大佬们都在审视这篇论文
论文《Scaling Laws for Precision》指出,低精度训练可能影响大模型的性能,过多的数据训练会加剧量化后的性能退化;研究提出统一的扩展定律,可预测不同精度下训练和推理的性能下降,低精度训练可以优化计算,但效果低于预期;随着摩尔定律的限制,未来的大模型扩展面临瓶颈,可能需要依赖数据中心扩展、动态模型调整或知识提炼等新