融资快报
Formation Bio宣布完成3.72 亿美元D轮融资:Formation Bio(原名为TrialSpark)由华人Benjamine Liu和Linhao Zhang共同创立,是一家专注于将人工智能应用于药物临床试验的创业公司。本轮融资由Andreessen Horowitz 领投,老股东赛诺菲、红杉资本、Thrive、Emerson Collective、Lachy Groom,新投资SV Angel Growth和FPV Ventures等共同参投。
Hebbia获得近1亿美元B轮融资:Hebbia是一家使用生成式AI搜索大型文档并返回答案的初创公司,本轮融资对该公司的估值在 7 亿至 8 亿美元之间,由 Andreessen Horowitz 领投。
吴恩达计划为其AI基金继续筹集1.2亿美元:AI基金在公司生命周期的种子和A轮阶段提供资金,帮助团队在隐秘情况下工作,并连接Ng的专业网络。AI Venture Fund II的规模将比第一轮小。
不停科技获得获近亿元A+轮融资:不停科技是一家2B美食机器人RaaS服务商,主攻AI数字厨房解决方案,打造的线上机器人Botin Bota,可以实时分析餐饮门店的运营数据,为其精细化运营提供指导意见。本次由华山资本领投,老股东高秉强教授生态圈基金未来科技参与投资,老股东李泽湘教授旗下清水湾基金、甘洁教授旗下知行一号基金连续三轮继续超额加持。星辰资本担任后续融资独家财务顾问。本轮资金将用于产品研发及全球交付。
酶有科技获数千万元天使轮融资:酶有科技用AI技术降低酶法DNA合成成本。本轮融资由线性资本领投,奇绩创坛和旦恩资本跟投。
硕橙科技获数千万元C1轮融资:硕橙科技专注通过全感知智能硬件、AI算法,提供设备预测性维护、智能运维等智能制造服务。 投资方为彬复资本。
瑞驰信息获得战略投资:瑞驰信息是一家专注于研发安卓云、AI边缘计算、云基础设施等产品及解决方案的高新技术企业,基于ARM技术与独特的软硬件架构设计,为客户提供以云计算和大数据为核心的产品及解决方案服务。
Constructor获得B轮融资:Constructor是一家美国电商服务提供商,致力于为电子商务行业提供AI搜索软件、产品发现平台、推荐与建议。
Ora完成2000万美元融资:Ora Lab是一家AI驱动的区块链项目提供商,旨在通过其“链上AI预言机”将AI融入去中心化应用程序。Polychain、HF0和Hashkey Capital等参投。 新资金将使该项目“继续开发其技术和基础设施,以标记人工智能模型,并将分散的人工智能引入以太坊生态系统”。
MagicSchool AI 获 1500 万美元 A 轮融资:MagicSchool AI是一家AI教育技术平台。本轮融资由Bain Capital Ventures领投,其他投资者包括Adobe Ventures和Common Sense Media、Replit创始人Amjad Masad、Clever联合创始人Tyler Bosmeny和Rafael Garcia,以及OutSchool联合创始人Amir Nathoo。
中科盈腾完成数百万元天使轮融资:中科盈腾是一家AI技术研发商,主要从事AI基础软件开发、人工智能应用软件开发、计算机系统服务等业务。本次融资由北京积露领投,其他多家投资机构跟投。此次融资资金将主要用于AI技术研发、场景应用深化及市场拓展。
(欢迎添加微信AIyanxishe2,了解更多AIGC、融资情况,与志同道合的朋友一同畅聊时新AI产品)
国内情报:
百度文心大模型 4.0 Turbo 发布,文心一言用户规模达 3 亿人:
百度 WAVE SUMMIT 深度学习开发者大会上,百度首席技术官王海峰宣布了文心大模型 4.0 Turbo 的发布。这个新版本显著提升了应答速度和检索能力。同时文心一言的用户规模已经达到了3亿人,单日最高调用次数达到了5亿次,这得益于飞桨平台的强大支撑。
百度推出智能代码助手“文心快码”,基于文心大模型,实现“帮你想、帮你写、帮你改”的场景应用,加速开发速度、提升业务迭代速度。百度内部上万工程师中有 80%的人已经在使用文心快码,代码采用率达到了 44%。文心快码支持 100 多种主流编程语言及多种 IDE,提供了四种版本,百度承诺不会存储或分析用户代码,确保了数据安全,并根据隐私协议,确保用户的代码片段不会被用于其他用户的建议代码。
华为携手广东省气象局推进AI气象应用,发布星河AI网络解决方案引领Net5.5G智能云网:
华为与广东省气象局签署深化合作框架协议,旨在通过共同推动高性能计算和人工智能等现代技术在气象领域的应用。
另外,华为发布了面向 Net5.5G 智能云网的星河 AI 网络解决方案。该方案针对网络运维的复杂性、业务体验保障以及 AI 时代下的网络安全防护等三大难题,引入 AI 技术赋能网络,实现 L4 自动驾驶网络和高智慧泛在安全防护。
知乎发布全新AI产品“知乎直答”,支持提问、搜索等功能:
“知乎直答”是知乎 AI 搜索功能的产品化,已上线 PC 端。该产品立足于知乎创作者的问答数据,能提供“简略”和“深入”两种答案生成结果,并支持“找内容”和“找人”,之后将推进 App 开发和多模态能力引入,探索对外合作。
硅基智能开源AI数字人交互平台Duix,可快速创建部署逼真数字人:
该平台旨在帮助开发者简化智能数字人的创建和部署过程,提供了丰富的工具和支持,无需技术团队的介入,即可在各种终端设备上部署数字人。用户可以下载多种数字人模型,适用于不同行业需求,并且该项目已开源,便于开发者进行二次开发和个性化定制。功能包括语音输入、语音输出、实时交互和多终端支持等。此外,平台还提供虚拟助理服务,可应用于乘客服务、自动化客户服务、智能咨询服务、虚拟主持人等场景,提升用户体验和服务效率。
智源张宏江称AI系统永远不应该欺骗人类:
北京智源研究院的创始人和首任理事长张宏江谈到国际合作在 AI 保障方面的重要性,以及中国 AI 技术面临的机遇和挑战时表示:“人工智能系统永远不应该自我复制和改进。这条红线非常重要。当系统有能力自我复制、自我改进时,它就会失控。第二是欺骗。人工智能系统不应该具有欺骗人类的能力。”
李开复称如果AI取代了我的工作,我可以代言生发剂的广告:
零一万物CEO、创新工场董事长李开复表示,这么多年他的头发没有变少,如果AI取代了他的工作,他可以代言生发剂的广告。“乔布斯说人生不要做职业规划,世界改变的太快了,只要在每一个重要决定的时候follow your heart。而这个人工智能的时代已经是我渴望了四十多年的时代,当我26岁拿到博士的时候没想到62岁的时候会做这么大胆的事情,那是因为时代要到来了。我认为AI是人类最终对自己的理解。”李开复称,AI智能有望明年赶超博士,奇点将于数年后爆发。
国际情报:
OpenAI CriticGPT代码审查模型发布,模型年化收入超10亿美元,与《时代》杂志达成战略合作:
OpenAI 推出 CriticGPT 新模型,它基于 GPT-4 构建,专门设计用来审查和识别大型语言模型(例如 ChatGPT)生成的代码中的错误。CriticGPT 利用人类反馈强化学习技术,显著提高了代码审查的准确性和效率。不仅能识别出 AI 输出中的潜在问题,还能提供解释,帮助开发者提升代码的质量和安全性。
在商业方面,根据OpenAI和微软最新内部数据,OpenAI 通过出售对其 AI 模型的访问权限,截至3月已经实现了约10亿美元的年化收入。这一成绩标志着 OpenAI 在 AI 模型销售方面超越了科技巨头微软,后者的 Azure OpenAI Service 直到最近才达到相同的年化收入水平。
此外,OpenAI 还与全球知名的《时代》杂志达成了多年内容授权协议。OpenAI 将能够访问《时代》杂志过去100多年的档案和文章,这些内容将用于训练 OpenAI 的 AI 模型,如 ChatGPT。
Perplexity被指引用错误信息,涉嫌违规抓取网站数据引亚马逊AWS调查:
初创公司GPTZero发现Perplexity链接的来源中有越来越多是AI生成的,甚至会使用这些来源中的过时和不正确信息。Perplexity声称其答案仅来自“可靠来源”。另外亚马逊 AWS 正在调查 Perplexity AI,因其被指控未经许可使用 AWS 服务器托管的爬虫程序抓取数据,并涉嫌违反 robots.txt 排除协议。
亚马逊聘请Adept创始人,加码布局AGI研发:
双方达成技术授权协议,Adept 的联合创始人及部分团队成员将加入亚马逊。Adept 专注于开发能够执行各种软件任务的人工智能 “代理”,其技术将支持亚马逊在生成式人工智能领域的扩展。Adept 并未关闭业务。工程部门负责人 Zach Brock 将接任CEO,公司将重新聚焦于“启用代理人智能的解决方案”。联合创始人兼首席执行官David Luan 将在前 Alexa 负责人、现领导新 AGI 团队的 Rohit Prasad 的领导下工作。据悉,Adept 已筹集超过 4.15 亿美元资金,估值约 10 亿美元。
Rain AI 招募苹果芯片专家,加速AI芯片研发:
美国芯片初创公司Rain AI挖来曾在苹果效力17年的芯片高管Jean Didier Allegrucci。他将担任公司的硬件工程主管,领导下一代突破性节能芯片的开发。三周前,Rain AI刚招聘了Meta ASIC架构团队的首席架构师Amin Firoozshahian。
菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败:
菲尔兹奖得主 Timothy Gowers 揭示了大型语言模型在处理经典的「狼 - 山羊 - 卷心菜」过河难题时的失误。Gowers 提出了「废话比率」作为新的基准,指出 GPT-4o 在最简单的题目上的错误,Claude 3.5 也无法幸免。该现象引发了对大型语言模型是否真的能够推理和规划的质疑。Gowers 还指出,目前评估大型语言模型的方法存在缺陷,提出了交互式评估平台 CheckMate 和评分数据集 MathConverse。尽管大型语言模型在各种基准测试上表现出色,但在实际的数学和推理问题上却出现了失误。
谷歌DeepMind开源AI模型 Gemma 2,单 A100 / H100 GPU 可运行:
Gemma 2有90亿(9B)和270亿(27B)两种参数规模可用。27B模型训练了13T tokens,性能与两倍规模的主流模型相当;9B是8T tokens,超越了 Llama 3 8B 等,都拥有8192上下文窗口,可在Google AI Studio中使用。Gemma 2 的架构设计能够在各种硬件上快速运行,包括谷歌云 TPU 主机、英伟达 A100 或 H100 GPU。
26亿参数(2.6B)模型将很快发布,小到可以在手机本地运行。
开发者狂喜!Meta最新发布的LLM Compiler,实现77%自动调优效率:
这是一个基于大语言模型的编译器优化工具。该工具通过在包含 5460 亿个标记的 LLVM-IR 和汇编代码的语料库上训练,增强了对编译器中间表示、汇编语言和优化技术的理解。在测试中,LLM Compiler 的优化潜力达到了自动调优搜索的 77%,显著减少了编译时间并提高了代码效率。在反汇编方面,LLM Compiler 能够将 x86_64 和 ARM 汇编代码转换回 LLVM-IR,往返反汇编的成功率为 45%。
Resemble AI 发布下一代深度伪造检测模型 Detect-2B,准确率高达94%:
该模型采用了一系列预训练的子模型和微调技术,能够对音频片段进行深入检查,以确定其是否为 AI 生成。Detect-2B 能够以至少 93% 的准确率正确检测六种不同语言的深度伪造音频,并且能够预测音频的 AI 生成概率,无需在每次收听新片段时重新训练模型。Detect-2B 的子模型由一个冻结的音频表示模型和插入关键层的自适应模块组成,这些模块能够识别录音中留下的意外声音,以此区分真实音频和 AI 生成的音频。
OpenAI CEO 奥特曼预测AGI或在十年内实现全球 GDP 翻倍:
Sam Altman强调, AI 的发展并非一蹴而就,而是一个渐进的过程。尽管 ChatGPT 的推出引起了广泛关注,但大多数应用程序还未发生根本性变化。未来几年,随着更多应用程序在 AI 模型基础上构建,变化将更加显著。Altman 预测, AGI 可能会使全球 GDP 翻倍,这将成为巨大的生产力驱动因素。他相信,随着人们逐渐采用这些工具, AI 将带来前所未有的经济和社会效益。
微软AI高管称开放网络上的内容可自由复制,但也有灰色地带:
当被问及“人工智能公司是否实际上窃取了全球知识产权”时,微软AI首席执行官穆斯塔法·苏莱曼回答:“我认为,对于开放网络上已有的内容,自90年代以来,这些内容的社会契约一直是合理使用。任何人都可以复制、重新创作……这就是‘免费软件’,这就是我的理解。”“还有一种单独的情况是,当一个网站、出版商或新闻机构明确表示,除了为让其他人找到这些内容而对其进行索引外,不得出于任何其他原因抓取或爬取其内容。这是一个灰色地带,我认为它会在法院中逐渐得到解决。”
力挺开源!扎克伯格抨击闭源竞争对手正试图“创造上帝”:
扎克伯格深信人工智能最终不会“只有一个”,他强调了开源的价值——即把人工智能工具交到更多人手中。他表示:“我不认为AI技术是一种应该被私藏起来的东西——那样就只有一家公司可以用它来打造他们想要的某个中心化、单一化的产品。”扎克伯格称,在AI发展过程中有必要创造出许多不同的人工智能,以反映人们的不同兴趣。在谈到那些建立闭源AI平台的公司时,他不认为这是为人们创造最佳体验的方式。
比尔・盖茨喊话环保人士,不要“过分担心”AI 用电问题:
针对当前 AI 系统导致能源消耗加快的问题,比尔・盖茨发起“辩护”,他认为 AI 技术最终将会“抵消”其耗电量,不要“过分担心”运行新一代 AI 系统所需的巨大电力,因为微软等大型科技公司竞相投资数百亿美元建设大型新数据中心。
更多国际情报:
全美 TOP 5 机器学习博士发帖称实验室没有 H100 GPU :学术界 GPU 资源不平等,许多研究者需要争抢计算资源。普林斯顿和哈佛等高校拥有大量的 H100 GPU,而其他机构则可能一盏灯也没有。同一个实验室的博士,甚至时常会出现需要争抢GPU的情况。
首个类 Sora 开源复现方案,可在英伟达 RTX 3090 显卡上 AI 生成视频:Open-Sora 可以在英伟达 RTX 3090 GPU 上基于文本生成视频,最高可以生成 240P 分辨率、时长最长 4 秒的视频。生成 2 秒视频大约需要 30 秒,4 秒视频大约需要 60 秒。对于 424x240 的输出来说,4 秒钟的视频输出逼近 1 千万像素。
微软对OpenAI 价值 130 亿美元的投资协议面临欧盟审查:监管机构将更多地询问微软的竞争对手和客户,了解微软与OpenAI签订的排他性条款,以及这些条款是否可能对竞争产生负面影响。
AI 帮助大学生获取更高分,且难以被发现:Scarfe 教授团队使用 GPT-4 生成考试答案,并代表 33 名假学生提交。在不知情的情况下进行评分,AI 生成的本科心理学课业答案在 94% 的情况下未被发现,而且平均得分比学生真实得分高。
配备 GPT-4o 和摄像头的智能眼镜来了:Solos 将推出一款名为 AirGo Vision 的智能眼镜,该眼镜配备了 OpenAI 的 GPT-4o AI 模型和摄像头,能够识别物体并回答用户关于所看物品的问题,同时兼容 Google Gemini 和 Anthropic 的 Claude AI 模型,并且有 LED 通知灯,目前尚未公布具体价格和发布日期。
奥迪携手ChatGPT,为200万辆汽车注入智能语音助手:这项服务预计将于7月推出。车主将能够通过自然语言与汽车进行互动,实现对信息娱乐、导航和空调系统的语音控制。ChatGPT甚至能够回答一般知识性问题。
Product Hunt 热榜,AI 智能化 API 客户端ApyHub Fusion
ApyHub Fusion是一款融合AI技术的创新型API客户端,旨在彻底改变API开发流程。平台借鉴了Notion的直观界面设计,将API的构建、测试和文档化过程整合到一个智能化的工作空间中。
Fusion的核心优势在于其AI驱动的智能化功能,能够预测用户需求并优化工作流程。它支持实时团队协作,简化了API开发的复杂性。该平台的模块化测试系统和无缝的文档集成功能,大大提高了开发效率。Fusion兼容主流API客户端的数据导入,支持多平台使用,包括MacOS、Windows和Web。
?https://apyhub.com/product/fusion?ref=producthunt
GitHub Trending 热榜,AI短视频生成MoneyPrinterTurbo
MoneyPrinterTurbo是一个基于AI大模型的开源项目,旨在自动化短视频生成过程。该工具支持通过输入主题或关键词一键生成高清短视频,包括视频文案、素材、字幕和背景音乐。
项目提供Web界面和API接口,支持多种语音合成服务和字幕生成模式。它基于MoneyPrinter项目重构,增加了新功能如视频转场效果和长度选项。可通过Docker或手动方式部署,也可使用一键启动包快速体验。
?https://github.com/harry0703/MoneyPrinterTurbo
开发者推荐,Glif作者创建meme梗图生成器风靡推特:
Glif创始人fabian用几分钟搭建了一个meme梗图生成器,能快速生成幽默、尖锐的梗图,成为新一代"嘴替"。AI改造后的梗图展现全新创意表达形式,用户通过Glif快速创建个性化梗图。
?https://glif.app/@Hanwei/glifs/clxv3atsq00009wq1iwsmw1ks/source
前沿技术
1.Visual Sketchpad :AI 视觉推理能力
华盛顿大学、Allen AI 研究所和宾夕法尼亚大学联合推出 Visual Sketchpad,这是一个为多模态语言模型赋予视觉推理能力的创新框架。该项目的核心是将多模态语言模型与视觉绘图能力结合,使其能够生成辅助草图,从而在解决几何问题、计算机视觉任务等视觉推理任务时进行更有效的思考和解决问题。与之前的文本链式推理和工具使用范式不同,Visual Sketchpad 允许模型绘制线条、框、标记等,更接近人类的草图方式,有助于推理过程。
?https://visualsketchpad.github.io/
2.DigiRL 设备控制 AI 代理训练方法
加州大学伯克利分校等机构研究人员推出 DigiRL,这是一种创新的自主强化学习方法,旨在训练真实环境中的设备控制 AI 代理。该技术通过两阶段微调预训练的视觉语言模型,显著提升了 AI 在复杂图形用户界面控制任务中的表现。核心亮点包括:
• 采用离线强化学习初始化模型,随后进行离线到在线的强化学习
• 构建可扩展、并行化的 Android 学习环境,配备 VLM 评估器
• 在 Android-in-the-Wild (AitW) 数据集上,1.5B 参数的 VLM 经 DigiRL 训练后,成功率从 17.7% 提升至 67.2%
• 大幅超越现有最佳方法,包括使用 GPT-4V 的 AppAgent (8.3%) 和 17B 参数的 CogAgent (14.4%)
?https://digirl-agent.github.io/
3.SciPhi-AI推出了开源RAG引擎R2R
R2R是一个旨在连接本地LLM实验和可扩展的、生产就绪的检索增强生成的工具。它为开发者提供了一个全面且最新的RAG系统,围绕着RESTful API构建,方便易用。R2R支持多模态输入,包括文本、文件、图像、音频等,同时还提供了混合搜索、图形RAG、应用程序管理、客户端-服务器交互、可配置性、可扩展性等功能。
?https://github.com/SciPhi-AI/R2R?utm_source=uwl.me
4. Director3D:文本到3D生成技术
厦门大学,上海人工智能实验室推出Director3D,这是一个强大的开放式文本到3D生成框架,旨在生成真实世界的3D场景和相应的摄像机轨迹。通过使用Trajectory Diffusion Transformer建模文本描述的摄像机轨迹分布,以及使用Gaussian-driven Multi-view Latent Diffusion Model建模给定摄像机轨迹和文本的图像序列分布,Director3D能够产生与文本描述一致的高质量3D场景。此外,Director3D通过引入SDS++损失,进一步优化和细化3D场景的生成。
?https://imlixinyang.github.io/director3d-page/?utm_source=uwl.me
5.StreamingT2V: AI长视频生成技术新突破
俄勒冈州佐治亚理工学院和UIUC推出StreamingT2V,开源项目最新版本支持高分辨率长图像到视频的生成,为用户提供24fps和12fps两种帧率选择。这项技术利用条件注意力模块和外观保持模块,实现了视频片段间的一致性和长期场景特征保持,能够生成长达2分钟的高质量视频。
该项目采用随机混合方法,使视频增强器可在自回归过程中持续应用,从而产生无限长度的视频。实验表明,StreamingT2V在生成高运动量视频方面表现优异,解决了现有方法容易导致视频停滞的问题。这一技术的泛化能力强,不受特定文本到视频模型限制。
?https://streamingt2v.github.io/
大牛洞见
Andrej Karpathy演讲:从学术圈到社会重塑
UC Berkeley黑客松活动上,Andrej Karpathy指出,AI领域正经历前所未有的变革,从小规模学术讨论发展到影响整个社会经济格局。Karpathy强调,大型语言模型正成为新的计算核心,类似于传统CPU的角色。他预测AI技术将从数字领域扩展到物理世界,深刻影响基础设施。未来可能出现多个AI实体协作完成任务,自动化大量工作。Karpathy还借鉴科幻电影《Her》和《I, Robot》,探讨了AI的潜在发展方向及其带来的伦理和社会挑战。
? https://www.youtube.com/watch?v=Tmrq914yLck
敬请期待明日的最新动态!
AI情报局征集情报合伙人,汇集独家价值线索!如果您可以提供有关AI最新成果&行业内幕&独特产品,请添加运营微信号:AIyanxishe2备注行业岗位。
雷峰网(公众号:雷峰网)