2025年4月15日,OpenAI正式推出GPT-4.1系列模型,包含旗舰版GPT-4.1、高效轻量级GPT-4.1 mini及超小型GPT-4.1 nano,全面取代前代GPT-4o及GPT-4.5预览版,现通过API向全球开发者开放。
Note:图为GPT-4.1和GPT-4.0性能对比情况
PART
01
核心特点
▷ 百万Token上下文窗口
全系列支持100万Token长文本处理(是GPT-4o的8倍),可精准检索超长代码库、法律文档、金融报告中的关键信息,甚至能在百万Token中“大海捞针”并保持高准确率。
▷ 编程能力飞跃式提升
◆SWE-bench Verified测试得分54.6%,较GPT-4o提升21.4%,比GPT-4.5高26.6%。
Note: SWE-bench Verified : 一个模型被给定一个代码仓库和问题描述,并且必须生成一个补丁来解决这个问题。
◆ 前端开发更受青睐:相较于GPT-4o,80%开发者更倾向GPT-4.1生成的网页设计,无关代码编辑率从9%降至2%。
◆ 多语言编码效率翻倍:Aider基准测试中表现超GPT-4o两倍,支持高效生成diff格式代码变更,减少文件重写成本。
Note: Aider的多语言差异基准测试(Aider’s Polyglot Diff Benchmark)是一个用于评估大型语言模型(LLM)在代码编辑和多语言编程中表现的测试。
在Aider的多语言基准测试中,模型通过编辑源文件来解决来自Exercism的编程练习,并允许一次重试。在“whole”格式中,模型需要重写整个文件,这可能比较慢且成本较高。在“diff”格式中,模型需要编写一系列搜索/替换块。
▷ 指令遵循与多模态突破
◆ 复杂指令理解优化:支持多轮上下文追踪,Scale's MultiChallenge基准得分提升10.5%。支持XML/YAML/Markdown格式、否定指令(如“不要联系支持”)、 顺序指令(如“先询问用户的名字,然后询问他们的电子邮件”)、 内容要求指令(“在编写营养计划时,始终包含蛋白质的含量”)、排序指令(如“按人口数量对结果进行排序”)、不确定性指令(如“如果你不知道答案,请提供支持团队的联系邮箱”)。
◆ 视频理解新标杆:30-60分钟无字幕视频问答准确率72%,较GPT-4o提升6.7%。
◆ 图像解析增强:医疗影像标注、工业图纸协同编辑延迟降低63%,精准识别科学图表细节。
Note:在MMMU中,一个模型回答包含图表、地图等问题
▷ 轻量化覆盖全场景
◆ GPT-4.1 mini:延迟降50%,成本降83%,性能接近标准版,适配边缘设备。
◆ GPT-4.1 nano:OpenAI迄今最快、最便宜模型(MMLU得分80.1%),支持离线运行,适配智能手表、物联网等低延迟场景。
Note:MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是一个用于评估大型语言模型(LLM)能力的基准测试工具。它由斯坦福大学的研究人员开发,旨在全面测试模型在多学科知识和复杂任务中的理解能力和问题解决能力。
02
价格全面解析
Note: 目前Azure尚未独立公布GPT-4.1的定价,以下为各模型原厂价格
成本优化策略
◆ 提示缓存折扣提升至75%(原50%),重复查询更省!
◆ 长上下文无额外费用,百万Token处理不涨价。
◆ 批量API调用享50%折扣,企业级应用成本再压缩。
03
在Azure上快速体验GPT-4.1
◆ 可用区域:覆盖美国东部、瑞典中部(具体以官方公告为准)。
◆ 创建步骤:
1. 登录Azure门户,搜索并进入“Azure OpenAI”;
2.点击“Create(创建)”,填写信息后创建服务目录,部署完成后点击“Go to resource(转到资源)”,点击进入创建好的资源;
3. 点击“Go to Azure AI Foundry portal”;
4.点击“新建部署 > 从基本模型”,搜索找到GPT-4.1模型,点击部署;
5.部署完成后即可在右侧快速体验该模型的效果。
详细步骤请参考:
https://learn.microsoft.com/zh-cn/azure/ai-services/openai/how-to/create-resource?pivots=web-porta
开发者必读
◆ GPT-4.5预览版将于7月14日停用,建议尽快迁移至4.1系列。
◆ GPT-4.1数据集更新至2024年6月,覆盖最新行业动态。