开源大事记
概述
中国开源年度报告的《开源大事记》篇,为什么会收录很多国际开源的新闻?因为在我们看来:这些都是中国的开源人需要关心的大事,也是正在或即将影响中国开源界的大事。
今年的开源大事记,可以说是来自各界的编辑志愿者们心尖上 2023 年的开源大事件。我们思考的大致脉络是:
- 由全球 “开源技术” 的颠覆式创新,如人工智能与机器学习等,为主线;
- 加上地缘政治态势带来的全球冲突,直接或间接地影响了 “开源生态” 不问西东(或东升西变)的起伏变化;
- 从而导致了从区域、法律、贸易、社区方方面面 “开源治理” 的范式转移;
- 其中 “开源安全” 议题更是被视为重中之重;
- 挑战带来机遇,更多挑战带来更多机遇,“开源商业化” 已经成为显学与主流。2023 年虽然艰难,但是全球(包含中国)仍有大批开源初创企业前仆后继;
- 面对这个技术、生态、治理、商业化都发生巨变的新时代,“开源教育” 承先启后,成为开创新局最重要的基石。以人工智能的颠覆式创新为例,没有高瞻远瞩的科研与高教体系的坚持投入,就不会有今天的荣景;
- 最后的 “开源榜单与报告”,算是餐后甜点,看看 2023 年的开源榜单与报告,是否洞烛机先,预见了今后中国的开源发展?
今年是 AI 爆发之年,所以在任何一种类别的大事记里,都少不了 AI 的身影,诸位读者不妨纵览全盘,以获取整体的印象。
总之,我们正处在一个 AI 即将改变世界一切运作模式的前夜,期待在明年的《开源大事记》再见!
一. 开源技术大事记
1.1 人工智能与大模型
- 智谱 AI GLM
智谱 AI 开源了 ChatGLM-6B 系列,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型。另外,智谱 AI 开源了多模态对话模型 VisualGLM-6B(CogVLM),这个模型结合了图像处理和自然语言处理的能力,支持中文和英文对话,旨在提供更加丰富和直观的交互体验。
- 百川 Baichuan
百川在过去一年开源了多个版本大模型,包括 Baichuan-7B 。后续百川发布了 13B 模型,以及百川 2 系列模型,同步开源 base 和 chat 两个版本。后续开源了 Baichuan2-192K 大模型,上下文窗口长度高达 192K。
- 书生大模型体系
上海人工智能实验室发布全新升级的「书生通用大模型体系」,包括书生·多模态、书生·浦语和书生·天际等三大基础模型,以及首个面向大模型研发与应用的全链条开源体系。
- 通义千问 Qwen
阿里巴巴开源了通义千问 7B 模型,后续相继开源了 1.8B,14B,72B 的 base 和 chat 模型,并提供了对应的 int4 和 int8 的量化版本,在多模态场景,千问也开源了 qwen-vl 和 qwen-audio 两种视觉和语音的多模态模型。
- 昆仑万维天工
昆仑万维发布百亿级大语言模型「天工」Skywork-13B 系列,并配套开源了 600GB、150B Tokens 的超大高质量开源中文数据集。Skypile/Chinese-Web-Text-150B 数据集。
RWKV RWKV 作为非 Transformer 结构的大语言模型,自发布以来一直进行持续开源。在 2023 年,RWKV 发布了多个版本,并进入 LF AI & Data 进行孵化。
源 2.0
浪潮信息正式发布千亿级基础大模型「源 2.0」。该系列模型全面开源可商用,共包括参数值 102B(1026 亿)、51B(518 亿)、2B(21 亿)三个版本。与源 1.0 相比,源 2.0 在编程、推理、逻辑等方面均有提升。
- 零一万物 Yi
2023 年 11 月,01-AI(零一万物)发布了 Yi 系列模型,其参数规模介于 60 亿至 340 亿之间,训练数据量达到 300 亿 token。
- 幻方量化 DeepSeek
幻方量化旗下 DeepSeek 发布 67B 开源大模型,DeepSeek 已同时开源 7B 和 67B 的两种规模模型,均含基础模型(base)和指令微调模型(chat)。无需申请,免费商用。同时,项目团队还将训练中途的 9 个模型 checkpoints 开放下载。
- 蚂蚁集团开源代码大模型 CodeFuse
蚂蚁集团开源了 CodeFuse-13B 和 CodeFuse-CodeLlama-34B 的代码大模型,目前该模型支持多种与代码相关的任务,如代码补全、文本转代码、单元测试生成等。开源内容包括:MFT(多任务微调)框架、用于增强 LLMs 编码能力的数据集和部署框架。
- Meta Llama 2
2023 年 7 月,Meta 公司宣布,其 Llama 2 项目已成功开源了三种不同规模的预训练模型,分别为 7B、13B 和 70B 参数版本。在预训练阶段,模型经过了 2 万亿 Token 的大规模训练。SFT 阶段,模型进一步利用了超过 10 万条数据进行微调,以提升其在特定任务上的表现。另外,Meta 还开源了基于对话数据进行 SFT 优化后的 Llama2-Chat 模型,后续 Meta 继续开源了 CodeLlama 编程语言大模型。
- Mixtral 8x7B
2023年 12 月,Mixtral 开源了 MoE 开源模型 Mixtral 8x7B,在 Apache 2.0 许可证下可商用,Mixtral-8x7B 是一款混合专家模型(Mixtrue of Experts),由 8 个拥有 70 亿参数的专家网络组成,这种结构不仅提高了模型处理信息的效率,还降低了运行成本。
- Falcon 180B
Falcon 180B 它是由 Technology Innovation Institute(TII)在发布的开源大型语言模型。该模型拥有 1,800 亿个参数,并使用 TII 的 RefinedWeb 数据集进行了训练。
- 阿拉伯语 AI 大模型 Jais 开源
阿联酋研究团队宣布开源阿拉伯语大模型 Jais。Jais 是一个经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型。
- 微软开源视觉基础模型 Visual ChatGPT
微软推出开源项目 Visual ChatGPT,它将 OpenAI 的 ChatGPT 与一系列视觉基础模型(Visual Foundation Models,简称 VFM)结合起来,使得用户能够在聊天过程中发送和接收图像。这个项目旨在扩展 ChatGPT 的功能,使其不仅能够处理文本,还能够理解和生成图像,从而实现多模态的交互体验。
- NVIDIA 正式开源 TensorRT-LLM
英伟达推出名为 TensorRT-LLM 的深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。
- 马斯克主导 X(原 Twitter)开源推荐算法
X(Twitter)在 GitHub 上发布了两个仓库 (main repo 、 mlrepo),其中涵盖了推荐算法在内的许多推特源代码,包括用来控制用户在 For You 时间线上看到的推文的机制。
- Hugging Face 更改文本推理软件 TGI 许可证
Hugging Face 宣布,在最新推出的 TGI v1.0 版本中,其开源许可证将从 Apache 2.0 改为 HFOIL 1.0。HFOIL 代表 Hugging Face Optimized Inference License,是 HuggingFace 专为优化推理解决方案而设计的许可协议。
- HuggingFace 开源 Rust 机器学习框架 candle
HuggingFace 最近开源了一款新颖的小型 Rust ML 框架——candle,运行速度极快,支持多种强大模型。它提供了对 GPU 的支持,并且具有优化的 CPU 后端,可以在浏览器中运行。Candle 还包含了多个预训练模型和示例,如语音识别模型、通用 LLM、计算机视觉模型等。
- 阿里开源 AnyText
阿里开源多语言视觉文字生成与编辑模型——AnyText,AnyText对生成文字的把控可媲美专业PS,用户可自定义规划文字出现的位置,图片的强度、力度、种子数等
- Jina AI 推出全球首个开源 8K 文本嵌入模型
Jina AI 宣布推出 jina-embeddings-v2 模型,是支持 8K(8192 个 token)上下文长度的开源产品,在功能和性能上与 OpenAI 的 text-embedding-ada-002 类似。
专家点评
郭雪:2023 年的开源大事记中,开源大模型无疑是热度极高的话题。国内外均涌现一批开源大模型,然而开源大模型与开源软件相比,在社区形态以及风险治理等方面均有不同的特点。比如针对大模型的开源许可协议有一些使用场景限制,比如开源大模型是否还存在社区协作?产业还需要进一步理解开源对于大模型发展的意义以及发展模式。
1.2 操作系统与编程语言
- Linux 内核的长期支持(LTS)版本,维护期将从六年变回两年
本次调整是继 2017 年,Linux 内核 LTS 版本的维护期从两年改为六年后,又调整回去的一次操作。针对本次调整,《Linux 每周新闻(Linux Weekly News)》执行主编 Jonathan Corbet 表示:「因为人们不使用它们,所以维护(旧内核)那么长时间真的没有意义。」
- 印度国防部自研 Linux 发行版 Maya OS,全面替代 Windows
印度国防部宣布对其网络安全系统进行重大改革,计划采用一种名为 Maya 的 Linux 发行版,取代其所有联网计算机中的 Windows 操作系统。此举是为了应对日益增长的恶意软件和勒索软件攻击威胁。旨在促进自主创新,减少对外国软件的依赖。
- 红帽宣布 CentOS 7 和 RHEL 7 将在 2024 年 6 月 30 日结束支持
红帽宣布结束 CentOS 7 和 RHEL 7 的支持,也将不再公开 RHEL 的完整源码,而是只提供补丁和更新,同时要求 RHEL 的下游发行版(如 CentOS、Rocky Linux、AlmaLinux 等)必须在 30 天内重新编译和发布自己的版本,否则将失去对 RHEL 的兼容性和支持。
红帽后续补充声明,CentOS 社区不会消失。社区贡献者和 CentOS 用户将继续围绕作为 CentOS Stream 项目组成部分的开源 Linux 发行版展开合作。
- 谷歌开源浏览器项目 Chromium 宣布使用 Rust
谷歌发布博客宣布将支持在 Chromium 中使用来自 C++ 的第三方 Rust 库,计划年底前将 Rust 代码包含到 Chrome 二进制文件中。还表示 Rust 作为 Mozilla 开发的编程语言,在提供安全性的同时还具有高性能,最初专门被用于编写浏览器,因此 Chromium 之类的开源操作系统依赖这项技术也非常合适。
- 开源操作系统 openKylin 1.0 正式发布,已支持 Arm、RISC-V
openKylin 0.9 首次支持 Arm、RISC-V。openKylin 1.0 版本默认搭载 6.1+5.15 双内核,完成 20+ 操作系统核心组件自主选型升级,并新增许多新特性,修复超千个 bug,进一步提升系统整体稳定性和兼容性,为用户带来更好体验。
- 华为正式发布 HarmonyOS 4
华为正式发布 HarmonyOS 4(鸿蒙 4)操作系统。据悉,全新的 HarmonyOS 4 在隐私安全、AI 大模型能力和个性交互等方面有全新突破。
- 飞致云开源 1Panel
1Panel 是一款现代化、开源的 Linux 服务器运维管理面板,为用户提供免费的服务器搭建与管理资源服务。
- 亚马逊云科技开源特定语言 Cedar
亚马逊云科技开源了他们用来定义策略访问权限的领域特定语言 Cedar。Cedar 已集成在 Amazon Verified Permissions 和 AWS Verified Access 中,还可以通过 SDK 和语言规范将Cedar 直接集成到应用程序中。
Cedar 可以在应用程序代码之外定义访问策略,这种分离使得它们能够独立地进行编写、分析和审计。Cedar 支持基于角色的访问控制(RBAC)和基于属性的访问控制(ABAC)。
- 微软发布 Guidance 语言
微软推出了一种名为 Guidance 的领域专属语言,旨在增强开发人员管理当代语言模型的能力。这个新框架将诸如生成、提示和逻辑控制等任务集成到一个统一的开发流程中。这门编程语言使开发人员能够「将生成、提示和逻辑控制组织到一个连续的流中,从而与语言模型实际处理文本的方式相匹配」。
它可以与 Hugging Face 模型等提供程序无缝集成,并集成基于智能种子的生成缓存系统和令牌修复,从而优化提示边界并消除词汇切分过程中的偏见。
1.3 硬件技术与物联网
- 中国支持建设人形机器人开源社区
2023 年 10 月,中国工业和信息化部印发《人形机器人创新发展指导意见》,提出“建设人形机器人开源社区,推进开源基金会能力建设,加强对重点企业开源项目的支持力度,汇聚全球开发者协同创新。”
- 斯坦福大学发布开源机器人 Mobile ALOHA
2023 年 3 月,斯坦福大学发布开源机器人 Mobile ALOHA(A Low-cost Open-source Hardware System),可通过远程操作执行精细任务,到 2023 年年底,已可以通过联合训练实现简单任务的自主操作。
- Tesla 开源初代 Roadster 跑车设计和工程细节
马斯克在社交平台上发文表示,特斯拉 (Tesla) 初代 Roadster 跑车的设计和工程细节 “完全开源”,并发布了所有人都可以访问的研发文件。
- openKylin 正式加入 RISC-V 基金会
openKylin 社区宣布正式加入RISC-V 基金会,成为其产业联盟成员,为 RISC-V 生态建设贡献更多力量,构筑操作系统与 RISC-V 架构软硬件生态协同发展。
- 阿里平头哥开源玄铁 RISC-V 系列处理器
平头哥开源了玄铁 RISC-V 系列处理器,并开放系列工具及系统软件。这是系列处理器与基础软件的全球首次全栈开源,将推动 RISC-V 架构走向成熟,帮助 RISC-V 软硬件技术加速融合发展,推动创新落地。
- AMD 开源了 FSR
AMD 在 MIT 许可证下开源了 FSR(FidelityFX Super Resolution)3,与英伟达 DLSS 竞争的上采样技术,但与 DLSS 不同的是,它不依赖私有的 CUDA 核心,而是基于软件。
- 百度开源旗下消息中间件 BifroMQ
百度开源旗下 MQTT Broker 消息中间件 BifroMQ,该消息中间件由 Java 实现,特点是「高性能、分布式」,BifroMQ 采用 Serverless 架构,无缝集成了原生的多租户支持,该消息中间件源自百度物联网团队多年技术积累,旨在支持构建大规模的物联网设备连接和消息系统。
1.4 Data Infra
- DragonflyDB 1.0 正式发布
DragonflyDB 是一个现代化的开源内存数据库,兼容 Redis 和 Memcached API,迁移时无需修改任何代码,可作为两者的替代方案。近日,DragonflyDB 正式发布了 1.0 版本,开发团队称已支持在生产环境使用,Dragonfly 1.0 完全支持 Redis 最常见的数据类型和命令,以及快照、主从复制和高可用等特性。
- FerretDB 1.0 正式发布
号称 MongoDB 开源替代品的 FerretDB 1.0 正式发布,FerretDB 希望将 MongoDB 数据库的工作负载带回其开源的本源,使 PostgreSQL 和其他数据库后端能够运行 MongoDB 工作负载,保留 MongoDB 现有生态所提供的机会。
- Apache Doris 2.0.0 版本正式发布
Apache Doris 2.0.0 版本于 2023 年 8 月11 日正式发布,有超过 275 位贡献者提交了超过 4,100 个优化与修复。在 2.0.0 版本中,Apache Doris 在标准 Benchmark 数据集上盲测查询性能得到超过 10 倍的提升。
- Apache SeaTunnel 毕业成为 Apache 顶级项目
这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目。Apache SeaTunnel 原名 Waterdrop ,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache 孵化器。SeaTunnel 是一个非常易于使用的、超高性能的分布式数据集成平台,支持海量数据的实时同步。
- 阿里云开源的图计算引擎 GraphScope 性能登顶权威榜单
国际权威图基准测评「LDBC SNB Interactive」 榜单公布最新结果,阿里云开源的图计算引擎 GraphScope 登顶并打破榜单历史纪录,其单节点执行图数据库查询的吞吐率超过 30000 QPS,性能达此前纪录保持者2倍。
- 百度开源自研高性能检索引擎 Puck
百度宣布在 Apache 2.0 协议下开源自研检索引擎 Puck,这也是国内首个适用于超大规模数据集的开源向量检索引擎。
- 字节跳动开源 ByConity
字节跳动将 ByteHouse 内核向社区开源为 ByConity,并于正式官宣发布 0.1.0 版本。
ByConity 定位为开源的云原生数据仓库,采用 Apache 2.0 许可协议,基于 ClickHouse 内核,但采用了存储计算分离的全新架构,支持多个关键功能特性,如存储计算分离、弹性扩缩容、租户资源隔离和数据读写的强一致性等。
- 阿里开源多数据库客户端工具 Chat2DB
Chat2DB 是一款有开源免费的多数据库客户端工具,支持 windows、mac 本地安装,也支持服务器端部署,web 网页访问。和传统的数据库客户端软件 Navicat、DBeaver 相比 Chat2DB 集成了 AIGC 的能力,能够将自然语言转换为 SQL,也可以将 SQL 转换为自然语言,可以给出研发人员 SQL 的优化建议。
- ApeCloud 开源 KubeBlocks
KubeBlocks 是一个开源的在 K8s 上运行和管理数据基础设施的系统软件,旨在帮助开发人员、SRE、平台工程师在企业中部署和维护专用的 DBPaaS,并支持多种公共云和私有云环境部署。KubeBlocks 是目前 CNCF Cloud Native LANDSCAPE 收录的唯一的开源多引擎数据 / 数据库管理系统项目。目前已支持 32 种数据库,包括 MySQL 、PG 、MongoDB 、Redis 、Kafka 、Pulsar 等等。
1.5 云计算与基础软件
- GragGAN 开源一天获得 2 万星标
DragGAN 是由 Google 的研究人员与 Max Planck 信息学研究所和麻省理工学院 CSAIL 一起开发的项目,是一个非常直观的图像编辑工具,用户只需要控制图像中的像素点和方向,就可以快速调整照片主体的位置、姿态、表情、大小和角度等。
- LLMOps 平台 Dify.AI 代码完全开源
LLMOps 平台 Dify.AI 宣布 46,558 行代码完全开源,并临时决定将开源协议从 AGPL 放宽到 Apache 2.0。
- 华为开源跨端、跨框架、跨版本企业级应用前端组件库 OpenTiny 及高性能服务网格 Kmesh
OpenTiny 是华为云开源的 Web 应用前端开发套件,涵盖 Vue2/Vue3/Angular 多技术栈,拥有主题配置系统/中后台模板/CLI 命令行等工具库。
Kmesh 高性能服务网格,是通过架构创新为开发者带来全新网格性能体验,实现OS原生的服务网格数据面能力,基于ebpf+可编程内核技术,将流量治理下沉OS,大幅提升网格服务的访问性能。
- 百度智能云开源发布千帆 SDK 版本
百度智能云正式发布 Python SDK(简称千帆 SDK)版本,并全面开源,企业和开发者可以免费下载和使用。
- 火山引擎自研通用多媒体处理框架 BMF
火山引擎正式开源 BMF(Babit Multimedia Framework,八比特多媒体处理框架)是火山引擎自研的一套通用多媒体处理框架,能够提供简洁易用的跨语言接口、灵活的调度和扩展性。
以模块化的方式动态扩展、管理和复用视频处理的原子能力,以 Graph 的方式构建高性能的多媒体处理链路,帮助多媒体用户便捷、高效的将项目落地于生产环境。
- 字节跳动发布并开源 Rspack
Rspack 是由 ByteDance Web Infra 团队孵化的基于 Rust 语言开发的 Bundler,拥有高性能、兼容 Webpack 生态、定制性强等多种优点,目前 Rspack 已经完成了 Webpack Loader 架构的支持。
二. 开源生态大事记
一个有意思的现象是:如果在开源圈子里发生了什么好事情,多半应该写在商业篇。而如果出现了一些糟心的事情,多半就可以归入生态篇。当然,也不仅仅是坏事,也有一些好消息,以及各国的政策都会对开源生态产生深远的影响。
2.1 各大厂纷纷裁撤开源人员
从1月初,就陆续传出谷歌、GitHub 与 GItLab 裁员的消息,甚至包括红帽这样的公司也在裁员,然后就是国内的各个大厂,也不断的有裁员的消息隐隐约约的披露出来。虽然咱们的这个大事记,主要关注开源生态与开源人的境遇,但是客观的说,大厂的确不是专门要裁开源人才的。只不过,一旦裁员开始,企业内部的开源人员,就会显得很 “可疑”,会被人追问:你们到底为公司创造了什么价值?而这个问题,始终不容易被严肃的、正面的回答!
2.2 著名开源大佬生计艰难
接下来的新闻,就更加令人唏嘘了。谷歌裁掉的一万二千人,被称之为 “Golden 12K”,其中就有一些著名的开源大佬。比如:在 19 年前创立了 Google OSPO 的 Chris DiBona,Samba 的联合创始人,61 岁的 Jeremy Allison,无奈发推表示,「刚从 Google 被解雇。如果有人需要 SMB 1/2/3 协议或者开源经验的,我很感兴趣」。
还有一些著名开源人的遭遇,就更惨了,咱们简单罗列一下标题吧:
- 《开源框架 NanUI 作者转行卖钢材,项目暂停开发》
- 入狱 10 月、网暴不断,并挣扎在温饱线!超 90 亿次下载的开源项目,背后是这样的 9 年》
- 《因资金短缺,全职开发者自述:这款开源软件可能没有未来了!》
- 《因躁狂症失业,知名开源项目作者 “在线求打钱”》
- 《背负着整个现代网络,却因 “缺钱” 放弃开源,core-js 负责人痛诉:“免费开源软件的根基已经崩塌了”》
- 《资金严重短缺,又一流行开源项目宣布停止功能开发》
真的是 “闻者伤心、见者落泪”。去年的开源大事记,我们还在谈 “个人英雄主义的黄昏”。如今,这个趋势已经越发明显了。
专家点评
卫剑钒:如果是抱着玩的心态玩开源,就很好,不用考虑钱的问题。如果是生计问题还没有解决,就不要全身心投入开源,当个业余爱好就好。因为开源本身并不是用来赚钱的。
2.3 知名开源项目陆续停止开发
在 2023 年,国内外都有一些著名的开源项目,宣布停止开发,原因各不相同。
最离谱的,大概要数 AetherSX2,一款 Android 平台上最好用的 PlayStation 2 模拟器。开发者因为遭受了 "无休止的冒充、投诉、无理要求,甚至是死亡威胁",只能无奈,宣布停止开发。
最令人不忍的,则是 aardio,一门专注于桌面软件开发的编程语言,作者因妻子患癌,宣布再无精力维护项目。
另外还有一些常见原因,比如缺钱的、开放商倒闭的:Touca、libjpeg-turbo,还有就是开发者丧失兴趣,不再有精力维护的:Peek、wangEditor、lodash,还有因为技术发展,新时代淘汰了旧技术的:魔趣 (Mokee),还有一系列不再维护的老版本等等。
2.4 自由软件基金会的 40 年风雨历程
1983 年 9 月 27 日,Richard Matthew Stallman(简称 RMS)宣布开发类 Unix 自由软件操作系统的「GNU 计划」,并借此发起自由软件运动。到了 2023 年,自由软件基金会也发布了一篇文章,庆祝 GNU 和自由软件运动四十年。
FSF 执行董事 Zoë Kooyman 表示,GNU 不仅仅是基于自由软件的最广泛使用的操作系统,也是指导自由软件运动四十年的哲学理念的核心。他还说道,我们希望四十周年纪念能够激励更多黑客加入 GNU,实现在全世界范围内创建、改进和共享自由软件的目标。
但是,也是在 2023 年 4 月,有人发文称,历时近 40 年,自由软件基金会 (Free Software Foundation,FSF) 正在走向消亡。作者认为 “FSF 没有重视起传播自由软件理念,开发、发布和推广 copyleft 许可证,监督自由软件运动的健康发展 这几个核心理念的发展,同时还分心将资源投入到了其他的闲散工作中”。
事实上,我们现在的确更多的在谈论开源软件,而不是自由软件了。那么,到底是 “自由软件运动” 已经完成了自己的历史使命,还是有可能通过改革,重振旗鼓呢?
2.5 开源社区老龄化现象
开源社区老龄化,应该是一个不可回避的现象了。甚至连一向脾气火爆的 Linus,都开始收敛脾气,谈及 “内核社区老龄化的问题了”。Postgres 社区的老龄化问题也比较严重,主力开发已经 68 岁了。还有 Vim 之父 Bram Moolenaar 因病逝世,以及 GNU 自由软件项目贡献者 Thien-Thi Nguyen 去世的消息,陆续传来。我们应该如何看待“老龄化”这样的现象呢?
其实,我们还应该看到,更多的年轻人,加入了开源社区,只是他们往往都选择加入了一些更加新奇有趣的年轻项目,而不是那些历史悠久的老牌项目罢了。
也许我们真正应该思考的是:那些老牌开源项目,真的必须一直活跃、一直不断的发布新版本吗?
2.6 来自中国开源的一些好消息
也不能全都是谈坏消息,毕竟在中国的开源社区,还是有不少好消息的,比如在 4 月份的时候,就已经有官方报道:《我国开源软件开发者数量突破 800 万》。
在 2023 年 1 月,Apache Linkis、Apache Kyuubi、Apache bRPC;2月,Apache EventMesh;6月,Apache SeaTunnel、Apache Kvrocks,陆续正式毕业成为 Apache 软件基金会顶级项目。2 月,Jina AI 正式将 DocArray 捐赠给 Linux 基金会,Paralus 正式成为 CNCF 基金会的沙箱项目,7月 Istio 项目正式从 CNCF 毕业。
而 openKylin 正式加入 RISC-V 基金会、华为成为中国首个 PyTorch 基金会 Premier 会员、姜宁再度当选 2023 年Apache 软件基金会董事,则表示我们依然在积极的加入并参与国际开源生态,并不断发挥着重要的作用。
在 2023 年 2 月,继 ALC(Apache Local Community)北京、深圳之后,ALC 还成立了西安分站。与此同时,开源社也启动了 KCC(Kaiyuanshe City Community)计划,到年底时,已经发展了包括北京、长沙、成都、大连、杭州、南京、广州、上海、深圳、新加坡和硅谷,共十一个城市。
2023 年 3 月,继开放原子开源基金会之后,中国的第二个开源基金会 “天工开物基金会” 在重庆正式成立。后来也陆续发起了 “SigStore 中国社区”、“开源创新教育联盟” 等组织,目前已有三个开源项目正式捐赠给天工开物开源基金会。期盼未来国内有更多的优质基金会成立,立足中国、贡献全球。
2023年度开源相关大会搜集表
- 2月
- 深圳:首届开源鸿蒙大会
- 3月
- 北京:首届 OSPO Summit 开源管理办公室峰会
- 北京:Dev.Together 开发者生态峰会
- 4月
- 苏州:移动云大会-开源主题活动论坛
- 上海:openEuler Developer Day
- 5月
- 上海:全球开源技术峰会(GOTC)
- 6月
- 北京:智源大会-AI 开源论坛
- 北京:开放原子全球开源峰会
- 北京:第 18 届开源中国开源世界高峰论坛
- 7月
- 北京:中国互联网大会-开源供应链论坛
- 台北:COSCUP 開源人年會
- 8月:
- 上海:世界人工智能大会-开源学习论坛
- 北京:CommunityOverCode Asia 2023 阿帕奇软件基金会亚洲大会
- 9月
- 上海:KubeCon + CloudNativeCon + Open Source Summit
- 上海:GOSIM(全球开源创新大会)
- 上海:外滩大会-开源论坛
- 北京:OSCAR 开源产业大会
- 10月
- 武汉:开源新疆界:天工开物多元合作峰会
- 长沙:CCF 中国开源大会
- 长沙:1024 程序员节
- 成都:COSCon 第八届中国开源年会
- 12月
- 北京:OpenInfra Days China 2023 开源基础设施开发者日
- 三亚:开源计算机系统大会
- 北京:操作系统大会&openEuler Summit
- 无锡:开放原子开发者大会
- 上海:开源产业生态大会
2.7 各国政策对于开源生态的影响
谈到开源生态,就不得不提到各个国家、地区制定的开源相关政策,都会对开源社区、商业、生态产生全方位的影响。简单的归纳,可以分为以下几类:
- 政府对于开源的扶持政策,在 2023 年 7 月的报道中,有研究就发现 “英国科技总增值 27% 来自开源,价值达 135.9 亿英镑”,中国更是从中央到地方,都有一系列的政策出台。有专门扶持特定开源项目的(深圳),有定点资助特定基金会项目的(北京),也有推动开源技术与特定产业整合的,不一而足。具体会对开源产业与生态产生何等程度影响,我们在今后的几年拭目以待。
- 开源成为国际间竞争的武器,无论是 Github 阻止来自俄罗斯公司的开发者贡献,还是有美国议员,提议在 RISC-V 领域限制中国的发展,以及各种各样已经出台或尝试制定的 “限制出口” 政策,都让下面这则路透社的报道,显得迫在眉睫:《开源软件成为贸易战的重要环节》!
- 围绕开源安全,政策层面也有不少的动作,无论是美国、欧盟还是中国,都出台了一系列围绕 “开源安全”、“AI 合规” 相关的法案与法规。这也令开源社区喜忧参半,喜的是安全领域越来越受到政府重视,而忧的是不合理的政策法规,可能会束缚开源技术的发展。
三. 开源治理大事记
开源治理大致可分为社区治理、项目治理和风险治理。而风险治理里包含了多种风险,如伦理道德与社会风险、法律合规风险(包含许可证)、供应链风险、安全风险等领域。由于开源安全的特殊重要性,我们单独整理了开源安全大事记,作为本文的第五部分。
2023 年是人工智能井喷的一年,是全球人工智能大神们争论是否应该限制人工智能发展速度的一年,是全球主要强国或区域(包含欧盟、美国和中国)彼此博弈同时着重立法规范人工智能的一年,更是开源与人工智能交会,试图定义开源人工智能最关键的一年。
全球开源基金会与组织忧心忡忡地举办了多次线上线下的交流与讨论,试图唤起全球政策制定及立法者摒弃技术民族主义和地缘政治恶意,携手合作,透过开源,共同面对人工智能新范式的挑战。然而,全球碎片化开源社区的声音,以及亚洲(尤其是中国)的政策制定者的影响力,显然还有待加强。
因此,今年我们在开源人工智能治理相关的大事件加重了分量。限于篇幅,除了传统的社区治理和风险治理大事件,众多项目治理的事件则揉入社区治理和风险治理章节里,不再单独列出。
3.1 社区治理
3.1.1 Rust 社区相关争议
Rust 社区在 2023 年经历了一系列的社区危机和治理变革。以下是一些主要的事件和结果:
- Rust 团队在经历了一段时间的内部分歧和争议后,宣布建立了一个新的领导委员会,将权力下放给各个工作组,并公布了一个新的治理模型草案,旨在提高 Rust 项目的透明度、包容性和协作性。但是不久之后,Rust 社区管理再次出现 “内讧”,一些外部专家和贡献者遭到了一些核心成员的排挤和攻击,导致他们离开了 Rust 项目,同时一些核心成员也因为不满和压力而主动请辞,造成了 Rust 项目的人才流失和管理混乱。随后,Rust 内部的冲突和分裂达到了顶点,一些不满 Rust 现有的设计和方向的开发者宣布从 Rust 分叉出一种新的编程语言,名为 Crab,声称 Crab 会更加忠于 Rust 的初衷和理念,更加灵活和高效。
- Rust 基金会拟定了一份新的商标政策,规定了 Rust 商标的使用范围和条件,引发了社区的不满和反对,认为这会限制 Rust 生态系统的发展和创新,影响数百个项目的名称和标识。随后,Rust 基金会针对商标争议发表了一份声明,深表歉意,承认自己在沟通和咨询方面的不足,表示愿意重新审视和修改商标政策,与社区进行更多的对话和协商。
- Rust 社区管理的问题再次升级,RustConf 的组织者在没有征求意见和通知的情况下,撤换了一些原定的主讲人,引发了社区的强烈反对和抗议,一些知名的 Rust 开发者和演讲者宣布退出 RustConf,甚至退出 Rust 社区。
- Rust 语言的创始人 Graydon Hoare 在接受采访时表示,他对 Rust 社区的冲突和分裂感到无奈和沮丧,他认为 Rust 已经偏离了他最初的设想和目标,他已经无法控制和拯救 Rust 的局面,他希望社区能够自己解决问题,不要再打扰他。
虽然 Rust 语言在 2023 年经历了一些社区危机和治理变革,但也公布了 2024 年的路线图,重点涉及降低学习门槛、扩展生态系统和完善开发流程三个方向。
Rust 语言的设计团队表示,他们的目标是简化程序,使开发者只需处理其领域的固有复杂性,不再需要处理 Rust 的意外复杂性,同时也赋予库作者更多的权力和灵活性,以满足用户的需求和创新。
另外,一些观察者认为,Rust 语言在 2021 年证明了自己的稳定性、性能和生产力,正在朝着易用的方向发展。相信随着学习成本、使用成本的进一步降低,Rust 将迎来爆发式增长。Rust 语言不仅是为应对当今挑战而设计的语言,也是为应对未来挑战而设计的语言,它对安全性、并发性和性能的关注、日益广泛的应用显示 Rust 语言将会继续存在,但是社区治理仍然是首要解决的问题。
3.1.2 红帽相关争议
红帽公司在 2023 年引发了一场开源界的风波,涉及到其旗下的 RHEL(Red Hat Enterprise Linux)和 CentOS(Community Enterprise Operating System)两个 Linux 发行版的源码发布和许可问题。以下是一些主要的事件和结果:
- 红帽公司宣布将不再公开 RHEL 的完整源码,而是只提供补丁和更新,同时要求 RHEL 的下游发行版(如 CentOS、Rocky Linux、AlmaLinux 等)必须在 30 天内重新编译和发布自己的版本,否则将失去对 RHEL 的兼容性和支持 。这一举措引发了开源社区的强烈反应,认为红帽公司背叛了开源的精神和原则,试图通过限制 RHEL 的源码访问,挤占开源的份额,实现自身的盈利目的,同时也给 RHEL 的下游发行版造成了巨大的困难和压力
- 红帽公司对此做出了回应,表示他们并没有违背开源的承诺,而是为了保护 RHEL 的品牌和质量,防止一些不良的行为和滥用,同时也为了鼓励更多的用户和开发者直接使用 RHEL,享受其提供的服务和支持。
- CentOS 作为 RHEL 的最大的下游发行版,受到了最大的冲击,它的生态和社区面临着分裂和衰落的危机,一些用户和开发者纷纷转向其他的 Linux 发行版,如 Debian、Ubuntu、Fedora 等,认为 CentOS 已经失去了其存在的意义和价值。
- 甲骨文和 SUSE 两家公司趁机出击,对红帽公司进行了嘲讽和挑衅,表示他们将继续支持和维护 RHEL 的下游发行版,甚至投入了大量的资金和人力,创建了自己的 RHEL 分支,如 Oracle Linux 和 SUSE Linux Enterprise Server,试图抢占 RHEL 的市场和用户。
- 红帽公司再次发表了一份声明,解释了他们为什么要改变 RHEL 源码的发布策略,称他们是为了提高 RHEL 的安全性、稳定性和可靠性,同时也为了促进 RHEL 的创新和发展,他们表示他们仍然尊重和支持开源社区,欢迎更多的合作和反馈。
3.2 风险治理
3.2.1 伦理道德与社会风险
人工智能技术的发展和应用引发了一些伦理道德和社会风险的争论和关注,涉及到人类的安全、自由、隐私、责任等方面。以下是一些主要的事件和观点:
- 一份由马斯克、霍金等知名人士和机构签署的公开信,呼吁国际社会暂停开发和使用致命的自主武器,以防止人工智能引发的战争和暴力。而周鸿祎则表示,不发展人工智能才是最大的不安全,因为人工智能可以帮助人类解决很多问题,而且人类可以通过法律和监管来控制人工智能的使用。
- 一份由 AI 教父 Geoffrey Hinton 与 OpenAI CEO Sam Altman 及其首席科学家 Ilya Sutskever 等近 400 名 AI 领域的专家和学者联合签署的 22 字的声明预警:AI 可能灭绝人类!这份声明警告:人类如果不对 AI 加以控制,AI 可能会超越人类的智能和能力,甚至会威胁到人类的生存。他们呼吁建立一个全球的 AI 监督机构,以确保人工智能的安全和可控。
- 全球多个开源基金会和组织在日内瓦举行了一场国际会议,探讨了 AI 和开源的关系、挑战和机遇。会议认为,开源是促进 AI 创新和合作的重要途径,也是保障 AI 伦理和社会责任的有效手段。此外,全球众多有识之士指出,开源是 AI 发展的必然趋势,开源让 AI 的研究和应用更加透明、公平和可信,也可以让更多的人参与和贡献 AI 的进步,从而避免 AI 的垄断和滥用。
- AI 领域的三位图灵奖得主,即吴恩达、Hinton 和 Bengio 在社交媒体上的一场激辩,主要围绕美国政府对 AI 技术的限制和禁令展开。吴恩达批评美国的禁令阻碍了 AI 的开源和交流,损害了 AI 的发展和创新,而 Hinton 和 Bengio 则认为美国的禁令是出于安全和伦理的考虑,是对 AI 的合理管控。
AI 技术的发展和应用反映出了不同的意识形态和价值观的分裂,以及这些差异对全球人道危机的影响。AI 技术的发展和应用不仅是技术问题,也是政治、经济和社会问题,需要在全球范围内建立共识和合作,以实现 AI 的可持续和公正的发展。
3.2.2 全球AI法律法规政策文件频出
2023年,全球范围内围绕AI出台了众多法律法规政策文件,例如:中国国家互联网信息办公室等七部委联合公布的《生成式人工智能服务管理暂行办法》,中共中央网络安全和信息化委员会办公室发布的《全球人工智能治理倡议》,美国白宫发布的《关于安全、可靠和可信的AI行政命令》,欧洲议会、欧盟成员国和欧盟委员会达成的《人工智能法案》,28个国家和欧盟的政府代表共同签署的国际声明《布莱切利宣言》。
其中,部分文件内容中体现了对开源AI技术的推动和保护,例如:中国的《全球人工智能治理倡议》中指出,“鼓励全球共同推动人工智能健康发展,共享人工智能知识成果,开源人工智能技术。”欧盟《人工智能法案》在第2条“范围”中列明:此规定不适用于以自由和开源许可证提供的AI组件,除非它们作为高风险AI系统或是第二编(编者注:第二编为“禁止的AI实践”)或第四编(编者注:第四编为“透明度义务”)的AI系统的一部分由提供者投放市场或投入使用。此豁免不适用于根据第3条定义的基础模型(编者注:第3条定义的“基础模型”指的是一种AI系统模型,它在大规模的广泛数据上进行训练,旨在产生广泛的输出,并可以适应各种不同的任务)。
3.2.3 全球开源组织应对AI治理新挑战
2023年6月,Open Source Initiative(OSI)发起了 定义“开源AI” 的倡议以及一系列线上和线下的全球讨论与活动,以应对开源AI治理的挑战。开源社参与了其邮件列表讨论并组织翻译了系列网络研讨会的内容。在已发布的《开源AI定义》的草稿文档中,主要包括序言、开源AI定义、评估许可证的清单三部分,其中对开源AI的定义主要涉及对使用、研究、修改、分享AI系统的授权。
2023年6月,Apache Software Foundation(ASF)法律委员会发布了《对贡献者的生成式AI指南》,旨在为使用AI生成的代码(通常情况下,也适用于文档、图片)进行ASF项目贡献的贡献者提供知识产权相关的指导。指南明确了对贡献中的AI生成的部分进行披露的义务,以及贡献AI生成的代码(全部或部分使用AI)应该满足的条件,例如生成式AI工具的条款和条件没有对输出结果的使用施加任何与开源定义(OSI - Open Source Definition)不一致的限制等,并给出了贡献者可以注明所使用的AI工具(可以通过“Generated-by:”标注)的推荐建议。
2023年12月,中国信息通信研究院发布了《可信开源大模型案例汇编(第一期)》,报告由中国信通院云计算开源产业联盟与HyperAI超神经共同编制,报告通过调研国内开源大模型的技术细节、应用场景、商业模式、应用治理、发展趋势等,关注开源大模型技术生态及产业链上下游,全面展现开源大模型及其工具链的发展全貌。此外,通过分析入选本次案例的开源大模型行业实践,为我国大模型产业发展提供路径参考。
3.2.4 开源AI大模型呼唤新型许可证
开源正发展成为AI大模型的主流模式,但由于AI大模型不仅涉及软件代码和文档,还涉及数据、模型架构等,所以传统的开源许可证并不能完全满足AI大模型的需求,这引发了对新型开源许可证的讨论与探索。
OSI认为Meta 的 LLaMa 所使用的许可证并不符合开源许可证,因为其存在对某些用户的商业使用限制、某些使用目的的限制,而不满足OSI的“开源定义”中有关许可证不得歧视任何个人、团体或应用领域的要求。TII发布的Falcon-40B,因采用了含有“收入超过100万美元的任何商业应用都要支付10%的授权费”等特殊限制条款的自定义许可证(TII Falcon LLM License)并宣称是开源LLM而被质疑,之后将许可证改为了 Apache 2.0。Hugging Face将TGI的许可证从Apache 2.0改为了HFOIL(Hugging Face Optimized Inference License) ,同时承认该许可证由于存在对销售基于TGI构建的托管或托管服务的特殊限制而并非开源许可证。
截至2023年底,在Hugging Face(全球最大的大模型托管平台之一)上,有近50万的模型,其采用的许可证主要包括了传统的开源软件许可证、CC许可证、针对AI的新型许可证等,最受欢迎的三个许可证依次是Apache 2.0、MIT、OpenRAIL。其中,OpenRAIL许可证由RAIL(Responsible AI License)倡议组织提出的RAIL许可证升级而来,在借鉴传统开源软件许可证的基础上,同时考虑人工智能所带来的风险而采取了附带行为限制的许可,并且针对源代码、应用、模型、数据设置了相对应的不同许可证OpenRAIL-S、OpenRAIL-A、OpenRAIL-M、OpenRAIL-D。
国内相关标准和研究机构也在积极推进AI领域许可证的创新实践。2023年5月,中国信息通信研究院也联合产业各方编制发布了《纸鸢开放人工智能模型许可证 第1版》,对模型(及其衍生品、配套资料)的使用进行规范,不适用于模型的训练数据。2023年8月,上海交通大学智慧法院研究院与人工智能研究院、上海市白玉兰开源开放研究院共同举办木兰·白玉兰开放数据许可协议2.0框架设计专题研讨会,将许可协议功能定位为人工智能数据的开放许可。2023年12月,开放原子开源基金会联合木兰开源社区、OpenI启智社区等各界,共同研制的《木兰-启智模型许可证》(Beta版)在2023木兰开源大会发布,许可证适用于通过算法训练获得的模型及其补充材料,包括模型结构、参数、权重等,不包括训练模型的算法及算法源代码。
专家点评
卫剑钒:这些争议相信很快就会不再存在,法律上只要明确了,类似的问题就都会迎刃而解。
3.2.5 我国开源领域标准建设正加速推进
国家发布政策明确支持开源领域标准建设。2023年8月,工业和信息化部联合科技部、国家能源局、国家标准委正式印发《新产业标准化领航工程实施方案(2023─2035年)》。其中,在新一代信息技术专栏的软件领域明确提出“研制开源术语、许可证、互联互通、项目成熟度、社区运营治理,以及开源软件供应链管理等标准”。
2023年4月,全国信息安全标准化技术委员会归口、中国信息通信研究院牵头的国家标准《信息安全技术 软件产品开源代码安全评价方法》形成标准征求意见稿并面向社会公开征求意见。
2023年7月,经中国电子工业标准化技术协会审核通过,由中国电子技术标准化研究院牵头的《T/CESA 1269-2023 信息技术 开源 术语与综述》、《T/CESA 1270.1-2023 信息技术 开源治理 第 1 部分:总体框架》、《T/CESA 1270.4-2023 信息技术 开源治理 第 4 部分:项目评估模型》等3项开源领域团体标准正式获批发布。
2023年9月,经中国电子工业标准化技术协会审核通过,由中国电子技术标准化研究院牵头的《T/CESA 1270.2-2023 信息技术 开源治理 第 2 部分:企业治理评估模型》、《T/CESA 1270.3-2023 信息技术 开源治理 第 3 部分:社区治理框架》、《T/CESA 1270.5-2023 信息技术 开源治理 第 5 部分:开源贡献者评估模型》、《T/CESA 1291-2023 信息技术 开源 元数据通用要求》等4项开源领域团体标准正式获批发布。
2023年10月,经中国通信标准化协会审核通过,由中国信息通信研究院牵头的《开源软件治理能力评价方法 第3部分:成熟度模型》、《开源软件治理能力评价方法 第 5 部分:治理工具和平台》等2项开源领域团体标准正式获批发布。
四. 开源安全大事记
在数字化时代,软件无处不在,成为支撑社会正常运转的基本元素之一。然而,随着软件供应链的复杂性增加,安全问题也日益严重。Log4Shell 漏洞爆发后,开源安全问题备受关注。尽管 2022 年本应是“供应链安全元年”,但这个漏洞仍然普遍存在,修复版本采用率不高,软件供应链攻击频次急剧上升。开源代码的广泛应用使得供应链安全成为关乎生存的问题。Log4Shell 成为头条新闻,让人们认识到开源社区也存在安全风险。此外,开源生态系统中还存在其他被大量依赖的开源项目,其波及范围可能比 Log4Shell 更大,造成更严重的后果。供应链攻击呈急剧上升趋势,自 2019 年以来平均每年增长 742%。因此,我们需要更好地应对开源软件的安全问题。
4.1 最新趋势和挑战
关于开源安全的最新趋势和挑战的分析,主要包括以下几个方面:
- 恶意软件服务化:黑客利用开源代码和工具开发和分发恶意软件,形成了一个庞大的黑市,威胁着开源生态系统的安全。
- 人为错误:开发者和维护者在使用开源代码时,可能会犯一些低级错误,如忽略安全更新、使用弱密码、泄露敏感信息等,导致开源项目遭受攻击。
- 供应链攻击:攻击者通过篡改开源代码库、依赖包或更新渠道,向目标系统植入恶意代码,实施供应链攻击,影响开源项目的信任和可靠性。
- 法律风险:开源项目在遵守许可协议、处理版权纠纷、应对政策变化等方面,可能会面临一些法律风险,需要及时识别和解决。
- 安全标准:开源社区和组织正在制定和推广一些安全标准和最佳实践,如 SLSA、OpenSSF、CII 等,以提高开源代码的质量和安全性。
- 安全工具:开源项目可以利用一些开源或商业的安全工具,如 Snyk、Dependabot、CodeQL 等,来检测和修复安全漏洞,提升安全防护能力。
- 安全教育:开源项目需要加强安全教育和培训,提高开发者和维护者的安全意识和技能,建立安全文化和流程,防范安全风险。
- 安全合作:开源项目需要加强与其他开源项目、组织、企业、政府等的安全合作,共享安全信息和资源,形成安全共同体,共同应对安全威胁。
- 安全前景:开源安全的前景是喜忧参半的,一方面,开源项目面临着日益复杂和严峻的安全挑战,另一方面,开源项目也拥有着强大和活跃的安全力量。
4.2 开源安全的法律责任
关于开源应负什么安全方面的法律责任的论战也方兴未艾。目前的主流论点与立法是,开源软件有漏洞,作者需要负责。虽然开源软件是免费提供的,但作者仍然应该尽力确保软件的质量和安全性。漏洞问题可能会导致用户信息泄露、系统遭受攻击等严重后果,因此作者有责任及时修复漏洞并通知用户。因此,目前全球立法的趋势是开源应负网络安全的法律责任。
- 在中国,网络产品、服务的提供者不得设置恶意程序;发现其网络产品、服务存在安全缺陷、漏洞等风险时,应当立即采取补救措施,按照规定及时告知用户并向有关主管部门报告。网络产品、服务的提供者应当为其产品、服务持续提供安全维护;在规定或者当事人约定的期限内,不得终止提供安全维护。网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意;涉及用户个人信息的,还应当遵守相关法律、行政法规关于个人信息保护的规定。
- 欧盟网络韧性法案 (CRA) 旨在加强欧盟数字产品的网络安全,整合现有网络安全监管框架。该法案对包括软件在内的数字产品提出了大量网络安全要求。该法案与《高度共同网络安全指令》(NIS 2指令)《网络安全法》《人工智能法案》和《通用数据保护条例》(GDPR)等有着密切联系,并有可能成为最重要的欧盟网络安全法律之一。
- CRA 法案适用于所有直接或间接连接到另一设备或网络的数字产品,其中,数字产品包括 “任何软件或硬件产品及其远程数据处理解决方案,包括单独投放市场的软件或硬件组件”。该法案将适用于这些产品从设计阶段到淘汰阶段的整个生命周期。
- 该法案规定了经济运营者的一般义务,制造商的具体义务,进口商的具体义务,经销商的具体义务,主管机关和处罚措施。如果违反《网络弹性法案》附件I中规定的网络安全要求和制造商的义务,可能会被处以最高 1,500 万欧元或上一财政年度全球年营业额的 2.5% 的罚款。
- 由于该法案的规定是针对数字产品的网络安全,因此开源开发者和贡献者需要确保其开源软件符合该法案的网络安全要求。如果开源软件不符合该法案的要求,则可能会被处以罚款或其他处罚。
4.3 2023 年一些重要的开源安全大事件
4.3.1 Log4j 漏洞复活
Log4j 是一个广泛使用的 Java 日志框架,2020 年 12 月被发现存在一个严重的远程代码执行漏洞,可以让攻击者通过发送恶意日志信息来控制服务器。这个漏洞影响了数百万的应用程序和设备,包括阿里巴巴、腾讯、京东、亚马逊、谷歌等知名企业。Log4j 的开发团队在发现漏洞后迅速发布了修复版本,但由于修复方案存在缺陷,导致漏洞仍然可以被绕过。因此,开发团队又陆续发布了多个更新版本,最终在 2021 年 1 月发布了 Log4j 2.15.0,宣布彻底修复了漏洞。
然而,近日有安全研究人员发现,Log4j 2.15.0 仍然存在一个新的远程代码执行漏洞,可以让攻击者通过发送特定的日志信息来触发 Java 序列化漏洞,从而执行任意代码。这个新漏洞被命名为 CVE-2021-44228,与之前的漏洞同样严重,甚至更难防范。为了应对这个新漏洞,Log4j 的开发团队又紧急发布了 Log4j 2.16.0,禁用了日志消息中的 Java 序列化功能。同时,安全专家建议用户尽快升级 Log4j 版本,关闭不必要的日志记录,使用防火墙和入侵检测系统来监控和阻止恶意流量。
4.3.2 Linux 恶意软件增长率飚至 50%
- Linux 恶意软件数量激增:根据 Atlas VPN 的数据分析,2022 年 Linux 恶意软件威胁数量增长了 50%,达到 190 万个,是近年来的最高水平。
- Linux 恶意软件的类型和目的:Linux 恶意软件主要包括木马、僵尸网络、勒索软件、挖矿软件等,它们的目的是窃取数据、控制设备、敲诈勒索或利用计算资源。
- Linux 恶意软件的传播方式:Linux 恶意软件通常通过网络服务、电子邮件、网页、移动设备等途径传播,利用系统漏洞、弱口令、社会工程等手段感染目标。
- Linux 恶意软件的防范措施:建议 Linux 用户和管理员采取一些防范措施,如定期更新系统和软件、使用强密码和双因素认证、安装可靠的防病毒软件、避免打开可疑的链接和附件等。
4.3.3 npm 供应链面临的新威胁:清单之惑
清单之惑是指 npm 注册没有根据 tarball 包的内容验证清单信息,导致攻击者可以利用这一漏洞来隐藏恶意代码或依赖项。这一漏洞的根源在于 npm API 要求维护人员在提交包的 PUT 请求中以及在随 tarball 包上传的 package.json 文件中都要提供有效的清单,但这两个清单可能不一致。
- 清单之惑的影响和危害:清单之惑可以让攻击者绕过 npm 的安全检查,将恶意代码或依赖项植入到受信任的包中,从而影响到数百万的 npm 用户和项目。这种攻击方式可以用来窃取敏感信息、执行远程命令、传播恶意软件等。
- 清单之惑的解决方案和建议:清单之惑目前还没有被 npm 官方修复,因此需要开发者和维护人员采取一些措施来防范这一漏洞。一些可能的解决方案和建议包括:使用 npm shrinkwrap 或 package-lock.json 来锁定依赖版本;使用 npm audit 或其他工具来检查包的安全性;避免使用不受信任的源或镜像来安装包;在发布包之前,检查清单信息是否与 tarball 包的内容一致。
4.3.4 Electron 惊现十级漏洞!
- Electron 漏洞的发现和影响:Electron 是一个开源框架,用于构建跨平台的桌面应用程序。它被数百万的应用程序使用,包括微信、钉钉、VS Code 等。最近,Electron 被曝出一个十级漏洞,该漏洞允许攻击者通过发送恶意链接,远程执行任意代码。该漏洞已经被苹果和谷歌发现并披露,但由于缺乏关键信息,导致很多 Electron 应用程序未能及时修复,仍然面临风险。
- Electron 漏洞的原因和解决方案:Electron 漏洞的根源在于它使用了过时的 Chromium 内核,而 Chromium 内核存在一个已知的漏洞,即 CVE-2023-4863。该漏洞利用了 Chrome 的沙箱逃逸机制,可以绕过浏览器的安全限制,执行任意代码。为了修复这个漏洞,Electron 需要升级到最新的 Chromium 内核,或者禁用沙箱功能。Electron 团队已经发布了新的版本,修复了这个漏洞,建议所有的 Electron 应用程序开发者尽快更新。
- Electron 漏洞的启示和建议:Electron 漏洞暴露了开源软件的安全风险,以及漏洞披露的不足。开源软件虽然有很多优势,但也需要及时更新和维护,避免使用过时的依赖库。漏洞披露也需要更加透明和及时,提供足够的信息,让相关的开发者能够快速响应和修复。此外,开发者也需要加强自己的安全意识,使用安全的编码规范,检查和测试自己的代码,防止潜在的漏洞和攻击。
4.3.5 解决 2,900 个漏洞,Google 奖励 1,200 万美元
- 谷歌的漏洞奖励计划(Vulnerability Reward Program,简称VRP)旨在提高其产品和服务的安全性,向发现漏洞的安全研究员支付奖金。
- 2022年,谷歌通过 VRP 共支付了 1,200 万美元,修复了 2,900 多个安全问题。其中,最高单笔奖励达到 60.5 万美元。这些安全研究员来自 68 个不同国家/地区,共有 703 人获得奖励。
- 此外,谷歌还将扩大 VRP 的适用范围,包括最新版本的 Google Nest(智能家居设备)和 Fitbit(可穿戴设备)。
4.3.6 GitHub 增加 SBOM 导出功能,使其更易于符合安全性需求
- GitHub 增加 SBOM 导出功能:GitHub 宣布推出一项新功能,让开发者可以轻松地生成和导出软件构建材料清单(SBOM),以提高软件供应链的安全性和透明度。
- SBOM 的作用和标准:SBOM 是一种描述软件组件和依赖关系的文档,可以帮助开发者、审计者和维护者了解软件的来源、结构和漏洞。目前,有多种不同的 SBOM 格式和标准,如 SPDX、CycloneDX 和 SWID。
- GitHub 的 SBOM 生成和导出流程:GitHub 利用其 CodeQL 和 Dependabot 等工具,可以自动分析代码库中的语言、框架和依赖项,并生成相应的 SBOM。开发者可以在 GitHub 的安全标签下找到 SBOM,并选择导出为 SPDX 或 CycloneDX 格式的文件。
- GitHub 的 SBOM 与行业合作:GitHub 表示,其 SBOM 功能是与开源社区和行业组织合作开发的,旨在支持软件安全的最佳实践和政策。GitHub 还加入了美国商务部的软件构建材料清单倡议,以推动 SBOM 的普及和标准化。
4.3.7 OpenAI、谷歌微软等设立一千万美元 AI 安全基金
OpenAI、谷歌微软等多家科技公司和研究机构联合设立了一个价值一千万美元的基金,用于支持和奖励有关 AI 安全和道德的研究项目。
- 其目标是促进 AI 的负责任和可信赖的发展,防止 AI 造成潜在的风险和伤害,例如侵犯隐私、歧视、误导、操纵等。
- 基金的发起方表示,这是一个重要的举措,旨在推动 AI 领域的多样性、透明度和协作,提高 AI 的社会效益和公平性,保护人类的价值和权利。基金也希望吸引更多的研究者和机构参与到 AI 安全和道德的探索中,共同为 AI 的未来做出贡献。
- 基金将由一个独立的委员会管理,委员会由来自不同领域和背景的专家组成,包括 AI 研究者、社会科学家、伦理学家、法律学者等。基金将定期发布公开征集研究提案的通知,根据评审标准和流程选择最优秀的项目进行资助。
综上所述,开源软件需要更好的安全风险治理机制,包括质量标准、安全审计、漏洞奖励、责任分担等。同时,开源软件也需要更多的支持和投入,包括资金、人力、社区等。开源软件的未来取决于我们如何应对当前的危机,以及如何建立更加可持续和安全的开源生态系统。
五. 开源商业大事记
5.1 早期阶段融资事件
- 开源数据库管理工具 DBeaver 获得 600 万美金天使轮融资
DBeaver 2013 年开源,其基于 Java 开发,可以运行在各种操作系统之上,是一个免费开源的通用数据库管理和开发工具。其创始人在 2017 年成立商业化公司来提供企业级支持,并研发企业版本。目前 DBeaver 已经拥有 800 万用户,超 5,000 的付费客户,包括 IBM、 Samsung 和 Moody’s。
- 开源大模型公司 Together 获得 2000 万美金融资
开源大模型初创公司 Together 期望「通过提供跨计算和一流基础模型的开放生态系统,引领 AI 的 Linux 时刻」,其获得了 2000 万美金种子轮融资。Together 正在构建一个用于运行、培训和微调开源模型的云平台。Together 的首批项目之一 RedPajama 旨在培育一套开源生成模型 Together 目前其已经开源了 1.2 万亿 token 训练数据集,Together 的开源平台允许商业化。
- 开源 AI 和数据流编排平台 Union AI 获得 1910 万美金的 A 轮融资
Union AI 提供 Flyte 托管服务(编排 ETL、机器学习工作流),还构建了 Pandera(数据测试框架)和 Union ML(位于 Flyte 之上的框架,可帮助团队使用现有工具集构建和部署模型),并在今年推出了 Union Cloud,获得了由 NEA 投资的 1910 万美金 A 轮融资。
- 开源 DB for AI 公司 MindDB 获得 2500 万美金的种子轮融资
MindsDB 定位于 DB For AI 场景,其通过 AI-Table 的方式,将机器学习模型成为数据库中的虚拟表,连接数据和模型,使得用户可以直接在数据库中建模,省去了数据处理、搭建机器学习模型等繁琐的步骤,加速 AI 应用的落地。MindDB 在 2023 年连续获得多轮融资,总金额近 5000 万美金。
- 明星开源 LLM 公司 Mistral AI 获多轮融资,跻身独角兽行列
由 Meta 和谷歌的科学家成立的 Mistral AI,近期发布了开源 Moe 大模型 Mixtral 8X7B,引发巨大关注。Mistral AI 去年也完成多轮融资,在最近的 A 轮融资中获得 4.15 亿美元,目前估值超过 20 亿美金。
- 模型持续测试验证工具 Deepchecks 获得 1400 万美金天使轮融资
以色列公司 Deepchecks 定位于 ML 持续测试验证领域,其允许客户重用和自定义组件以全面测试 ML 模型和数据集。Deepchecks 在 2020 年推出了开源版 ML 测试工具,并在今年初推出商业版 Deepchecks Hub。
截至目前,开源产品 Deepchecks 已被下载超过 500000 次,其用户包括 AWS、Booking.com 和 Wix 等。近期 Deepchecks 宣布了 1400 万美金天使轮融资。
- 开源组件供应链安全平台 Endor Labs 获得 7000 万美金 A 轮融资
Endor 定位于帮助企业监控其开发管道的安全状况,包括可触及和可利用的风险,管理开发人员对代码的访问,并密切关注硬编码在其代码库中的秘密。近期他们获得了由 Lightspeed Venture Partners 领投的 7000 万美元 A 轮融资
- AutoGPT 完成 1200 万美元融资
AutoGPT 采用 GPT-4 和 GPT-3.5 等语言模型,构建多功能智能体,可独立执行任务并不断提高性能。项目上线五十多天,拥有 13.1w star,2.67 万 fork,是GitHub 历史上增长速度最快的项目之一。
5.2 中后期阶段融资事件
- 英国 MLOps 公司 Seldon 获得 2000 万美金 B 轮融资
Seldon 成立于 2014 年,致力于解决 AI Model 在生产环节的部署、监控、管理和可解释性问题。2020 年 A 轮融资至今,Seldon 的开源产品安装量获得了 YoY 400% 的增长。
- Temporal 获得 7500 万美金融资
基于 Uber 开源的分布式任务编排和调度引擎 Cadence 创立的新公司 Temporal 获得 7500 百万美金新一轮融资,投前估值达 14 亿美金。
- SAST/SCA 开源开发安全厂商 Semgrep 获得 C 轮融资
Semgrep 从 SAST 领域切入,其推出了 SAST 引擎,用户可以将其与自己的 CICD 流程以及 Github,Gitlab 等代码托管平台相集成,通过 Semgrep 内置以及自定义的规则进行代码检测。Semgrep 在 2020 年将产品开源,目前已经拥有超 200 万用户,其 2022 年收入相比于 2021 年实现了 7.5 倍增长。
- 法国 AI 研究实验室 Kyutai 获 3.3 亿美元投资,致力于所有成果开源
法国亿万富翁及 Iliad 的 CEO Xavier Niel 在巴黎创办了一个名为 Kyutai 的 AI 研究实验室。这是一个由私人资金支持的非营利机构,专注于人工通用智能领域的研究。实验室目前已筹得近 3 亿欧元资金,Kyutai 专注于基础 AI 模型研究,并得到了 Scaleway 提供的 Nvidia H100 GPU 顶级计算资源支持。
- 开源平台 Replicate 获得 4000 万美金的 B 轮融资
开源机器学习模型平台的企业 Replicate ,近日宣布成功完成由 Andreessen Horowitz 领投的 B 轮融资,融资总额为 4000 万美金,将继续加强开源机器学习模型平台。
5.3 收并购事件
- AMD 收购开源 AI 软件 Nod.ai
AMD 在官网宣布签署最终协议收购 Nod.ai,Nod.ai 将加速在 AMD 高性能平台上部署优化的人工智能解决方案,并强化 AMD 开源软件战略。
- Snowflake 拟收购 Ponder 强化数据云 Python 能力
Ponder 是一家将流行数据科学库与数据所在位置连接起来的领先公司,并维护了广泛使用的开源库 Modin,用于可扩展的 Pandas 操作。为了更好地服务 Python 数据从业者,Snowflake 宣布了对 Ponder 的收购意向。
- 思科宣布计划收购云原生网络安全初创公司 Isovalent
Isovalent 致力于开发 eBPF 和 Cilium 两项关键开源技术,这些技术能深入洞察操作系统和云原生应用。Isovalent 在云原生计算基金会(CNCF)和 eBPF 基金会中扮演重要角色。为保持这些开源项目的活跃发展,社区的持续支持至关重要。
六. 开源教育大事记
今年,中国开源年度报告的大事记中特别增加了一项“开源教育”,关于开源教育的定义,其实在不同的组织类型中会有一些差别,在本篇章中,我们希望把开源教育定义为**:采用开源软件和开放的教育资源来支持教育目标。这包括使用开源软件工具、教材和教学资源,以及促进知识共享和协作。开源教育的目标之一是提供更加平等和开放的教育机会,使更多人能够访问高质量的教育资源。**
在开源教育的模式下,教育资源如教案、课程内容、软件工具等都是开放获取的,任何人都可以使用、修改和分享。这种模式有助于培养学生的创新思维、协作能力和实际解决问题的能力。学生通过参与开源项目,可以接触到业界最新的技术和工具,了解软件开发的实际流程,同时也能为开源社区贡献自己的力量。
同时,作为报告起草方,“开源教育”对开源社来说其实并不陌生,从 2014 年成立之初,开源社就积极探索开源与教育的结合点,在正式介绍 2023 年的开源教育大事记之前,我们先来回顾一下开源社在开源教育领域所做的工作:
- 2014 年,开源社发起了中国第一批开源进校园系列活动——“开源者行”;
- 2017 年,开源社执委会下设立了开源教育组、高校合作组等专注开源教育的工作小组;
- 2018 年,开源社举办的第三届中国开源年会(COSCon'18) 中出品了中国第一个“开源教育分论坛”;
- 2019 年,开源社与华东师范大学共同设立了中国第一支“开源教育基金”。
- 2020 年,开源社录制了《开源特训营》系列节目,旨在开展开源教育入门培训工作;
- 2021 年,开源社在第六届中国开源年会(COSCon'21)中邀请了六位嘉宾分享开源教育,第一次邀请了高校开源学生分享开源教育相关议题;
- 2022 年,开源社积极开始探索开源教育培训相关方向,比如企业开源专项培训等;
- 2023 年,开源社在第八届中国开源年会(COSCon'23)中首次开设了“青年开源教育”分论坛,第一次邀请了小学、中学的青年学生分享开源相关观点。
从上述开源社在“开源教育”上的工作发展历程来看,开源和教育的结合已经越来越深入,尤其是开源教育的受众,已经逐渐从开源组织到高等院校、再到中小学,再到更广阔的已就业职后群体。
然而,无论是在国内还是国外,符合标准的开源人才依然短缺,根据Linux基金会发布的《The 10th Annual Open Source Jobs Report》显示,绝大多数雇主 (93%) 表示难以找到足够具有开源技能的专业人才,且情况没有缓和,有将近一半 (46%) 的雇主计划在未来六个月内增加对开源人才的招聘,73% 的开源专业人士表示,他们很容易找到新的工作、继续开展开源事业。
开源人才的紧缺,让开源教育在全球范围内越来越受到重视,中国也在积极推动开源教育的发展,通过参与开源社区活动、号召贡献开源项目、建立开源教育体系、制定开源人才能力评估标准等措施,来促进开源生态的繁荣和人才培养。通过这些举措,可以让在校学生和职后人群在学习过程中更加深入地理解开源软件的理念,促进理论与实践的结合,提高教育的质量,满足社会对创新型人才的需求。下面就让我们回顾一下2023年的中国开源教育大事记:
6.1 开源教育实践活动逐渐丰富,项目课题制+创新竞赛制成为主流
2023 年,中国的开源教育实践活动显著增长,吸引了大量学生参与,并得到了多家知名机构的支持。以下是一些主要的实践活动:
- 开源之夏(OSPP):这是由中科院软件所指导的暑期活动,旨在鼓励学生参与开源软件开发。2023 年,来自 592 所高校的 3,475 名学生报名,504 名学生成功入选,贡献了 1,236 个 PR。
- GitLink 确实开源编程夏令营(GLCC):由中国计算机学会主办,2023 年有来自 139 所高校的 341名学生参与,最终 80 个课题通过中期考核。
- 第六届中国软件开源创新大赛:在自然科学基金委信息科学部的指导下,由 CCF 主办,聚焦于“卡脖子”软件领域和前沿技术,设有多个赛道。
- 第十二届 “麒麟杯” 全国开源应用软件开发大赛:由中国软件行业协会、开放原子开源基金会、中国计算机学会开源发展委员会、中国开源软件推进联盟的指导,吸引了来自 60+ 高校的 345 组队伍报名,20 支队伍晋级决赛。
- 2023 开放原子开源大赛:由工业和信息化部、江苏省人民政府、湖南省人民政府主办,旨在联合开源组织、企事业单位、高等院校科研院所行业组织、投融资机构等多方资源充分发挥产业链生态上下游的协同能力,基于开源共享、共建共治的原则共同举办。
- 首届中国研究生操作系统开源创新大赛:由中国研究生创新实践系列大赛主办,专注于操作系统领域的开源创新。
此外,还有针对企业的 2023 开源和信息消费大赛——第四届工业 APP 和信息消费大赛,由工信部等机构主办,有助于推广开源教育至职场人群。
这些活动不仅提高了学生们的技术能力,还促进了开源文化的传播和开源社区的活跃度,为中国开源生态的发展做出了重要贡献。
6.2 本土开源教育理论支撑开始丰富,开源硬件融入基础教育
2023 年,中国的开源教育领域不仅在实践层面取得了显著进展,理论基础也日益丰富。高校教师和开源专家开始更加重视开源教育理论的研究,并在不同教学层次和方向上发表了具有代表性的文章。这些研究为开源教育提供了案例和理论分析,展示了开源教育在高等教育和 K12 教育中的应用潜力。
在高等教育阶段:开源教育被视为一种创新的教学模式,有助于学生学习软硬件开发技能。例如,北京大学、华东师范大学、上海对外经贸大学等高校的教师研究了开源教育在各自学科教学中的应用和价值。
在 K12 教育阶段:开源教育通常与 STEM、STEAM、机器人/无人机教育、创客教育相结合,尤其是通过开源硬件融入教学。例如,珠海市梅华中学、南京市琅琊路小学等教育机构的教师探索了开源硬件在项目式教学中的应用。
此外,上海市教育委员会教育技术装备中心召开了教育无人机、开源硬件课程资源开发交流研讨会,展示了开源硬件在中小学教育中的应用。第十一届中小学 STEAM 教育大会中的开源机器人运动会也展示了开源教育在中小学科创技术教育中的案例和新趋势。
这些活动和研究表明,未来开源教育在高等教育和 K12 教育中的推广将有所不同,但都将趋向于开源通识基础教育和开源软硬件开发教育的发展。开源教育不仅有助于提升学生的技术能力,还能促进创新思维和团队合作精神的培养,为中国教育体系的多元化发展做出贡献。
探索开源教育和高等教育结合的文章有:
- 北京大学软件与微电子学院的荆琦、冯惠《产教融合下的双轨制开源教学模式探索——以北京大学“开源软件开发基础及实践”课程为例》
- 华东师范大学数据科学与工程学院王伟、同济大学赵生宇《从开源科技的数字化洞察看开源教育的未来》
- 上海对外经贸大学张国锋《高校引入开源教育的价值和意义》
- 长沙理工大学计算机与通信工程学院的黄浩炜《融合开源软件思想与实例的软件工程课程教学研究》
- 新乡医学院三全学院智能医学工程学院的王晓娜、丁丹、班戈《高校开源教育视角下基于区块链的新医科数学课程群建设》
- 南京邮电大学陶卓、王凯、葛伟《开源生态培育下的创新型软件人才培养》
探索开源教育和 K12 教育结合的文章有:
- 广东省珠海市梅华中学的索芳《STEM 教育理念下的开源硬件项目式教学实践探究——以<创意发光服饰>为例》
- 南京市琅琊路小学的戚韵东《基于开源架构项目研究共同体推广小主人教育》
- 朱立新、张香玲、姚自明等人在《教育与装备研究》期刊上发表的《信息技术教育开源硬件芯片研究》
- 上海市复兴高级中学奚骏:《创客与开源硬件为教育注入新活力》
6.3 开源教育论坛兴起,开源+教育圈越扩越大
2023 年,开源教育在中国的发展呈现出明显的上升趋势,这一点从数量增加、频率提高、质量提升的专门讨论开源教育的大会中可以看出。这些大会不仅展示了开源教育的影响力,还促进了教育界与开源社区的深度交流与合作。
一些知名的大会和论坛包括:
- 2023 GAIDC 全球开发者先锋大会:在这个国际性的开发者大会上,开源技术论坛展示了开源在全球范围内的应用和发展。
- 第二届中国开源教育研讨会(SOSEC-2)和第三届中国开源教育研讨会(SOSEC-3):分别在广州和上海召开,聚焦于中国开源教育的发展现状和未来趋势。
- 全国高校新商科开源创新教育研讨会:在上海举行,探讨了开源在教育领域的应用,特别是在商科教育中的融合。
- 第四届中国计算机教育大会:首届计算机开源教育论坛作为其中的一部分,强调了开源在计算机教育中的重要性。
- 2023 中关村论坛——世界开源创新发展论坛:以“开放科学背景下的开源教育”为主题,讨论了开源教育在科学研究中的作用。
- GOTC 2023:召开Linux 基金会的开源教育及人才培养峰会,突出了开源技术在人才培养中的关键角色。
- 2023 开放原子全球开源峰会:开源教育与人才分论坛的成功召开,进一步推动了开源教育在全球范围内的讨论和实践。
- COSCon'23 第八届中国开源年会:开设“青年开源教育”分论坛,邀请了OpenTeen中小学的青年学生分享开源实践的相关体验。
这些活动和论坛的举办,不仅提高了开源教育在学术界和产业界的影响力,还为教育工作者、学生、开源社区成员提供了一个交流的平台,促进了开源教育资源的共享和最佳实践的传播。随着开源教育论坛的兴起,开源与教育的结合正逐渐成为教育创新和人才培养的新趋势。
6.4 开源人才培养与认证逐渐成为标准体系
2023 年,中国开源教育领域迎来了一个重要的发展里程碑,即《开源人才能力要求与评价规范》的启动编制。这一标准的制定,由工业和信息化部人才交流中心联合开放原子开源基金会牵头,来自北京航空航天大学、北京理工大学、华东师范大学、华为、百度、腾讯、小米等校企单位的 36 位参编专家参加了会议,这标志着开源人才教育正式进入国家人才战略培养体系的一部分。该标准的制定对于中国开源人才发展生态圈的建设具有重要意义,它将有助于推动开源软件和技术的高质量发展,通过调研分析和归纳提炼,建立一套科学规范、行业认可的人才能力要求标准。
此外,开源师资培训也成为了一个重要的探索方向。例如,长沙市软件和信息技术服务业促进会举办的 2023 湖南省高校 OpenHarmony 师资培训活动,旨在加深高校教师对 OpenHarmony 的应用与理解,提高基于 OpenHarmony 开发技术和授课能力,构建良好的教育信创生态。
这些举措和动态表明,中国正在积极构建开源人才培养与认证的标准体系,这不仅有助于提升开源人才的专业能力,还将促进开源技术在教育领域的广泛应用和创新发展。随着开源教育体系的不断完善,可以预期未来将有更多高质量的开源人才涌现,为中国乃至全球的开源社区贡献力量。
6.5 企业参与开源教育,新型产学研合作模式兴起
2023 年,中国企业在开源教育领域的参与度显著提高,与高校的合作模式也更加开放和深入。这些合作通常涉及将实际的开源项目引入教育环境,让学生能够参与到高质量的开源项目中,而不是仅仅进行一些基础的操作性工作。以下是一些典型的企业与高校合作案例:
- Answer 项目:被选为北大光华 MBA 的整合实践项目,允许学生参与实际的开源项目。
- CloudWeGo 项目:该项目被纳入北大的研究生课程,让学生能够参与到企业的开源项目中;该项目还与南京大学和浙江大学合作,推动校园合作和开源人才培养。
- openKylin:在天津科技大学成立高校站,专注于开源人才的培养。
- 平凯星辰(PingCAP):由 PingCAP 捐赠三年的CCF 中国数据库暑期学校合作,提供工程实践全部实验;与华东师范大学签订联合博士培养合作协议,旨在促进关键软件高层次人才培养。
- OceanBase:与华东师范大学合作,应对技术挑战,引领分布式数据库科研创新和开源人才培养。
- StoneDB:完成第一届实习生实训,吸纳多所知名高校学生参与,专注开源数据库人才的培养。
- 腾讯:通过“开放原子校源行”项目支持开源人才培养,同时启动了 2023 年度犀牛鸟开源人才计划,助力高校开源人才培养。
- 深开鸿:与北京理工大学联合举办开源鸿蒙人才培养工作研讨会,并与多所学校合作开设“开源鸿蒙英才班”。
- 拓维信息:旗下开鸿智谷参与的雅礼麓谷中学项目入选“2023 年度智慧教育优秀案例”。
- 中软国际:与北京理工大学、深开鸿合作,在信息技术创新学院开设首个“开源鸿蒙英才班”。
- 深开鸿:与东南大学合作培育高校开源人才,助力 OpenHarmony 人才生态发展。
- 鸿湖万联:联合多所学校和公司成立全国 OpenHarmony(开源鸿蒙)智能终端与物联行业产教融合共同体。
这些合作模式不仅为学生提供了参与实际开源项目的机会,还促进了企业与高校之间的知识和技术交流。通过这些合作,企业能够更好地了解学生的能力和需求,同时高校学生也能够获得与企业专家直接合作的机会,这对于提升学生的技术能力和职业素养都是非常有价值的。此外,这些合作还有助于推动开源技术的发展和普及,以及为开源社区贡献更多的创新成果。
6.6 高校开源教育课程体系日益完善,参与开源积极性提高
2023 年,中国高校在开源教育方面的努力日益显著,许多高校通过开设特色课程、建立联盟、与企业合作等方式,积极推进开源教育的发展。清华大学、北京航空航天大学、浙江大学、上海交通大学、华东师范大学等全国近百所大学宣布将在未来三年内陆续开设开源软件课程,课程包括开源专业技术、数字公共产品等基础专业课程,帮助学生从零开始、由浅入深地理解开源知识架构,加快软件关键领域的人才培养。以下列举一些具体的例子:
- 北京大学:
- 与头哥和 GitLink 合作,打造了《OSS Development 开源软件技术》线上实践课程,结合理论与实践,培养学生的开源软件开发技能。
- 清华大学:
- 举办 2023 秋冬季开源操作系统训练营,通过使用 Rust 语言编写操作系统的实践,培养学生的操作系统开发技能。
- 华东师范大学:
- 推出了《OSS101 开源软件通识》课程,旨在培养学生的开源意识和技能。
- 牵头成立CCF 信息系统专委会开源教育工作组,并创立了“社-课-赛-证”一体化开源人才培养体系,以推动开源教育的发展。
- 南方科技大学:
- 在启智开发者大会上参与成立开源高校联盟,致力于推动粤港澳大湾区开源生态建设和高校人才培养,辐射全国。
- 北京理工大学:
- 与深开鸿合作,举办了开源鸿蒙人才培养和科研合作工作研讨会,加强了校企合作,提升了人才培养质量。
这些活动和课程的推出,不仅丰富了高校开源教育的课程体系,也提高了学生参与开源的积极性。通过这些实践,学生能够更好地理解开源软件的开发过程,掌握相关的技能,并参与到开源社区中。这些举措对于培养适应现代数字经济发展需要的高素质开源人才,以及推动开源技术在中国的普及和应用都具有重要意义。
6.7 各方推进 “开源进校园” 活动,吸引学生关注
2023 年,要说在开源教育上感知最明显的活动,莫过于各个组织推行的“开源进校园”活动,其中开放原子开源基金会、CCF 开源发展委员会、开源之夏组委会、红山开源举办了较多的校园行活动。
- 开放原子开源基金会
- “开放原子校源行”公益项目由开放原子开源基金会与腾讯公司共同出资设立发起。双方携手通过建立高校开源社团、普及开源文化、研发开源课程体系等方式探索产教融合新路径。
- CCF 开源发展委员会
- 中国计算机学会开源发展委员会发起的“开源高校行”系列活动,在清华大学、北京大学、北航、复旦等名校成功举办,形成了广泛影响和成功实践。
- 开源之夏组委会
- 为了让更多学生深入了解开源参与开源,开源之夏活动携手众多优秀开源社区,开启“开源之夏校园行”之旅。开源之夏校园行系列活动旨在近一步激发新生代开发者群体的能量与活力,让更多学生深入了解国内外知名的开源技术、项目及社区,让开源文化普及到更多高校。
- 红山开源
- 红山开源社区面向重点高校和重点方向推出“红山开源高校行”活动,提升社区的影响力和知名度,吸引更多优秀创新资源参与开源创造生态构建。
此类活动,预计在未来会成为高等院校学子接触开源教育的主流渠道之一。
6.8 开源教育政策相关
2023 年,尽管中国开源教育领域在实践方面取得了显著进展,但在政策层面,开源教育相关的支持性政策相对较少。
不过,一些地方政府已经开始关注并推动开源教育的发展。例如,2022 年 12 月 29 日,长风联盟智库基地提议了《关于加强北京市开源人才教育的建议》。该建议对开源教育人才现状和瓶颈进行了系统介绍,并提议北京市政府加强开源人才教育培训工作。作为中国的开源生态高地,北京在推进开源人才教育方面具有重要作用,这对培养适应产业需求的软件人才、建立可持续发展的开源生态、提升软件科技源头创新和技术供给能力、实现向创新链高端跃升具有重要意义。
此外,2020 年教育部和工业和信息化部联合发布的《特色化示范性软件学院建设指南(试行)》通知,也对高校投入开源教育产生了积极的推动作用。该指南强调了软件人才培养的特色化建设,探索专业建设规律,围绕关键基础软件、大型工业软件、行业应用软件、新兴平台软件和嵌入式软件对人才的特色化需求,加强先进软件架构、工程方法和算法模型教育。同时,该指南也鼓励积极培育重点开源项目,汇聚优秀开源人才,并推动工业技术软件化,对产业创新形成有力支撑。
尽管 2023 年开源教育相关的政策性消息并未广泛传播(有可能在制定中),但我们已经看到已有政策文件对开源教育产生了积极影响。展望 2024 年,期待国家相关部委会出台更多开源教育相关的政策,以进一步规范和推动开源教育的实践,促进开源教育在中国的发展。
七. 开源榜单与报告汇总
现在,不仅仅是开源社每年会发布《中国开源年度报告》,其他的媒体、组织与机构,也会发布各种类型的开源相关榜单、报告、蓝皮书等等。为了方便读者们掌握一个全貌,我们这里做了一个简单的汇总与整理。
7.1 一些有价值的报告
- 2023 年 2 月,由开源社组织出品的《2022 中国开源年度报告》发布,报告主要由四部分组成,分别是大事记篇、数据篇、商业化篇和问卷篇。大事记篇分为开源商业、开源安全、开源技术、开源法律、开源社区与生态五个部分;数据篇由 X-lab 开放实验室、Apache Devlake 社区和 Gitee 联合制作,分为 GitHub 篇和 Gitee 篇呈现;商业化篇由云启资本投资团队撰写,重点关注了开源软件全球化市场的推进;问卷篇结合数据分析手段和调查报告等多种形式,从开源社区中所处角色的视角进行调查,并加入了开源社区度量、开源商业化相关话题。
- 2023 年 4 月,InfoQ 研究中心发布《中国开源生态图谱 2023》,以中国开源项目名录和图谱的形式,为中国开源领域提供便捷易用的工具,让国内开发者、企业、研究院、基金会等开源生态了解中国开源的项目现状,并为中国开源产品添砖加瓦。图谱内共计收录了 931 个中国开源项目,涵盖七大细分领域和生态机构,其中七大细分领域分别为操作系统、数据库、人工智能、云原生、大数据、前端、中间件,生态机构包括实验室/研究院、开源基金会、开源产业联盟、开发者社区和代码托管平台。
- 2023 年 6 月,由中国开源推进联盟(COPU)牵头,联合中国开发者社区 CSDN、中国科学院软件研究所、开放原子开源基金会、北京开源创新委员会、开源社、开源中国、北京大学、华东师范大学、国防科技大学等 106 家单位,以及 120 多位开源专家和志愿者,携手重磅发布《2023 中国开源发展蓝皮书》,力图呈现 2023 年中国开源产业生态全貌、中国开源在技术创新、产业发展方面的真实图谱。
- 2023 年 12 月,由开源中国与 Gitee 共同撰写的《2023 中国开源开发者报告》正式发布。报告共分为三个部分,包括:开源开发者事件回顾、2023 LLM 技术报告、Insight:中国开发者开源新动向。
- 2023 年 12 月,艾瑞咨询发布《2023 年中国基础软件开源产业研究白皮书》。白皮书研究了我国开源软件的发展路径,通过对比讨论国内外开源软件产业演进的发展经验,总结开源软件产业链和产业主体,分析开源软件的商业模式及商业价值,扫描产业中开源项目及各方参与者的主要特征,为读者呈现扎根于我国的开源产业生态图景。
- 中国信息通信研究院可信开源团队长期开展开源相关研究工作,在 2023 年发布了系列可信开源报告,包括《2023年中国企业开源治理全景观察》、《开源知识产权案例集(著作权篇)》、《数字公共产品洞察报告》、《OSPO案例汇编(第二期)》,以及针对前端、数据库、通信等细分行业的开源技术研究报告或案例集。
7.2 严肃的,值得参考的榜单
- 2023 “科创中国” 开源创新榜:这是由中国科协科学技术传播中心、中国计算机学会、中国通信学会、中国科学院软件研究所共同主办,CSDN 承办的一个评选活动,来自全国学会、大学、科研院所、企业、开源基金会、行业联盟等二十多位开源专家共同参与了本届榜单评审工作,还是相当严肃与严谨的。
- 中国开源码力榜:这是有思否、开源社、X-lab 实验室联合发起的一个完全根据 OpenRank 算法,计算得出的一个全新的、专属于开源开发者的榜单。每年会根据贡献度排序,选出 99 位来自中国的开发者。
- 开源指南针 OSS Compass:2023 年 2 月发布,是一个用于开源生态健康评估的平台(https://oss-compass.org),面向 GitHub、Gitee 等平台所有开源项目开放。平台由国家工业信息安全发展研究中心、开源中国、南京大学、华为、北京大学、新一代人工智能开源开放平台(OpenI)、百度、腾讯开源联合发起并协作开发,同时平台本身是一个开源项目,围绕该项目形成了开源开放的社区。平台构建了一个包括生产力、稳健性、创新力三个维度,涵盖 14 个指标模型在内的开源生态评估体系。
- 阿里巴巴开源开发者贡献榜:这是另一个基于 OpenRank 的贡献者榜单,为了深入理解这一算法和榜单机制对开源社区产生的影响,X-lab 实验室的两位博士生,赵生宇和夏小雅加入阿里巴巴开源办公室,并展开了详尽的研究工作。他们不仅从数据统计的角度出发,分析了榜单上线前后社区项目统计指标上的变化情况,还进行了一系列深度访谈,听取了开发者们的真实声音。这一研究的成果不仅为开源社区的发展提供了宝贵的经验和启示,还被收录在软件工程领域的国际顶级学术会议 ICSE 2024 中,引起了学术界的高度关注。
7.3 不妨一看的榜单
- 中国开源先锋 33 人:思否与开源社合办,一个完全基于偏好的榜单,每一年由之前历年的开源先锋推荐,出发点很简单:“我想给大家介绍这位朋友、开源人”。然后经过投票,选择的原则也很简单:“我很想认识这位朋友、开源人,也希望更多人能够认识这位朋友。”所以,这个不妨一看的榜单,也希望能够让大家认识更多这样的开源先锋。
- OSC 中国开源项目评选及系列榜单:在 2021 年与 2022 年,开源中国都发起了一系列的评选活动,包括:中国开源项目社区健康案例、最火热中国开源项目社区、优秀国际开源项目中文社区等类型,但是不知为何,在 2023 年没有继续评选了。
7.4 荒唐的榜单
- 开源贡献者榜行榜:有一个号称是 “国际测试委员会BenchCouncil” 的国际组织,经过了一套号称是科学公正的评分流程,得出了一个号称是 “世界首个开源贡献榜”,这在榜单中,Linux 操作系统内核的创世人 Linus,仅仅排名第 12 名。这个榜单的荒唐之处,也就可想而知了。