架构单一
传统关系型数据库难以同时支持图结构、向量检索与 AI 任务所需的多模态数据组织。
01 / Project Base
MolScience 由中国人民大学化学与生命资源学院本科生团队发起,已完成初步平台开发,持续建设面向科研社区的 AI 原生化学数据基础设施。
1.2亿
分子数据基础,面向大规模检索与建模任务。
4万+
代码实现,覆盖平台、检索、管理与算法能力。
200+
全球分子数据库调研,形成评价体系与学术基础。
5名
化学专业本科生组成核心团队,兼具科研与工程能力。
02 / Research Problem
化学研究正在进入数据密集型科学发现阶段。高质量分子数据与高效数据库,正在成为 AI for Science 的基础设施。
传统关系型数据库难以同时支持图结构、向量检索与 AI 任务所需的多模态数据组织。
多源分子数据在命名、结构表示、缺失值与异常值上存在治理难题,影响模型训练质量。
依赖精确匹配的检索方式无法支持自然语言查询、语义搜索与大模型工具调用。
03 / Architecture
项目以关系型数据库、图数据库、向量数据库协同工作,突破单一数据库模式,为分子性质预测、相似性搜索、反向设计与合成路径分析提供统一底座。
04 / Pipeline
MolScience 不止存储分子数据,还围绕清洗、特征、建模、应用与自然语言交互建立闭环,让数据库成为可被 AI 调用的知识引擎。
整合 PubChem、文献等多源数据,统一分子结构与属性字段。
完成去重、缺失值处理、异常检测,以及盐离子与溶剂等结构清理。
结合描述符、分子指纹、分子图表示与 GNN 等模型进行性质预测。
通过 RAG、向量检索和工具调用,探索问答式化学数据库体验。
05 / Value
提供国产分子数据底座,支撑 AI for Science、虚拟筛选与分子设计任务。
降低对国外核心数据库的依赖,提升科研数据连续性与自主可控能力。
探索数据库、机器学习、图结构与大模型融合的新型科研平台范式。
Long-term Vision
构建面向全球科研社区的开放化学数据基础设施,连接分子数据、人工智能与科学发现。