AI-Native Molecular Database

MolScience

面向人工智能时代的化学分子数据库基础设施。项目围绕“数据、模型、应用”三位一体,推动分子数据库从传统数据存储工具升级为智能知识引擎。

molscience.query
Prompt 寻找可解释、可建模、可检索的候选分子
结构化属性检索 SMILES / InChI
反应网络与合成路径 Graph
语义相似性搜索 Vector
RAG 化学问答 LLM

01 / Project Base

自主可控、标准化、可扩展的分子数据底座。

MolScience 由中国人民大学化学与生命资源学院本科生团队发起,已完成初步平台开发,持续建设面向科研社区的 AI 原生化学数据基础设施。

1.2亿

分子数据基础,面向大规模检索与建模任务。

4万+

代码实现,覆盖平台、检索、管理与算法能力。

200+

全球分子数据库调研,形成评价体系与学术基础。

5名

化学专业本科生组成核心团队,兼具科研与工程能力。

02 / Research Problem

现有分子数据库仍主要服务“人用工具”,难以承载 AI 科研范式。

化学研究正在进入数据密集型科学发现阶段。高质量分子数据与高效数据库,正在成为 AI for Science 的基础设施。

Architecture

架构单一

传统关系型数据库难以同时支持图结构、向量检索与 AI 任务所需的多模态数据组织。

Data Quality

标准不一

多源分子数据在命名、结构表示、缺失值与异常值上存在治理难题,影响模型训练质量。

AI Native

智能化缺失

依赖精确匹配的检索方式无法支持自然语言查询、语义搜索与大模型工具调用。

03 / Architecture

多数据库协同架构,同时支持精确查询、关系分析与语义检索。

项目以关系型数据库、图数据库、向量数据库协同工作,突破单一数据库模式,为分子性质预测、相似性搜索、反向设计与合成路径分析提供统一底座。

Relational

结构化属性

  • 分子式、分子量、物理化学性质
  • SMILES / InChI 标准化表示
  • 高效筛选与精确条件查询
Graph

反应网络

  • 表示反应关系与合成路径
  • 支撑路径规划与关系推理
  • 连接分子、反应、文献与知识节点
Vector

语义检索

  • 支持分子相似性搜索
  • 连接大模型 RAG 问答
  • 为智能推荐与候选分子发现提供索引

04 / Pipeline

从数据治理到模型应用,构建可持续利用的完整链条。

MolScience 不止存储分子数据,还围绕清洗、特征、建模、应用与自然语言交互建立闭环,让数据库成为可被 AI 调用的知识引擎。

01

数据整合

整合 PubChem、文献等多源数据,统一分子结构与属性字段。

02

标准治理

完成去重、缺失值处理、异常检测,以及盐离子与溶剂等结构清理。

03

分子建模

结合描述符、分子指纹、分子图表示与 GNN 等模型进行性质预测。

04

智能交互

通过 RAG、向量检索和工具调用,探索问答式化学数据库体验。

05 / Value

服务科研基础设施、数据主权与 AI 化学前沿探索。

Science

科研基础设施

提供国产分子数据底座,支撑 AI for Science、虚拟筛选与分子设计任务。

Sovereignty

数据主权

降低对国外核心数据库的依赖,提升科研数据连续性与自主可控能力。

Frontier

技术前沿

探索数据库、机器学习、图结构与大模型融合的新型科研平台范式。

Long-term Vision

构建面向全球科研社区的开放化学数据基础设施,连接分子数据、人工智能与科学发现