AI-Native Molecular Database

MolScience

面向人工智能时代的化学分子数据库基础设施。项目围绕“数据、模型、应用”三位一体，推动分子数据库从传统数据存储工具升级为智能知识引擎。

了解项目查看架构

Prompt 寻找可解释、可建模、可检索的候选分子

结构化属性检索 SMILES / InChI

反应网络与合成路径 Graph

语义相似性搜索 Vector

RAG 化学问答 LLM

01 / Project Base

自主可控、标准化、可扩展的分子数据底座。

MolScience 由中国人民大学化学与生命资源学院本科生团队发起，已完成初步平台开发，持续建设面向科研社区的 AI 原生化学数据基础设施。

1.2亿

分子数据基础，面向大规模检索与建模任务。

4万+

代码实现，覆盖平台、检索、管理与算法能力。

200+

全球分子数据库调研，形成评价体系与学术基础。

5名

化学专业本科生组成核心团队，兼具科研与工程能力。

02 / Research Problem

现有分子数据库仍主要服务“人用工具”，难以承载 AI 科研范式。

化学研究正在进入数据密集型科学发现阶段。高质量分子数据与高效数据库，正在成为 AI for Science 的基础设施。

Architecture

架构单一

传统关系型数据库难以同时支持图结构、向量检索与 AI 任务所需的多模态数据组织。

Data Quality

标准不一

多源分子数据在命名、结构表示、缺失值与异常值上存在治理难题，影响模型训练质量。

AI Native

智能化缺失

依赖精确匹配的检索方式无法支持自然语言查询、语义搜索与大模型工具调用。

03 / Architecture

多数据库协同架构，同时支持精确查询、关系分析与语义检索。

项目以关系型数据库、图数据库、向量数据库协同工作，突破单一数据库模式，为分子性质预测、相似性搜索、反向设计与合成路径分析提供统一底座。

Relational

结构化属性

分子式、分子量、物理化学性质
SMILES / InChI 标准化表示
高效筛选与精确条件查询

Graph

反应网络

表示反应关系与合成路径
支撑路径规划与关系推理
连接分子、反应、文献与知识节点

Vector

语义检索

支持分子相似性搜索
连接大模型 RAG 问答
为智能推荐与候选分子发现提供索引

04 / Pipeline

从数据治理到模型应用，构建可持续利用的完整链条。

MolScience 不止存储分子数据，还围绕清洗、特征、建模、应用与自然语言交互建立闭环，让数据库成为可被 AI 调用的知识引擎。

数据整合

整合 PubChem、文献等多源数据，统一分子结构与属性字段。

标准治理

完成去重、缺失值处理、异常检测，以及盐离子与溶剂等结构清理。

分子建模

结合描述符、分子指纹、分子图表示与 GNN 等模型进行性质预测。

智能交互

通过 RAG、向量检索和工具调用，探索问答式化学数据库体验。

05 / Value

服务科研基础设施、数据主权与 AI 化学前沿探索。

Science

科研基础设施

提供国产分子数据底座，支撑 AI for Science、虚拟筛选与分子设计任务。

Sovereignty

数据主权

降低对国外核心数据库的依赖，提升科研数据连续性与自主可控能力。

Frontier

技术前沿

探索数据库、机器学习、图结构与大模型融合的新型科研平台范式。

Long-term Vision

构建面向全球科研社区的开放化学数据基础设施，连接分子数据、人工智能与科学发现。