Học máy để dự đoán những MOF nào có thể thực sự được tạo ra trong phòng thí nghiệm Khung kim loại hữu cơ (MOF) là một trong những vật liệu có thể điều chỉnh nhiều nhất từng được tạo ra—các tinh thể xốp được lắp ráp từ các nút kim loại và các liên kết hữu cơ, với các ứng dụng từ lưu trữ khí đến xúc tác. Về mặt tính toán, chúng ta có thể tạo ra hàng triệu cấu trúc khả thi. Vấn đề là hầu như không có cấu trúc nào trong số đó được tổng hợp. Trong hàng ngàn lần sàng lọc MOF đã được công bố cho đến nay, chỉ khoảng một tá đã dẫn đến tổng hợp thực tế trong phòng thí nghiệm, và ngay cả trong trường hợp đó, các nhà hóa học thường chọn các thiết kế "an toàn" giống như các cấu trúc đã biết thay vì những cấu trúc tối ưu về mặt tính toán. Andre Niyongabo Rubungo và các đồng tác giả giải quyết nút thắt này với ba thành phần: (1) MOFMinE, một tập dữ liệu mới được biên soạn với gần một triệu MOF có năng lượng biến dạng và năng lượng tự do mô phỏng cho một tập con 65.000 cấu trúc; (2) MOFSeq, một đại diện chuỗi mã hóa cả các đặc điểm cục bộ (SMILES của các khối xây dựng) và các đặc điểm toàn cầu (địa hình và kết nối); và (3) LLM-Prop, một mô hình ngôn ngữ 35 triệu tham số được huấn luyện trước trên dữ liệu năng lượng biến dạng phong phú, sau đó được tinh chỉnh trên các tính toán năng lượng tự do tốn kém hơn. Kết quả thật ấn tượng: sai số tuyệt đối trung bình là 0.789 kJ/mol, độ chính xác 97% trong việc dự đoán khả năng tổng hợp, và độ chính xác 78% trong việc chọn đúng polymorph giữa các cấu trúc cạnh tranh. Ngay cả khi hai polymorph khác nhau chỉ 0.16 kJ/mol, mô hình vẫn chọn đúng hơn 60% thời gian. Ý nghĩa là thực tiễn: điều mà trước đây cần hàng ngày mô phỏng phân tử giờ đây chỉ cần một lần truyền qua mạng nơ-ron. Điều này mở ra một con đường để thường xuyên lọc các lần sàng lọc MOF tính toán theo khả năng tổng hợp dự đoán—cho phép các nhà thực nghiệm khám phá các thiết kế "trực giác" vào các vùng chưa được khám phá của không gian hóa học, trong khi vẫn cải thiện khả năng rằng những gì trông tốt trên máy tính có thể thực sự được tạo ra trong phòng thí nghiệm. Bài báo: