OpenAI starts offering a biology-tuned LLM

GPT-Rosalind là LLM được đào tạo về quy trình công việc sinh học, có sẵn ở dạng truy cập đóng. Hôm thứ Năm, OpenAI thông báo họ đã phát triển một mô hình ngôn ngữ lớn được đào tạo đặc biệt về quy trình công việc sinh học phổ biến. Được gọi là GPT-Rosalind theo tên Rosalind Franklin, mô hình này dường như khác với hầu hết các mô hình tập trung vào khoa học của các công ty công nghệ lớn, vốn thường áp dụng cách tiếp cận chung hơn, phù hợp với nhiều lĩnh vực khác nhau. Trong một cuộc họp báo, Yunyun Wang, Trưởng nhóm Sản phẩm Khoa học Đời sống của OpenAI, cho biết hệ thống này được thiết kế để giải quyết hai rào cản lớn mà các nhà nghiên cứu sinh học hiện tại phải đối mặt. Một là bộ dữ liệu khổng lồ được tạo ra sau hàng thập kỷ giải trình tự bộ gen và hóa sinh protein, có thể là quá nhiều đối với bất kỳ nhà nghiên cứu nào. Thứ hai là sinh học có nhiều lĩnh vực chuyên môn cao, mỗi lĩnh vực có kỹ thuật và biệt ngữ riêng. Vì vậy, chẳng hạn, một nhà di truyền học nhận thấy mình đang nghiên cứu một gen hoạt động trong tế bào não có thể gặp khó khăn trong việc hiểu được kho tài liệu khổng lồ về sinh học thần kinh. Wang cho biết công ty đã lấy bằng LLM và đào tạo nó về 50 quy trình công việc sinh học phổ biến nhất, cũng như cách truy cập cơ sở dữ liệu công cộng lớn về thông tin sinh học. xa hơn Việc đào tạo đã tạo ra một hệ thống có thể gợi ý các con đường sinh học có thể xảy ra và ưu tiên các mục tiêu thuốc tiềm năng. Wang cho biết: “Chúng tôi đang kết nối kiểu gen với kiểu hình thông qua các con đường và cơ chế điều hòa đã biết, suy ra các đặc tính cấu trúc hoặc chức năng của protein và thực sự tận dụng sự hiểu biết cơ học này”. Để giải quyết xu hướng của LLM đối với sự đồng tình và nhiệt tình quá mức, OpenAI cho biết họ đã điều chỉnh mô hình để trở nên hoài nghi hơn, do đó, nó có nhiều khả năng cho bạn biết khi nào thứ gì đó là mục tiêu ma túy xấu. Đã có rất nhiều cuộc thảo luận về khả năng “lý luận” và “cấp độ chuyên gia” của GPT-Rosalind. Chúng tôi được biết rằng cái trước được định nghĩa là có thể làm việc thông qua các quy trình phức tạp, gồm nhiều bước, trong khi cái sau bắt nguồn từ hiệu suất của mô hình trên một số điểm chuẩn. Không rõ liệu OpenAI có giải quyết được vấn đề ảo giác đang gây khó khăn cho nhiều loại LLM hay không và cũng có thể xảy ra sự cố khi hệ thống được nhắc giải thích các bước mà công ty đã thực hiện để đưa ra kết luận của mình. Dựa trên kinh nghiệm trước đây, có khả năng chúng ta sẽ thấy một loạt các báo cáo rực rỡ về các kết nối không mong muốn mà AI tìm thấy, cũng như các trường hợp nó đưa ra các đề xuất rõ ràng là sai lầm. . Tuy nhiên, hiện tại, công ty đang hạn chế quyền truy cập do lo ngại về khả năng mô hình tạo ra các kết quả có hại nếu được yêu cầu thực hiện một số việc như tối ưu hóa khả năng lây nhiễm của vi rút. Hiện tại, chỉ các thực thể có trụ sở tại Hoa Kỳ mới có thể đăng ký cấu trúc triển khai quyền truy cập đáng tin cậy của OpenAI và công ty sẽ giới hạn những người có thể sử dụng nó. Plugin nghiên cứu khoa học đời sống hạn chế hơn sẽ được cung cấp rộng rãi. Như đã lưu ý ở trên, một số công ty khác đã cung cấp LLM tác nhân tập trung vào khoa học, nhưng những LLM đó ít tập trung hơn nhiều so với GPT-Rosalind, vốn dành riêng cho sinh học. Cho đến khi chúng ta bắt đầu nghe báo cáo về tính hiệu quả của mô hình mới này, thật khó để đánh giá liệu trọng tâm này có cải thiện tiện ích của nó hay không. Ars Technica đã tách tín hiệu khỏi tiếng ồn trong hơn 25 năm. Với sự kết hợp độc đáo giữa hiểu biết về kỹ thuật và mối quan tâm sâu rộng đến nghệ thuật và khoa học công nghệ, Ars là nguồn đáng tin cậy trong biển thông tin. Suy cho cùng, bạn không cần phải biết mọi thứ, chỉ cần biết những gì quan trọng. Gợi ý thực hành: 1. Theo dõi thông báo từ cơ quan địa phương tại California. 2. Kiểm tra nguồn chính thức trước khi chia sẻ lại thông tin.

OpenAI bắt đầu cung cấp LLM được điều chỉnh sinh học