Dòng sản phẩm GLM-4.6V đã có mặt🚀 - GLM-4.6V (106B): mô hình ngôn ngữ-vision hàng đầu với ngữ cảnh 128K - GLM-4.6V-Flash (9B): phiên bản siêu nhanh, nhẹ cho các tác vụ cục bộ và độ trễ thấp Lần đầu tiên có gọi hàm gốc trong gia đình mô hình vision GLM Trọng số: Hãy thử GLM-4.6V ngay bây giờ: API: Blog công nghệ: Giá API (cho 1 triệu token): - GLM-4.6V: $0.6 đầu vào / $0.9 đầu ra - GLM-4.6V-Flash: Miễn phí
GLM-4.6V có thể chấp nhận các đầu vào đa phương thức với nhiều loại khác nhau và tự động tạo ra nội dung hình ảnh-văn bản chất lượng cao, được cấu trúc xen kẽ.
GLM-4.6V cung cấp một quy trình tìm kiếm và phân tích đa phương thức từ đầu đến cuối, cho phép mô hình chuyển đổi một cách liền mạch từ nhận thức hình ảnh sang truy xuất trực tuyến, đến lập luận và cuối cùng là câu trả lời.
Chúng tôi đã tối ưu hóa GLM-4.6V cho phát triển frontend, rút ngắn đáng kể chu trình "thiết kế đến mã".
GLM-4.6V đồng bộ hóa bộ mã hóa hình ảnh của nó với độ dài ngữ cảnh 128K, mang lại cho mô hình một khả năng bộ nhớ khổng lồ. Trên thực tế, điều này tương đương với việc xử lý ~150 trang tài liệu phức tạp, 200 trang slide, hoặc một video dài một giờ trong một lần suy diễn.
Mô hình có thể thực hiện tóm tắt toàn cầu trên các video dài trong khi vẫn giữ khả năng thực hiện lý luận chi tiết về các manh mối tạm thời, chẳng hạn như tóm tắt các sự kiện quan trọng và thời gian trong một trận đấu bóng đá đầy đủ.
254