Grok-1 – Mô hình lớn mã nguồn mở thuộc xAI của Musk, với số lượng tham số là 3140 tỷ.
Grok-1 – Mô hình lớn mã nguồn mở thuộc xAI của Musk, với số lượng tham số là 3140 tỷ. logo

Grok-1 – Mô hình lớn mã nguồn mở thuộc xAI của Musk, với số lượng tham số là 3140 tỷ.

★★★★☆ 4.0 /5.0

Grok-1 là gì

Grok-1 là một mô hình ngôn ngữ lớn được phát triển bởi công ty khởi nghiệp trí tuệ nhân tạo xAI thuộc sở hữu của Elon Musk, là một mô hình chuyên gia hỗn hợp (MoE) với 3140 tỷ tham số, khiến nó trở thành mô hình ngôn ngữ lớn mã nguồn mở có số lượng tham số lớn nhất hiện nay. Quá trình phát triển và đào tạo Grok-1 tuân theo nguyên tắc mã nguồn mở, trọng số và kiến trúc mạng của nó đã được công khai, dựa trên giấy phép Apache 2.0, cho phép người dùng tự do sử dụng, sửa đổi và phân phối cho mục đích cá nhân và thương mại.

Trang web chính thức của Grok-1

Thông tin mô hình Grok-1

Theo thông tin mô hình chính thức từ xAI(https://x.ai/model-card/),thông tin về Grok-1 như sau:

Dự án Thông tin chi tiết
Chi tiết mô hình Grok-1 là một mô hình tự hồi quy dựa trên Transformer, được tiền huấn luyện để dự đoán token tiếp theo. Mô hình này đã được tinh chỉnh thông qua phản hồi rộng rãi từ con người và mô hình Grok-0 trước đó. Phiên bản ban đầu của Grok-1 có độ dài ngữ cảnh 8192 token và được phát hành vào tháng 11 năm 2023.
Mục đích sử dụng Grok-1 được thiết kế để làm động cơ cho Grok chatbot, phục vụ cho các nhiệm vụ xử lý ngôn ngữ tự nhiên bao gồm hỏi đáp, tìm kiếm thông tin, viết sáng tạo và hỗ trợ lập trình.
Giới hạn Mặc dù Grok-1 thể hiện xuất sắc trong việc xử lý thông tin, nhưng cần có sự xem xét của con người để đảm bảo độ chính xác của công việc của Grok-1. Mô hình ngôn ngữ Grok-1 không có khả năng tự tìm kiếm trên mạng. Khi triển khai trong Grok, các công cụ tìm kiếm và cơ sở dữ liệu đã nâng cao khả năng và tính chính xác của mô hình. Ngay cả khi truy cập vào các nguồn thông tin bên ngoài, mô hình vẫn có thể tạo ra những thông tin sai lệch.
Dữ liệu đào tạo Phiên bản phát hành của Grok-1 sử dụng dữ liệu đào tạo từ internet và dữ liệu do các nhân viên đào tạo AI của xAI cung cấp tính đến quý 3 năm 2023.
Đánh giá Grok-1 đã được đánh giá trên một loạt các nhiệm vụ chuẩn mực suy luận và các câu hỏi toán học nước ngoài được chọn lọc. xAI đã liên hệ với các người thử nghiệm alpha sớm để đánh giá phiên bản Grok-1, bao gồm cả các bài kiểm tra đối kháng. xAI đang mở rộng phạm vi người dùng sớm của chúng tôi thông qua việc truy cập sớm Grok để thực hiện thử nghiệm beta kín.

Chi tiết kỹ thuật của Grok-1

  • Mô hình cơ sở và đào tạo:Grok-1 được đào tạo dựa trên một lượng lớn dữ liệu văn bản, không được tinh chỉnh cho bất kỳ nhiệm vụ cụ thể nào. Điều này có nghĩa là nó là một mô hình ngôn ngữ tổng quát, có thể áp dụng cho nhiều nhiệm vụ xử lý ngôn ngữ tự nhiên khác nhau. Đào tạo của nó bắt đầu từ đầu, sử dụng ngăn xếp đào tạo tùy chỉnh được tạo thành từ thư viện JAX và ngôn ngữ Rust.
  • Số lượng tham số:Grok-1 có 3140 tỷ tham số, là mô hình ngôn ngữ lớn mã nguồn mở có số lượng tham số lớn nhất hiện nay. Các tham số này có trọng số kích hoạt là 25% trên token đã cho, cho thấy quy mô và độ phức tạp của mô hình.
  • Mô hình chuyên gia hỗn hợp (MoE):Grok-1 áp dụng thiết kế hệ thống chuyên gia hỗn hợp, là một phương pháp kết hợp nhiều mạng chuyên gia để nâng cao hiệu quả và hiệu suất của mô hình. Trong Grok-1, mỗi token chọn 2 trong 8 chuyên gia để xử lý.
  • Tham số kích hoạt:Số lượng tham số kích hoạt của Grok-1 là 860 tỷ, nhiều hơn cả 70B tham số của Llama-2, cho thấy khả năng tiềm năng của nó trong việc xử lý các nhiệm vụ ngôn ngữ.
  • Nhúng và nhúng vị trí:Grok-1 sử dụng nhúng xoay thay vì nhúng vị trí cố định, là một phương pháp xử lý dữ liệu tuần tự, có thể nâng cao khả năng của mô hình trong việc xử lý văn bản dài. Kích thước từ điển của Tokenizer là 131,072, tương tự như GPT-4, kích thước nhúng là 6,144.
  • Các lớp Transformer:Mô hình bao gồm 64 lớp Transformer, mỗi lớp đều có một lớp giải mã, được tạo thành từ các khối chú ý đa đầu và khối dày đặc. Các khối chú ý đa đầu có 48 đầu cho truy vấn, 8 đầu cho khóa/giá trị (KV), kích thước KV là 128. Khối dày đặc (khối hồi tiếp dày đặc) có hệ số mở rộng là 8, kích thước lớp ẩn là 32,768.
  • Định lượng:Grok-1 cũng cung cấp một số nội dung định lượng 8bit của trọng số, giúp giảm nhu cầu lưu trữ và tính toán của mô hình, làm cho nó phù hợp hơn để chạy trong các môi trường hạn chế tài nguyên.
  • Yêu cầu chạy:Do Grok-1 là một mô hình quy mô lớn (314B tham số), nên cần một máy có đủ bộ nhớ GPU để chạy. Ước tính có thể cần một máy có 628GB bộ nhớ GPU (mỗi tham số 2 byte).