Nano Banana 2 – Mô hình tạo hình ảnh thế hệ mới do Google ra mắt.
Nano Banana 2 – Mô hình tạo hình ảnh thế hệ mới do Google ra mắt. logo

Nano Banana 2 – Mô hình tạo hình ảnh thế hệ mới do Google ra mắt.

Nano Banana 2 là gì

Nano Banana 2 là mô hình tạo hình ảnh thế hệ mới do Google DeepMind phát triển (Gemini 3.1 Flash Image). Mô hình kết nối với kho kiến thức Gemini và tìm kiếm trực tuyến thời gian thực, có thể vẽ chính xác các cảnh thực tế, tạo ra văn bản đa ngôn ngữ, hỗ trợ việc tạo ra đồng nhất 5 nhân vật hoặc 14 vật phẩm trong một lần tạo. Độ phân giải của mô hình dao động từ 512px đến 4K, giá API chỉ bằng một nửa so với thế hệ trước Nano Banana Pro, mô hình đã được tích hợp hoàn toàn vào Gemini App, Google API và Vertex AI, cung cấp giải pháp tạo hình ảnh hiệu quả cho các nhà phát triển và người sáng tạo.

Nano Banana 2

Chức năng chính của Nano Banana 2

  • Tăng cường kiến thức thế giới:Kết nối với kho kiến thức Gemini và tìm kiếm trực tuyến, có thể hiểu và vẽ chính xác các địa danh, kiến trúc và cảnh vật trong thế giới thực.
  • Tạo biểu đồ thông tin:Có thể chuyển đổi ghi chú và dữ liệu thành biểu đồ chuyên nghiệp, hình minh họa khoa học và nội dung trực quan hóa dữ liệu.
  • Hiển thị văn bản đa ngôn ngữ:Hỗ trợ tạo chính xác văn bản bằng tiếng Trung, tiếng Anh và nhiều ngôn ngữ khác, chấm dứt vấn đề “vẽ ma” của AI truyền thống.
  • Địa phương hóa dịch thuật trong hình ảnh:Dịch và điều chỉnh các yếu tố hình ảnh trực tiếp trong hình ảnh, thực hiện việc toàn cầu hóa nội dung như quảng cáo chỉ bằng một cú nhấp chuột.
  • Giữ tính nhất quán của nhân vật:Trong quy trình tạo ra một lần, có thể giữ tính nhất quán hoàn toàn về đặc điểm khuôn mặt và ngoại hình của tối đa 5 nhân vật.
  • Giữ tính nhất quán của vật phẩm:Trong một lần tạo ra, có thể đảm bảo tối đa 14 vật phẩm không bị biến dạng hoặc thay đổi đặc điểm ngoại hình.
  • Đầu ra với nhiều độ phân giải:Hỗ trợ 512px, 1K, 2K, 4K với bốn độ phân giải, đáp ứng nhu cầu về hiệu quả và chất lượng trong các tình huống khác nhau.
  • Thích ứng tỷ lệ linh hoạt:Hỗ trợ nguyên bản các tỷ lệ cực đoan như 4:1, 1:4, 8:1, 1:8 mà không cần cắt xén sau.
  • Cấp độ tư duy có thể cấu hình:Cung cấp ba mức độ suy luận là Minimal, High, Dynamic, cân bằng giữa tốc độ tạo ra và độ chính xác của từ khóa.
  • Truy xuất nguồn gốc bằng watermark số:Tích hợp công nghệ SynthID và C2PA, đánh dấu nội dung do AI tạo ra và hỗ trợ xác minh nguồn gốc.

Nguyên lý kỹ thuật của Nano Banana 2

  • Kiến trúc nền tảng:Dựa trên mô hình đa phương thức lớn Gemini 3.1 Flash, áp dụng thiết kế đa phương thức nguyên bản, mô hình hóa đồng thời văn bản và hình ảnh trong không gian biểu diễn thống nhất, thay vì ghép nối sau.
  • Tăng cường kiến thức:Thông qua cơ chế tạo ra tăng cường tìm kiếm, gọi trực tiếp kho kiến thức Gemini và kết hợp với tìm kiếm hình ảnh trực tuyến, đưa các tham chiếu hình ảnh từ thế giới thực vào quy trình tạo ra.
  • Tối ưu hóa khuếch tán:Trong quá trình lấy mẫu khuếch tán, đưa vào cấp độ tư duy có thể cấu hình, điều chỉnh linh hoạt khối lượng tính toán suy luận, đạt được sự cân bằng giữa tốc độ và chất lượng sản phẩm.
  • Giữ tính nhất quán:Mô hình áp dụng công nghệ bộ nhớ đặc trưng cấp đối tượng, khóa các đặc trưng ngữ nghĩa cao chiều của chủ thể trong một lần tạo ra, đảm bảo tính ổn định về ngoại hình của nhiều nhân vật và vật phẩm.
  • Hiển thị văn bản:Nhánh giải mã nhận thức hình dạng độc lập, tách rời vị trí văn bản, dự đoán cấu trúc và hiển thị phong cách, nâng cao đáng kể độ chính xác của việc tạo ra văn bản đa ngôn ngữ.
  • Truy xuất nguồn gốc an toàn:Nhúng watermark số SynthID vào không gian tiềm ẩn, liên kết với chữ ký siêu dữ liệu C2PA, thực hiện xác minh và theo dõi nguồn gốc của nội dung được tạo ra.

Cách sử dụng Nano Banana 2

  • Gemini App:Nano Banana 2 đã hoàn toàn thay thế Nano Banana Pro trong các mô hình Fast, Thinking và Pro; người dùng đăng ký Google AI Pro và Ultra có thể chọn “tạo lại hình ảnh” từ menu ba điểm để sử dụng Nano Banana Pro cho các nhiệm vụ chuyên nghiệp.
  • Google Search:Có thể sử dụng qua ứng dụng Google cũng như trình duyệt di động và máy tính để bàn, trong chế độ AI và Lens, bao phủ 141 quốc gia và khu vực mới và 8 ngôn ngữ bổ sung.
  • Flow:Nano Banana 2 hiện là mô hình tạo hình ảnh mặc định của Flow, tất cả người dùng Flow có thể sử dụng miễn phí.
  • AI Studio + API:Cung cấp phiên bản xem trước trong AI Studio và Gemini API, cần khóa API trả phí; mô hình cũng hỗ trợ Google Antigravity.
  • Google Cloud:Cung cấp phiên bản xem trước trong Vertex AI thông qua Gemini API, phù hợp cho triển khai cấp doanh nghiệp.
  • Google Ads:Mô hình hiện đã được tích hợp, cung cấp gợi ý sáng tạo thông minh khi tạo chiến dịch quảng cáo.

Địa chỉ dự án của Nano Banana 2

  • Trang web dự án:https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

Các ứng dụng của Nano Banana 2

  • Tiếp thị quảng cáo:Mô hình có thể nhanh chóng tạo ra tài liệu quảng cáo địa phương hóa đa ngôn ngữ, thích ứng với các thị trường toàn cầu với ngôn ngữ và văn hóa khác nhau chỉ bằng một cú nhấp chuột.
  • Thiết kế thương mại điện tử:Chuyển đổi hình ảnh sản phẩm chất lượng thấp thành hình ảnh trình bày chuyên nghiệp, sản xuất hàng loạt hình ảnh chính và trang chi tiết với phong cách đồng nhất.
  • Phát triển trò chơi:Mô hình có thể tạo ra giao diện UI trò chơi độ chính xác cao, hình ảnh khái niệm nhân vật và tranh cảnh, hỗ trợ thiết kế kể chuyện nhất quán cho nhiều nhân vật.
  • Sáng tác truyện tranh:Hỗ trợ giữ ổn định các đặc điểm khuôn mặt của nhân vật, liên tục tạo ra các trang phân cảnh, rút ngắn đáng kể thời gian sản xuất truyện tranh.
  • Đào tạo giáo dục:Mô hình có thể chuyển đổi các điểm kiến thức thành biểu đồ thông tin, hình minh họa, tạo ra tài liệu giảng dạy và nội dung khoa học dễ hiểu.