Computex24: Kiến trúc GPU Intel Xe2 chính thức: Hiệu năng tăng 50%, nhân ray tracing mới

Computex24: Kiến trúc GPU Intel Xe2 chính thức: Hiệu năng tăng 50%, nhân ray tracing mới
Ngày đăng: 05/06/2024 08:48 AM

    Computex24: Kiến trúc GPU Intel Xe2 chính thức: Hiệu năng tăng 50%, nhân ray tracing mới

    Bên cạnh việc công bố kiến trúc chip xử lý máy tính cá nhân Lunar Lake, Intel cũng đã công bố luôn cả kiến trúc chip GPU xử lý đồ họa Xe2 mới toanh của họ tại Computex 2024. Đầu tiên, Xe2 sẽ hiện diện trên những con chip Lunar Lake dưới dạng iGPU tích hợp. Sau đó, những card và chip đồ họa rời Batlemage dành cho laptop cũng như máy bàn sẽ lần lượt được ra mắt.

    Tại sự kiện ITT 2024, Intel đã đưa ra lời khẳng định chắc chắn rằng, họ không hủy bỏ dự án phát triển GPU và những card đồ họa Arc dành cho nhu cầu tiêu dùng. Tại đây, Tom Petersen đã có một bài thuyết trình đầy đam mê, xoay quanh thế hệ kiến trúc Xe2. Về mặt chi tiết thế hệ kiến trúc, thay vì sử dụng những khái niệm rắc rối dành cho những sản phẩm hiệu năng thấp và hiệu nang cao như LP, LPG, HP và HPG, Intel gọi chung toàn bộ dàn sản phẩm GPU kiến trúc mới là Xe2.

    Đương nhiên codename của những sản phẩm phục vụ phân khúc khác nhau vẫn sẽ được Intel phân biệt riêng, nhưng sản phẩm thương mại sẽ không có những cụm từ như LP hay HP nữa.

    1.jpg



    Một vài mục tiêu mà Intel nhắm tới khi phát triển Xe2 là tận dụng được tối ưu hiệu năng của con chip, cải thiện khả năng chia việc xử lý xong xong trên từng nhân của GPU, và giảm thiểu giới hạn hiệu năng gây ra bởi phần mềm. Xe2 được phát triển từ con số 0, không phải một phiên bản nâng cấp của kiến trúc Xe, giải quyết được rất nhiều những vấn đề lớn tồn tại ở kiến trúc Xe Alchemist.

    Ngay lập tức, Intel khiến mọi người trầm trồ với cải thiện hiệu năng xử lý IP performance, có lúc cải thiện tối đa tới 12.5 lần so với thế hệ kiến trúc GPU cũ.

    2.jpg

    Intel cho biết, với kiến trúc Xe2, giống như Xe, khả năng mở rộng quy mô die bán dẫn để đa dạng hóa giải pháp sản phẩm, từ iGPU tích hợp đến card đồ họa cao cấp phục vụ nhu cầu chơi game, và cả phục vụ xử lý workstation cũng là điều Intel muốn làm.

    3.jpg
     


    Về mặt chi tiết, nhân GPU Xe thế hệ thứ 2 sở hữu tài nguyên điện toán hỗ trợ những engine SIMD16 để cải thiện hiệu quả vận hành. Trong một nhân GPU Xe2 bao gồm:
     

    • 8 Vector Engine 512-bit
    • 8 XMX Engine 2048-bit
    • Hỗ trợ 64b atomic ops
    • Bộ nhớ đệm 192kB L1$/SLM


    4.jpg

    Vector Engine cũng được nâng cấp, bao gồm:
     

    • SIMD16 native ALU, hỗ trợ vận hành SIMD16 và SIMD32
    • Xe Matrix Extensions hỗ trợ xử lý phép tính số thực dấu phẩy động INT2, INT4, INT8, FP16, BF16
    • Mở rộng khả năng xử lý phép tính FP64
    • Vận hành đồng thời FP + INT/EM và XMX


    5.jpg

    XMX, viết tắt của Xe Matrix Engines trước đó đã hiện diện trên kiến trúc Xe Alchemist, nhưng giờ được nâng cấp, hỗ trợ nhiều dạng dữ liệu hơn, và vận hành tính toán số thực dấu phẩy động FP16 và INT8 nhanh hơn nhiều, FP16 đạt ngưỡng 2048 OPS trên mỗi xung nhịp, INT8 đạt 4096 OPS trên mỗi xung nhịp.

    7.jpg

    Giờ là lúc nói đến cách Intel đặt bố cục những Vector Engine và Xe Matric Engine trong mỗi nhân Render Slice, một cụm nhân tính toán cơ bản bên trong GPU Xe2. Những Render Slice này có thể được xếp chồng lên nhau ở quy mô lớn, số lượng tùy thuộc vào nhu cầu xử lý đồ họa hay thuật toán số thực dấu phẩy động, rồi tối ưu để giảm độ trễ, cải thiện vận hành kết hợp giữa phần cứng và phần mềm. Những Render Slice này được kết nối trực tiếp với Command Front End với vai trò chia việc, hỗ trợ Execute Indirect.


    8.jpg

    Trong từng nhân Render Slice này có Geometry Engine mới, hiệu năng xử lý đa giác vertex và mesh shading tăng gấp 3 so với kiến trúc Xe, bộ nhớ đệm L1$/SLM mới để lấy mẫu đa giác và texture bề mặt vật thể theo kiểu không tuần tự. Cụm chip Pixel Backends biến đa giác vector thành điểm ảnh hiển thị trên màn hình có băng thông tăng gấp đôi, bộ nhớ đệm màu sắc điểm ảnh tăng 33%.
     


    Trên nhân GPU Xe2, một khu vực lớn diện tích transistor silicon được dành cho những cụm RTU, ray tracing unit, với 3 traversal pipeline, 18 box intersection và 2 triangle intersection, cả ba cùng vận hành để xử lý tính toán đường đi của ánh sáng và cách ánh sáng tương tác với bề mặt các vật thể trong màn chơi của các game.

    9.jpg

    Bản thân cụm nhân ray tracing trên GPU Xe2 cũng có kích thước lớn hơn, đảm bảo đủ transistor xử lý những hiệu ứng đồ họa đòi hỏi phần cứng máy tính nhất hiện giờ.

    Xét về tổng thể, kiến trúc GPU Xe2 được thiết kế để vận hành game tốt hơn, tối ưu xử lý để tốc độ khung hình game cao hơn. Một khía cạnh kỹ thuật đáng đề cập chính là cụm nhân Execute Indirect chia lệnh xử lý không tuần tự, những lệnh này được ứng dụng rất nhiều trong những trò chơi phổ biến, hay những tác phẩm vận hành dựa trên bộ công cụ Unreal Engine.

    10.jpg
     


    Sản phẩm đầu tiên được trang bị nhân iGPU kiến trúc Xe2 chính là những chip xử lý Lunar Lake. Vài cụm nhân xử lý chuyên trách trên die chip Lunar Lake vận hành trực tiếp với iGPU Xe2, bao gồm cụm Media Engine xử lý codec hay Display Engine xử lý đưa hình ảnh lên màn hình.

    18.jpg

    Trên những chip Lunar Lake dành cho laptop ra mắt trong năm nay, tile iGPU kiến trúc Xe2 sẽ có cấu hình như sau:
     

    • 8 nhân Xe2
    • 64 Vector Engine
    • 2 Geometry Pipeline
    • 8 Sampler
    • 4 Pixel Backend
    • 8 Ray tracing unit
    • 8MB cache L2


    11.jpg

    Trên mỗi nhân Xe2 là 8 Xe Matrix Engine, 8 Vector Engine, một cụm nhân Load/Store dữ liệu, một cụm nhân xử lý đa luồng Thread SortingUnit, và bộ nhớ đệm L1 riêng.

    Kết quả là, so với những nhân iGPU tích hợp trên chip Meteor Lake, nhân iGPU kiến trúc Xe2 trên chip Lunar Lake đem lại hiệu năng cải thiện tới 50%. Chung mức hiệu năng, điện năng tiêu thụ giảm mạnh.

    13.jpg

    Bên cạnh nhân NPU, thì bản thân iGPU Xe2 đương nhiên vẫn có cụm xử lý tính toán ma trận, tổng cộng chúng sở hữu tốc độ 67 TOPS xử lý số thực INT8, kết hợp luôn với sức mạnh 48 TOPS của nhân NPU thế hệ 4, và 5 TOPS của CPU, từ đó tạo ra tổng sức mạnh 120 TOPS trên toàn bộ con chip xử lý, phục vụ vận hành những tính năng AI hay trợ lý ảo AI đi kèm với chuẩn Copilot+ PC của Windows 11 mà Microsoft vừa công bố.

    14.jpg
     


    Display Engine là một cụm nhân xử lý độc lập so với tile iGPU kiến trúc Xe2 trên con chip Lunar Lake. Trên die chip này là 3 Display Pipes xử lý hình ảnh gửi lên màn hình, hỗ trợ xuất tín hiệu tối đa 8K60 HDR, hoặc tối đa 3 màn hình 4K60, hỗ trợ được màn hình 1080p và 1440p ở tần số quét tối đa 360Hz. Display Engine mới hỗ trợ hai chuẩn kết nối tín hiệu HDMI 2.1, DisplayPort 2.1 và cả eDP1.5 cho màn hình tích hợp trong những chiếc laptop.

    15.jpg

    Bên cạnh đó, Display Engine còn tích hợp cả cụm nhân xử lý Decode/Decrypt và Streaming Buffer Zone. Cụm chip xử lý điểm ảnh và màu sắc điểm ảnh hiển thị lên màn hình hỗ trợ color conversion, vừa đảm bảo tiêu thụ điện năng ở mức thấp nhất.

    19.jpg

    Nói tới chuyện tiết kiệm điện, Display Engine còn có cả tính năng tối ưu điện năng thấp với Panel Replay, những khung hình không có chuyển động, chẳng hạn như không di chuột, điện năng đầu vào sẽ tạm thời ngắt để tối ưu thời lượng pin. Cảm biến độ sáng màn hình cũng là phiên bản mới, ứng dụng công nghệ LACE (Local Adaptive Contrast Enhancement).

    Đối với khía cạnh mã hóa, nén và giải mã tín hiệu hình ảnh, sẽ có cụm nhân display stream compression engine, mã hóa tín hiệu hình ảnh theo cả hai chuẩn HDMI và DisplayPort mới nhất.

    20.jpg

    Như đã nói, Display Engine của chip Lunar Lake hỗ trợ chuẩn tín hiệu hình ảnh eDisplayPort 1.5 với Panel Replay, tức là một công nghệ nâng cấp toàn diện đối với tần số quét màn hình laptop. Nói một cách đơn giản thì màn hình sẽ mượt hơn, nhưng tiêu thụ điện năng thấp hơn, đảm bảo thời lượng pin của chiếc laptop.
     


    Cụm nhân xử lý chuyên biệt nữa trên bề mặt die chip Lunar Lake là Media Engine hỗ trợ xử lý giải mã và mã hóa những codec media phổ biến và mới nhất. Media Engine kết nối trực tiếp với nhân iGPU Xe2, bộ nhớ đệm 8MB. Bộ nhớ đệm này cho phép chip Lunar Lake tiết kiệm được băng thông bộ nhớ, nhờ việc giảm dữ liệu qua lại RAM khi máy tính xử lý media. Cũng nhờ bộ nhớ đệm này, điện năng tiêu thụ cũng giảm đáng kể khi xử lý mã hóa codec media, tức là khi dùng máy tính làm nội dung bằng Premiere hay CapCut chẳng hạn

    21.jpg

    Media Engine hỗ trợ giải mã video 8K60 10-bit HDR, cho phép mã hóa 8K60 10-bit HDR, AVC, VP9, H.265 HEVC, AV1 và cả VVC mới. VVC Engine cho phép giảm bitrate nhưng vẫn đảm bảo chất lượng video hệt như chuẩn codec AV1, Intel nói video codec VVC có dung lượng thấp hơn video AV1 chừng 10%.

    Cuối cùng, kết hợp tất cả phần cứng lại với nhau, iGPU Xe2 của Intel sẽ vận hành thông qua software stack của Windows, được tối ưu cho phần cứng mới. Trước đó, Intel đã phải bỏ rất nhiều thời gian để tối ưu hiệu năng ở tầng API của kiến trúc Xe cũ, nhất là hiệu năng xử lý game với API DirectX 9 cũ. Mọi nâng cấp và tối ưu đó sẽ được ứng dụng cho kiến trúc Xe2, nghĩa là anh em dùng iGPU và GPU của Intel sẽ không phải chờ đợi như trước kia nữa.

    Facebook Gọi điện Gửi tin nhắn Zalo Zalo Liên hệ