홈으로 돌아가기

Google의 타이탄: 트랜스포머 이후의 AI 시대?

kor - male vie - male

출처: https://www.youtube.com/watch?v=dQxjM1ZwiNw

저자: AI Papers Academy

게시일: 2025-01-17T00:00:00

0:05 In 2017, Google published the groundbreaking paper titled "Attention is All You Need",

0:11 which sparked the AI revolution we experience today. This paper introduced Transformers,

0:16 which have become the backbone of most, if not all, top large language models out there

0:20 today. The strength of Transformers is largely attributed to their use of attention. Given

0:25 a sequence of tokens, Transformers process the entire sequence at once, and capture dependencies

0:30 across the entire sequence using the attention mechanism, to provide a high-quality output.

0:35 This incredibly powerful capability comes with a cost, a quadratic dependency on the input

0:39 sequence length. This cost poses limitations on the ability of Transformers to scale up to

0:45 longer sequences. On the other hand, a different type of architecture, recurrent models, does not

0:51 suffer from this quadratic dependency. Instead of processing the entire sequence at once, they do it

0:57 gradually, compressing the data from the sequence into a compressed memory, also called the hidden

1:03 state. This linear dependency contributes to the enhanced scalability of recurrent models. However,

1:10 recurrent models have not proven to be as performant as Transformers. In this video,

1:14 we dive into a new paper by Google Research titled Titans: Learning to Memorize at Test Time, which

1:20 introduces a new model architecture called Titans, that shows promising results while mitigating the

1:25 quadratic cost issue of Transformers. The Titan models are designed with inspiration

1:30 from how memory works in the human brain. An interesting quote from the paper mentions that

1:35 memory is a fundamental mental process and is an inseparable component of human learning. Without

1:40 a properly functioning memory system, humans and animals would be restricted to basic reflexes and

1:45 stereotyped behaviors. More specifically, the paper introduces a novel deep neural

1:50 long-term memory module, that can effectively learn to memorize at test time. Let's start

1:56 with understanding what the deep neural long-term memory module is, and afterwards we'll understand

2:01 how it is incorporated into the Titans models. Unlike in recurrent neural networks, where the

2:06 memory is encoded into a fixed vector, the neural long-term memory module is a model,

2:12 a neural network with multiple layers, that encodes the abstraction of past history into

2:17 its parameters. To train such a model, one idea is to train the model to memorize its training data.

2:24 However, memorization is known to limit models’ generalization and may result in poor performance.

2:30 The researchers designed a fascinating approach to create a model capable of memorization,

2:36 but without overfitting the model to the training data. This approach is inspired by an analogy

2:41 from human memory. When we encounter an event that surprises us, which we did not expect,

2:45 we are more likely to remember that event. The learning process of the neural long-term memory

2:50 module is designed to reflect that. We can learn about that by reviewing the following definition

2:56 from the paper. Mt represents the neural long-term memory module at time t. It is updated using its

3:02 parameters from the previous timestep, and a surprise element modeled as a gradient. If the

3:08 gradient is large, the model is more surprised by the input, resulting in a more significant update

3:13 to the model weights. However, this definition is still not ideal. From a human perspective, a

3:19 surprising event will not continue to surprise us through a long period of time, although it remains

3:24 memorable. We usually adapt to the surprising event. Nevertheless, the event may have been

3:28 surprising enough to get our attention through a long timeframe, leading to memorizing the entire

3:34 time frame. We can learn about the improved modeling from the following definitions from

3:38 the paper that include modeling of past surprise. Now, we update the weights of the neural long-term

3:44 memory using the state of the previous weights, and a surprise component, noted as St. The

3:49 surprise component is now measured over time, and is composed of the previous surprise, with a decay

3:54 factor and the same momentary surprise we already discussed. Another factor that is not modeled

3:59 here yet is forgetting. When dealing with very large sequences millions of tokens for example,

4:05 it is crucial to manage which past information should be forgotten. We can see the final modeling

4:10 in the following definitions from the paper. This is identical to the previous definition except

4:15 that we add an adaptive forgetting mechanism, noted with alpha and is also called a gating

4:21 mechanism. This allows the memory to forget the information that is not needed anymore. The loss

4:26 function is defined with the following equations. The loss aims to model associative memory,

4:31 by storing the past data as the pairs of keys and values, and teach the model to map between keys

4:37 and values. Similarly to Transformers, linear layers project the input into keys and values.

4:43 The loss then measures how well the memory module learns the associations between keys and values.

4:49 To clarify, the model does not process the entire sequence at once, but rather process it gradually,

4:54 accumulating embedding memory information in its weights. We'll now review how this deep neural

4:59 long-term memory module is incorporated into the Titans models, but before, if you're finding

5:04 this content valuable, please don't forget to subscribe and hit the like button to support the

5:09 channel. We also send one-minute read summaries by mail about the papers we review here. You can

5:15 find the link to join in the description of this video. Let's move on to review the architecture

5:19 of the Titan model. The paper suggests a few different architectures. The first is called

5:24 Memory as a Context. We can learn about it using the following figure from the paper. The model

5:29 consists of 3 components, persistent memory, core, and contextual memory. Given a long input

5:36 sequence, we chunk it into smaller sequences. The sequence shown at the Core component is actually a

5:41 chunked sequence. We first incorporate persistent memory by adding learnable data-independent

5:47 weights to the beginning of the sequence. These are in practice learnable tokens that store global

5:53 information which is not impacted by the input. The sequence is also passed via an attention block

5:58 and adding the learnable tokens at the beginning of the sequence helps avoid attention drain,

6:03 where due to bias, attention weights are highly active toward initial tokens. Adding learnable

6:08 meta tokens also proved successful in Hymba by Nvidia, which we covered not long ago on this

6:14 channel as well. Next, we incorporate contextual memory. Contextual memory consists of the deep

6:20 neural long-term memory module, since it depends on the context. We retrieve memory tokens from

6:25 the long-term memory using a forward pass of the neural long-term memory module, with the input

6:30 chunked sequence as input. Since the neural memory keeps being updated even in test time,

6:36 when we process a chunk of a long sequence, the neural memory is already updated with information

6:42 from previous chunks of the same sequence. The retrieved memory tokens are added to the input

6:47 sequence, after the persistent memory tokens. The core component brings it all together,

6:53 using an attention block that is fed with the extended sequence, that contains information from

6:57 the persistent memory, the contextual memory and the input itself. This way the model can

7:03 leverage multiple memory types. The output from the attention block is used to update the neural

7:07 memory. The attention mechanism helps to determine for a given input, whether the long-term memory

7:12 should be used or not. Additionally, attention helps the long-term memory to store only useful

7:17 information from the current context. The final output is determined based on the attention block

7:23 output and the output from the neural memory. The next Titan architecture version is called

7:28 Memory as a Gate, and it also has a great illustration from the paper. In this version,

7:33 we also have 3 branches that represent persistent memory, core, and contextual memory. A difference

7:39 from the previous version, is that the sequence is not chunked. The input sequence here is the full

7:45 input sequence. This is made possible by utilizing sliding window attention in the attention block.

7:50 The persistent memory learnable weights are again added to the beginning of the sequence. But unlike

7:55 before, the neural memory does not contribute data into the context for the attention block. Instead,

8:01 the neural memory is updated from the input sequence and its output is combined with the core

8:06 branch using a gating mechanism. The third variant of Titan architecture is called Memory as a Layer.

8:12 We can learn about it using the following figure from the paper. Similarly to the previous version,

8:17 Memory as a Gate, the sequence is not chunked, and we use sliding window attention. In this version,

8:23 we use the neural memory as a model layer, where the input sequence, together with the learnable

8:29 weights, first pass via the neural memory, and afterwards via the attention block. This

8:34 design allows stacking layers of multiple neural memory modules and attention blocks,

8:40 similar to how Transformer layers are usually stacked. However, the sequential design limits

8:45 the power of the model by the power of each of the layers. This is again a similar observation

8:50 to the Hymba paper where Nvidia placed different components in parallel, rather than sequential,

8:56 for this exact same reason. Another last variant is called LMM, which represents a version without

9:02 an attention block, solely relying on the memory module. Let's now move on to see how Titan models

9:08 perform comparing to other models. In the following table from the paper, we can see

9:12 comparison of the 4 Titan versions with baselines on language modeling and commonsense reasoning

9:17 tasks. The best results are marked in blue for hybrid models, that utilize both recurrent and

9:23 attention mechanisms, and in yellow the best results for non-hybrid models. The non-hybrid

9:29 Titan version, LMM, which is the fourth variant without the attention block, achieves the best

9:35 results comparing to other non-hybrid models, showcasing the power of the neural long-term

9:39 memory module. Among the hybrid models, Memory as a Context Titan achieves the overall best results,

9:46 where Memory as a Gate Titan is slightly behind it. Another interesting comparison is for the

9:51 needle in a haystack task, where we can see the result in the following table from the paper.

9:55 In this task, the models need to retrieve a piece of information from a very long text,

10:00 thus measuring the actual effective context length of models. The numbers in the title

10:05 show the length of the evaluated sequences. We can see a clear win for Titans comparing to baselines

10:11 as the sequence length is increased on all three benchmarks. Another very interesting result can be

10:16 seen in the following figure from the paper, that shows comparison of Titans with top models on the

10:21 BABILong benchmark. This is a harder benchmark for long sequences, in which the model needs

10:26 to reason across facts distributed in extremely long documents. On the x axis we see the sequence

10:32 length and on the y axis we measure the accuracy of each model. The results of Memory as a Context

10:38 Titan are shown in the red line, significantly outperforms other models on very long sequences.

10:44 very impressive. Thank you for watching and stay tuned for more reviews of AI papers

0:05 Năm 2017, Google đã công bố một bài báo mang tính đột phá với tựa đề "Attention is All You Need", mở ra cuộc cách mạng AI mà chúng ta đang chứng kiến ngày nay. Bài báo này giới thiệu Transformers, kiến trúc đã trở thành xương sống của hầu hết, nếu không muốn nói là tất cả, các mô hình ngôn ngữ lớn hàng đầu hiện nay. Sức mạnh của Transformers phần lớn đến từ việc sử dụng cơ chế attention (sự chú ý).

0:25 Với một chuỗi các token, Transformers xử lý toàn bộ chuỗi cùng một lúc và nắm bắt các mối liên hệ trên toàn bộ chuỗi bằng cơ chế attention để tạo ra kết quả chất lượng cao. Khả năng mạnh mẽ này đi kèm với một cái giá: sự phụ thuộc bậc hai vào độ dài của chuỗi đầu vào. Chi phí này đặt ra những hạn chế cho khả năng mở rộng Transformers đối với các chuỗi dài hơn.

0:45 Mặt khác, một loại kiến trúc khác, các mô hình lặp lại (recurrent models), không bị ảnh hưởng bởi sự phụ thuộc bậc hai này. Thay vì xử lý toàn bộ chuỗi cùng một lúc, chúng xử lý nó một cách tuần tự, nén dữ liệu từ chuỗi vào một bộ nhớ nén, hay còn gọi là trạng thái ẩn (hidden state). Sự phụ thuộc tuyến tính này giúp các mô hình lặp lại có khả năng mở rộng tốt hơn. Tuy nhiên, các mô hình lặp lại lại không hoạt động hiệu quả bằng Transformers.

1:14 Trong video này, chúng ta sẽ đi sâu vào một bài báo mới của Google Research có tựa đề "Titans: Learning to Memorize at Test Time" (Titans: Học cách ghi nhớ tại thời điểm kiểm tra), giới thiệu một kiến trúc mô hình mới có tên là Titans, cho thấy những kết quả đầy hứa hẹn đồng thời giảm thiểu vấn đề chi phí bậc hai của Transformers. Các mô hình Titan được thiết kế dựa trên cảm hứng từ cách bộ nhớ hoạt động trong não người.

1:30 Một trích dẫn thú vị từ bài báo đề cập rằng bộ nhớ là một quá trình tinh thần cơ bản và là một thành phần không thể tách rời của quá trình học tập của con người. Nếu không có một hệ thống bộ nhớ hoạt động tốt, con người và động vật sẽ chỉ bị giới hạn trong các phản xạ cơ bản và các hành vi rập khuôn. Cụ thể hơn, bài báo giới thiệu một mô-đun bộ nhớ dài hạn thần kinh sâu (deep neural long-term memory module) mới có thể học cách ghi nhớ một cách hiệu quả tại thời điểm kiểm tra. Hãy bắt đầu bằng cách tìm hiểu mô-đun bộ nhớ dài hạn thần kinh sâu là gì, sau đó chúng ta sẽ tìm hiểu cách nó được tích hợp vào các mô hình Titans.

2:01 Không giống như trong các mạng thần kinh lặp lại, nơi bộ nhớ được mã hóa thành một vectơ cố định, mô-đun bộ nhớ dài hạn thần kinh là một mô hình, một mạng thần kinh với nhiều lớp, mã hóa sự trừu tượng của lịch sử quá khứ vào các tham số của nó. Để huấn luyện một mô hình như vậy, một ý tưởng là huấn luyện mô hình để ghi nhớ dữ liệu huấn luyện của nó.

2:24 Tuy nhiên, việc ghi nhớ lại được biết là hạn chế khả năng khái quát hóa của mô hình và có thể dẫn đến hiệu suất kém. Các nhà nghiên cứu đã thiết kế một phương pháp thú vị để tạo ra một mô hình có khả năng ghi nhớ, nhưng không làm mô hình bị "học tủ" (overfit) dữ liệu huấn luyện. Phương pháp này được lấy cảm hứng từ một phép loại suy từ trí nhớ của con người. Khi chúng ta gặp một sự kiện khiến chúng ta ngạc nhiên, điều mà chúng ta không mong đợi, chúng ta có nhiều khả năng nhớ sự kiện đó hơn.

2:45 Quá trình học tập của mô-đun bộ nhớ dài hạn thần kinh được thiết kế để phản ánh điều đó. Chúng ta có thể tìm hiểu về điều đó bằng cách xem xét định nghĩa sau từ bài báo. Mt đại diện cho mô-đun bộ nhớ dài hạn thần kinh tại thời điểm t. Nó được cập nhật bằng cách sử dụng các tham số của nó từ bước thời gian trước đó và một yếu tố bất ngờ được mô hình hóa dưới dạng gradient. Nếu gradient lớn, mô hình sẽ ngạc nhiên hơn bởi đầu vào, dẫn đến việc cập nhật đáng kể hơn cho trọng số của mô hình.

3:13 Tuy nhiên, định nghĩa này vẫn chưa hoàn toàn lý tưởng. Từ góc độ của con người, một sự kiện đáng ngạc nhiên sẽ không tiếp tục làm chúng ta ngạc nhiên trong một khoảng thời gian dài, mặc dù nó vẫn đáng nhớ. Chúng ta thường thích nghi với sự kiện đáng ngạc nhiên đó. Tuy nhiên, sự kiện này có thể đủ gây ngạc nhiên để thu hút sự chú ý của chúng ta trong một khoảng thời gian dài, dẫn đến việc ghi nhớ toàn bộ khung thời gian đó.

3:34 Chúng ta có thể tìm hiểu về mô hình hóa được cải thiện từ các định nghĩa sau từ bài báo, bao gồm mô hình hóa sự ngạc nhiên trong quá khứ. Bây giờ, chúng ta cập nhật trọng số của bộ nhớ dài hạn thần kinh bằng cách sử dụng trạng thái của các trọng số trước đó và một thành phần bất ngờ, được ký hiệu là St. Thành phần bất ngờ hiện được đo theo thời gian và bao gồm sự ngạc nhiên trước đó, với hệ số suy giảm và sự ngạc nhiên tức thời tương tự mà chúng ta đã thảo luận.

3:59 Một yếu tố khác chưa được mô hình hóa ở đây là sự lãng quên. Khi xử lý các chuỗi rất lớn—ví dụ: hàng triệu token—điều quan trọng là phải quản lý thông tin quá khứ nào nên bị lãng quên. Chúng ta có thể thấy mô hình hóa cuối cùng trong các định nghĩa sau từ bài báo. Điều này giống hệt với định nghĩa trước, ngoại trừ việc chúng ta thêm một cơ chế quên thích ứng, được ký hiệu bằng alpha và còn được gọi là cơ chế cổng (gating mechanism). Điều này cho phép bộ nhớ quên đi những thông tin không còn cần thiết nữa.

4:26 Hàm mất mát (loss function) được định nghĩa bằng các phương trình sau. Mất mát nhằm mục đích mô hình hóa bộ nhớ liên kết bằng cách lưu trữ dữ liệu quá khứ dưới dạng các cặp khóa và giá trị và dạy mô hình ánh xạ giữa các khóa và giá trị. Tương tự như Transformers, các lớp tuyến tính (linear layers) chiếu đầu vào thành các khóa và giá trị. Sau đó, mất mát đo lường mức độ tốt của mô-đun bộ nhớ học các liên kết giữa các khóa và giá trị.

4:49 Để làm rõ, mô hình không xử lý toàn bộ chuỗi cùng một lúc, mà xử lý nó dần dần, tích lũy thông tin bộ nhớ nhúng trong trọng số của nó. Bây giờ chúng ta sẽ xem xét cách mô-đun bộ nhớ dài hạn thần kinh sâu này được tích hợp vào các mô hình Titans, nhưng trước đó, nếu bạn thấy nội dung này hữu ích, vui lòng đừng quên đăng ký và nhấn nút thích để ủng hộ kênh. Chúng tôi cũng gửi các bản tóm tắt đọc trong một phút qua email về các bài báo mà chúng tôi xem xét ở đây. Bạn có thể tìm thấy liên kết để tham gia trong phần mô tả của video này.

5:19 Hãy chuyển sang xem xét kiến trúc của mô hình Titan. Bài báo đề xuất một vài kiến trúc khác nhau. Đầu tiên được gọi là Memory as a Context (Bộ nhớ như một ngữ cảnh). Chúng ta có thể tìm hiểu về nó bằng cách sử dụng hình sau từ bài báo. Mô hình bao gồm 3 thành phần: bộ nhớ liên tục (persistent memory), lõi (core) và bộ nhớ theo ngữ cảnh (contextual memory). Với một chuỗi đầu vào dài, chúng ta chia nó thành các chuỗi nhỏ hơn. Chuỗi được hiển thị tại thành phần Lõi thực chất là một chuỗi đã được chia nhỏ.

5:41 Đầu tiên, chúng ta kết hợp bộ nhớ liên tục bằng cách thêm các trọng số độc lập với dữ liệu có thể học được vào đầu chuỗi. Trong thực tế, đây là các token có thể học được (learnable tokens) lưu trữ thông tin toàn cầu không bị ảnh hưởng bởi đầu vào. Chuỗi cũng được truyền qua một khối attention và việc thêm các token có thể học được vào đầu chuỗi giúp tránh sự cạn kiệt attention (attention depletion), trong đó, do độ lệch (bias), trọng số attention hoạt động rất tích cực đối với các token ban đầu. Việc thêm các meta token có thể học được cũng đã chứng tỏ thành công trong Hymba của Nvidia, mà chúng tôi đã đề cập không lâu trước đây trên kênh này.

6:14 Tiếp theo, chúng ta kết hợp bộ nhớ theo ngữ cảnh. Bộ nhớ theo ngữ cảnh bao gồm mô-đun bộ nhớ dài hạn thần kinh sâu, vì nó phụ thuộc vào ngữ cảnh. Chúng ta truy xuất các token bộ nhớ từ bộ nhớ dài hạn bằng cách sử dụng chuyển tiếp (forward pass) của mô-đun bộ nhớ dài hạn thần kinh, với chuỗi đã được chia nhỏ đầu vào làm đầu vào. Vì bộ nhớ thần kinh tiếp tục được cập nhật ngay cả trong thời gian kiểm tra, khi chúng ta xử lý một đoạn của một chuỗi dài, bộ nhớ thần kinh đã được cập nhật với thông tin từ các đoạn trước của cùng một chuỗi.

6:42 Các token bộ nhớ được truy xuất được thêm vào chuỗi đầu vào, sau các token bộ nhớ liên tục. Thành phần lõi tập hợp tất cả lại với nhau, sử dụng một khối attention được cung cấp chuỗi mở rộng, chứa thông tin từ bộ nhớ liên tục, bộ nhớ theo ngữ cảnh và chính đầu vào. Bằng cách này, mô hình có thể tận dụng nhiều loại bộ nhớ. Đầu ra từ khối attention được sử dụng để cập nhật bộ nhớ thần kinh.

7:07 Cơ chế attention giúp xác định, với một đầu vào cụ thể, liệu có nên sử dụng bộ nhớ dài hạn hay không. Ngoài ra, attention giúp bộ nhớ dài hạn chỉ lưu trữ thông tin hữu ích từ ngữ cảnh hiện tại. Đầu ra cuối cùng được xác định dựa trên đầu ra của khối attention và đầu ra từ bộ nhớ thần kinh.

7:23 Phiên bản kiến trúc Titan tiếp theo được gọi là Memory as a Gate (Bộ nhớ như một cổng), và bài báo cũng có một hình minh họa rất dễ hiểu cho phiên bản này. Trong phiên bản này, chúng ta cũng có 3 nhánh đại diện cho bộ nhớ liên tục, lõi và bộ nhớ theo ngữ cảnh. Một điểm khác biệt so với phiên bản trước là chuỗi không bị chia nhỏ. Chuỗi đầu vào ở đây là chuỗi đầu vào đầy đủ. Điều này có thể thực hiện được bằng cách sử dụng attention cửa sổ trượt (sliding window attention) trong khối attention.

7:50 Các trọng số có thể học được của bộ nhớ liên tục lại được thêm vào đầu chuỗi. Nhưng không giống như trước đây, bộ nhớ thần kinh không đóng góp dữ liệu vào ngữ cảnh cho khối attention. Thay vào đó, bộ nhớ thần kinh được cập nhật từ chuỗi đầu vào và đầu ra của nó được kết hợp với nhánh lõi bằng cơ chế cổng.

8:06 Biến thể thứ ba của kiến trúc Titan được gọi là Memory as a Layer (Bộ nhớ như một lớp). Chúng ta có thể tìm hiểu về nó bằng cách xem hình sau từ bài báo. Tương tự như phiên bản trước, Memory as a Gate, chuỗi không bị chia nhỏ và chúng ta sử dụng attention cửa sổ trượt. Trong phiên bản này, chúng ta sử dụng bộ nhớ thần kinh như một lớp mô hình, trong đó chuỗi đầu vào, cùng với các trọng số có thể học được, trước tiên đi qua bộ nhớ thần kinh, và sau đó qua khối attention.

8:34 Thiết kế này cho phép xếp chồng các lớp của nhiều mô-đun bộ nhớ thần kinh và các khối attention, tương tự như cách các lớp Transformer thường được xếp chồng lên nhau. Tuy nhiên, thiết kế tuần tự (sequential) giới hạn sức mạnh của mô hình bởi sức mạnh của mỗi lớp. Đây lại là một quan sát tương tự như bài báo Hymba, nơi Nvidia đặt các thành phần khác nhau song song, thay vì tuần tự, vì lý do tương tự.

8:56 Một biến thể cuối cùng khác được gọi là LMM, đại diện cho một phiên bản không có khối attention, chỉ dựa vào mô-đun bộ nhớ. Bây giờ chúng ta hãy xem các mô hình Titan hoạt động như thế nào so với các mô hình khác. Trong bảng sau từ bài báo, chúng ta có thể thấy so sánh của 4 phiên bản Titan với các mô hình cơ sở (baseline) về mô hình hóa ngôn ngữ và các nhiệm vụ suy luận thông thường.

9:17 Kết quả tốt nhất được đánh dấu màu xanh lam cho các mô hình lai, sử dụng cả cơ chế lặp lại và attention, và màu vàng là kết quả tốt nhất cho các mô hình không lai. Phiên bản Titan không lai, LMM, là biến thể thứ tư không có khối attention, đạt được kết quả tốt nhất so với các mô hình không lai khác, thể hiện sức mạnh của mô-đun bộ nhớ dài hạn thần kinh. Trong số các mô hình lai, Memory as a Context Titan đạt được kết quả tổng thể tốt nhất, trong khi Memory as a Gate Titan hơi tụt lại phía sau.

9:51 Một so sánh thú vị khác là cho nhiệm vụ "kim trong đống cỏ khô" (needle in a haystack), nơi chúng ta có thể thấy kết quả trong bảng sau từ bài báo. Trong nhiệm vụ này, các mô hình cần truy xuất một mẩu thông tin từ một văn bản rất dài, do đó đo lường độ dài ngữ cảnh hiệu quả thực tế của các mô hình. Các số trong tiêu đề hiển thị độ dài của các chuỗi được đánh giá. Chúng ta có thể thấy Titans vượt trội hơn hẳn so với các mô hình cơ sở khi độ dài chuỗi tăng lên trên cả ba điểm chuẩn.

10:11 Một kết quả rất thú vị khác có thể được nhìn thấy trong hình sau từ bài báo, cho thấy so sánh của Titans với các mô hình hàng đầu trên điểm chuẩn BABILong. Đây là một điểm chuẩn khó hơn cho các chuỗi dài, trong đó mô hình cần lý luận trên các sự kiện được phân phối trong các tài liệu cực kỳ dài. Trên trục x, chúng ta thấy độ dài chuỗi và trên trục y, chúng ta đo độ chính xác của mỗi mô hình. Kết quả của Memory as a Context Titan được hiển thị bằng đường màu đỏ, vượt trội hơn đáng kể so với các mô hình khác trên các chuỗi rất dài.

10:44 Quả là ấn tượng! Cảm ơn bạn đã theo dõi và hãy đón xem các bài đánh giá về các bài báo AI khác nhé.

번역된 시간: 2025-03-02T03:33:57Z

번역 버전: 3.1 Improved translation step with full context