Chúng tôi không thể tìm thấy kết nối internet
Đang cố gắng kết nối lại
Có lỗi xảy ra!
Hãy kiên nhẫn trong khi chúng tôi khắc phục sự cố
Gemma 3 - Các Thành Viên Mới Của Gia Đình Gemma Đã Đến!!!
0:00 Okay, so it's not even one
0:02 year since the Gemmamodels made their debut.
0:06 In fact, that was February 21 in 2024.
0:09 And not long after that we alsogot Gemma 2, if you remember, that
0:13 was like the end of June in 2024.
0:16 And after that we basically had a 2B modeland a Japanese fine tune of that model.
0:22 But after that, things have beenpretty quiet, up until today.
0:27 So today is the release of theGemma 3 family of models, and
0:31 I will say a family of models.
0:34 Not only do we have, two modelslike we got with the Gemma 2, we've
0:38 actually got four models this time.
0:40 We've got a 1B model, a 4B model, a 12Bmodel, and the big 27B model as well.
0:48 Not only that Google is alsoreleasing both the base models and
0:53 the instruction fine tuned models.
0:55 So one of the things that's beenreally disappointing, you've probably
0:58 heard me talk about with some ofthe Phi models recently is that they
1:02 stopped releasing the base models.
1:04 So if you wanted to do yourown fine tune and stuff like
1:07 that, you were always stuck.
1:09 The great thing here is that wedon't have that problem with Gemma 3.
1:13 We've got access to be able to doour own fine tunes, our own research,
1:18 test out different ideas fordoing things like RL and reasoning
1:23 fine tunes with the small models.
1:26 And then if we wanted to scalethat up, we can even do it with
1:29 the 27B model that's in here.
1:32 so let's have a look at exactlywhat they've released, and I'll
1:34 talk a little bit about the models.
1:36 Alright, so jumping into the models, thefirst thing that we notice about these
1:41 is that Gemma 3 has gone multimodal.
1:44 So for the 4B, 12B and 27B, notonly can they handle text, they can
1:51 also handle, vision understanding.
1:54 So you can basically put images into them.
1:56 So unfortunately the 1B doesn't have that.
1:58 but the three other models have thismultimodal understanding in there.
2:03 That's actually done witha modified siglip encoder.
2:06 so a little bit similar to whatwe've seen, for things like
2:09 PaliGemma and stuff like that.
2:11 But now you can use these modelsfor visual question answering
2:14 for a whole bunch of different,tasks that we'll look at in there.
2:18 All right, next up.
2:19 These have actually been trained tohave a much longer context than Gemma 2.
2:24 So the 1 billion model hasa context of, 32,000 tokens.
2:29 But all the other models actually havea context of 128,000 tokens by default.
2:35 So this is a huge improvement over whatwe saw with, the previous Gemma models
2:40 in the past and with a lot of the openweights models that are out there, many
2:44 of them actually start with a much smallercontext window and have to be trained
2:48 with RoPE, et cetera, by the community Inthis case, Google's done all of this, for
2:53 us, and what they've done is that they'veinitially done training with 32K sequences
2:59 and scaled that up to 128 K with RoPE,So all four of the models have a massive
3:04 improvement for multilingual data inhere compared to something like Gemma 2.
3:08 and actually the amount of multilingualdata that they used, is about double
3:13 what was used for the Gemma 2 models.
3:16 So I think that combined with still usingthe 256K tokenizer that Gemma 2 had,
3:23 which was very good for, a variety ofdifferent languages, these models really
3:28 open up the ability for people to usethem for multilingual tasks, but also to
3:33 be able to take them and fine tune themfor a very specific language, et cetera.
3:38 So I would not be surprised if thatwe see Gemma 3 being used a lot
3:43 for language specific versions,whether that's Korean, whether
3:46 that's European languages, et cetera.
3:49 Okay, so if we look at some of thedetails about the pre-training, for
3:52 this model, Each of the models has beentrained for a different number of tokens.
3:56 So for the 27Billion model, it'sbeen trained for 14 trillion tokens
4:01 for the 12Billion model, it's beentrained for 12 trillion, 4 trillion
4:06 for the 4B, but 2 trillion for the 1B.
4:09 So You gotta think in many ways that12Billion, parameter model that's being
4:14 trained for 12 trillion tasks is reallygonna get a lot of bang for buck.
4:18 Now obviously the 27 will be the bigone, that gets the best scores, et
4:22 cetera, but I think for a lot of people,serving a 12Billion one perhaps like
4:26 as a quantized version of that model,should be a pretty rock solid model,
4:31 for doing a variety of different tasks.
4:34 and they also mention in here that,each of the models is an improvement
4:38 over what they had before withbetter math and reasoning, et cetera.
4:42 But supposedly the 4 billion model iscompetitive with what the 27Billion
4:47 model was getting for Gemma 2.
4:50 And the Gemma three 27 B modelis comparable to the Gemini
4:55 1.5 Pro model from last year.
4:57 that's a huge increase there.
4:59 I think it's kind of interesting to lookat they've done quite a number of changes,
5:03 in how they actually set the model up.
5:06 so they've changed the attentionlayer architectures in here.
5:10 they've optimized that a lotover, the Gemma 2 models.
5:14 on top of the actual, number oftokens that these have been trained
5:17 for all of the models have also beentrained with knowledge distillation.
5:21 And they talk about that they've enhanceda lot of the data filtering techniques,
5:25 to try and improve the data that'sactually going into the model here.
5:29 the models themselves are beingtrained on both TPU-V4s and V5s,
5:34 which is kind of interesting.
5:35 So they're not trainedon the latest, TPUs.
5:38 You could imagine that perhaps thoseTPUs are being used for the next
5:42 round of Gemini models as we speak.
5:45 Now while they don't talk about, howmany post-training examples have been
5:50 done for each of the models, et cetera,they do talk about that this extended
5:54 post-training approach does use, knowledgedistillation also is using, a number of
5:59 different types of reinforcement learning
6:02 to both give it, alignment,but also to help it with the
6:05 mathematics and reasoning, et cetera.
6:08 All right, so I think the bestthing is let's jump in and
6:10 have a play with the models.
6:11 See how they go and, see whatwe can actually get out of them.
6:15 Okay, so let's jump in andlook at, the demo in here.
6:19 So the first one, I just wanna show you.
6:21 we can basically take in animage and obviously process this
6:25 like most of the other ones.
6:26 but because we've got a, reasonablystrong multi-lingual model, we can even
6:31 get it to do things like, translate theoutputs and stuff like that, that it sees.
6:36 Okay, so you can see we've got the sign,there, we're asking you what it says and
6:40 then translate it to English and French.
6:43 so it's gonna break down okay,what's actually in the image.
6:46 and so it's giving it what itactually is in the original language.
6:50 and then it's basically translating, toEnglish, And then translating to French.
6:55 So you can see, that because it's got,a strong multilingual, element to the
7:01 model, we're able to basically make useof the vision model, but also use the
7:05 multilingual things at the same time.
7:08 The other thing that this model ispretty strong at, is being able to
7:12 deal with multiple images at the sametime, or even be able to recognize
7:17 multiple images, in something.
7:19 So you can see here that we've got, thesetwo images, I guess one is daytime, one
7:24 is nighttime, and you can see that it cananalyze these and basically give us back,
7:29 okay, what's the difference, in here?
7:31 And we can see that, okay, sureenough, it's picked up the difference
7:34 being the time of day, shadows, sky,a whole bunch of things like that.
7:40 This whole idea of multiple images,is also really nice for things like
7:45 this where you can just upload abunch of images and ask it to actually
7:50 create a story, based on these images.
7:54 You can see it's basically generateda story of the croissant conspiracy.
8:00 it comes up with a name for the dog.
8:03 we've got some gold.
8:04 We've got a girl in there.
8:05 and you can see that it's sure enough,it's basically using, these, and
8:09 working out, we've got the girl withthe frogs on her hat, et cetera,
8:14 and I think pretty much mostof these images are being
8:17 used in, addressing a story.
8:20 So this is kind of cute for,lots of different ideas that you
8:23 could, sort of play around with.
8:25 But you could also use this for, thingslike, zero shot classification where
8:30 you pass in an image of a positiveexample of something and then a second
8:35 image that is a negative example,and then pass in other images and ask
8:39 it to basically classify, on those.
8:42 So again, this sort of shows offthe strength of, easily being able
8:46 to handle multiple images, in here.
8:49 Alright, if we start looking athow it can deal with text, remember
8:53 this is not a dedicated OCR model.
8:56 I do think that what we're gonna seethough, is that we're gonna see these
9:00 models, get fine tuned for OCR tasks,especially now that one, we've got a very
9:07 strong, vision language model here, butalso two that we've got things like the,
9:13 olmOCR has released all their sort oftraining scripts, their data for actually,
9:19 training up these kind of things.
9:21 That said, you'll see that this doesa pretty nice job at being able to,
9:25 OCR, the text that's in here, andget out most of that text, I think
9:29 it's almost all correct in there.
9:31 and this can do similarkinds of things with.
9:33 handwriting here.
9:34 So I don't think it'snecessarily as accurate.
9:37 it will depend a lot on the handwriting.
9:39 but again, you've got somethingthat's able to get this out.
9:43 Because it's prompt base, we canask for it to be in markdown.
9:46 We can ask for it to capture thevarious elements in sections, et cetera.
9:51 and then we can even do things likefollow up, obviously with other prompts.
9:54 and here I'm asking it tobasically take the math equations
9:56 and put them into latex.
9:58 and you can see that, okay, sure enough,it's generating, latex for, some of
10:03 this, Although it looks like it's beenconfused a little bit by some of the
10:05 formatting, But we're seeing that themodel definitely understands, the concept
10:09 of latex and stuff like that in here.
10:11 So remember that the model that I'mplaying with here is the 12B model.
10:16 So this is in the middle of the models,and that the 4B model is supposed to
10:20 be on par with the old 27 B model.
10:23 And the 27 B model is supposed to be onpar with roughly where Gemini 1.5 Pro was.
10:30 so this is a serious set of models,and you're gonna commend Google for
10:34 releasing what was, almost equivalentto their previous proprietary models,
10:40 in their open weights format in here.
10:43 of course we can come in here anddo things like visual question
10:45 answering, where we can basicallypass in something and then actually
10:49 just ask a question about it.
10:52 And of course we can just use themodel, as a normal text model, in here.
10:55 So we don't need to use the imagecapabilities of it all the time at all.
11:00 We can set the standard thingslike we would, with any of the
11:03 Transformers models, we can set asystem prompt, we can pass in, the
11:07 temperature, all those sorts of things.
11:09 And you can see, sure enough, thisis basically giving us, good standard
11:13 non reasoning, model levels of text.
11:16 But, for something that's 12B, andremember that the quantized version
11:21 of this, you'll be able to runpretty easily on most computers.
11:25 this is a pretty strong model.
11:27 My guess is that this isgonna be supported by Ollama,
11:29 by LMStudio, et cetera.
11:32 so if you are looking for, a goodmedium sized model that can support
11:37 images, et cetera as well, you'vegotta start thinking about either
11:41 using the Gemma 3B or the 12B.
11:45 and that allows you to do, a wholebunch of different tasks locally,
11:48 that in the past you would've had tobasically, send it out to the cloud
11:52 for a proprietary model to do this.
11:54 So you can see here, if I askit for just a caption, it will
11:57 give me, a nice simple caption.
11:58 But it's able to then do thesedetailed captions, as well.
12:03 and the good thing is that unlike thingslike Florence and stuff like that where
12:07 it's being trained for specific things.
12:09 here it's all up to your prompt.
12:11 so if your prompt is looking for somethingspecific in the actual image, you can
12:17 basically put that in your prompt as well.
12:19 But sure enough, asking for a verydetailed, caption, it's given us
12:23 exactly what we asked for in here.
12:25 Alright, let's jump in and have a quicklook at how you could set this up in the
12:28 Transformers library and use it via code.
12:31 Okay, so to run this in code,you will need a new version
12:35 of the Transformers library.
12:37 So I'm actually, tryingthis before the release.
12:40 so there are a few things that area little bit different in the code.
12:42 but they will have either, I think it'sa 4.49 or 4.50, version of Transformers
12:48 out, at the time of the release.
12:50 And then you've got acouple options in here.
12:51 You can basically use it from thesimplest way is just to use the pipeline.
12:57 and they've got a new pipeline here whereyou've got image, text to text, right?
13:00 So, that you can basically justload up the model, set it up.
13:04 And then to actually use it.
13:06 so here you can see I'm justloading up the B image, et cetera.
13:09 Then to actually use it, you justbasically pass that in that image
13:14 URL in and it can do it like that.
13:16 If you wanna run it without thepipeline, they've got a new class of
13:20 Gemma 3 for conditional generation.
13:23 you can set that up.
13:24 And then with this, you can also usethe, chat templates and stuff like that.
13:28 so that's how you would use this here.
13:30 now I expect by the time, this videois out or a little bit after that,
13:34 you'll also see a version in Ollama.
13:36 You should be able to use that Andhopefully that will be fully compatible
13:40 with their VLM SDK so that you canuse images and stuff like that just
13:44 like you would normally, in there.
13:46 And it should be also up on, Kaggleand on Google Cloud platform's vertex
13:52 Model Garden, for you to use as well.
13:55 so DeepMind is clearly gettingbehind the release and they're trying
13:58 to, get it to all the platforms.
14:00 the 27 B model may also be up on AIstudio for you to try and I'll do
14:04 some more videos with the new Gemma 3,over the next couple of weeks, we'll
14:07 look at what you can do with it whenyou're using it locally, what you
14:11 know, at some of the tricks if you wantto use the cloud version, et cetera.
14:15 and even how you can use this in someof the agent frameworks going forward.
14:18 Overall, the Gemma 3 releaseand the family of models.
14:22 And I haven't even coveredthings like there's a new Shield
14:24 Gemma model coming out as well.
14:27 overall, they're very impressive.
14:28 definitely worth checking out ifyou're into using local models
14:32 or on-prem models, et cetera.
14:34 if you're doing any sort of researchwith models, the 1B and the 4B allow
14:38 you to try out a lot of different ideaswith these small models that still are
14:42 very strong for their size, et cetera.
14:45 Alright, as always, you'vegot questions, et cetera.
14:47 Put 'em in the comments below.
14:48 If you found the video useful, pleaseclick like and subscribe, and I
14:52 will talk to you in the next video.
14:53 Bye for now.
0:00 Chào mọi người, vậy là chưa đầy một năm kể từ khi Gemma Models ra mắt. Chính xác là ngày 21 tháng 2 năm 2024. Và không lâu sau đó, chúng ta đã có Gemma 2, nếu bạn còn nhớ, vào cuối tháng 6 năm 2024.
0:16 Sau đó, chúng ta có một mô hình 2B và một bản tinh chỉnh tiếng Nhật của mô hình đó. Nhưng mọi thứ khá im ắng cho đến hôm nay.
0:27 Hôm nay là ngày phát hành dòng mô hình Gemma 3, và tôi nhấn mạnh là "dòng" mô hình. Không chỉ có hai mô hình như Gemma 2, lần này chúng ta có tới bốn mô hình.
0:40 Đó là mô hình 1B, 4B, 12B và cả mô hình lớn 27B. Không chỉ vậy, Google còn phát hành cả mô hình cơ sở và mô hình đã được tinh chỉnh hướng dẫn.
0:55 Một trong những điều thực sự đáng thất vọng, như các bạn có thể đã nghe tôi nói về một số mô hình Phi gần đây, là họ đã ngừng phát hành các mô hình cơ sở. Vì vậy, nếu bạn muốn tự tinh chỉnh, bạn sẽ luôn gặp khó khăn.
1:09 Điều tuyệt vời ở Gemma 3 là chúng ta không gặp phải vấn đề đó. Chúng ta có quyền truy cập để tự tinh chỉnh, tự nghiên cứu, thử nghiệm các ý tưởng khác nhau để thực hiện những việc như RL và tinh chỉnh lý luận với các mô hình nhỏ. Và nếu muốn mở rộng quy mô, chúng ta thậm chí có thể làm điều đó với mô hình 27B.
1:32 Hãy xem chính xác những gì họ đã phát hành và tôi sẽ nói thêm một chút về các mô hình này.
1:36 Đi sâu vào các mô hình, điều đầu tiên chúng ta nhận thấy là Gemma 3 đã trở nên đa phương thức. Với các mô hình 4B, 12B và 27B, chúng không chỉ có thể xử lý văn bản mà còn có thể hiểu được hình ảnh.
1:54 Về cơ bản, bạn có thể đưa hình ảnh vào chúng. Tiếc là mô hình 1B không có tính năng này, nhưng ba mô hình còn lại có khả năng hiểu đa phương thức.
2:03 Điều này được thực hiện với một bộ mã hóa Siglip đã được sửa đổi, hơi giống với những gì chúng ta đã thấy ở PaliGemma. Giờ đây, bạn có thể sử dụng các mô hình này để trả lời câu hỏi trực quan cho một loạt các nhiệm vụ khác nhau.
2:18 Tiếp theo, chúng thực sự đã được đào tạo để có ngữ cảnh dài hơn nhiều so với Gemma 2. Mô hình 1 tỷ có ngữ cảnh là 32.000 mã thông báo, nhưng tất cả các mô hình khác đều có ngữ cảnh là 128.000 mã thông báo theo mặc định.
2:35 Đây là một cải tiến lớn so với các mô hình Gemma trước đây và so với rất nhiều mô hình trọng lượng mở hiện có. Nhiều mô hình trong số đó bắt đầu với một cửa sổ ngữ cảnh nhỏ hơn nhiều và phải được đào tạo với RoPE, v.v., bởi cộng đồng. Trong trường hợp này, Google đã làm tất cả những điều này cho chúng ta. Họ đã thực hiện đào tạo ban đầu với các chuỗi 32K và mở rộng nó lên 128K với RoPE.
3:00 Cả bốn mô hình đều có một cải tiến lớn về dữ liệu đa ngôn ngữ so với Gemma 2. Lượng dữ liệu đa ngôn ngữ mà họ sử dụng nhiều hơn khoảng gấp đôi so với Gemma 2.
3:16 Tôi nghĩ rằng, kết hợp với việc vẫn sử dụng bộ mã hóa 256K mà Gemma 2 đã có, bộ mã hóa này rất tốt cho nhiều ngôn ngữ khác nhau, các mô hình này thực sự mở ra khả năng cho mọi người sử dụng chúng cho các tác vụ đa ngôn ngữ, hoặc lấy chúng và tinh chỉnh chúng cho một ngôn ngữ rất cụ thể.
3:38 Tôi sẽ không ngạc nhiên nếu chúng ta thấy Gemma 3 được sử dụng nhiều cho các phiên bản dành riêng cho ngôn ngữ, cho dù đó là tiếng Hàn, các ngôn ngữ châu Âu, v.v.
3:49 Nếu chúng ta xem xét một số chi tiết về quá trình đào tạo trước cho mô hình này, thì mỗi mô hình đã được đào tạo cho một số lượng mã thông báo khác nhau. Mô hình 27 tỷ đã được đào tạo cho 14 nghìn tỷ mã thông báo; mô hình 12 tỷ cho 12 nghìn tỷ; 4 nghìn tỷ cho 4B, và 2 nghìn tỷ cho 1B.
4:09 Bạn có thể nghĩ rằng mô hình tham số 12 tỷ được đào tạo cho 12 nghìn tỷ nhiệm vụ sẽ nhận được rất nhiều lợi ích. Rõ ràng là mô hình 27 tỷ sẽ đạt điểm số tốt nhất, nhưng tôi nghĩ đối với nhiều người, việc sử dụng một mô hình 12 tỷ, có lẽ là một phiên bản lượng tử hóa của mô hình đó, sẽ là một mô hình khá vững chắc để thực hiện nhiều nhiệm vụ khác nhau.
4:34 Họ cũng đề cập rằng mỗi mô hình là một cải tiến so với những gì họ đã có trước đây, với khả năng toán học và lý luận tốt hơn. Mô hình 4 tỷ cạnh tranh với những gì mô hình 27 tỷ đã đạt được cho Gemma 2, và mô hình Gemma 3 27B có thể so sánh với mô hình Gemini 1.5 Pro từ năm ngoái. Đó là một sự gia tăng rất lớn.
4:59 Tôi nghĩ thật thú vị khi xem xét họ đã thực hiện khá nhiều thay đổi trong cách họ thiết lập mô hình. Họ đã thay đổi kiến trúc lớp chú ý và tối ưu hóa nó rất nhiều so với các mô hình Gemma 2.
5:14 Ngoài số lượng mã thông báo thực tế mà chúng đã được đào tạo, tất cả các mô hình cũng đã được đào tạo bằng cách chưng cất kiến thức. Họ nói về việc họ đã tăng cường rất nhiều kỹ thuật lọc dữ liệu để cố gắng cải thiện dữ liệu thực sự đi vào mô hình.
5:29 Bản thân các mô hình đang được đào tạo trên cả TPU-V4 và V5, điều này khá thú vị. Chúng không được đào tạo trên các TPU mới nhất. Có lẽ những TPU đó đang được sử dụng cho vòng mô hình Gemini tiếp theo.
5:45 Mặc dù họ không nói về việc có bao nhiêu ví dụ hậu đào tạo đã được thực hiện cho mỗi mô hình, họ nói về việc phương pháp hậu đào tạo mở rộng này có sử dụng chưng cất kiến thức, cũng như một số loại học tăng cường khác nhau để vừa cung cấp cho nó sự liên kết, vừa giúp nó với toán học và lý luận.
6:08 Tốt nhất là chúng ta nên đi sâu vào và chơi với các mô hình, xem chúng hoạt động như thế nào và xem chúng ta thực sự có thể nhận được gì từ chúng.
6:15 Hãy xem bản demo ở đây. Đầu tiên, tôi chỉ muốn cho bạn thấy. Về cơ bản, chúng ta có thể lấy một hình ảnh và xử lý nó như hầu hết các hình ảnh khác. Vì chúng ta có một mô hình đa ngôn ngữ khá mạnh, chúng ta thậm chí có thể yêu cầu nó dịch các đầu ra và những thứ tương tự mà nó nhìn thấy.
6:36 Bạn có thể thấy chúng ta có biển báo ở đó, chúng ta đang hỏi nó nói gì và sau đó dịch nó sang tiếng Anh và tiếng Pháp. Nó sẽ phân tích xem có gì trong hình ảnh và cung cấp cho nó những gì nó thực sự là trong ngôn ngữ gốc, sau đó dịch sang tiếng Anh và tiếng Pháp.
6:55 Vì nó có một yếu tố đa ngôn ngữ mạnh mẽ, chúng ta có thể tận dụng mô hình thị giác và sử dụng các tính năng đa ngôn ngữ cùng một lúc. Một điều khác mà mô hình này khá mạnh là có thể xử lý nhiều hình ảnh cùng một lúc hoặc thậm chí có thể nhận ra nhiều hình ảnh trong một thứ gì đó.
7:19 Như bạn thấy ở đây, chúng ta có hai hình ảnh, một cái chụp ban ngày, một cái chụp ban đêm. Mô hình có thể phân tích những hình ảnh này và cho chúng ta biết sự khác biệt giữa chúng là gì. Nó đã nhận ra sự khác biệt là thời gian trong ngày, bóng tối, bầu trời, v.v.
7:40 Ý tưởng về việc xử lý nhiều hình ảnh cùng lúc cũng rất hay cho những trường hợp như thế này, nơi bạn có thể tải lên một loạt hình ảnh và yêu cầu nó tạo một câu chuyện dựa trên những hình ảnh đó. Bạn có thể thấy nó đã tạo ra một câu chuyện về âm mưu bánh sừng bò.
8:00 Nó còn nghĩ ra một cái tên cho con chó. Chúng ta có một ít vàng. Chúng ta có một cô gái ở đó. Bạn có thể thấy nó đang sử dụng những hình ảnh này và tìm ra, ví dụ như cô gái với những con ếch trên mũ, và hầu hết những hình ảnh này đang được sử dụng để xây dựng một câu chuyện.
8:20 Điều này khá thú vị và có thể áp dụng cho rất nhiều ý tưởng khác nhau. Bạn cũng có thể sử dụng nó cho những việc như phân loại không cần ví dụ, nơi bạn đưa một hình ảnh về một ví dụ tích cực về một thứ gì đó, sau đó là một hình ảnh thứ hai là một ví dụ tiêu cực, và sau đó đưa các hình ảnh khác và yêu cầu nó phân loại dựa trên những hình ảnh đó. Điều này cho thấy sức mạnh của việc dễ dàng xử lý nhiều hình ảnh.
8:49 Nếu chúng ta xem xét cách nó có thể xử lý văn bản, hãy nhớ rằng đây không phải là một mô hình OCR chuyên dụng. Tuy nhiên, tôi nghĩ rằng chúng ta sẽ thấy những mô hình này được tinh chỉnh cho các tác vụ OCR, đặc biệt là bây giờ chúng ta có một mô hình ngôn ngữ thị giác rất mạnh. Ngoài ra, có những dự án như olmOCR đã phát hành tất cả các tập lệnh và dữ liệu đào tạo của họ để thực sự đào tạo những thứ này.
9:21 Dù vậy, bạn sẽ thấy rằng mô hình này thực hiện khá tốt việc OCR văn bản và trích xuất hầu hết văn bản đó, tôi nghĩ là hầu hết đều chính xác. Nó cũng có thể thực hiện những việc tương tự với chữ viết tay. Tôi không nghĩ nó nhất thiết chính xác như vậy.
9:37 Nó sẽ phụ thuộc rất nhiều vào chữ viết tay, nhưng bạn có một công cụ có thể lấy được thông tin này. Vì nó dựa trên lời nhắc, chúng ta có thể yêu cầu nó ở định dạng markdown, nắm bắt các yếu tố khác nhau trong các phần, v.v. Chúng ta thậm chí có thể thực hiện những việc như theo dõi, tất nhiên là với các lời nhắc khác.
9:54 Ở đây, tôi đang yêu cầu nó lấy các phương trình toán học và đưa chúng vào latex. Bạn có thể thấy nó đang tạo latex cho một số phương trình này, mặc dù có vẻ như nó đã bị nhầm lẫn một chút bởi một số định dạng. Nhưng chúng ta thấy rằng mô hình chắc chắn hiểu khái niệm về latex.
10:11 Hãy nhớ rằng mô hình mà tôi đang thử nghiệm ở đây là mô hình 12B. Nó nằm ở giữa các mô hình, và mô hình 4B được cho là ngang bằng với mô hình 27B cũ, còn mô hình 27B được cho là ngang bằng với Gemini 1.5 Pro trước đây.
10:30 Đây là một bộ mô hình rất mạnh mẽ, và chúng ta nên khen ngợi Google vì đã phát hành những gì gần như tương đương với các mô hình độc quyền trước đây của họ ở định dạng trọng lượng mở. Tất nhiên, chúng ta có thể thực hiện những việc như trả lời câu hỏi trực quan, nơi chúng ta có thể đưa một hình ảnh vào và sau đó đặt một câu hỏi về nó.
10:52 Chúng ta cũng có thể chỉ sử dụng mô hình này như một mô hình văn bản bình thường. Chúng ta không cần phải sử dụng khả năng hình ảnh của nó mọi lúc. Chúng ta có thể đặt những thứ tiêu chuẩn như chúng ta sẽ làm với bất kỳ mô hình Transformers nào, chúng ta có thể đặt một lời nhắc hệ thống, điều chỉnh nhiệt độ, v.v.
11:09 Bạn có thể thấy nó đang cung cấp cho chúng ta các mức văn bản tiêu chuẩn tốt, mặc dù nó không phải là mô hình lý luận. Nhưng đối với một mô hình 12B, và hãy nhớ rằng phiên bản lượng tử hóa của nó sẽ có thể chạy khá dễ dàng trên hầu hết các máy tính, đây là một mô hình khá mạnh.
11:27 Tôi đoán là nó sẽ được hỗ trợ bởi Ollama, LMStudio, v.v. Nếu bạn đang tìm kiếm một mô hình cỡ trung bình tốt có thể hỗ trợ hình ảnh, bạn nên bắt đầu nghĩ đến việc sử dụng Gemma 3B hoặc 12B. Điều đó cho phép bạn thực hiện một loạt các tác vụ khác nhau cục bộ, mà trước đây bạn sẽ phải gửi lên đám mây để một mô hình độc quyền thực hiện.
11:54 Như bạn thấy ở đây, nếu tôi yêu cầu nó một chú thích đơn giản, nó sẽ cho tôi một chú thích hay.
11:58 Nhưng nó cũng có thể thực hiện những chú thích chi tiết này. Điều tốt là, không giống như những thứ như Florence, nơi nó được đào tạo cho những thứ cụ thể, ở đây tất cả đều tùy thuộc vào lời nhắc của bạn.
12:11 Nếu lời nhắc của bạn đang tìm kiếm một thứ gì đó cụ thể trong hình ảnh, bạn cũng có thể đưa nó vào lời nhắc của mình. Nhưng chắc chắn rồi, khi yêu cầu một chú thích rất chi tiết, nó đã cung cấp cho chúng ta chính xác những gì chúng ta yêu cầu.
12:25 Hãy xem nhanh cách bạn có thể thiết lập điều này trong thư viện Transformers và sử dụng nó thông qua mã. Để chạy điều này trong mã, bạn sẽ cần một phiên bản mới của thư viện Transformers.
12:37 Tôi đang thử điều này trước khi phát hành, vì vậy có một vài điều hơi khác một chút trong mã. Nhưng sẽ có một phiên bản 4.49 hoặc 4.50 của Transformers tại thời điểm phát hành. Và sau đó bạn có một vài tùy chọn ở đây.
12:51 Bạn có thể sử dụng nó từ cách đơn giản nhất là chỉ cần sử dụng pipeline. Họ có một pipeline mới ở đây, nơi bạn có hình ảnh, văn bản thành văn bản. Bạn có thể tải mô hình lên và thiết lập nó.
13:06 Để thực sự sử dụng nó, bạn có thể thấy tôi chỉ đang tải hình ảnh B lên. Sau đó, bạn chỉ cần chuyển URL hình ảnh đó vào. Nếu bạn muốn chạy nó mà không cần pipeline, họ có một lớp Gemma 3 mới để tạo có điều kiện.
13:23 Bạn có thể thiết lập điều đó và sử dụng các mẫu trò chuyện. Tôi hy vọng vào thời điểm video này được phát hành, bạn cũng sẽ thấy một phiên bản trong Ollama.
13:36 Bạn sẽ có thể sử dụng nó và hy vọng rằng nó sẽ hoàn toàn tương thích với VLM SDK của họ để bạn có thể sử dụng hình ảnh giống như bạn thường làm. Nó cũng sẽ có trên Kaggle và trên Vertex Model Garden của nền tảng Google Cloud để bạn sử dụng.
13:55 Rõ ràng DeepMind đang rất ủng hộ việc phát hành này và họ đang cố gắng đưa nó lên tất cả các nền tảng. Mô hình 27B cũng có thể có trên AI Studio để bạn dùng thử. Tôi sẽ thực hiện thêm một số video về Gemma 3 trong vài tuần tới.
14:07 Chúng ta sẽ xem bạn có thể làm gì với nó khi sử dụng cục bộ, một số thủ thuật nếu bạn muốn sử dụng phiên bản đám mây, v.v., và thậm chí cả cách bạn có thể sử dụng nó trong một số framework tác nhân trong tương lai. Nhìn chung, việc phát hành Gemma 3 và dòng mô hình này, và tôi thậm chí còn chưa đề cập đến những thứ như mô hình Shield Gemma mới sắp ra mắt, rất ấn tượng.
14:27 Chắc chắn đáng để xem nếu bạn thích sử dụng các mô hình cục bộ hoặc tại chỗ. Nếu bạn đang thực hiện bất kỳ loại nghiên cứu nào với các mô hình, thì 1B và 4B cho phép bạn thử rất nhiều ý tưởng khác nhau với các mô hình nhỏ này, mà vẫn rất mạnh so với kích thước của chúng.
14:45 Nếu bạn có câu hỏi gì, hãy đặt chúng trong phần bình luận bên dưới. Nếu bạn thấy video này hữu ích, vui lòng nhấn thích và đăng ký. Hẹn gặp lại các bạn trong video tiếp theo. Tạm biệt!
Dịch Vào Lúc: 2025-03-12T15:15:02Z
Phiên bản Dịch: 3.1 Improved translation step with full context