We can't find the internet
Attempting to reconnect
Something went wrong!
Hang in there while we get back on track
SWE-RL by Meta — Reinforcement Learning for Software Engineering LLMs
0:05 deep seek R1 аҭыҵра аамҭа кьаҿк иалагӡаны
0:08 AI World аҿы ацәқәырԥақәа ҟанаҵеит, ҷыдала
0:11 уи иаанарԥшит арӷәӷәаратә ҵара шаҟа иӷәӷәоу абз
0:14 дуқәа
0:16 рмодельқәа рхәыцратә лшарақәа рырӷәӷәараҿы, аха акодировкатә уснагӡатәқәа рахь ианаауа
0:19 deep seek R1 еиҳарак
0:21 аконкуренттә программирование ахь ахшыҩзышьҭра аҭоуп, уаҟа
0:22 апроблема зегьы рхы иақәиҭуп, насгьы уара иузыҟаҵоит акод еиҳа
0:26 имарианы игәаҭатәуп. ақәҿиара ашәагаа
0:30 акод анагӡарала ииашоу адунеи аҿы, аха
0:32 еилашуа абекендтә маҵзура аҿы абӷьыц аиашара еиԥш,
0:34 уи еснагь ус имариам акод
0:36 аус аруразы иҷыдоу аҭагылазаашьа аҭаххар ауеит,
0:38 насгьы
0:41 уи анагӡара улшозаргьы, ахәшьара
0:42 иашаҵәҟьаны иҟоу-иҟаму аилкаара еиҳа иуадаҩхар алшоит, убри аҟнытә амоделқәа
0:49 уажәгьы dpsy car1 еиԥш иҟоу амоделқәа ҳзықәԥо ауп.
0:51 ажәабжь ҿыц ахәаԥшра мета аҟынтәи, уи
0:54 dpse R1 еиԥш иҟоу ашьҭанеира ауп, ажәабжь
0:56 ахьӡуп s we l advancing llm reasoning by reinforcement learning by on reinforcement learning on overall
1:03 Evolution абри аусумҭа иаанарԥшуеит арӷәӷәаратә ҵара амҽхак аизырҳара амҩа
1:08 ҵабыргыҵәҟьоу апрограммтә еиқәыршәара азы, аҵаратә модельқәа рыла, иаарту ахыҵхырҭа змоу апрограмматә еиқәыршәара
1:12 аамҭа цацыԥхьаӡа ишҿио азы аҵарадырратә
1:15 модельқәа
1:17 Ҳара
1:19 иаҳдырыр ҳалшоит акурациатә ҭҳәаа атәы
1:21 анаҩстәи асахьа ҳхы иархәаны ашәҟәы аҟынтәи адыррақәа
1:23 рхыҵхырҭа GitHub архив
1:25 апроект, GitHub аҿы ауаажәларратә усура зегьы ацклаԥшра,
1:27 убри аҟнытә акод мацара акәымкәа,
1:30 уи акомментариқәа рыҭара азыҳәарақәа рызҵаарақәагьы еиқәнаршәоит,
1:33 насгьы ахыҵхырҭатә код аиуразы
1:36 аҵарауаа акодқәа рклон ҟарҵоит абри аҩыза ала
1:46 4.6 миллион ҭаҵәахырҭақәа рзы иҟаҵан акыр
1:49 зҵазкуа азгәаҭа,
1:51 swe bench Benchmark ахархәара змоу аҭаҵәахырҭақәа зегьы
1:53 рылаӡам, избан акәзар ари еиҿырԥшгас
1:55 ахархәара аиуеит амодел аусура анализ азуразы, избан акәзар
1:57 хара имгакәа иаҳбоит еизгаз адыррақәа уажәраанӡа
2:00 аҵаразы еиҿкаам.
2:08 азыҳәаратә данноқәа аҵаразы зегьы еидҵамыз
2:10 азыҳәарақәа зегьы еидҵоу азыҳәарақәа
2:13 зегьы еизаҳгоит, ҷыдала еизаҳгоит иаҵанакуа адыррақәа
2:15 зегьы,
2:18 ҷыдала азыҳәарақәа рыхцәажәара
2:20 иадҳәалоу азҵаара
2:22 ахҳәаа, насгьы
2:26 аԥсахра ҟалаанӡа еиҭакыз афайлқәа рҵакы, ҳара аҵыхәтәантәи еидҵоу аԥсахрақәа ҳхы иаҳархәоит.
2:33 pull request, аха
2:35 уи ахәҭак аҳасабала иԥсахӡом, аҵарауаа
2:37 иаадырԥшит,
2:39 еиҭакрақәа зызу афайлқәа рыла мацара амодель
2:42 аиашамра аизырҳара иахылҿиаауеит, уи
2:46 аҭагаларатә фаилқәа зегьы рҿы аиҭакрақәа ҟанаҵоит, ари, ҳәарада, иаҭахым,
2:48 избан акәзар апрактикаҿы фаилқәак
2:50 акод аԥсахра иадҳәалоуп, аха
2:52 урҭ рхаҭақәа аԥсахра рҭахӡам.
2:58 Афаилқәа еидҳәалоуп
3:00 аҭгара азыҳәара ахҳәааи аредакциа зызуыз афаилқәа
3:01 рыхәҭақәеи рыла, аҵыхәтәан,
3:04 GitHub аҭгара азыҳәарақәа зегьы
3:06 ахаҭабзиара ҳарак рымаӡам, џьоукы, ҿырԥштәыс иаагозар,
3:08 Ботқәа рыла иҟаҵоуп, егьырҭ версиак мацара ауп иаҵанакуа,
3:10 убри аҟнытә аҵарауаа
3:13 еиуеиԥшым афильтртә ԥҟарақәа рхы иадырхәеит,
3:16 11 миллион раҟара ахаҭабзиара ҳарак змоу адыррақәа рыла иаанхарц азы.
3:22 анаҩстәи асахьа ашәҟәы аҟынтәи
3:24 раԥхьаӡа ҳара ҳазлацәажәахьоу адыррақәа
3:26 рыхьчара ашьаҿа, аҵарауаа
3:31 ари адыррақәа рҟынтәи аҳәаратә еизга ду ахьдыргылаз, ҳара иалҳхуеит
3:33 ахаҭабзиара ҳарак змоу ахсаалақәа рыхәҭак, урҭ
3:35 ирҳәо аҵара арӷәӷәаразы ажәла адыррақәа реизга аԥҵаразы,
3:37 иалху ахсаалақәа зегьы рҿы акы иадамзаргьы еидҳәалоу проблемак амазароуп dequest
3:44 акод аԥсахра
3:47 Апрограммаркратә фаилқәа алархәны, нас
3:49 зегьы аазырԥшыгақәа llm ахь иҭаҵахоит,
3:52 еиқәшәоу аҭагалара аҳәаратә формат ахь ианыԥсахха ашьҭахь,
3:54 даҽа ҭыхымҭак аҟны,
3:56 ҳара иаҳбоит аҳәаратә шаблон, уи
3:59 асистематә бжьгарала иалагоит, уи
4:00 амодель иаҳәоит, уи ахшыҩҵактә процесс аҭыҵра,
4:06 ахәыцратә тегқәа рыҩнуҵҟа иҭаҳәҳәоуп,
4:09 насгьы абри аҿырԥштәқәа зегьы рзы ахәшьара ахархәара еиуеиԥшым
4:11 аҿырԥштәқәа Аҳәара ахәҭа иаҵанакуеит
4:13 GitHub азҵаара ахҳәаа, насгьы
4:15 иахәҭоу акод аконтекст,
4:17 адыррақәа рыхьчараан иаагоу, аҵаратә процесс ахь ҳхынҳәуеит, абас
4:20 еиԥш иҟоу аҳәара
4:32 ҳара
4:35 еиуеиԥшым аҭыҵрақәа амодель аҟынтәи аҿырԥштәы ҳҭоит
4:37 аҳамҭа амодель
4:40 ахархәара аиуеит аҳамҭа аԥхьаӡаразы аха абри
4:42 аҭагылазаашьаҿы ҳара ҳхы иаҳархәоит аԥҟара шьаҭас измоу арӷәӷәаратә
4:45 ҵара еиԥшны иҵаулоу аԥшаара R1 азнеишьа аԥҟара еиԥшым иҵаулоу аԥшаара R1
4:50 аха азакәан иаҿагылоу аформат змоу аҭыҵрақәа рзы
4:53 аҳамҭа минус1 ауп ииашоу аформат аҭыҵрақәа рзы аҳамҭа
4:57 шьақәдыргылоит
5:00 аиԥшратә бал ахархәарала
5:02 Oracle аԥсахрақәа рыбжьара
5:05 ииашоу аидҵаратә ԥсахрақәа аҭахразы
5:06 ари
5:08 ахә анаҭоит 0 инаркны акы аҟынӡа ԥкрақәак
5:11 абри аҳамҭа аҳасабразы, уи
5:13 амодель иаԥырхагахар алшоит
5:15 альтернативтә ӡбашьақәа рыԥшаара,
5:17 раԥхьатәи аҭахраҿы ахархәара зауз аасҭа
5:34 иреиҳау аҳамҭа
5:36 абри ахәаԥшышьала иазыҟаҵоу амодел
5:38 ахьӡуп лама 3 С ҳара l абри
5:42 арӷәӷәаратә ҵаратә ҵаратә процесс ахархәара
5:43 ашьақәнарӷәӷәоит аха аамҭа
5:45 Deep seek R1 иаԥшааз аха уажәы
5:47 адунеи аҿы апрограммтә еиқәыршәаратә
5:49 инженертә уснагӡатәқәа рконтекст аҿы ҳара иаҳбоит абри аҿырԥштәы
5:51 арымарахьтәи асахьаҿы иҟоу
5:53 апроблема анаҭо амодель
5:55 еиҳаны азхәыцразы аамҭа иҵоит
5:59 Ахшыҩҵакратә процесс аамҭазы
6:01 аҵарауаа иаартны
6:03 ипрограммкны иҟарҵаз акы акәӡам, ари арӷәӷәаратә ҵара
6:05 абзоурала ԥсабаратәла ицәырҵуа ҟазшьоуп,
6:06 иџьоушьаша,
6:08 аҵарауаа иалыркааит иацҵаны аха
6:10 аамҭақәа, амодел ахьеизҳаз Азеиԥш хшыҩҵакратә
6:12 лшарақәа, урҭ аусқәа адомен анҭыҵтәи
6:14 ауснагӡатәқәа
6:16 рахь ииасуеит, урҭ ауснагӡатәқәа аҵаратә еизга амплиментациа ахьрыламырхәызгьы.
6:24 аазырԥшуеит
6:26 аӡбаразы альтернативақәа рыԥшаара аҟазшьа даҽа
6:28 ҿырԥштәык азҵаара, амодел
6:30 ахьаадырԥшуа аиҟәшареи аиааиреи
6:32 рыстратегиа апроблема еиҵоу аҟәшаҿы еиҟәыҭханы, хәҭацыԥхьаӡа
6:35 шьаҿа-шьаҿала иӡбаны, аҵыхәтәантәи аҵыхәтәа аԥхьаӡаразы,
6:38 уажәы ҳрыхәаԥшып аҵыхәтәантәи аҭаӡҩыраҿы иаагоу алҵшәа хадақәа.
6:49 ари Аиҿырԥштәы ҷыдала иҟаҵоуп
6:50 амоделқәа адунеи аҿы иҟоу апрограммтә еиқәыршәара азҵаарақәа рыӡбара шаҟа ибзианы ахәшьара аҭаразы аҭаӡҩыра
6:54 ҩ-ҟәшакны
6:56 еиҟәшоуп хыхьтәи
6:59 аҟәша иаркуп Ахыҵхырҭатә модельқәа ма
7:02 амоделқәа 100 миллиард
7:05 апараметрқәа рыла ҵаҟатәи аҟәшаҿы ахшыҩзышьҭра аҭоуп
7:07 иаарту ахыҵхырҭа змоу амоделқәа 100
7:10 миллиард апараметрқәа раҵкыс еиҵаны змоу llama 3 S swl a swl7
7:18 41% азҵаарақәа ииашаны иӡбоит
7:20 раԥхьатәи аԥышәараҿы ари
7:22 100 миллиард апараметрқәа рыҵаҟа иҟоу амоделқәа рзы аамҭа ҿыцқәа шьақәнаргылоит,
7:25 ари алҵшәа иарку ахыҵхырҭатә модельқәа
7:28 руак мамзаргьы
7:29 еиҳа идуу иаарту ахыҵхырҭатә
7:32 модельқәа рылҵшәақәа реиԥш ибзиам, аха ари амодель
7:34 ахыҵхырҭа аартуп, насгьы еиҳа
7:36 аинтерес зҵоу алҵшәа амоуп
7:40 ариашара
7:42 анаҩстәи аҭаӡҩыраҿы ҳара иаҳбоит
7:44 анагӡара еиуеиԥшым адомен анҭыҵтәи
7:46 ауснагӡатәқәа рзы ашьаҭатә модель азы армарахьтәи амодель, хылаԥшра змоу аиқәыршәаратә
7:50 ҳәаратә дыррақәа рыла иазыҟаҵаз агәҭаны, арӷәӷәаратә ҵаратә модель арӷьарахьтәи
7:55 аҵыхәтәақәа иаадырԥшуеит арӷәӷәаратә ҵаратә модель
7:58 еиԥмырҟьаӡакәа аиқәыршәаратә
8:03 уснагӡатәқәа рыҩбагьы иреиҳаны ишыҟаз. ахаангьы
8:05 арӷәӷәаратә ҵаратә дыррақәа рыхәҭак акәӡам,
8:07 ари арӷәӷәаратә ҵаратә ҵара аанартуеит ҳәа агәаанагара арӷәӷәоит
8:13 Аҵаратә ҿырԥштәқәа ргәынкылара акәымкәа,
8:16 абри аҵакы акыр зҵазкуа ак акәны иԥхьаӡазар, Ҳаҳәоит, шәҽалашәҵа,
8:17 насгьы аканал адгылара азы агәыҵха шәақәыӷәӷәа, ҳара
8:19 минуҭк ҳзышьҭуеит
8:23 ахҳәаақәа шәрыԥхьа поштала,
8:25 насгьы еиҳаны
8:27 ашәҟәқәа шәрыхәаԥшуеит Ақьаадқәа
0:00 Hôm nay tôi có đăng một dòng tweet. Tôi nghĩ là, mọi người biết đấy, đã đến lúc đầu tư rồi.
0:03 Tôi thấy, có thể là do tôi thôi, nhưng tôi cảm giác thị trường cho những nhân vật nữ chính "nam tính", không theo chuẩn mực thông thường trong game, không lớn như ngành game nghĩ đâu.
0:05 DeepSeek R1 đã gây tiếng vang lớn trong giới AI trong một thời gian ngắn, đặc biệt là nó đã chứng minh sức mạnh của việc học tăng cường trong việc tăng cường khả năng suy luận của các mô hình ngôn ngữ lớn. Nhưng khi nói đến các tác vụ mã hóa, DeepSeek R1 tập trung nhiều hơn vào lập trình cạnh tranh, nơi vấn đề hoàn toàn miễn phí và bạn phải làm cho mã dễ đọc hơn.
0:26 Tỷ lệ thành công là mã chạy được trong thế giới thực, nhưng giống như việc tìm ra một lỗi trong dịch vụ phụ trợ phức tạp, nó không phải lúc nào cũng dễ dàng như vậy. Có thể cần một tình huống đặc biệt để mã hoạt động, và ngay cả khi nó hoạt động, có thể khó xác định chính xác giá trị là gì. Đó là lý do tại sao các mô hình vẫn là thứ mà chúng ta đang hướng tới, giống như Dpsy Car1.
0:51 Xem tin tức từ Meta, nó tương tự như DPSE R1. Tiêu đề của tin tức là "S We L Advancing LLM Reasoning by Reinforcement Learning by On Reinforcement Learning on Overall Evolution". Công trình này cho thấy tầm quan trọng của việc tăng cường học tập để cải thiện mã hóa, các mô hình học tập về cách mã nguồn mở phát triển theo thời gian.
1:17 Chúng ta có thể biết về ngưỡng độ chính xác bằng cách sử dụng hình ảnh tiếp theo từ nguồn dữ liệu của dự án lưu trữ GitHub, theo dõi tất cả các hoạt động công khai trên GitHub. Vì vậy, nó bao gồm không chỉ mã mà còn cả các yêu cầu đưa ra nhận xét và việc các nhà nghiên cứu sao chép mã để cải thiện mã nguồn theo cách này.
1:46 Một đánh giá quan trọng đã được thực hiện cho 4,6 triệu kho lưu trữ. Không phải tất cả các kho lưu trữ đều sử dụng SWE-bench Benchmark, vì so sánh này được sử dụng để phân tích hoạt động của mô hình. Vì chúng ta có thể thấy ngay rằng dữ liệu được thu thập không được tổ chức để học tập trước.
2:08 Vì không phải tất cả các yêu cầu kéo đều được hợp nhất để học tập, chúng tôi thu thập tất cả các yêu cầu đã hợp nhất, đặc biệt là chúng tôi thu thập tất cả thông tin có liên quan, đặc biệt là đánh giá về vấn đề liên quan đến cuộc thảo luận về các yêu cầu và nội dung của các tệp đã được sửa đổi trước khi thay đổi. Chúng tôi sử dụng các thay đổi hợp nhất cuối cùng.
2:33 Yêu cầu kéo, nhưng nó không được thay đổi như một phần của nó. Các nhà nghiên cứu đã chỉ ra rằng việc tăng độ không chính xác của mô hình chỉ gây ra bởi các tệp có sửa đổi. Nó tạo ra các sửa đổi trong tất cả các tệp tải xuống, điều này, tất nhiên, là không cần thiết, bởi vì trong thực tế, một số tệp có liên quan đến việc thay đổi mã, nhưng bản thân chúng không cần thay đổi.
2:58 Các tệp được liên kết bởi đánh giá của yêu cầu tải xuống và các phần của các tệp đã được chỉnh sửa. Cuối cùng, không phải tất cả các yêu cầu tải xuống GitHub đều có chất lượng cao. Một số, ví dụ, được tạo bởi bot, những người khác chỉ chứa các phiên bản. Đó là lý do tại sao các nhà nghiên cứu đã sử dụng các quy tắc lọc khác nhau, để giữ lại khoảng 11 triệu dữ liệu chất lượng cao.
3:22 Bước bảo vệ dữ liệu mà chúng ta đã thảo luận trước đó từ cuốn sách trong hình ảnh tiếp theo, nơi các nhà nghiên cứu đã xây dựng một bộ dữ liệu yêu cầu lớn từ dữ liệu này. Chúng ta chọn một phần của các ví dụ chất lượng cao. Họ nói rằng để tạo ra một bộ dữ liệu giống để học tập tăng cường, tất cả các ví dụ đã chọn phải có một vấn đề liên quan đến việc thay đổi mã dequest.
3:47 Bao gồm các tệp lập trình và tất cả các chỉ báo được tải lên LLM, sau khi nó được chuyển đổi thành định dạng yêu cầu tải xuống đã hợp nhất. Trong một trích đoạn khác, chúng ta thấy mẫu yêu cầu, bắt đầu bằng một hướng dẫn hệ thống, yêu cầu mô hình, quá trình tư duy của nó, được nhúng trong các thẻ tư duy. Và đối với tất cả các ví dụ này, việc sử dụng đánh giá bao gồm các ví dụ khác nhau. Phần yêu cầu bao gồm đánh giá câu hỏi GitHub và ngữ cảnh mã cần thiết, được lấy trong quá trình bảo vệ dữ liệu. Chúng ta quay lại quá trình học tập, một yêu cầu như vậy.
4:32 Chúng tôi đưa ra một ví dụ về các trích đoạn khác nhau từ mô hình. Mô hình phần thưởng được sử dụng để tính toán phần thưởng, nhưng trong tình huống này, chúng tôi sử dụng tìm kiếm sâu dựa trên quy tắc như học tập tăng cường R1. Phần thưởng tìm kiếm sâu khác với R1, nhưng phần thưởng cho các trích đoạn có định dạng không hợp lệ là -1. Phần thưởng cho các trích đoạn có định dạng chính xác được thiết lập.
5:00 Bằng cách sử dụng điểm tương đồng, điều này mang lại giá trị từ 0 đến 1 cho các thay đổi hợp nhất chính xác giữa các thay đổi Oracle để yêu cầu. Một số thay đổi có thể gây khó khăn cho mô hình trong việc tìm kiếm các giải pháp thay thế, thay vì sử dụng những gì đã được sử dụng trong yêu cầu đầu tiên.
5:34 Mô hình được tạo ra với phần thưởng cao nhất được gọi là Llama 3 S. Chúng tôi xác nhận quá trình học tập tăng cường này, nhưng trong bối cảnh của các tác vụ kỹ thuật mã hóa phần mềm trong thế giới ngày nay, chúng ta thấy trong ví dụ này rằng mô hình dành nhiều thời gian hơn để suy nghĩ khi vấn đề được đưa ra trong hình ảnh bên phải.
5:59 Thời gian cho quá trình tư duy không phải là thứ mà các nhà nghiên cứu đã lập trình rõ ràng. Đây là một đặc điểm tự nhiên xuất hiện nhờ học tập tăng cường. Đáng ngạc nhiên, các nhà nghiên cứu đã xác định thêm các khoảng thời gian, các khả năng tư duy chung mà mô hình đã phát triển. Các tác vụ này chuyển sang các tác vụ bên ngoài miền, ngay cả khi các tác vụ đó không được bao gồm trong việc triển khai bộ dữ liệu học tập.
6:24 Cho thấy khả năng tìm kiếm các lựa chọn thay thế cho một quyết định. Một ví dụ khác là câu hỏi, mô hình hiển thị chiến lược chia để trị bằng cách chia vấn đề thành các phần nhỏ hơn, giải quyết từng bước một, để tính toán cuối cùng. Bây giờ chúng ta hãy xem xét các kết quả chính được trình bày trong bài viết cuối cùng.
6:49 So sánh này được thực hiện đặc biệt để đánh giá mức độ tốt của các mô hình trong việc giải quyết các vấn đề mã hóa phần mềm trong thế giới thực. Bài viết được chia thành hai phần: phần trên dành cho các mô hình độc quyền hoặc các mô hình có 100 tỷ tham số, phần dưới tập trung vào các mô hình nguồn mở có ít hơn 100 tỷ tham số, Llama 3 S SWL A SWL7.
7:18 41% số câu hỏi được trả lời chính xác trong lần thử đầu tiên. Điều này thiết lập các thời điểm mới cho các mô hình có dưới 100 tỷ tham số. Kết quả này dành cho các mô hình độc quyền.
7:28 Không tốt bằng kết quả của các mô hình nguồn mở lớn hơn hoặc lớn hơn, nhưng mô hình này là nguồn mở và có kết quả thú vị hơn về độ chính xác.
7:42 Trong bài viết tiếp theo, chúng ta thấy mô hình cơ sở cho các tác vụ bên ngoài miền khác nhau. Mô hình bên phải, được tạo bằng dữ liệu yêu cầu mã hóa được giám sát, mô hình học tập tăng cường cho thấy các kết quả bên phải cho thấy mô hình học tập tăng cường vượt trội hơn cả hai tác vụ mã hóa được giám sát.
8:03 Ngay cả khi nó không phải là một phần của dữ liệu học tập tăng cường, điều này củng cố ý tưởng rằng việc học tập tăng cường tiết lộ thay vì ghi nhớ các mẫu học tập. Nếu bạn coi điều này là một điều quan trọng, hãy thích và nhấn chuông để hỗ trợ kênh. Chúng tôi sẽ dành một phút để đọc các bình luận qua thư và xem thêm các bài báo giấy tờ.
Translated At: 2025-03-02T03:21:43Z
Translate Version: 3.1 Improved translation step with full context