Trang chủ CÔNG NGHỆ Generative AI sẽ rơi vào trạng thái “MAD” khi được huấn luyện...

Generative AI sẽ rơi vào trạng thái “MAD” khi được huấn luyện bằng dữ liệu AI quá 5 lần

Bởi

15/07/2023

Khi AI bị “MAD”, nó có thể đưa ra kết quả không còn khách quan và chính xác nữa.

Một bài nghiên cứu mới về AI cho biết mạng lưới của thế hệ AI hiện tại (được dùng bởi ChatGPT, Midjourney,…) có 1 hạn chế. Có vẻ như mạng lưới AI được huấn luyện bằng những dữ liệu được tạo bởi AI (chẳng hạn như văn bản được tạo bởi ChatGPT, hoặc hình ảnh được tạo bởi một mô hình Stable Diffusion) có chiều hướng trở nên “MAD” sau 5 chu kỳ huấn luyện. Trong những hình ngay dưới đây, các kết quả cho ra đều không giống thực tế một chút nào.

MAD là chữ viết tắt của Model Autophagy Disorder, và nó được sử dụng bởi những nhà nghiên cứu tại đại học Rice và Stanford. Những người này đang trong quá trình tìm hiểu cách mà các mô hình AI, cũng như là chất lượng đầu ra của nó, ngày một đi xuống khi được huấn luyện nhiều lần bởi các dữ liệu được tạo ra bởi AI. Cơ bản thì AI sẽ “ăn chính nó” và đưa ra những kết quả đi theo chiều hướng giá trị trung bình của dữ liệu, kiểu như con rắn nuốt cái đuôi của nó vậy.

In work led by @iliaishacked we ask what happens as we train new generative models on data that is in part generated by previous models.

We show that generative models lose information about the true distribution, with the model collapsing to the mean representation of data pic.twitter.com/OFJDZ4QofZ
— Nicolas Papernot (@NicolasPapernot) June 1, 2023

Nôm na là việc huấn luyện LMM bằng kết quả của chính nó hoặc của AI khác sẽ tạo ra hiệu ứng hội tụ trên dữ liệu dùng để tạo ra chính LLM. Theo biểu đồ trên cho thấy, những dữ liệu ở phần rìa dần dần sẽ biến mất. Điều này khiến những dữ liệu còn lại trong mô hình sẽ không còn đa dạng như trước, và tiến gần đến giá trị trung bình hơn. Theo kết quả đưa ra thì sau 5 lần huấn luyện như vậy, tình trạng “MAD” sẽ xảy ra.

Cool paper from my friends at Rice. They look at what happens when you train generative models on their own outputs…over and over again. Image models survive 5 iterations before weird stuff happens.https://t.co/JWPyRwhW8o

Credit: @SinaAlmd, @imtiazprio, @richbaraniuk pic.twitter.com/KPliZCABd4
— Tom Goldstein (@tomgoldsteincs) July 7, 2023

Không rõ MAD có ảnh hưởng đến tất cả mô hình AI hay không, nhưng các nhà nghiên cứu có xác nhận nó xảy ra với autoencoders, Gaussian mixture models, và những mô hình ngôn ngữ lớn. Riêng đối với các mô hình ngôn ngữ lớn – phần lõi của các ứng dụng chatbot phổ biến hiện nay (ChatGPT, AI Claude,…) – thì chúng cũng có khả năng trở nên “MAD” khi được huấn luyện bằng chính dữ liệu mà nó đã tạo ra.

Đây có thể là vấn đề đối với các mô hình ngôn ngữ hiện tại: nếu 1 mô hình được thương mại hóa và được huấn luyện bởi những dữ liệu đầu ra của chính nó thì khả năng cao là mô hình đó sẽ càng ngày càng cho ra dữ liệu nghiêng về giá trị trung bình nhiều hơn. Và nếu giá trị nghiêng về hướng trung bình nhiều hơn thì điều đó nghĩa là con AI đó đã có “thành kiến” (biased), do nó không còn xét đến những dữ liệu nhỏ lẻ khác.

Còn một vấn đề quan trọng nữa, đó là chúng ta cần phải xác định đâu là dữ liệu gốc, đâu là dữ liệu nhân tạo. Bằng không, chúng ta có thể vô tình nạp những dữ liệu nhân tạo cho AI để huấn luyện nó hết lần này đến lần khác, dẫn đến tình trạng MAD như trên. Có điều là nội dung AI đã xuất hiện cách đây rất lâu rồi, trước cả khi ChatGPT hay Midjourney bùng nổ, và nó đã nằm trên Internet đó giờ. Vì thế cho nên việc phân loại nội dung sẽ rất là khó khăn, nhưng đồng thời cũng là việc rất cần thiết.

Cũng có những cách khác để tránh việc AI trở nên có “thành kiến”. Một trong số đó là chỉnh mức độ quan trọng (weighting) của dữ liệu khi huấn luyện AI: nếu chúng ta khiến những dữ liệu nhỏ lẻ trở nên liên quan và xuất hiện nhiều lần hơn, theo lẽ thường tình thì nó cũng sẽ tiến gần tới giá trị trung bình luôn. Nói cách khác, theo như biểu đồ hình cái chuông úp ngược ban nãy, mô hình AI vẫn sẽ làm mất những dữ liệu ở phần rìa, nhưng những dữ liệu đó bây giờ không chỉ nằm ở phần rìa nữa mà nó còn nằm ở những nơi khác, gần phần giữa của cái chuông úp ngược hơn. Cho nên dù mô hình AI có cắt bớt dữ liệu nằm ở phần rìa thì cũng chẳng có gì to tát cho lắm.

Tất nhiên, cách này sẽ dấy lên nhiều câu hỏi, và khi trả lời xong 1 câu thì nhiều khi sẽ xuất hiện thêm vài câu khác – những câu hỏi liên quan đến tính chính xác của câu trả lời của mô hình AI, và liên quan đến việc liệu mô hình AI đó có còn thành kiến hay không, mà nếu có thì thành kiến đó đến từ đâu.

Tóm tắt ý chính:

MAD là chữ viết tắt của Model Autophagy Disorder
Có vẻ như mạng lưới AI được huấn luyện bằng những dữ liệu được tạo bởi AI có chiều hướng trở nên “MAD” sau 5 chu kỳ huấn luyện
Cơ bản thì AI sẽ “ăn chính nó” và đưa ra những kết quả đi theo chiều hướng giá trị trung bình của dữ liệu

Mời các bạn tham khảo thêm một số thông tin liên quan tại GVN 360 như:

Nguồn: tom’s HARDWARE

Mời các bạn theo dõi fanpage của chúng mình theo đường link dưới đây để cập nhật những tin tức về game, công nghệ và nhiều thông tin thú vị khác nữa nhé!

Nimo tham gia Triển lãm Giải trí Kỹ thuật số hàng…

Sony tổ chức Triển lãm ảnh Sony World Photography Awards 2024…

VTC “chơi lớn” bắt tay cùng 500BROS tổ chức chuỗi sự…

Đập tan cái nóng Hà Nội với Big Offline hè 2024…

Lộ trình Giải đấu 2024 của Battle Teams 2 – “Con…

Railroads Online, F1 23 và Victoria 3 miễn phí cuối tuần,…

EARTHLOCK và Surviving the Aftermath miễn phí, các bạn muốn giải…

Chơi lớn rồi nhận kết đắng, game thủ Skyrim bị “giật…

Vì ai cũng cần desktop ấn tượng, mời anh em tải…

Vì ai cũng cần desktop ấn tượng, mời anh em tải…

Vì ai cũng cần desktop ấn tượng, mời anh em tải…

Vì ai cũng cần desktop ấn tượng, mời anh em tải…

Generative AI sẽ rơi vào trạng thái “MAD” khi được huấn luyện bằng dữ liệu AI quá 5 lần

GVN 360

HÌNH NỀN ĐẸP

Vì ai cũng cần desktop ấn tượng, mời anh em tải bộ hình nền Megalodon

Vì ai cũng cần desktop ấn tượng, mời anh em tải bộ hình nền Cuối tuần yên bình

Vì ai cũng cần desktop ấn tượng, mời anh em tải bộ hình nền bom nguyên tử

Vì ai cũng cần desktop ấn tượng, mời anh em tải bộ hình nền Chuyến tàu kỷ niệm

Vì ai cũng cần desktop ấn tượng, mời anh em tải bộ hình nền Thành phố về đêm

Vì ai cũng cần điện thoại ấn tượng, mời anh em tải bộ hình nền thiên thần tuyệt đẹp