ระบบ Megabyte ใหม่ของ Meta: การพัฒนาที่เด่นของ GPT ในการเอาชนะอุปสรรค

2023-06-07, 00:51

GPTs สามารถแปลข้อความ สรุปข้อมูล และสร้างเนื้อหาที่เหมาะสมสำหรับวัตถุประสงค์ต่าง ๆ เช่นการตลาด

Megabyte ของ Meta เป้าหมายคือการก้าวข้ามอุปสรรคที่ระบบ GPT อื่น ๆ เช่น GPT-4 ของ OpenAi และ ChatGPT พบ

Megabyte แตกต่างจากแบบจำลอง GPT อื่นๆ เนื่องจากไม่ใช้การตัดคำ

โมเดลเมกะไบต์ประกอบด้วยตัวแปลงสถานที่, ตัวฝังแผ่นและตัวแปลงระดับโลก

บทนำ

นวัตกรรมทางเทคโนโลยีได้ปฏิวัติวิธีที่มนุษย์มีปฏิสัมพันธ์และทํางานต่าง ๆ รวมถึงงานส่วนตัวหรือธุรกิจ ปัญญาประดิษฐ์หรือที่เรียกว่าแมชชีนเลิร์นนิงสามารถทํากิจกรรมต่าง ๆ เช่นการเขียนเรียงความหรือวางแผนทางการเงิน ในบทความนี้เราจะพูดถึงความสําคัญของ Generative Pre-trained Transformer (GPT) ในการประมวลผลภาษาธรรมชาติและการใช้งาน นอกจากนี้เรายังจะมุ่งเน้นไปที่ระบบเมกะไบต์ของ Meta ซึ่งเอาชนะอุปสรรคหลายประการสําหรับ GPTs

ความสำคัญของ GPT ในการประมวลภาษาธรรมชาติ

การสร้างแบบสร้างตัวก่อนการฝึก (GPTs) มีประโยชน์หลายอย่างในหลายภาคส่วนของเศรษฐกิจเนื่องจากเพิ่มประสิทธิภาพและเพิ่มความตระหนักทางสังคม ก่อนที่จะพูดถึงข้อดี ควรทราบว่า GPTs สร้างข้อความที่คล้ายกับมนุษย์เกี่ยวกับหัวข้อต่างๆ

GPTs ใช้พารามิเตอร์ต่าง ๆ เพื่อประมวลผลข้อมูลและนำเสนอในรูปแบบที่เข้าใจง่าย.. มีการใช้ GPTs ในแอปพลิเคชันต่าง ๆ เพื่อสร้างคุณค่าสำหรับมนุษย์และสังคมทั่วไป

โดยพื้นฐานแล้ว GPTs เป็นส่วนสำคัญของแอปพลิเคชันที่ใช้ประโยชน์จากปัญญาประดิษฐ์ในการแปลข้อมูลจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง นอกจากนี้ยังสร้างสรรค์และสรุปข้อมูลปริมาณมากให้เป็นข้อมูลที่เข้าใจง่าย ในบางกรณี GPTs ยังช่วยให้สามารถสร้างเนื้อหาที่เหมาะสมสำหรับวัตถุประสงค์ต่างๆ เช่น บทกวี โพสต์บล็อก เรียงความวิชาการ วัสดุการตลาด และมีม อื่นๆ

ธุรกิจยังสามารถใช้ GPT เพื่อให้กำลังใจให้กับ chatbot และผู้ช่วยเสมือนจริงที่สามารถสื่อสารกับคนจริงในลักษณะการสนทนาเพื่อช่วยให้เข้าใจด้านธุรกิจหรือด้านสังคมต่างๆ สำหรับวัตถุประสงค์ทางธุรกิจ เขาสามารถสร้างการวิเคราะห์อารมณ์ในเรื่องใดๆ หรือฟิลด์ที่น่าสนใจ ตัวอย่างเช่น มีโปรโตคอลที่บังคับด้วย AI ที่สร้างอารมณ์ตลาดสกุลเงินดิจิตอลที่ช่วยให้นักเทรดและนักลงทุนคนอื่น ๆ ตัดสินใจลงทุนอย่างมีเหตุผล

การใช้งานอื่น ๆ ของ GPTs ในกระบวนการภาษาธรรมชาติและแอปพลิเคชัน AI รวมถึงการสร้างเนื้อหาสำหรับการตลาดผลิตภัณฑ์ บริการลูกค้า การวิเคราะห์ข้อมูลทางการเงินและการสกัดและรายงานข้อมูล รวมถึงอื่น ๆ

ข้อจำกัดของโมเดล GPT แบบดั้งเดิม

แม้ว่าจะมีหลากหลาย ประเภทของ GPTs สร้างโดยแพลตฟอร์มต่าง ๆ เช่น ChatGPT และ Openai ส่วนใหญ่มีข้อจำกัดที่สำคัญ

โมเดล Generative AI ที่ดีที่สุดในปัจจุบัน รวมถึง OpenAI’s GPT-4 และ ChatGPT ใช้โครงสร้าง Transformer ซึ่งถูกนำเสนอโดยนักวิจัยของ Google การเพิ่มขนาดของการให้ความสนใจในตนเองและความยาวของข้อมูลนำเข้าและผลลัพธ์สร้างความท้าทายเนื่องจากทุกคำต้องให้ความสนใจ พื้นฐานโดยรวมระบบนี้ทำงานได้ดีเมื่อใช้คำไม่มากเป็นข้อมูลนำเข้า

อย่างไรก็ตามวิธี Megabyte ใช้โครงสร้างที่แตกต่างซึ่งแบ่งลำดับของข้อมูลนำเข้าและข้อมูลส่งออกเป็นแพทช์แทนที่จะเป็นโทเค็น ดังนั้น มันสามารถจัดการกับคำมากกว่าโมเดลปัจจุบัน

นอกจากนี้วิธีการของ Meta ช่วยแก้ปัญหาการขยายของสมรรถนะซึ่งเป็นปัญหาที่พบได้ในโมเดลส่วนใหญ่บนตลาดในปัจจุบัน โดยพื้นฐานแล้วโมเดล Megabyte ทำให้เครือข่าย feedforward เดียวสามารถทำงานกับแพทช์ที่ประกอบด้วยโทเค่นหลายตัว ด้วยเหตุนี้ระบบ Megabyte ของ Meta ทำงานพร้อมกันแทนที่จะทำงานตามลำดับ ซึ่งทำให้ประสิทธิภาพเพิ่มขึ้น แม้ว่าโมเดลพื้นฐานจะมีพารามิเตอร์มากมาย

อ่านเพิ่มเติม: Meta Metaverse: บริษัท กําลังทํางานอะไรอยู่?

บางรุ่น เช่น ระบบประมวลผลทางปัญญาประดิษฐ์ลึก เป็นระบบที่ซับซ้อนที่จะเข้าใจและอธิบายได้ยากซึ่งอาจลดความเชื่อมั่น ความรับผิดชอบ และเพิ่มความกังวลทางจริยธรรม ดังนั้นจึงต้องมีรุ่นที่เรียบง่ายกว่า เช่น Meta Ai ซึ่งเป็นรุ่นที่ง่ายต่อการอธิบาย สาเหตุที่เป็นเช่นนั้นเพราะผู้ใช้ส่วนใหญ่ต้องการทราบว่าระบบทำงานอย่างไรเพื่อให้ไว้วางใจ

ปัญหาอีกอย่างคือบางรุ่นต้องการข้อมูลมากเพื่อทำการตรวจสอบและฝึกฝน อย่างไรก็ตาม ข้อมูลเหล่านั้นอาจไม่สามารถใช้ได้ซึ่งทำให้ประสิทธิภาพลดลง นอกจากนี้ ปัญหาที่เกี่ยวข้องกับความเป็นส่วนตัว ความลำเอียง รบกวน ความปลอดภัย และความไม่สมบูรณ์ของข้อมูลส่งผลกระทบต่อความคงทนและประสิทธิภาพของส่วนใหญ่ของโมเดล GPT

โมเดล AI แบบดั้งเดิมส่วนใหญ่เป็นราคาแพงและใช้พลังงานมากเมื่อทำการคำนวณ นี่เป็นเพราะระบบส่วนใหญ่มีความต้องการการคำนวณที่หนักเหนียว ดังนั้นพวกเขาใช้ทรัพยากรมากและเพิ่มต้นทุนสิ่งแวดล้อม

นอกจากนี้ยังมีโมเดลเหล่านี้ส่วนใหญ่มีความสามารถในการทำงานร่วมกันต่ำเนื่องจากความแตกต่างในมาตรฐานของพวกเขา ดังนั้น มันเป็นเรื่องยากมากที่สุดสำหรับพวกเขาที่จะรวมกันเนื่องจากพวกเขาใช้ภาษา กรอบการทำงาน และรูปแบบที่แตกต่างกัน อย่างไรก็ตาม รูปแบบที่เปิดเผยเช่น ONNX หรือคอมไพเลอร์สามารถเพิ่มประสิทธิภาพในการสื่อสารของพวกเขาได้

สิ่งสำคัญที่ต้องเข้าใจคือ สถาปัตยกรรม Meta AI ถูกสร้างขึ้นในลักษณะที่เหนือกว่าปัญหาเหล่านี้ส่วนใหญ่

ระบบ Megabyte ของ Meta

Meta AI ได้พัฒนา ระบบ GPT ที่เรียกว่า Megabyte ด้วยจุดมุ่งหมายที่จะหลีกเลี่ยงการทำให้เป็นโทเคไนเซชันซึ่งรุนแรงและใช้โมเดล GPT ส่วนใหญ่ ระบบสร้างขึ้นล่วงหน้า (GPT) ประมวลผลข้อมูลปริมาณมาก เช่น วิดีโอและข้อความ เช่น นวนิยายโดยไม่ใช้โทเคไนเซชัน

เป็นจุดหนึ่ง การทำโทเค็นได้ให้บริการที่คล้ายกับการบีบอัดไฟล์ผ่านการแปลงข้อมูลมากให้อยู่ในรูปแบบที่สะดวกสำหรับการใช้งาน ไทรัมสร้างโทเค็นเพื่อสร้างเอาท์พุตที่ระบบถอดรหัส

โดยปกติการทำ Tokenization ช่วยให้โมเดล AI สามารถแปลงข้อความยาวเป็นตัวเลขได้ เช่น ระบบสามารถแปลงประโยคเช่น ‘สีที่ฉันชอบคือสีแดง’ เป็นตัวเลขโทเค็น เช่น 3666, 4004, 3124, 318, 2266, 13 ซึ่งจะถูกประมวลผลต่อไป

อย่างไรก็ตาม วิธีนี้มีข้อจำกัดในการประมวลผลข้อมูล ตัวอย่างเช่น ข้อจำกัดของ GPT-3.5 อยู่ระหว่าง 3,000 ถึง 4,000 คำในขณะที่ GPT-4 อยู่ระหว่าง 24,000 ถึง 32,000 คำ

ในทางตรงกันข้าม Meta ได้ทิ้งการแบ่งโทเค็นออกจากการใช้สถาปัตยกรรมพยากรณ์รูปแบบหลายชั้นใหม่ที่พึ่งพาการจำลองจบ-to-จบของข้อมูลมากกว่าหนึ่งล้านไบต์ นี่เป็นความสำเร็จอันยิ่งใหญ่เมื่อเทียบกับว่าสามารถประมวลผลเอกสารที่ประกอบด้วยคำสูงสุดถึง 750,000 คำได้ ซึ่งหมายความว่าระบบ Megabyte สามารถประมวลผลข้อมูลที่ประกอบด้วยเนื้อหาในนิยายขนาดเล็ก ๆ สามเล่มได้

อย่างที่กล่าวไว้ Megabyte ก้าวหน้าข้ามอุปสรรคของการทำ Tokenization ที่เกิดจากขีดจำกัดข้อมูลแบบ Strong Data ที่ต้องใช้เวลานานในการฝึกระบบและการบริโภคพลังงานสูง นอกจากนี้โดยไม่ต้องทำ Tokenization สามารถฝึกโมเดล AI เพื่อรองรับภาษาที่ไม่ใช่ภาษาอังกฤษซึ่งสามารถเข้ารหัสได้ด้วยตัวอักษร 8 บิตมาตรฐาน เช่น

AI คริปโตปัญญาประดิษฐ์ของ Meta จะขยายโอกาสที่มีอยู่เนื่องจากจะทําให้เทคโนโลยีบล็อกเชนต่างๆ เป็นประชาธิปไตยมากขึ้น ตัวอย่างเช่นนักพัฒนาสามารถแนะนําบอทซื้อขายสกุลเงินดิจิทัลในภาษาแม่ของพวกเขาเช่นรัสเซียหรือฝรั่งเศส ที่สําคัญกว่านั้นองค์กรอิสระแบบกระจายอํานาจ (DAOs) สามารถเขียนโค้ดโปรโตคอลในภาษาท้องถิ่นได้เช่นกัน

วิธีการทำงานของระบบ Meta Megabyte

Megabyte, สถาปัตยกรรมตัวถอดรหัสหลายขนาดที่รวมรายการที่มากกว่า 1 ล้านไบต์โดยยังคงรักษาความแตกต่างได้สิ้นสุดของปลายทาง มันใช้การแปลงหลายมาตราฐานที่รวมถึงระดับต่าง ๆ ภายในสถาปัตยกรรมของตนเองเพื่อการแสดงจำลองทั้งภาพรวมและแบบแบ่งส่วนในข้อมูล

โดยพื้นฐานแล้วโมเดลเมกะไบต์ประกอบด้วยสามส่วน คือ โมดูลภายใน, โมดูลการซ่อมแซมและโมดูลโลก (การแปลงโลก) โมดูลภายในที่เรียกว่าโมดูลท้องถิ่น ทำนายไบต์ภายในทุก ๆ แพทช์ในขณะที่ embedder รับผิดชอบในการเข้ารหัสแพทช์ผ่านการรวมตัวฝังตัวไบต์ ในที่สุด โมดูลโลกที่เรียกว่าโมดูลโลก นำเข้าและส่งออกการแสดงแพทช์ต่าง ๆ

แผนภาพต่อไปนี้แสดงภาพรวมของเมกะไบต์

แผนภูมิด้านบนแสดงส่วนประกอบหลักของ Megabyte บางส่วน การทดลองล่าสุดพบว่า Megabyte สามารถเร็วขึ้นได้ถึง 40% โมเดล Transformer อย่างไรก็ตาม จำเป็นต้องทราบว่า Megabyte ที่ใช้ในการทดลองมีพารามิเตอร์ 1.5 พันล้านตัวในขณะที่ Transformer มี 350 ล้านตัว

โดยรวม มีกลุ่มข้อดีหลายอย่างของ Megabyte ต่อเทรนส์ฟอร์เมอร์ที่เป็นแบบดั้งเดิม เช่น ลดต้นทุนการคำนวณของการยืนยันตัวเองซึ่งทำให้สามารถจัดการกับลำดับยาวได้

อันที่สอง มันใช้ชั้น feedforward ต่อเส้นทางแทนต่อตำแหน่งที่ส่งผลให้การใช้ทรัพยากรคอมพิวเตอร์มีประสิทธิภาพ

นอกจากนี้ยังเพิ่มความสามารถในการประมวลผลแบบขนานที่สูงขึ้นซึ่งเป็นสาเหตุให้การสร้างลำดับที่เร็วขึ้นในขณะที่ยังคงมีประสิทธิภาพสูง

สถาปัตยกรรมเมกะไบต์มีประสิทธิภาพในการขยายขนาด ลดการใช้ทรัพยากร และทำให้การสื่อสารกับแอปพลิเคชันที่ใช้ GPT ต่าง ๆ เรียบ ๆ ได้ สร้างผลงานชิ้นส่วนของประโยชน์เหล่านี้ได้โดยการแบ่งลำดับยาวเป็นลำดับสั้น ๆ สองลำดับซึ่งลดค่าการสนใจตนเอง นอกจากนี้ การแบ่งปันพารามิเตอร์และอัลกอริทึมการบีบอัดลดความต้องการทรัพยากรของ GPT

สรุป

Megabyte ของ Meta ใช้ระบบ generative pre-trained transformer เพื่อประมวลผลข้อมูลปริมาณมากโดยไม่ใช้การแบ่งเป็นโทเคน แต่ใช้สถาปัตยกรรมการทำนายหลายชั้นเพื่อลดต้นทุน เพิ่มความเร็ว ปรับปรุงประสิทธิภาพ และเพิ่มความสามารถในการขยายขนาดและประสานอำนวยความสะดวก


ผู้เขียน:Mashell C., นักวิจัย Gate.io
บทความนี้แสดงเพียงความคิดเห็นของนักวิจัยเท่านั้นและไม่เป็นการแนะนำให้ลงทุนใด ๆ
Gate.io สงวนสิทธิ์ทุกประการในบทความนี้ การโพสต์บทความนี้จะได้รับอนุญาตเฉพาะเมื่อมีการอ้างอิงถึง Gate.io ในทุกกรณีจะดำเนินการทางกฎหมายเนื่องจากการละเมิดลิขสิทธิ์


แชร์
Inhalt
gate logo
Gate
เทรดเลย
เข้าร่วม Gate เพื่อรับรางวัล