10 เดโมที่อธิบาย AI ยุคใหม่ได้ดีกว่าบทความ 100 ฉบับ
บทพิสูจน์แห่งความฉลาดที่เห็นได้ด้วยตา
ยุคแห่งการอ่านเรื่อง AI จบลงแล้ว เราก้าวเข้าสู่ยุคแห่งการมองเห็นด้วยตาตัวเองมานานหลายปีที่ผู้ใช้ต้องพึ่งพาคำบรรยายว่า large language models ทำอะไรได้บ้าง แต่ตอนนี้วิดีโอเดโมระดับไฮโปรไฟล์จากบริษัทอย่าง OpenAI และ Google ได้เปลี่ยนเกมไปแล้ว คลิปเหล่านี้โชว์ให้เห็นซอฟต์แวร์ที่สามารถมองเห็น ได้ยิน และพูดคุยได้แบบ real time รวมถึงเครื่องมือสร้างวิดีโอที่เนรมิตโลกภาพยนตร์ขึ้นมาจากประโยคเดียว เดโมเหล่านี้เปรียบเสมือนสะพานเชื่อมระหว่างงานวิจัยกับผลิตภัณฑ์จริง ทำให้เราเห็นอนาคตที่คอมพิวเตอร์ไม่ใช่แค่เครื่องมือ แต่เป็นผู้ช่วยที่ทำงานร่วมกับเรา อย่างไรก็ตาม เดโมก็คือการแสดง มันเป็นหน้าต่างที่ถูกคัดสรรมาอย่างดีเพื่อโชว์เทคโนโลยีที่อาจจะยังไม่พร้อมให้ใช้งานจริงในวงกว้าง
การจะเข้าใจสถานะปัจจุบันของอุตสาหกรรมนี้ เราต้องมองให้ทะลุความสวยงามของพิกเซล ต้องตั้งคำถามว่าวิดีโอเหล่านี้พิสูจน์อะไรและซ่อนอะไรไว้ เป้าหมายคือการแยกความก้าวหน้าทางวิศวกรรมออกจากการตลาดที่หวือหวา ความแตกต่างนี้คือสิ่งที่กำหนดนิยามของยุคนี้สำหรับบริษัทเทคโนโลยีทุกแห่ง เราไม่ได้ตัดสินโมเดลจาก benchmarks เพียงอย่างเดียวอีกต่อไป แต่เราตัดสินจากความสามารถในการโต้ตอบกับโลกทางกายภาพผ่านเลนส์กล้องหรือไมโครโฟน การเปลี่ยนแปลงนี้ถือเป็นจุดเริ่มต้นของยุค multimodal ที่อินเทอร์เฟซมีความสำคัญไม่แพ้ความฉลาดที่อยู่เบื้องหลัง
ชำแหละความจริงที่ถูกจัดฉาก
เดโม AI ยุคใหม่คือการผสมผสานระหว่างวิศวกรรมซอฟต์แวร์กับการถ่ายทำภาพยนตร์ เมื่อบริษัทโชว์ให้เห็นโมเดลโต้ตอบกับมนุษย์ พวกเขามักใช้ฮาร์ดแวร์ที่ดีที่สุดภายใต้สภาวะที่สมบูรณ์แบบ เดโมเหล่านี้มักแบ่งออกเป็น 3 ประเภท ประเภทแรกคือ product demo ซึ่งโชว์ฟีเจอร์ที่กำลังจะปล่อยให้ผู้ใช้ได้ใช้งานจริง ประเภทที่สองคือ possibility demo ซึ่งโชว์สิ่งที่นักวิจัยที่ Google DeepMind ทำได้ในห้องแล็บแต่ยังไม่สามารถขยายผลให้คนนับล้านใช้ได้ และประเภทที่สามคือการแสดงโชว์ ซึ่งเป็นภาพอนาคตที่ต้องพึ่งพาการตัดต่อหนักๆ หรือการใช้ prompt เฉพาะทางที่สาธารณชนเข้าถึงไม่ได้
ตัวอย่างเช่น เมื่อเราเห็นโมเดลระบุวัตถุผ่านเลนส์กล้อง เรากำลังเห็นก้าวกระโดดครั้งใหญ่ในการประมวลผลแบบ multimodal โมเดลต้องประมวลผลเฟรมวิดีโอ แปลงเป็นข้อมูล และสร้างคำตอบด้วยภาษาธรรมชาติในระดับมิลลิวินาที สิ่งนี้พิสูจน์ว่ากำแพงเรื่อง latency กำลังพังทลายลง และแสดงให้เห็นว่าสถาปัตยกรรมรองรับ input ที่มีความละเอียดสูงได้ อย่างไรก็ตาม สิ่งที่ยังไม่ได้รับการพิสูจน์คือความน่าเชื่อถือของระบบ เดโมไม่ได้โชว์ให้เห็นว่าโมเดลล้มเหลวในการระบุวัตถุกี่ครั้ง และไม่ได้โชว์อาการ hallucination ที่ AI มั่นใจเกินเหตุจนระบุว่าแมวคือเครื่องปิ้งขนมปัง
สาธารณชนมักประเมินความพร้อมของเครื่องมือเหล่านี้สูงเกินไป ในขณะที่ประเมินความสำเร็จทางเทคนิคที่ต้องใช้เพื่อให้มันทำงานได้แม้เพียงครั้งเดียวต่ำเกินไป การสร้างวิดีโอที่สมเหตุสมผลจากข้อความเป็นความท้าทายทางคณิตศาสตร์ที่ยิ่งใหญ่ และการทำให้มันเป็นไปตามกฎฟิสิกส์นั้นยากยิ่งกว่า เรากำลังเห็นการกำเนิดของ world simulators ซึ่งไม่ใช่แค่เครื่องเล่นวิดีโอ แต่เป็นเอนจิ้นที่ทำนายการทำงานของแสงและการเคลื่อนไหว แม้ผลลัพธ์ในตอนนี้จะดูเหมือนการจัดฉาก แต่ความสามารถที่อยู่เบื้องหลังคือสัญญาณของการเปลี่ยนแปลงครั้งใหญ่ในโลกคอมพิวเตอร์
การเปลี่ยนแปลงของแรงงานระดับโลก
ผลกระทบของเดโมเหล่านี้ไปไกลกว่า Silicon Valley ในระดับโลก ความสามารถเหล่านี้กำลังเปลี่ยนวิธีที่แต่ละประเทศมองเรื่องแรงงานและการศึกษา ในประเทศที่พึ่งพาธุรกิจ outsourcing การเห็น AI จัดการสายด่วนบริการลูกค้าที่ซับซ้อนได้แบบ real time ถือเป็นคำเตือนว่าต้นทุนของ AI กำลังต่ำกว่าต้นทุนแรงงานมนุษย์ในประเทศกำลังพัฒนา ซึ่งสร้างแรงกดดันให้รัฐบาลต้องคิดทบทวนกลยุทธ์ทางเศรษฐกิจใหม่
ในขณะเดียวกัน เดโมเหล่านี้ก็เป็นสมรภูมิใหม่ของการแข่งขันระหว่างประเทศ การเข้าถึงโมเดลที่ล้ำสมัยที่สุดจากบริษัทอย่าง Anthropic กลายเป็นเรื่องของความมั่นคงของชาติ หากโมเดลสามารถช่วยเขียนโค้ดหรือออกแบบฮาร์ดแวร์ได้ ประเทศที่มีโมเดลที่ดีที่สุดย่อมได้เปรียบอย่างชัดเจน นำไปสู่การแข่งขันด้านทรัพยากร compute และอธิปไตยของข้อมูล เรากำลังเห็นการมุ่งหน้าสู่ local models ที่สามารถรันภายในพรมแดนของประเทศเพื่อปกป้องความเป็นส่วนตัวและรักษาการควบคุม
ผู้ชมทั่วโลกยังได้เห็นการเข้าถึงความคิดสร้างสรรค์ที่เท่าเทียมกัน คนในหมู่บ้านห่างไกลที่มี smartphone สามารถเข้าถึงพลังสร้างสรรค์ระดับเดียวกับสตูดิโอใน Hollywood ซึ่งมีศักยภาพในการปรับสมดุลเศรษฐกิจสร้างสรรค์ ช่วยให้เกิดความหลากหลายของเรื่องราวและไอเดียที่เคยถูกปิดกั้นด้วยต้นทุนที่สูง แต่สิ่งนี้ก็นำมาซึ่งความเสี่ยงของข้อมูลเท็จ เทคโนโลยีเดียวกันที่สร้างเดโมสวยงามก็สามารถสร้างคำโกหกที่แนบเนียนได้ ชุมชนโลกต้องเผชิญกับความจริงที่ว่าการเห็นอาจไม่ใช่การเชื่ออีกต่อไป เดิมพันนี้เป็นเรื่องจริงและใกล้ตัวสำหรับทุกคนที่มีอินเทอร์เน็ต
การใช้ชีวิตร่วมกับเพื่อนร่วมงานสังเคราะห์
ลองนึกภาพชีวิตของ Sarah ผู้จัดการฝ่ายการตลาดในอนาคตอันใกล้ เธอเริ่มต้นเช้าวันใหม่ด้วยการเปิด AI assistant ที่รู้ตารางงานและอีเมลของเธอ เธอไม่ต้องพิมพ์ แต่พูดคุยกับผู้ช่วยในขณะที่ชงกาแฟ AI สรุปงานสำคัญ 3 อย่างและเสนอโครงร่างข้อเสนอโครงการ Sarah ให้ AI ดูวิดีโอผลิตภัณฑ์ของคู่แข่งและระบุฟีเจอร์เด่น AI ทำงานเสร็จในไม่กี่วินาที พร้อมสร้างตารางเปรียบเทียบที่ Sarah นำไปใช้ในที่ประชุมได้ทันที
ช่วงบ่าย Sarah ต้องการสร้างคลิปโปรโมตสั้นๆ สำหรับแคมเปญใหม่ แทนที่จะจ้างทีมผลิต เธอใช้เครื่องมือสร้างวิดีโอ เธออธิบายฉาก แสง และอารมณ์ เครื่องมือผลิตคลิปออกมา 4 เวอร์ชัน เธอเลือกหนึ่งอันและสั่งให้ AI เปลี่ยนสีเสื้อของนักแสดงให้ตรงกับแบรนด์บริษัท การแก้ไขเกิดขึ้นทันที นี่คือการประยุกต์ใช้เดโมที่เราเห็นในปัจจุบัน ไม่ใช่การเข้ามาแทนที่ Sarah แต่คือการลดแรงเสียดทานระหว่างไอเดียของเธอกับผลิตภัณฑ์สุดท้าย
อย่างไรก็ตาม ความขัดแย้งยังคงมีอยู่ แม้ AI จะมีประโยชน์ แต่ Sarah ต้องใช้เวลา 30 นาทีเพื่อแก้ไขข้อผิดพลาดที่โมเดลทำเกี่ยวกับกฎหมายของบริษัท โมเดลมีความมั่นใจแต่กลับทำผิดพลาด นอกจากนี้เธอยังพบว่า AI มีปัญหาเรื่องความละเอียดอ่อนทางวัฒนธรรมของตลาดในเอเชียตะวันออกเฉียงใต้ เดโมโชว์ให้เห็นความฉลาดที่เป็นสากล แต่ความจริงคือเครื่องมือที่ถูกฝึกด้วยข้อมูลเฉพาะที่มีช่องว่าง
BotNews.today ใช้เครื่องมือ AI ในการวิจัย เขียน แก้ไข และแปลเนื้อหา ทีมงานของเราตรวจสอบและดูแลกระบวนการเพื่อให้ข้อมูลมีประโยชน์ ชัดเจน และน่าเชื่อถือ
การเปลี่ยนแปลงความคาดหวังนั้นชัดเจน ผู้ใช้คาดหวังให้ซอฟต์แวร์มีความกระตือรือร้นและเข้าใจบริบทโดยไม่ต้องบอก นี่เปลี่ยนวิธีที่เราสร้างเว็บไซต์และ app เรากำลังขยับจากการกดปุ่มและเมนูไปสู่การสนทนาที่เป็นธรรมชาติ หากต้องการเข้าใจการเปลี่ยนแปลงนี้ ควรดู เทรนด์ปัญญาประดิษฐ์สมัยใหม่ เพื่อดูรายละเอียดเชิงเทคนิคที่ลึกซึ้งยิ่งขึ้น
ประสบการณ์ของ Sarah เน้นย้ำสองสิ่งที่คนมักเข้าใจผิดเกี่ยวกับ AI:
- พวกเขาประเมินค่าความเข้าใจในความหมายของงานที่ AI ทำสูงเกินไป
- พวกเขาประเมินเวลาที่จะประหยัดได้จากงานที่ทำซ้ำๆ ต่ำเกินไป
ราคาที่ต้องจ่ายสำหรับความมหัศจรรย์
ความตื่นเต้นรอบเดโมเหล่านี้มักบดบังคำถามยากๆ เกี่ยวกับความยั่งยืนในระยะยาว เราต้องใช้ความสงสัยในเรื่องราวของความก้าวหน้า ประการแรก ใครเป็นคนจ่ายค่า compute costs มหาศาลที่ต้องใช้รันโมเดลเหล่านี้? ทุกครั้งที่ผู้ใช้โต้ตอบกับ AI แบบ multimodal มันจะกระตุ้นกระบวนการ GPU ที่มีราคาแพง โมเดลธุรกิจในปัจจุบันมักไม่ครอบคลุมต้นทุนเหล่านี้ นำไปสู่การพึ่งพา venture capital หรือการอุดหนุนจากองค์กรขนาดใหญ่ สิ่งนี้ทำให้เกิดคำถามว่าเมื่อการอุดหนุนสิ้นสุดลงจะเป็นอย่างไร? เครื่องมือเหล่านี้จะกลายเป็นของหรูหราสำหรับคนบางกลุ่มหรือไม่?
ประการที่สอง เราต้องพิจารณาต้นทุนที่ซ่อนอยู่ของข้อมูล โมเดลส่วนใหญ่ถูกฝึกด้วยผลงานรวมบนอินเทอร์เน็ต ซึ่งรวมถึงผลงานที่มีลิขสิทธิ์ ข้อมูลส่วนบุคคล และแรงงานสร้างสรรค์ของคนนับล้านที่ไม่เคยยินยอมให้งานของตนถูกนำมาใช้ในลักษณะนี้ เมื่อโมเดลมีความสามารถมากขึ้น ปริมาณข้อมูลมนุษย์คุณภาพสูงก็กำลังลดลง บางบริษัทกำลังฝึก AI ด้วยข้อมูลที่สร้างโดย AI อีกที ซึ่งอาจนำไปสู่คุณภาพที่ลดลงหรือวงจรป้อนกลับของข้อผิดพลาด
ประการที่สาม คือเรื่องความเป็นส่วนตัว เพื่อให้ AI มีประโยชน์อย่างแท้จริง มันต้องเห็นสิ่งที่คุณเห็นและได้ยินสิ่งที่คุณได้ยิน สิ่งนี้ต้องใช้การสอดแนมในระดับที่ไม่เคยคิดมาก่อน เราสบายใจหรือไม่ที่องค์กรจะมี feed ชีวิตประจำวันของเราแบบ real time เพื่อแลกกับผู้ช่วยที่ดีขึ้น? เดโมโชว์ให้เห็นความสะดวกสบายแต่ไม่ค่อยโชว์ศูนย์ข้อมูลที่เก็บและวิเคราะห์ข้อมูลเหล่านี้ เราต้องถามว่าใครเป็นเจ้าของ weights ของโมเดลเหล่านี้และใครมีอำนาจปิดมัน เดิมพันไม่ใช่แค่เรื่องผลิตภาพ แต่เป็นสิทธิขั้นพื้นฐานในชีวิตส่วนตัว นี่คือคำถามเรื่องอำนาจ
เบื้องหลังยุค Agentic
สำหรับ power user ความสนใจอยู่ที่ระบบท่อทางเทคนิคที่ทำให้เดโมเหล่านี้เป็นจริง เรากำลังมุ่งหน้าสู่โลกของ agentic workflows ซึ่งหมายความว่า AI ไม่ได้แค่สร้างข้อความ แต่ใช้เครื่องมือ มันเรียก APIs เขียนลงใน local storage และโต้ตอบกับซอฟต์แวร์อื่น คอขวดในปัจจุบันไม่ใช่ความฉลาดของโมเดล แต่เป็น *latency* ของระบบ เพื่อให้เดโมดูไหลลื่น นักพัฒนาจึงมักใช้ฮาร์ดแวร์เฉพาะทางหรือ inference engines ที่ปรับแต่งมาเป็นพิเศษ
เมื่อรวมโมเดลเหล่านี้เข้ากับ workflow ระดับมืออาชีพ ปัจจัยหลายอย่างจะกลายเป็นสิ่งสำคัญ:
- ขีดจำกัดของ Context window: แม้แต่โมเดลที่ดีที่สุดก็อาจลืมข้อมูลในการสนทนาที่ยาวมากได้
- ขีดจำกัดของ API rate: โมเดลคุณภาพสูงมักถูกจำกัดการใช้งาน ทำให้ยากต่อการใช้ในงานผลิตหนักๆ
- Local vs Cloud: การรันโมเดลแบบ local บน Mac หรือ PC ให้ความเป็นส่วนตัวและความเร็ว แต่ต้องใช้ VRAM สูง
ในปีที่ผ่านมา เราเห็นการเติบโตของ small language models ที่รันบนฮาร์ดแวร์ทั่วไปได้ โมเดลเหล่านี้มักถูกกลั่นกรองมาจากเวอร์ชันที่ใหญ่กว่า โดยยังคงความสามารถในการใช้เหตุผลไว้ในขณะที่ลดขนาดลง สิ่งนี้สำคัญมากสำหรับนักพัฒนาที่ต้องการสร้าง app ที่ไม่พึ่งพาการเชื่อมต่ออินเทอร์เน็ตตลอดเวลา การเปลี่ยนไปใช้ JSON mode และ structured output ยังช่วยให้ AI คุยกับฐานข้อมูลแบบดั้งเดิมได้ง่ายขึ้น
อย่างไรก็ตาม การเปลี่ยนจากเดโมไปสู่ผลิตภัณฑ์ที่เสถียรยังคงเป็นเรื่องยาก เดโมสามารถละเลยกรณีขอบเขต (edge cases) ได้ แต่สภาพแวดล้อมการผลิตทำไม่ได้ นักพัฒนาต้องจัดการกับความคลาดเคลื่อนของคำตอบจากโมเดลและความไม่แน่นอนของซอฟต์แวร์ ส่วนที่เป็น geek ของอุตสาหกรรมกำลังหมกมุ่นอยู่กับ retrieval augmented generation เพื่อให้โมเดลยึดโยงกับข้อเท็จจริงในโลกแห่งความเป็นจริง งานนี้จะดำเนินต่อไปเมื่อฮาร์ดแวร์ไล่ตามซอฟต์แวร์ทัน
คำตัดสินเรื่องกระแสความนิยม
เดโมที่กำหนดช่วงเวลานี้ของเราเป็นมากกว่าแค่การตลาด มันเป็นบทพิสูจน์แนวคิดสำหรับวิถีชีวิตใหม่กับเทคโนโลยี มันแสดงให้เห็นว่ากำแพงระหว่างความตั้งใจของมนุษย์กับการทำงานของเครื่องจักรเริ่มละลายหายไป แต่เราต้องยังคงวิพากษ์วิจารณ์ เดโมคือคำสัญญา ไม่ใช่ผลิตภัณฑ์สำเร็จรูป มันโชว์เวอร์ชันที่ดีที่สุดของเครื่องมือที่ยังอยู่ระหว่างการพัฒนา เราต้องตัดสินเดโมจากสิ่งที่มันพิสูจน์ได้ภายใต้การตรวจสอบ และสิ่งที่ยังคงถูกจัดฉากไว้สำหรับกล้อง
หมายเหตุจากบรรณาธิการ: เราสร้างเว็บไซต์นี้ขึ้นมาเพื่อเป็นศูนย์กลางข่าวสารและคู่มือ AI หลายภาษาสำหรับผู้ที่ไม่ได้เป็นผู้เชี่ยวชาญคอมพิวเตอร์ แต่ยังคงต้องการทำความเข้าใจปัญญาประดิษฐ์ ใช้งานได้อย่างมั่นใจมากขึ้น และติดตามอนาคตที่กำลังจะมาถึงแล้ว
คุณค่าที่แท้จริงของเดโมเหล่านี้คือการเปลี่ยนความคาดหวังของเรา มันบังคับให้เราจินตนาการถึงโลกที่คอมพิวเตอร์เข้าใจเราในแบบของเรา เมื่อเราก้าวไปข้างหน้า จุดสนใจจะเปลี่ยนจากสิ่งที่ AI ทำได้ในวิดีโอไปสู่สิ่งที่มันทำได้บนโต๊ะทำงานของเรา ความขัดแย้งระหว่างการแสดงที่สวยงามกับความจริงที่ยุ่งเหยิงจะกำหนดเฟสต่อไปของอุตสาหกรรม จงตัดสินเดโมจากสิ่งที่มันพิสูจน์ได้ แต่จงใช้เครื่องมือจากสิ่งที่มันส่งมอบให้จริง
พบข้อผิดพลาดหรือสิ่งใดที่ต้องแก้ไขหรือไม่? แจ้งให้เราทราบ