Google I/O 2025 : Google อัปเดต Gemini 2.5 โมเดล 2.5 Pro และ 2.5 Flash

Gemini 2.5

หนึ่งในเนื้อหาจากงาน Google I/O 2025 นอกจาก AI in Search แล้ว Google ยังได้เผยโฉมความก้าวหน้าล่าสุดของ Gemini 2.5 ซึ่งประกอบด้วยโมเดล 2.5 Pro และ 2.5 Flash ที่ได้รับการพัฒนาให้มีประสิทธิภาพสูงขึ้นในด้านการเขียนโค้ด การใช้เหตุผล การประมวลผลหลายรูปแบบ และการจัดการบริบทยาว พร้อมด้วยฟีเจอร์ใหม่ที่ตอบโจทย์ทั้งนักพัฒนาและผู้ใช้ทั่วไป 

Gemini 2.5 Pro 

Gemini 2.5 Pro โมเดลนี้มาพร้อมหน้าต่างบริบทขนาด 1 ล้านโทเค็น ทำให้สามารถจัดการข้อมูลที่มีความยาวและซับซ้อน เช่น เอกสารยาวหรือวิดีโอ ได้อย่างมีประสิทธิภาพ จุดเด่นที่น่าจับตามองคือโหมด Deep Think ซึ่งอยู่ในขั้นทดลอง โดยใช้เทคนิคการวิจัยใหม่ที่ช่วยให้โมเดลพิจารณาสมมติฐานหลายแบบก่อนตอบ

Gemini 2.5 Flash

Gemini 2.5 Flash เป็นโมเดลที่ออกแบบมาเพื่อความเร็วและต้นทุนต่ำ โดยได้รับการปรับปรุงให้มีประสิทธิภาพดีขึ้นในด้านการใช้เหตุผล การเขียนโค้ด และการจัดการบริบทยาว พร้อมลดการใช้โทเค็นลง 20-30% ทำให้ประหยัดและมีประสิทธิภาพมากขึ้น โมเดลนี้เหมาะสำหรับงานที่ต้องการการตอบสนองรวดเร็ว เช่น การพัฒนาแอปหรือการประมวลผลข้อมูลเรียลไทม์

2.5 Flash พร้อมใช้งานในแอป Gemini และอยู่ในช่วงพรีวิวใน Google AI Studio และ Vertex AI โดยจะเปิดให้ใช้งานทั่วไปในต้นเดือนมิถุนายน 2025 เพื่อให้นักพัฒนาและองค์กรสามารถนำไปใช้ในงานผลิตได้อย่างเต็มรูปแบบ

Gemini 2.5 ยังมาพร้อมความสามารถที่หลากหลายเพื่อยกระดับประสบการณ์ผู้ใช้และนักพัฒนา:

1. Live API : เปิดตัวการรองรับอินพุตภาพและเสียง รวมถึงการสนทนาด้วย เสียงเนทีฟ ที่เป็นธรรมชาติราวกับพูดคุยกับมนุษย์ ผู้ใช้สามารถกำหนดโทน สำเนียง หรือสไตล์การพูด เช่น ใช้เสียงดราม่าเมื่อเล่าเรื่อง ฟีเจอร์เด่นรวมถึง:  

– Affective Dialogue : ตรวจจับอารมณ์จากน้ำเสียงผู้ใช้และตอบสนองอย่างเหมาะสม  

– Proactive Audio : เเป็นความสามารถที่ทำให้ Gemini 2.5 สามารถ แยกแยะและเลือกตอบสนองต่อเสียงที่เกี่ยวข้อง ในระหว่างการสนทนา โดยไม่ถูกรบกวนจากเสียงพื้นหลังหรือการสนทนาอื่น ๆ ที่ไม่เกี่ยวข้อง

– Thinking in the Live API : ใช้ความสามารถการคิดของ Gemini สำหรับงานซับซ้อน

การแปลงข้อความเป็นเสียงใน 2.5 Pro และ Flash รองรับหลายผู้พูด มากกว่า 24 ภาษา และจับรายละเอียด เช่น การกระซิบ เพื่อเพิ่มความสมจริง

2. Project Mariner 

ความสามารถจาก Project Mariner ช่วยให้ Gemini 2.5 โต้ตอบกับคอมพิวเตอร์ในลักษณะที่เลียนแบบมนุษย์ เช่น การนำทางเว็บไซต์ การกรอกแบบฟอร์ม หรือการทำงานอัตโนมัติในส่วนต่อประสานกราฟิก (GUI) ความสามารถนี้ถูกรวมใน Gemini API และ Vertex AI โ

3. Thought Summaries และ Thinking Budgets  

– Thought Summaries : แสดงกระบวนการคิดของโมเดลในรูปแบบที่ชัดเจนและมีโครงสร้าง เช่น ส่วนหัว รายละเอียดสำคัญ และการใช้เครื่องมือ ช่วยให้นักพัฒนาเข้าใจและแก้ไขปัญหาการทำงานของโมเดลได้ง่ายขึ้น  

– Thinking Budgets : ควบคุมจำนวนโทเค็นที่ใช้ในกระบวนการคิด เพื่อปรับสมดุลระหว่างความหน่วงและคุณภาพคำตอบ ผู้ใช้สามารถลดหรือปิดการคิดเพื่อประหยัดต้นทุนได้ โดยฟีเจอร์นี้มีใน 2.5 Flash และจะขยายไปยัง 2.5 Pro ในเร็วๆ นี้

4. ความปลอดภัยขั้นสูง

Gemini 2.5 ได้รับการพัฒนาเพื่อป้องกันภัยคุกคาม เช่น indirect prompt injection ซึ่งเป็นวิธีการโจมตีจากผู้ไม่หวังดีฝังคำสั่งที่เป็นอันตรายลงในข้อมูลที่โมเดล AI ดึงมาใช้ เช่น หน้าเว็บ เอกสาร หรือไฟล์ที่ AI อ่าน เพื่อหลอกให้โมเดลทำตามคำสั่งนั้นโดยที่ผู้ใช้ไม่รู้ตัว

5. รองรับ MCP (Model Context Protocol)

การรวม MCP ใน Gemini API ช่วยให้นักพัฒนาเชื่อมต่อโมเดลกับเครื่องมือโอเพนซอร์สได้ง่ายขึ้น เช่น เครื่องมือวิเคราะห์ข้อมูลหรือระบบอัตโนมัติ Google ยังสำรวจการปรับใช้เซิร์ฟเวอร์ MCP เพื่อสนับสนุนการสร้างแอปพลิเคชัน agentic ที่ AI สามารถทำงานและตัดสินใจได้อย่างอิสระ

Gemini 2.5 Flash พร้อมใช้งานในแอป Gemini และจะเปิดให้ใช้งานทั่วไปใน Google AI Studio และ Vertex AI ในต้นเดือนมิถุนายน 2025 

ส่วน 2.5 Pro จะตามมาในเร็วๆ นี้ โหมด Deep Think ยังอยู่ในขั้นทดสอบเพื่อรับประกันความปลอดภัยก่อนเปิดให้ใช้งาน

ที่มา : Google

CK

CK - นามแฝงจากเรื่องใกล้ตัว คอยแบ่งปันเรื่องไอทีผ่านตัวหนังสือที่จะทำให้คนอ่านเข้าใจง่าย ทั้งข่าว, รีวิวมือถือ หรือจะเป็น How to ก็อยากแชร์ให้ทุกคนได้สัมผัสว่าไม่ใช่เรื่องไกลตัวและไม่ใช่เรื่องยากที่จะเข้าใจ ... ขอให้มีความสุขกับทุกบทความบนเว็บไซต์ 'ตามใจด็อทคอม' - www.tarmjai.com ครับ ^^

Leave a Reply

Your email address will not be published. Required fields are marked *