Monitor Infrastructure ? แนวทางปฎิบัติ การใช้งาน

Monitor Infrastructure ? แนวทางปฎิบัติ การใช้งาน

การรักษาประสิทธิภาพความพร้อมใช้งานและสุขภาพของโครงสร้างพื้นฐานด้านไอทีเป็นสิ่งสําคัญอย่างยิ่งในภูมิทัศน์ดิจิทัลในปัจจุบัน นั่นคือจุดที่การตรวจสอบโครงสร้างพื้นฐานเข้ามามีบทบาท หัวใจหลักของมันคือระบบที่ออกแบบมาเพื่อให้ข้อมูลเชิงลึกแบบเรียลไทม์ในสแต็กทั้งหมดของคุณเพื่อให้มั่นใจถึงประสิทธิภาพที่ดีที่สุดและชี้ให้เห็นปัญหาที่อาจเกิดขึ้นก่อนที่จะบานปลาย ตั้งแต่บริการคลาวด์ไปจนถึงเซิร์ฟเวอร์ในสถานที่เราจะเจาะลึกลงไปในการตรวจสอบโครงสร้างพื้นฐานความสําคัญฟังก์ชันการทํางานและผลกระทบต่อธุรกิจสมัยใหม่ มาเริ่มกันเลย

 infrastructure monitoring คืออะไร

เป็นซอฟต์แวร์ที่ช่วยให้คุณตรวจสอบระบุและแก้ไขปัญหาในโครงสร้างพื้นฐานทั้งหมดของคุณได้อย่างรวดเร็วรวมถึงบริการบนคลาวด์โฮสต์ในสถานที่คอนเทนเนอร์ที่ประสานและเครื่องเสมือน คุณสามารถใช้การตรวจสอบโครงสร้างพื้นฐานเพื่อรับความสามารถในการสังเกตได้อย่างสมบูรณ์ของระบบที่ซับซ้อนและไฮบริด เช่น ศูนย์ข้อมูลและบริการบนระบบคลาวด์ เช่น Amazon Web Services (AWS) และ Microsoft Azure

คุณยังสามารถใช้การตรวจสอบโครงสร้างพื้นฐานเพื่อให้มุมมองระดับสูงของ CPU, RAM, ที่เก็บข้อมูลและการรับส่งข้อมูลเครือข่ายของระบบของคุณ ด้วยข้อมูลเชิงลึกเหล่านี้วิศวกรสามารถระบุและแก้ไขปัญหาด้านประสิทธิภาพภายในเซิร์ฟเวอร์คอนเทนเนอร์คลัสเตอร์ Kubernetes ฐานข้อมูลบริการโฮสต์และอื่น ๆ ไม่ว่าจะเป็นแบบ on-prem หรือในระบบคลาวด์ โดยเฉพาะอย่างยิ่งการตรวจสอบโครงสร้างพื้นฐานมอบเมตริกประสิทธิภาพเชิงลึกค่าแนวโน้มและข้อมูลเชิงลึกเชิงคาดการณ์ที่ช่วยให้ธุรกิจสามารถปรับแต่งทรัพยากรปรับปรุงเวลาทํางานและรับประกันบริการที่ราบรื่น

โครงสร้างพื้นฐานของแอปพลิเคชันคืออะไร

โครงสร้างพื้นฐานของแอปพลิเคชันคือสินทรัพย์ทั้งหมดที่ช่วยให้ระบบและเทคโนโลยีของคุณทํางานได้ รวมถึงเครือข่าย อุปกรณ์ฮาร์ดแวร์ และเซิร์ฟเวอร์ ไม่ว่าจะอยู่ในระบบคลาวด์หรือในองค์กร แม้ว่าคุณจะใช้โซลูชันคลาวด์ แต่โครงสร้างพื้นฐานนั้นยังคงใช้เซิร์ฟเวอร์จริงที่ใดที่หนึ่ง โครงสร้างพื้นฐานของแอปพลิเคชันเป็นเหมือนรากฐานของอาคาร คุณไม่สามารถมองเห็นได้ แต่มันสนับสนุนอาคารทั้งหมด

ในที่สุดคุณสามารถนึกถึงโครงสร้างพื้นฐานของแอปพลิเคชันที่ประกอบด้วยสามชั้น:

Hardware: ฮาร์ดแวร์: ฮาร์ดแวร์ประกอบด้วยส่วนประกอบทางกายภาพทั้งหมดที่โฮสต์โครงสร้างพื้นฐานของคุณ อุปกรณ์เครือข่าย และอุปกรณ์ทางกายภาพอื่นๆ ที่ระบบของคุณใช้ เลเยอร์นี้สร้างขึ้นจากไมโครชิปรวมถึงชิปลอจิก (ซีพียู) และชิปหน่วยความจํา (RAM) นอกจากนี้ยังมีชิปประเภทอื่น ๆ รวมถึงหน่วยประมวลผลประสาท (NPU) ซึ่งออกแบบมาสําหรับแอปพลิเคชันแมชชีนเลิร์นนิ่ง

ระบบปฏิบัติการ (OS) : ระบบปฏิบัติการมีอินเทอร์เฟซที่เชื่อมต่อโครงสร้างพื้นฐานแอปพลิเคชันสองชั้น: ฮาร์ดแวร์และแอปพลิเคชันเอง ระบบปฏิบัติการรันแอปพลิเคชันในขณะที่ใช้ทรัพยากรฮาร์ดแวร์เช่นซีพียูและแรม นอกจากนี้ยังรวมถึงเครื่องเสมือนซึ่งมีระบบปฏิบัติการของตัวเอง

Application : นี่คือแอปพลิเคชันเองซึ่งอาจเป็นแอปพลิเคชันที่กําหนดเองที่คุณพัฒนาขึ้นหรือแอปพลิเคชันที่ใช้ระบบการจัดการเนื้อหาเช่น WordPress เลเยอร์แอปพลิเคชันยังรวมถึงคอนเทนเนอร์ซึ่งใช้ในการเรียกใช้แอปพลิเคชันจํานวนมาก ถ้าคุณกําลังใช้เซิร์ฟเวอร์ภายในองค์กร คุณต้องคิดถึงเลเยอร์เหล่านี้ทั้งหมด รวมถึงการทําให้แน่ใจว่าฮาร์ดแวร์ของคุณทํางานอย่างถูกต้อง ด้วยโครงสร้างพื้นฐานบนคลาวด์คุณไม่ต้องกังวลกับฮาร์ดแวร์ในลักษณะเดียวกันอีกต่อไปเนื่องจากผู้ให้บริการคลาวด์ของคุณดูแลโครงสร้างพื้นฐานที่โฮสต์ซอฟต์แวร์และแอปพลิเคชันของคุณ อย่างไรก็ตาม คุณยังคงต้องคิดถึงการเตรียมใช้งานทรัพยากร เช่น CPU หน่วยความจํา

ที่เก็บข้อมูล และระบบเครือข่าย หากแอปพลิเคชันของคุณมีการเตรียมใช้งานน้อยเกินไปแอปพลิเคชันจะทํางานไม่ถูกต้องและหากมีการจัดสรรมากเกินไปคุณจะต้องเสียเงินไปกับความจุที่คุณไม่ต้องการ

เหตุใดการตรวจสอบโครงสร้างพื้นฐานจึงมีความสําคัญ

ไม่ว่าแอปพลิเคชันของคุณจะใช้โฮสต์บนระบบคลาวด์หรือภายในองค์กร (หรือทั้งสองอย่าง) โครงสร้างพื้นฐานจะเป็นรากฐานสําหรับระบบของคุณ เช่นเดียวกับที่รถไฟสามารถทํางานได้บนรางที่ได้รับการดูแลอย่างดีเท่านั้นระบบของคุณต้องการเซิร์ฟเวอร์ที่มีประสิทธิภาพและเชื่อถือได้เพื่อให้แน่ใจว่าบริการจะถูกส่งไปยังผู้ใช้ของคุณ เมื่อโครงสร้างพื้นฐานหยุดทํางานประสิทธิภาพของแอปพลิเคชันของคุณจะหยุดทํางานและคุณอาจหยุดทํางาน เนื่องจากเงินเดิมพันสูงมากการบํารุงรักษาโครงสร้างพื้นฐานจึงอาจเป็นเรื่องที่ท้าทายและเครียด แม้ว่าเซิร์ฟเวอร์ของคุณจะมีเวลาทํางานเกือบ 100% แต่การหยุดทํางานที่เกิดขึ้นอาจรุนแรง การหยุดทํางานและการหยุดทํางานส่งผลกระทบต่ออํานาจและความไว้วางใจของผู้ใช้ อย่างดีที่สุดผู้ใช้ของคุณไม่สามารถเข้าถึงบริการของคุณได้ในระหว่างการหยุดทํางานและที่แย่ที่สุดคือผู้ใช้ของคุณรู้สึกหงุดหงิดและไม่กลับมาอีก

ในขณะที่คุณสามารถตรวจสอบสิ่งต่างๆเช่น CPU และ RAM ของระบบบนบรรทัดคําสั่งของระบบปฏิบัติการคุณต้องมีโซลูชันที่ครอบคลุมมากขึ้นสําหรับการตรวจสอบโครงสร้างพื้นฐานของแอปพลิเคชันโดยเฉพาะอย่างยิ่งเมื่อแอปพลิเคชันของคุณมีขนาดใหญ่ขึ้นและซับซ้อนขึ้น นั่นคือที่มาของเครื่องมือตรวจสอบโครงสร้างพื้นฐาน เครื่องมือตรวจสอบโครงสร้างพื้นฐานเช่น New Relic ช่วยให้คุณเห็นภาพโครงสร้างพื้นฐานของระบบทั้งหมดได้จากที่เดียวรวมถึงเมตริกเหตุการณ์บันทึกและการติดตาม (MELT)

การตรวจสอบโครงสร้างพื้นฐานเป็นเพียงส่วนหนึ่งของการปฏิบัติที่สังเกตได้อย่างสมบูรณ์ ความสามารถในการสังเกตเป็นเรื่องเกี่ยวกับการรวบรวมการแสดงภาพและการแจ้งเตือนข้อมูลในเชิงรุกในทุกระบบของคุณรวมถึงโครงสร้างพื้นฐานของคุณ ตามหลักการแล้วแพลตฟอร์มที่คุณใช้ควรตรวจสอบด้านอื่น ๆ ของแอปพลิเคชันของคุณรวมถึงประสิทธิภาพของแอปพลิเคชัน ด้วยวิธีนี้คุณสามารถระบุและแก้ไขข้อผิดพลาดที่เกิดขึ้นในโครงสร้างพื้นฐานของคุณและที่อื่น ๆ ในแอปพลิเคชันของคุณ

ประโยชน์ของการตรวจสอบโครงสร้างพื้นฐาน:

  • ค้นหาและแก้ไขปัญหาการหยุดทํางานและปัญหาอื่นๆ ที่เกี่ยวข้องกับโครงสร้างพื้นฐานได้อย่างรวดเร็ว
  • สนับสนุนทีมวิศวกรรม DevOps และไอทีของคุณที่ทํางานด้วยและพึ่งพาโครงสร้างพื้นฐานของแอปพลิเคชัน
  • มอบประสบการณ์เชิงบวกที่สม่ําเสมอและสม่ําเสมอแก่ผู้ใช้ปลายทางซึ่งจะส่งผลดีต่อผลกําไร

คุณสามารถตรวจสอบอะไรได้บ้างด้วยโซลูชันการตรวจสอบโครงสร้างพื้นฐาน

โซลูชันการตรวจสอบโครงสร้างพื้นฐานช่วยให้คุณสามารถตรวจสอบทุกส่วนของโครงสร้างพื้นฐานแอปพลิเคชันของคุณ ในกรณีของ New Relic คุณจะได้รับสิ่งต่อไปนี้ตามค่าเริ่มต้นเมื่อโครงสร้างพื้นฐานของคุณเป็นเครื่องมือ:

  • สถานะปัจจุบันของเซิร์ฟเวอร์ รวมถึง CPU หน่วยความจํา ดิสก์ และเครือข่าย การใช้งานและความจุของอุปกรณ์จัดเก็บข้อมูลที่เชื่อมโยงกับเซิร์ฟเวอร์
  • ข้อมูลการใช้งานสําหรับอุปกรณ์เครือข่ายแต่ละเครื่องที่เชื่อมโยงกับเซิร์ฟเวอร์ข้อมูลเกี่ยวกับคอนเทนเนอร์ Docker และคลัสเตอร์ Kubernetes ทั้งหมด รวมถึงตัววัดเกี่ยวกับ CPU หน่วยความจํา และเครือข่าย
  • การเปลี่ยนแปลงใด ๆ ในสถานะสดของระบบซึ่งจะถูกเก็บไว้ใน InfrastructureEvent

นอกจากเครื่องมือวัดแล้วคุณยังสามารถใช้การผสานรวมเพื่อวิเคราะห์แสดงภาพและแจ้งเตือนข้อมูลจากส่วนอื่น ๆ ของโครงสร้างพื้นฐานของคุณ New Relic มีการรวมโครงสร้างพื้นฐานสองประเภทหลัก:

แพลตฟอร์มการตรวจสอบโครงสร้างพื้นฐานควรให้ความยืดหยุ่นเพียงพอสําหรับโซลูชันที่กําหนดเองของคุณเอง คุณยังสามารถสร้างสรรค์และตรวจสอบโครงสร้างพื้นฐานในสภาพแวดล้อมที่บ้านของคุณได้เช่นกัน นี่คือวิธีที่วิศวกรใช้ New Relic เพื่อตรวจสอบแผงโซลาร์เซลล์ที่บ้านของเขา


ภาพถัดไปแสดงตัวอย่างของการตรวจสอบคลัสเตอร์ Kubernetes ใน New Relic Explorer

metrics การตรวจสอบโครงสร้างพื้นฐาน metrics

การตรวจสอบโครงสร้างพื้นฐานให้ความกระจ่างเกี่ยวกับประสิทธิภาพและความน่าเชื่อถือของระบบของคุณ

ต่อไปนี้คือmetricsที่ได้รับการตรวจสอบโดยทั่วไป :

CPU metrics

  • การใช้งาน CPU
  • ค่าเฉลี่ยโหลด CPU
  • เวลาว่างของ CPU
  • เวลารอ CPU

metrics หน่วยความจํา

  • หน่วยความจําทั้งหมด
  • หน่วยความจําที่ใช้
  • หน่วยความจําว่าง
  • สลับหน้าหน่วยความจํา

Disk metrics

  • เวลาทํางาน / หยุดทํางาน
  • ความพร้อมใช้งานของระบบ
  • ข้อผิดพลาดของฮาร์ดแวร์
  • สถานะบริการ/กระบวนการ

รายการนี้ไม่ครบถ้วนสมบูรณ์และเมตริกอาจแตกต่างกันไปขึ้นอยู่กับลักษณะที่แน่นอนของโครงสร้างพื้นฐาน ถึงกระนั้นสิ่งเหล่านี้ให้ความเข้าใจพื้นฐานเกี่ยวกับช่วงของเมตริกที่จําเป็นต่อการตรวจสอบโครงสร้างพื้นฐานของคุณ

กรณีการใช้งานการตรวจสอบโครงสร้างพื้นฐานการตรวจสอบโครงสร้างพื้นฐานทําหน้าที่เป็นตาและหูของทีมไอทีโดยนําเสนอข้อมูลเชิงลึกที่ขยายไปทั่วสถานการณ์การดําเนินงานต่างๆ

เหล่านี้รวมถึงต่อไปนี้ :

การตรวจจับปัญหาเชิงรุก: ก่อนที่ความผิดพลาดเล็กน้อยจะบานปลายไปสู่การหยุดทํางานครั้งใหญ่เครื่องมือตรวจสอบโครงสร้างพื้นฐานสามารถแจ้งเตือนผู้ดูแลระบบให้ดําเนินการได้

การตรวจสอบสถานะการออนไลน์และประสิทธิภาพของเว็บไซต์ : เครื่องมือตรวจสอบสามารถดูแลความสมบูรณ์ของเว็บเซิร์ฟเวอร์การตอบสนองฐานข้อมูลและแม้แต่ประสบการณ์ของผู้ใช้ปลายทางแบบเรียลไทม์

การปฏิบัติตามกฎระเบียบ : การตรวจสอบและการบันทึกอย่างต่อเนื่องสามารถให้เส้นทางกิจกรรมโดยละเอียดเพื่อให้มั่นใจว่าเป็นไปตามมาตรฐานการปฏิบัติตามข้อกําหนด

คําติชมหลังการปรับใช้: สําหรับธุรกิจที่นําแนวทางปฏิบัติของ DevOps มาใช้ การตรวจสอบจะให้ข้อเสนอแนะหลังการปรับใช้ ทําให้ง่ายต่อการระบุความไร้ประสิทธิภาพ

การตรวจสอบโครงสร้างพื้นฐานทํางานอย่างไร เช่นเดียวกับการตรวจสอบประเภทอื่น ๆ การตรวจสอบโครงสร้างพื้นฐานมักจะเกี่ยวข้องกับการใช้เครื่องมือโฮสต์โดยการติดตั้งตัวแทน ในกรณีของโซลูชันการตรวจสอบเช่น New Relic คุณสามารถเริ่มกระบวนการใช้เครื่องมือด้วยการติดตั้งที่แนะนําอย่างง่าย เอเจนต์จะตรวจจับแอ็พพลิเคชันและแหล่งบันทึกที่ทํางานในสภาพแวดล้อมของคุณโดยอัตโนมัติ จากนั้นจึงแนะนําว่าคุณควรใช้เครื่องมือใด
เมื่อโฮสต์ของคุณใช้เครื่องมืออย่างเต็มที่ตัวแทนจะรวบรวมข้อมูลระบบและส่งไปยังโซลูชันการตรวจสอบโครงสร้างพื้นฐานของคุณ ในบางกรณี เอเจนต์จะส่งต่อข้อมูลและบันทึก โดยเฉพาะอย่างยิ่งในกรณีของการผสานรวม


แผนภูมิต่อไปนี้แสดงให้เห็นว่าการรวม New Relic on-host รับข้อมูลจากบริการเช่น Redis หรือ Apache อย่างไร

บันทึกซึ่งเป็นการดําเนินการที่ไม่ต่อเนื่องที่เกิดขึ้นในแอปพลิเคชันเป็นส่วนประกอบสําคัญของเมตริกเหตุการณ์และการติดตาม พวกเขาทําจากข้อความบรรทัดเดียว

ตัวอย่างเช่นเซิร์ฟเวอร์ NGINX จะบันทึกธุรกรรมทั้งหมดที่เกิดขึ้น เหตุการณ์อาจประกอบด้วยข้อมูลบันทึกหลายบรรทัด นอกจากการติดตามซึ่งเชื่อมโยงเหตุการณ์เข้าด้วยกันแล้วเหตุการณ์ยังให้บริบทเพิ่มเติมเกี่ยวกับสิ่งที่เกิดขึ้นในโครงสร้างพื้นฐานของคุณ
สุดท้ายเมตริกเป็นข้อมูลรวมทําให้คุณมีมุมมองระดับสูงเกี่ยวกับสิ่งที่เกิดขึ้นในแอปพลิเคชันของคุณ ตัวอย่างคือเวลาแฝงเฉลี่ยของบริการในช่วงเจ็ดวันที่ผ่านมา เมตริกวาดภาพใหญ่ขึ้นสําหรับคุณและมีประโยชน์อย่างยิ่งสําหรับการแสดงภาพสุขภาพโดยรวมและประสิทธิภาพของโครงสร้างพื้นฐานของคุณ สิ่งสําคัญคือต้องรู้ว่าการหยุดชะงักของโครงสร้างพื้นฐานเข้ามามีบทบาทอย่างไรเนื่องจากการใช้เทคโนโลยีเชิงรุกเพื่อขับเคลื่อนนวัตกรรมทางธุรกิจกําลังโดดเด่น

แนวทางปฏิบัติที่ดีที่สุดในการตรวจสอบโครงสร้างพื้นฐานใช้แนวทางแบบองค์รวม : ก้าวไปไกลกว่าการตรวจสอบส่วนประกอบที่แยกได้และพิจารณาระบบนิเวศโครงสร้างพื้นฐานทั้งหมดรวมถึงเซิร์ฟเวอร์ฐานข้อมูลอุปกรณ์เครือข่ายและแอปพลิเคชัน

ตั้งค่าการแจ้งเตือนที่ครอบคลุม : ด้วยระบบการแจ้งเตือนที่เหมาะสมทีมสามารถเปลี่ยนจากเชิงรับเป็นเชิงรุกได้ เลือกสิ่งที่คุณต้องการแจ้งเตือนอย่างมีกลยุทธ์

ตรวจสอบเมตริกและข้อมูลที่รวบรวมเป็นประจํา : ตรวจสอบให้แน่ใจว่าเครื่องมือและพารามิเตอร์การตรวจสอบของคุณยังคงมีความเกี่ยวข้องเมื่อโครงสร้างพื้นฐานของคุณพัฒนาขึ้นการทดสอบ: การทดสอบโครงสร้างพื้นฐานของคุณภายใต้สภาวะโหลดสูงจะเปิดเผยจุดอ่อนที่อาจเกิดขึ้นและหลีกเลี่ยงภัยพิบัติในโลกแห่งความเป็นจริง

สร้างแดชบอร์ดการตรวจสอบโครงสร้างพื้นฐานสําหรับทีมของคุณ : แดชบอร์ดการตรวจสอบโครงสร้างพื้นฐานเป็นศูนย์กลางสําหรับการทําความเข้าใจสถานะของระบบปัจจุบันของคุณ ใช้พวกเขาเพื่อหารือวิเคราะห์และทํางานร่วมกันในประเด็นต่างๆในขณะที่มีความเข้าใจร่วมกันเกี่ยวกับประสิทธิภาพของโครงสร้างพื้นฐาน เลือกเครื่องมือตรวจสอบโครงสร้างพื้นฐานที่เหมาะสม : เลือกเครื่องมือที่สอดคล้องกับความต้องการ ขนาด และวัตถุประสงค์ขององค์กรของคุณ อย่าลืมพิจารณาประสบการณ์ของผู้ใช้ความสามารถในการผสานรวมความน่าเชื่อถือและความคุ้มค่า

ทําไมต้องตรวจสอบโครงสร้างพื้นฐานด้วย New Relic ?

อนาคตของการตรวจสอบโครงสร้างพื้นฐานและการสังเกตด้วย New Relic แพลตฟอร์มของเราไม่เพียง แต่ช่วยให้วิศวกรทุกคนมีความสามารถมากกว่า 30 รายการใน APM โครงสร้างพื้นฐานและอื่น ๆ แต่ยังมาพร้อมกับรูปแบบการกําหนดราคาตามการบริโภคที่ช่วยลดค่าธรรมเนียมใบอนุญาตต่อผู้ใช้ ซึ่งหมายความว่าคุณสามารถจัดการค่าใช้จ่ายในการดําเนินงานของคุณได้อย่างมีประสิทธิภาพมากขึ้นในขณะที่มอบเครื่องมือที่จําเป็นให้กับวิศวกรทุกคน

การกําหนดราคาที่คุ้มค่าและโปร่งใส

รวมชุดเครื่องมือของคุณและจัดการต้นทุนอย่างมีประสิทธิภาพเมื่อคุณปรับขนาด ด้วยการกําหนดราคาตามการบริโภคของ New Relic คุณสามารถใช้จ่ายเพียงหนึ่งในสามของสิ่งที่คุณทํากับ Datadog สําหรับการเปรียบเทียบโดยละเอียดโปรดดูบล็อกการเปรียบเทียบ Datadog กับ New Relic ของเรา


ทําลายไซโลข้อมูลเพื่อการแก้ไขอย่างรวดเร็ว

บอกลาไซโลข้อมูล New Relic เชื่อมต่อ APM และข้อมูลโครงสร้างพื้นฐานของคุณ ซึ่งให้การมองเห็นที่ไม่จํากัดทั่วทั้งสแต็กของคุณ มุมมองแบบองค์รวมนี้ช่วยให้ทีมสามารถแก้ไขปัญหาด้านประสิทธิภาพได้เร็วขึ้นถึง 80% ไม่ว่าพวกเขาจะอยู่ทีมใด


การทํางานร่วมกันอย่างราบรื่นระหว่างทีม

แพลตฟอร์มการสังเกตเดียวของเราทําหน้าที่เป็นแหล่งความจริงแบบครบวงจรช่วยให้วิศวกรจากทุกทีมสามารถทํางานร่วมกันได้อย่างมีประสิทธิภาพเมื่อเกิดปัญหาขึ้น ไม่จําเป็นต้องใช้เครื่องมือเพิ่มเติมและไม่จําเป็นต้องผ่านการจัดซื้อเพื่อเพิ่มผู้ใช้หรือ SKU

ข้อมูลจาก :New Relic

Naruemon Paengjaem
Naruemon Paengjaem