ESC را فشار دهید تا بسته شود

معیارهای کلیدی عملکرد سیستم که هر مهندس باید بداند

معیارهای عملکرد سیستم که هر مهندس باید بشناسد: از QPS تا قانون لیتل

زمان مطالعه تخمینی: ۸ دقیقه

نکات کلیدی:

  • چهار ستون اصلی: درک تفاوت و رابطه بین QPS (بار)، TPS (موفقیت)، هم‌روندی (اشباع) و زمان پاسخ (تجربه کاربر) ضروری است.
  • تحلیل بر اساس صدک‌ها: برای زمان پاسخ، میانگین هرگز کافی نیست و تحلیل‌های معنادار بر اساس صدک‌هایی مانند P95 و P99 انجام می‌شود.
  • قانون بنیادین لیتل: رابطه ریاضی L = λ * W هم‌روندی، توان عملیاتی و زمان پاسخ را به هم پیوند می‌دهد و ابزاری قدرتمند برای پیش‌بینی است.
  • چارچوب‌های عملیاتی: استفاده از چارچوب‌های ساختاریافته مانند RED (برای سرویس‌ها) و USE (برای منابع) برای تشخیص گلوگاه‌ها حیاتی است.
  • فراتر از متریک‌های پایه: معیارهای مکمل نرخ خطا، میزان استفاده از منابع و اشباع تصویر کاملی از سلامت سیستم ارائه می‌دهند.

فهرست مطالب

مقدمه: زبان مشترک مهندسی سیستم‌های پرترافیک

در دنیای مهندسی نرم‌افزار و مدیریت سیستم‌های توزیع‌شده، عملکرد (Performance) تنها یک ویژگی مطلوب نیست؛ یک ضرورت حیاتی است. سیستم‌های امروزی – از سرویس‌های ابری گرفته تا برنامه‌های موبایل – تحت بارهای کاری عظیم و انتظارات فزاینده کاربران قرار دارند. اما چگونه می‌توان سلامت و کارایی این سیستم‌های پیچیده را اندازه‌گیری کرد؟ پاسخ در درک و نظارت بر مجموعه‌ای از معیارهای عملکرد کلیدی نهفته است. در این مقاله علمی، چهار معیار بنیادی QPS، TPS، Concurrency و Response Time را به همراه چارچوب‌های تحلیلی صنعتی مانند قانون لیتل و روش‌های RED و USE بررسی می‌کنیم. این معیارها، که اغلب به عنوان «سیگنال‌های طلایی» قابلیت مشاهده‌پذیری (Observability) شناخته می‌شوند، پایه‌ای علمی برای تشخیص گلوگاه‌ها، برنامه‌ریزی ظرفیت و تعریف اهداف سطح سرویس (SLOs) فراهم می‌آورند.

بخش اول: چهار ستون بنیادین اندازه‌گیری عملکرد

۱. کوئری بر ثانیه (QPS) یا درخواست بر ثانیه (RPS)

QPS (Queries Per Second) نرخ درخواست‌های ورودی به یک سرویس را اندازه می‌گیرد. این معیار، نشان‌دهنده بار (Load) وارد بر سیستم است.

  • تفاوت QPS اوج و پایدار: یک نکته حیاتی که در منابع معتبری مانند کتاب «مهندسی قابلیت اطمینان سایت» (SRE) گوگل بر آن تأکید شده، تمایز بین QPS اوج (Peak QPS) و QPS پایدار (Sustained QPS) است. QPS اوج، حداکثر باری است که سیستم در لحظات خاص (مانند حراجی‌های فلش) تجربه می‌کند، در حالی که QPS پایدار، متوسط باری است که سیستم می‌تواند به طور مداوم ۲۴ ساعته بدون تخریب عملکرد تحمل کند. بسیاری از خرابی‌های سیستم زمانی رخ می‌دهد که QPS اوج از حد طراحی‌شده برای QPS پایدار فراتر رود.
  • کاربرد: این معیار برای تصمیم‌گیری‌های مربوط به توازن بار (Load Balancing) و اتوسکِیلینگ (Autoscaling) ضروری است.

۲. تراکنش بر ثانیه (TPS)

TPS (Transactions Per Second) نرخ تکمیل موفقیت‌آمیز واحدهای کار را اندازه می‌گیرد. تعریف «تراکنش» وابسته به منطق کسب‌وکار است (مانند یک پرداخت موفق، یک نوشتن پایدار در پایگاه داده).

  • تفاوت کلیدی با QPS: وضعیت موفقیت. تفاوت اصلی بین TPS و QPS در در نظر گرفتن وضعیت موفقیت است. سیستمی با ۱۰,۰۰۰ QPS اما نرخ خطای ۲۰٪، تنها ۸,۰۰۰ TPS برای تراکنش‌های موفق دارد. بنابراین، TPS مستقیماً با درآمد و تجربه کاربر مرتبط است.
  • کاربرد: این معیار، یک شاخص سلامت کسب‌وکار محسوب می‌شود و در چارچوب‌های تحلیل عملکرد مانند روش USE (Utilization, Saturation, Errors) مورد بحث قرار می‌گیرد.

۳. هم‌روندی (Concurrency)

Concurrency تعداد درخواست‌هایی را نشان می‌دهد که در یک لحظه مشخص به طور فعال در حال پردازش هستند. این معیار، نشان‌دهنده اشباع (Saturation) سیستم است.

  • یک حالت اشتقاقی: برخلاف تصور، هم‌روندی معمولاً به صورت مستقیم پیکربندی نمی‌شود؛ بلکه حالتی اشتقاقی است که از رابطه بین QPS و زمان پاسخ (Response Time) حاصل می‌شود (رابطه‌ای که با قانون لیتل توصیف می‌شود). هم‌روندی بالا باعث اشباع منابع (مانند نخ‌ها، اتصالات پایگاه داده، حافظه) می‌شود.
  • کاربرد: درک این مفهوم، کلید طراحی سیستم‌های مقیاس‌پذیر است و دلیل محوری بودن معماری‌های ناهمگام (Async)، اتصال‌های استخری (Connection Pooling) و I/O غیرمسدودکننده (Non-blocking) برای سیستم‌های با هم‌روندی بالا را توضیح می‌دهد.

۴. زمان پاسخ (Response Time) یا تاخیر (Latency)

Response Time مدت زمان بین ارسال یک درخواست و دریافت پاسخ کامل را اندازه می‌گیرد. این معیار، تجربه مستقیم کاربر از سرعت سیستم است.

  • هشدار مهم: میانگین هرگز کافی نیست. یکی از مهم‌ترین درس‌های فرهنگ مهندسی شرکت‌هایی مانند آمازون و نتفلیکس این است که هرگز نباید تنها به میانگین تاخیر نگاه کرد. تحلیل باید بر اساس صدک‌ها (Percentiles) مانند P50، P90، P95، P99 و P99.9 انجام شود.
    • P50 (میانه): تجربه کاربری معمول را نشان می‌دهد.
    • P95/P99 (تاخیر دنباله): تجربه کندترین کاربران شما را نشان می‌دهد. یک P99 بد می‌تواند کاربران را فراری دهد حتی اگر P50 عالی باشد.

مثال: اگر زمان پاسخ P99 برابر ۲ ثانیه باشد، از هر ۱۰۰ درخواست، یکی کند است. در نرخ ۱۰,۰۰۰ QPS، این به معنای تجربه بد برای ۱۰۰ کاربر در هر ثانیه است. تحقیقات نشان می‌دهند افزایش ۱۰۰ میلی‌ثانیه‌ای در تاخیر می‌تواند تا ۱٪ از درآمد یا تعامل کاربر بکاهد.

بخش دوم: قانون بنیادین: قانون لیتل (Little’s Law)

رابطه ریاضی زیبایی که سه معیار QPS، Concurrency و Response Time را به هم پیوند می‌دهد، قانون لیتل است. این قانون از تئوری صف‌بندی نشأت می‌گیرد و به صورت زیر بیان می‌شود:

L = λ * W

  • L = متوسط هم‌روندی (تعداد درخواست‌های در حال پردازش)
  • λ = متوسط توان عملیاتی (Throughput) – معمولاً QPS یا TPS
  • W = متوسط زمان پاسخ (Response Time)

کاربرد عملی: اگر سرویس شما متوسط زمان پاسخ (W) برابر ۵۰ میلی‌ثانیه (۰.۰۵ ثانیه) داشته باشد و نرخ ورودی (λ) ۱۰۰۰ QPS باشد، متوسط هم‌روندی (L) شما برابر است با 1000 * 0.05 = 50. این بدان معناست که به طور میانگین، ۵۰ درخواست به طور همزمان در حال پردازش هستند. این قانون ابزاری قدرتمند برای پیش‌بینی رفتار سیستم تحت بارهای مختلف است.

بخش سوم: فراتر از چهار معیار اصلی: متریک‌های مکمل ضروری

هیچ تحلیل عملکردی بدون در نظر گرفتن این معیارهای مرتبط کامل نیست. این معیارها در گزارش‌های پس‌حادثه (Post-mortem) و راهنمای نظارت صنعت consistently مورد تأکید قرار می‌گیرند:

  • نرخ خطا (Error Rate): درصد درخواست‌های ناموفق. این معیار اغلب بخشی از SLOها تعریف می‌شود (مثلاً ۹۹.۹٪ از درخواست‌ها موفقیت‌آمیز باشند). افزایش نرخ خطا همراه با افزایش QPS، نشانه کلاسیک از کار افتادن یک وابستگی (Dependency) یا اتمام یک منبع است.
  • میزان استفاده از منابع (Resource Utilization): نشان می‌دهد چه مقدار از یک منبع کلیدی (مانند CPU، حافظه، دیسک I/O، پهنای باند شبکه) استفاده شده است. استفاده بالا و پایدار از یک منبع (مثلاً بیش از ۷۰٪) اغلب منجر به افزایش تاخیر و صف‌بندی می‌شود.
  • اشباع (Saturation): درجه‌ای که یک منبع کار بیشتری از حد توانایی خود دارد که منجر به تشکیل صف می‌شود. معیارهایی مانند استفاده از حافظه Swap (در لینوکس)، طول صف اجرا (Run-queue length) و زمان انتظار برای اتصالات پایگاه داده، همگی نشان‌دهنده اشباع هستند.
  • در دسترس‌پذیری و زمان فعالیت (Availability & Uptime): نسبت زمانی که سیستم عملکردی و عملیاتی است، که اغلب به صورت «عدد نه» (مانند ۹۹.۹۹٪) بیان می‌شود.

بخش چهارم: چارچوب‌های صنعتی برای تحلیل ساختاریافته

مهندسان برای اعمال این معیارها از روش‌شناسی‌های ثابت‌شده‌ای استفاده می‌کنند:

۱. روش RED (مخصوص ریزسرویس‌ها)

این روش برای نظارت بر سرویس‌ها، به ویژه در معماری میکروسرویس، محبوب است.

  • Rate: نرخ (QPS/TPS)
  • Errors: نرخ خطا
  • Duration: مدت زمان (زمان پاسخ بر اساس صدک‌ها)

۲. روش USE (مخصوص تشخیص گلوگاه‌های زیرساخت)

این روش برای بررسی منابع سخت‌افزاری یا زیرساختی بهینه است.

  • Utilization: میزان استفاده از یک منبع
  • Saturation: میزان اشباع (طول صف) یک منبع
  • Errors: نرخ خطا برای آن منبع خاص

۳. شاخص‌ها و اهداف سطح سرویس (SLIs/SLOs)

این روش، تمرین حرفه‌ای تعیین اهداف عملکرد با استفاده از معیارهای فوق است.

  • SLI (Service Level Indicator): معیار اندازه‌گیری شده (مانند زمان پاسخ P99 API).
  • SLO (Service Level Objective): هدف تعیین‌شده برای آن SLI (مانند: «زمان پاسخ P99 API در ۹۹٪ از فصل‌های سال تقویم زیر ۲۰۰ میلی‌ثانیه خواهد بود»).

بخش پنجم: روندهای آینده و جمع‌بندی نهایی

فرهنگ مهندسی عملکرد به سمت قابلیت مشاهده‌پذیری (Observability) پیشرفته در حرکت است. همان‌طور که متفکرانی مانند سیندی سریداران استدلال می‌کنند، تنها نظارت (Monitoring) بر این چهار معیار کافی نیست. سیستم‌های مدرن نیازمند پلتفرم‌هایی هستند که امکان پرسش‌های خاص و ad-hoc را فراهم کنند تا بتوان دلیل تغییر یک متریک را ریشه‌یابی کرد. این امر از طریق ادغام معیارهای پایه با ردیابی توزیع‌شده (Distributed Tracing) و لاگ‌های ساختاریافته (Structured Logs) محقق می‌شود.

نتیجه‌گیری

چهار معیار QPS، TPS، Concurrency و Response Time واژگان ضروری برای گفتگو درباره عملکرد سیستم هستند. قدرت واقعی این معیارها زمانی آشکار می‌شود که:

  1. رابطه ریاضی آن‌ها را از طریق قانون لیتل درک کنیم.
  2. آن‌ها را با صدک‌ها (و نه میانگین) تحلیل کنیم.
  3. آن‌ها را با معیارهای مکملی مانند نرخ خطا و میزان استفاده از منابع ادغام کنیم.
  4. آن‌ها را در یک چارچوب رسمی مانند RED/USE و در بستر کسب‌وکار از طریق SLOها قرار دهیم.

یک سیستم به صورت انتزاعی «کند» نیست؛ بلکه برای یک صدک خاص از کاربران، در سطح خاصی از هم‌روندی کند است، و اغلب به این دلیل که یک منبع خاص به اشباع رسیده است. این معیارها، زبان دقیقی برای تشخیص و حل آن مشکل در اختیار مهندسان قرار می‌دهند.

سوالات متداول (FAQ)

تفاوت اصلی QPS و TPS چیست؟
تفاوت اصلی در وضعیت موفقیت است. QPS تمام درخواست‌های ورودی را می‌شمارد، در حالی که TPS تنها واحدهای کاری که با موفقیت تکمیل شده‌اند را شمارش می‌کند. TPS شاخص بهتری برای سلامت کسب‌وکار است.

چرا تحلیل زمان پاسخ بر اساس میانگین گمراه‌کننده است؟
زیرا توزیع زمان پاسخ اغلب «دنباله‌دار» است. چند درخواست بسیار کند می‌توانند میانگین را به شدت افزایش دهند در حالی که تجربه اکثر کاربران خوب است. تحلیل بر اساس صدک‌ها (مثل P99) تجربه کاربران در بدترین شرایط را نشان می‌دهد.

قانون لیتل در عمل چه کمکی می‌کند؟
این قانون با رابطه هم‌روندی = توان عملیاتی × زمان پاسخ به شما امکان می‌دهد با دانستن دو متغیر، سومی را پیش‌بینی کنید. مثلاً برای برنامه‌ریزی ظرفیت یا درک اینکه افزایش زمان پاسخ تحت بار سنگین چقدر هم‌روندی را افزایش می‌دهد.

روش RED و USE چه زمانی استفاده می‌شوند؟
معمولاً از روش RED برای نظارت سطح سرویس (مثل یک API) و از روش USE برای عیب‌یابی و تشخیص گلوگاه در منابع زیرساختی خاص (مانند CPU، دیسک، شبکه) استفاده می‌شود.

SLO چیست و چرا مهم است؟
SLO (هدف سطح سرویس) یک توافق درون‌سازمانی قابل اندازه‌گیری درباره سطح عملکرد قابل قبول یک سرویس است (مثلاً دسترس‌پذیری ۹۹.۹٪). SLOها برای مدیریت انتظارات، اولویت‌بندی کارها و تصمیم‌گیری‌های مهندسی مبتنی بر داده حیاتی هستند.