SLA چیست؟ راهنمای کامل Service Level Agreement در خدمات ابری

در دنیای خدمات ابری، فقط این‌که یک سرویس «کار کند» کافی نیست. سازمان‌ها، استارتاپ‌ها و تیم‌های فنی به یک تعهد روشن نیاز دارند که مشخص کند سرویس تا چه حد در دسترس خواهد بود، در چه شرایطی قابل‌قبول محسوب می‌شود، اگر service level رعایت نشود چه اتفاقی می‌افتد، و مسئولیت هر طرف دقیقاً چیست. اینجاست که SLA یا Service Level Agreement وارد می‌شود؛ یعنی قرارداد سطح خدمت بین ارائه‌دهنده و مشتری که حداقل‌های قابل‌انتظار را مشخص می‌کند و در صورت عدم تحقق، پیامدهای قراردادی مثل service credit را تعریف می‌کند. Microsoft SLA را به‌صراحت یک commitment قراردادی با consequences مشخص برای targets برآورده‌نشده معرفی می‌کند.

اگر هنوز با فلسفه DevOps و نقش آن در پایداری سرویس‌ها آشنا نیستید، پیشنهاد می‌کنیم ابتدا مقاله «DevOps چیست؟ راهنمای کامل از صفر تا حرفه‌ای (۲۰۲۶)» را مطالعه کنید تا بهتر متوجه شوید SLA در چه مدل عملیاتی معنا پیدا می‌کند.

در فضای cloud، SLA فقط یک بند حقوقی نیست؛ یک ابزار معماری و عملیاتی هم هست. وقتی شما روی یک سرویس ابری بنا می‌گذارید، عملاً بخشی از ریسک availability، connectivity، durability و recovery را به provider می‌سپارید. اما این سپردن، کورکورانه نیست؛ چون SLA دقیقاً تعریف می‌کند provider چه چیزی را تضمین می‌کند، چه چیزهایی را تضمین نمی‌کند، و اگر اتفاقی افتاد، چه جبرانی وجود دارد. NIST نیز در بحث procurement سرویس‌های ابری تأکید می‌کند که SLAها باید requirements شفاف و measurable داشته باشند تا delivery و remedies قابل‌سنجش باشند.

چرخه حیات SLA - Discover، Define، Establish، Monitor، Terminate و Enforce👇

۱. SLA دقیقاً چیست؟

SLA مخفف Service Level Agreement است؛ یعنی توافق‌نامه‌ای که سطح خدمت، معیارهای آن، نحوه‌ی اندازه‌گیری و پیامدهای عدم تحقق آن را مشخص می‌کند. در cloud، این توافق معمولاً میان provider و customer امضا یا به‌صورت قراردادی پذیرفته می‌شود و روی موضوعاتی مثل uptime، response time، connectivity، support، service credits و scope of responsibility تمرکز دارد. Azure به‌صراحت می‌گوید SLA یک commitment برای uptime و connectivity است و برای برخی خدمات، service credit هم تعریف می‌کند.
مثال ساده

فرض کن شما یک وب‌اپلیکیشن مالی روی Cloud اجرا می‌کنی. اگر provider اعلام کند که یک سرویس خاص 99.95% uptime دارد، یعنی از نظر قراردادی انتظار می‌رود آن سرویس تقریباً همیشه در دسترس باشد و اگر این حداقل رعایت نشود، customer می‌تواند مطابق SLA از service credit استفاده کند. Google Cloud برای بسیاری از سرویس‌هایش دقیقاً چنین چارچوبی دارد و در SLAهای رسمی، Monthly Uptime Percentage و Financial Credits را مشخص می‌کند.

۲. SLA در cloud چرا این‌قدر مهم است؟

در onpremise، اگر یک سرور خراب شود، سازمان معمولاً خودش مسئول همه‌چیز است: سخت‌افزار، برق، شبکه، storage، backup و recovery. اما در cloud، بخشی از این مسئولیت میان شما و provider تقسیم می‌شود. SLA این مرز مسئولیت را شفاف می‌کند. NIST در راهنمای metrics برای cloud می‌گوید که مقایسه‌ی سرویس‌های cloud ساده نیست و باید با معیارهای قابل‌اندازه‌گیری و SLAهای مناسب، delivery و remedies را ارزیابی کرد.

مثال واقعی

اگر یک کسب‌وکار ecommerce روی یک سرویس cloud بنا شده باشد و در طول یک ماه downtime رخ دهد، SLA تعیین می‌کند آیا این downtime صرفاً یک مشکل عملیاتی است یا تخطی قراردادی. اگر تخطی رخ داده باشد، service credit می‌تواند بخشی از هزینه‌ی پرداخت‌شده را جبران کند. Azure و Google Cloud هر دو در SLAهای رسمی خود این مفهوم را با service credit یا financial credit توضیح می‌دهند.

SLA Requirements - Uptime Guarantees، Penalties، Exclusions، Provider Liability و Disaster Recovery👇

۳. SLA، SLO و SLI چه فرقی دارند؟

این سه واژه خیلی وقت‌ها با هم قاطی می‌شوند، اما در cloud هر کدام نقش مشخصی دارند. Microsoft تفاوت آن‌ها را خیلی شفاف توضیح می‌دهد: SLA تعهد قراردادی بین provider و customer است، SLO هدف داخلی reliability برای workload شماست، و SLA را نباید بدون فکر به‌عنوان هدف داخلی خودتان کپی کنید. Microsoft همچنین تأکید می‌کند که SLO باید با توجه به code، dependencyها، فرایندهای عملیاتی و tolerance کاربران نسبت به downtime تنظیم شود.

اگر هنوز با این‌که چگونه تحویل نرم‌افزار می‌تواند روی پایداری سرویس اثر بگذارد آشنا نیستید، پیشنهاد می‌کنیم مقاله «CI/CD در ۲۰۲۶؛ از صفر تا دیپلوی بدون قطعی» را بخوانید تا بهتر ببینید چرا release stability بخشی از reliability واقعی است.

مثال عملی

SLA: Provider می‌گوید سرویس storage ممکن است 99.95% available باشد.
SLO: تیم شما تصمیم می‌گیرد سیستم باید در عمل 99.99% reliable باشد.
SLI: شاخص اندازه‌گیری واقعی، مثلاً درصد درخواست‌های موفق یا میزان latency واقعی.

چرا این تفکیک مهم است؟

چون ممکن است SLA یک سرویس cloud برای شما کافی نباشد. مثلاً اگر چند سرویس cloud را به هم زنجیر کرده باشید، availability نهایی سیستم شما از availability تک‌تک سرویس‌ها پایین‌تر می‌شود. Microsoft صریحاً هشدار می‌دهد که بعضی وقت‌ها به SLO سخت‌گیرانه‌تری از SLA provider نیاز دارید.

نمودار SLA vs SLO vs SLI - Outperforming SLO، Error Budget و Breached SLA👇

۴. یک SLA ابری از چه بخش‌هایی تشکیل می‌شود؟

SLA در cloud فقط یک عدد uptime نیست. معمولاً چند بخش اصلی دارد: تعریف service، محدوده‌ی پوشش، روش اندازه‌گیری، بازه‌ی زمانی اندازه‌گیری، شرایط استثنا، service credit، روش درخواست جبران، و مسئولیت‌های customer. AWS می‌گوید SLAهایش برای services paid و generally available ارائه می‌شوند و برای هر account به‌صورت جداگانه اعمال می‌شوند. Azure نیز می‌گوید SLA علاوه بر uptime، procedureهای service credit و تعریف availability را شامل می‌شود.
مثال

در Cloud Storage گوگل، SLA مشخص می‌کند که برای هر class و region چه Monthly Uptime Percentage‌ای انتظار می‌رود، چه چیزی covered service محسوب می‌شود، و اگر SLO برآورده نشود، چه Financial Creditی ارائه می‌شود. این یعنی SLA هم technical است، هم operational و هم مالی.

Financial Credit در SLA - Monthly Uptime Percentage و درصد Credit👇

۵. uptime در SLA دقیقاً یعنی چه؟

یکی از رایج‌ترین معیارها در SLA، Monthly Uptime Percentage است. این معیار مشخص می‌کند یک سرویس در طول ماه چه درصدی از زمان در دسترس بوده است. Google Cloud در SLAهای متعدد خود این مفهوم را به‌عنوان SLO تعریف می‌کند و برای سرویس‌هایی مثل Pub/Sub، Cloud CDN و Cloud Storage مقادیر دقیق ارائه می‌دهد؛ برای مثال Pub/Sub برای برخی حالت‌ها 99.95% و Cloud CDN نیز 99.95% را به‌عنوان SLO ذکر می‌کند.

اگر هنوز با observability و نقش آن در اندازه‌گیری دقیق availability و latency آشنا نیستید، پیشنهاد می‌کنیم ابتدا مقاله «Prometheus و Grafana چیست؟ راهنمای کامل Observability در Cloud-Native» را مطالعه کنید تا بهتر متوجه شوید SLI و SLO چگونه به‌صورت عملی اندازه‌گیری می‌شوند.

مثال فنی

اگر یک سرویس 99.95% uptime داشته باشد، روی کاغذ بسیار پایدار است؛ اما در سیستم‌های ترکیبی، این عدد به‌تنهایی کافی نیست. اگر اپلیکیشن شما از چند سرویس وابسته تشکیل شده باشد، availability نهایی پایین‌تر از هر سرویس منفرد خواهد بود. به همین دلیل Microsoft هشدار می‌دهد که SLA provider را نباید بی‌چون‌وچرا به‌عنوان SLO داخلی پذیرفت.

High Availability Percentages - ۹۹.۹ تا ۹۹.۹۹۹۹۹۹۹۹ و Yearly Downtime مربوطه👇

۶. Service Credit چیست و چرا مهم است؟

Service credit یا financial credit همان جبرانی است که provider وقتی SLA را برآورده نمی‌کند به customer می‌دهد. این جبران معمولاً به‌صورت درصدی از bill آینده اعمال می‌شود و هدفش این است که تخطی از SLA فقط یک failure فنی نباشد، بلکه پیامد قراردادی هم داشته باشد. Azure به‌وضوح می‌گوید SLA شامل procedure دریافت service credit است و همین بخش، نقش enforcement policy را بازی می‌کند. Google Cloud هم در SLAهای Cloud Storage، درصدهای credit را بسته به میزان عدم تحقق SLO مشخص می‌کند.

مثال واقعی

در Cloud Storage گوگل، اگر service به SLO نرسد، credit می‌تواند بسته به میزان افت uptime از 10% تا 50% bill را پوشش دهد. این نشان می‌دهد که SLA فقط یک statement تئوریک نیست، بلکه ابزار مالی و قراردادی هم هست.

فرمول Service Credit Calculation - Outage Period × Affected Customer Ratio ÷ Scheduled Availability👇

۷. SLA در AWS، Azure و Google Cloud چه شکلی دارد؟

AWS اعلام می‌کند که برای تمام خدمات paid و generally available، SLA ارائه می‌دهد. این یعنی اگر یک سرویس وارد production عمومی شده باشد، AWS برای آن تعهد سطح خدمت دارد. برای مثال Amazon EC2 دارای SLA اختصاصی است که برای هر account به‌صورت جداگانه اعمال می‌شود.

Azure هم می‌گوید SLAهایش تعهد Microsoft برای uptime و connectivity هستند و برای برخی سرویس‌ها متفاوت‌اند. نکته‌ی مهم این است که Azure در مستندات reliability خود توضیح می‌دهد که SLA علاوه بر تعهد uptime، procedure service credit و definitionهای availability را نیز در بر می‌گیرد.

Google Cloud نیز یک repository مرکزی برای SLAهای سرویس‌های مختلف دارد؛ از Cloud Storage و Pub/Sub گرفته تا Cloud CDN و Cloud SQL و بسیاری سرویس‌های دیگر. در این SLAها معمولاً Monthly Uptime Percentage، SLO و Financial Credit به‌صورت دقیق تعریف می‌شود.

داشبورد Availability Ably - ۱۰۰ uptime در ۲۴ ساعت و ۳۰ روز گذشته👇

۸. چرا SLA در cloud فقط مسئله‌ی فنی نیست؟

SLA روی business، finance و risk management هم اثر مستقیم دارد. وقتی تیم شما یک سرویس ابری را انتخاب می‌کند، در واقع دارد بخشی از ریسک availability را به provider منتقل می‌کند. NIST هم همین را در قالب procurement توضیح می‌دهد: SLA باید requirements، performance و remedies را به‌صورت measurable پوشش دهد تا تصمیم‌گیری خرید cloud فقط بر اساس تبلیغات نباشد.

اگر هنوز با نقش بکاپ و بازیابی در تداوم سرویس آشنا نیستید، پیشنهاد می‌کنیم مقاله «بکاپ‌گیری در DirectAdmin؛ آموزش کامل و ساده» را مطالعه کنید تا بهتر متوجه شوید recovery بخشی از مدیریت واقعی reliability است.

مثال

اگر یک بانک آنلاین downtime داشته باشد، فقط یک مشکل فنی رخ نداده؛ اعتماد مشتری، عملیات مالی، reputation و حتی compliance هم تحت‌تأثیر قرار می‌گیرند. در چنین فضایی، SLA ابزاری است که به business می‌گوید این سرویس چه سطحی از اطمینان را واقعاً تضمین می‌کند. به همین دلیل، مدیر فنی، مدیر محصول و تیم حقوقی باید SLA را با هم بخوانند، نه جداگانه.

۹. SLA چگونه اندازه‌گیری می‌شود؟

SLA معمولاً بر اساس بازه‌های زمانی مشخص، مثل ماه تقویمی، اندازه‌گیری می‌شود. Google Cloud در SLAهایش بارها تأکید می‌کند که Monthly Uptime Percentage، Financial Credit و SLOها بر مبنای calendar month و per project / per region محاسبه می‌شوند. Cloud Storage حتی تعریف می‌کند که error rate و valid requests چگونه محاسبه می‌شوند.

مثال

اگر یک سرویس در بخشی از ماه قطع شود، ارائه‌دهنده فقط مجموع زمان قطع‌شدن را نمی‌سنجد؛ بلکه این downtime را با چارچوب خاص SLA آن سرویس می‌سنجد. ممکن است بعضی رویدادها خارج از scope باشند یا فقط در شرایط خاص قابل‌محاسبه باشند. همین جزئیات است که باعث می‌شود خواندن SLA بدون دقت، خیلی خطرناک باشد.

مقایسه Downtime Cloud Providers AWS ۳۳۸ ساعت، GCP ۳۶۱ ساعت، MSFT ۱۹۳۴ ساعت👇

۱۰. SLA در cloud چه چیزی را تضمین نمی‌کند؟

SLA معمولاً همه‌چیز را تضمین نمی‌کند. تضمین آن محدود به scope، شرایط، region، service tier و استثناهای قرارداد است. برای مثال، Google Cloud در SLAهای خودش servicespecific scope و شرایط دقیق انتخاب service class و region را مشخص می‌کند. Azure هم می‌گوید SLAهای سرویس‌ها با هم فرق دارند و حتی درون یک service ممکن است productهای مختلف SLAهای متفاوتی داشته باشند.

مثال

ممکن است یک cloud provider برای storage regionی خاص SLA بسیار خوب ارائه دهد، اما برای storage class یا location دیگر درصد پایین‌تری بدهد. Cloud Storage گوگل دقیقاً چنین تفاوت‌هایی را در کلاس‌های مختلف storage و regionهای مختلف نشان می‌دهد. بنابراین SLA همیشه باید در context همان service، همان region و همان tier خوانده شود.

۱۱. چطور SLA مناسب را برای یک سرویس ابری بخوانیم؟

خواندن SLA باید از روی سؤال‌های درست شروع شود. اول باید ببینی service covered دقیقاً چیست. بعد باید بررسی کنی uptime چگونه تعریف شده، چه استثناهایی دارد، service credit چگونه محاسبه می‌شود، و آیا service واقعاً برای workload تو کافی هست یا نه. Microsoft به‌صراحت می‌گوید SLA را باید برای informing SLO خواند، نه برای کپی‌کردن کورکورانه‌ی عدد uptime آن.
مثال عملی

اگر یک سامانه‌ی فروش بلیت داری، availability دیتابیس، queue، storage و gateway همگی مهم‌اند. ممکن است هر کدام SLA جداگانه داشته باشند، اما availability نهایی سیستم تو از ترکیب این‌ها کمتر است. پس باید SLAها را با معماری واقعی سیستم match کنی، نه صرفاً با صفحه‌ی marketing provider.

۱۲. SLA و معماری high availability چه رابطه‌ای دارند؟

SLA فقط تعهد provider است، اما high availability تعهد معماری شماست. یعنی حتی اگر provider uptime بالایی بدهد، شما هنوز باید workload را به‌صورت resilient طراحی کنید. Microsoft در guidance reliability می‌گوید SLA provider تنها بخشی از reliability موردنیاز است و باید به code، dependencyها و tolerance کاربران هم توجه کرد. به بیان ساده، SLA خوب بدون architecture خوب کافی نیست.

اگر هنوز با امن‌سازی سیستم‌عامل و کاهش سطح حمله آشنا نیستید، پیشنهاد می‌کنیم مقاله «OS Hardening چیست؟ راهنمای جامع امن‌سازی سیستم‌عامل در ۲۰۲۶» را بخوانید تا بهتر ببینید reliability فقط به SLA provider وابسته نیست.

مثال

اگر اپلیکیشن تو فقط یک database instance داشته باشد، یک cache واحد و یک region واحد، حتی با SLA خوب provider هم ممکن است در برابر failure آسیب‌پذیر بمانی. اما اگر multizone، backup، health check و failover داشته باشی، می‌توانی از SLA provider بهتر استفاده کنی و SLO واقعی بالاتری بسازی. همین تفاوت، مرز بین استفاده‌ی عادی و استفاده‌ی حرفه‌ای از cloud است.

۱۳. SLA در خدمات ابری چه خطاهای ذهنی رایجی دارد؟

یکی از خطاهای رایج این است که افراد فکر می‌کنند SLA یعنی «هیچ‌وقت قطعی نداریم». این برداشت غلط است. SLA یعنی provider یک حداقل تعهد تعریف کرده و اگر به آن نرسد، جبران مشخصی وجود دارد. NIST هم روی این نکته تأکید دارد که SLA باید measurable باشد و remedies را شفاف کند، نه اینکه وعده‌ی مطلق و غیرواقعی بدهد.

مثال

یک service با 99.95% uptime هنوز هم می‌تواند downtime داشته باشد؛ فقط مقدار و شرایط آن محدود شده است. بنابراین تصمیم‌گیری حرفه‌ای این نیست که بگویی «SLA دارد، پس خیالم راحت است»، بلکه این است که ببینی این SLA برای workload تو کافی هست یا باید redundancy و architecture را هم تقویت کنی.

۱۴. بهترین practiceها برای استفاده از SLA در cloud

اول، SLA را با SLOهای داخلی خودت مقایسه کن، نه اینکه همان عدد را کورکورانه قبول کنی. دوم، همه‌ی سرویس‌های وابسته را با هم ببین، چون availability نهایی سیستم ترکیبی از آن‌هاست. سوم، service credit را فقط به‌عنوان جبران مالی نبین؛ آن را نشانه‌ی این بدان که قرارداد، operational expectation را مشخص کرده است. چهارم، region، tier و service class را دقیق بخوان، چون SLAها در cloud بین این‌ها متفاوت‌اند. این‌ها همه از مستندات Microsoft، AWS و Google Cloud به‌وضوح قابل برداشت‌اند.

مثال

یک تیم DevOps ممکن است برای storage به SLA خیلی خوبی برسد، اما اگر DNS، load balancer یا CI/CD pipeline SLA ضعیف‌تری داشته باشند، اختلال عملیاتی همچنان رخ می‌دهد. پس SLAها را به‌صورت اکوسیستمی بخوان، نه سرویس‌به‌سرویس جدا.

15. سوالات متداول (FAQ Schema)

SLA دقیقاً چیست؟

SLA یا Service Level Agreement قراردادی است که سطح خدمت، نحوه‌ی اندازه‌گیری آن، و پیامدهای عدم تحقق را مشخص می‌کند. در cloud معمولاً روی uptime، connectivity، service credit و scope تمرکز دارد.

تفاوت SLA و SLO چیست؟

SLA تعهد قراردادی provider است، اما SLO هدف داخلی reliability برای workload شماست. Microsoft توصیه می‌کند SLA را برای inform کردن SLO استفاده کنید، نه برای کپی‌کردن مستقیم آن. ([learn.microsoft.com]

آیا SLA یعنی سرویس هیچ‌وقت قطع نمی‌شود؟

خیر. SLA معمولاً سطحی از availability را تضمین می‌کند و اگر service به آن نرسد، service credit یا financial credit تعریف می‌شود.

آیا همه سرویس‌های cloud SLA دارند؟

AWS اعلام می‌کند برای همه سرویس‌های paid و generally available SLA ارائه می‌دهد. Google Cloud هم برای تعداد زیادی از سرویس‌ها SLAهای رسمی منتشر کرده است.
SLA برای چه کسانی مهم‌تر است؟

برای همه‌ی تیم‌های فنی و business مهم است، اما مخصوصاً برای workloadهای حساس مثل ecommerce، finance، SaaS، healthcare، و سامانه‌هایی که downtime برایشان هزینه‌ی مستقیم دارد. این همان جایی است که SLA از یک سند حقوقی به یک ابزار تصمیم‌گیری معماری تبدیل می‌شود.

SLA vs SLO vs SLI - Customer Promise، Internal Goal و Actual Performanc👇

16. جمع‌بندی

SLA در خدمات ابری فقط یک بند قراردادی نیست؛ یک نقشه‌ی دقیق از مسئولیت، reliability، uptime، service credit و scope سرویس است. Azure آن را commitmentی برای uptime و connectivity می‌داند، AWS برای همه‌ی سرویس‌های paid و generally available SLA ارائه می‌کند، Google Cloud برای سرویس‌های مختلف از Cloud Storage تا Pub/Sub و Cloud CDN، SLO و Financial Credit را مشخص می‌کند، و NIST هم تأکید دارد که cloud SLA باید measurable باشد و remedies را روشن کند.
اگر بخواهیم خیلی روشن بگوییم، SLA در cloud زبان مشترک business و engineering است. business از آن برای فهم ریسک و جبران استفاده می‌کند، engineering از آن برای طراحی SLO و architecture بهتر بهره می‌برد، و procurement از آن برای مقایسه‌ی واقعی serviceها کمک می‌گیرد. در دنیای cloud، SLA فقط «چه چیزی قول داده شده» نیست؛ بلکه «چطور باید آن را اندازه گرفت، چه زمانی شکست محسوب می‌شود، و چه جبرانی وجود دارد» را هم مشخص می‌کند.

برچسب‌ها:

#شاخص‌های SLA، SLO، SLI #اعتبار سرویس