رگرسیون خطی چیست؟


تصور کن اگر قرار بود هر کس به اندازه ی دانش خود حرف بزند؛ چه سکوتی بر دنیا حاکم می شد!

ژنتیک، اصلاح و بیوتکنولوژی

دستور انجام تجزیه رگرسیون خطی ساده (دو متغیره) با نرم افزار مینی تب

رگرسیون خطی ساده برای تعیین رابطه ی خطی بین دو متغیر تابع ( Y ) و متغیر مستقل ( X ) کاربرد دارد. با تعیین معادله خط می توان برای هر داده ی X مقدار Y را پیش بینی نمود.

نمونه برای رگرسیون خطی ساده: داه های زیر مقادیر مشاهده شده برای متغیر تابع (عملکرد علوفه) و متغیر مستقل (تعداد ساقه های بارور) را نشان می دهد.

Tdm (Y (

دستور رگرسیون خطی ساده

برای اجرای رگرسیون خطی ساده از دستور زیر استفاده می شود:

Stst > Regression > Regression > (Response: Y) & (Predictors: X)

نیز در قسمت Option رفته و تیک جلوی Dubrin رگرسیون خطی چیست؟ Watson را فعال می ک نیم.

نتایج و جدول تجزیه واریانس رگرسیون خطی ساده

خروجی Minitab ، معادله ی خط، ضرایب رگرسیونی، جدول تجزیه واریانس و داده های پرت (در صورت وجود) را نشان می دهد.

Regression Analysis: Y versus X

The regression equation is

Y = 0.645 + 0.0118 X

Predictor Coef SE Coef T P

Constant 0.6454 0.4340 1.49 0.161

X 0.011845 0.007409 1.60 0.134

S = 0.642278 R-Sq = 16.4% R-Sq(adj) = 10.0%

Analysis of Variance

Source DF SS MS F P

Regression 1 1.0546 1.0546 2.56 0.134

Residual Error 13 5.3628 0.4125

Durbin-Watson statistic = 1.96228

معادله ی خط، Y = 0.645 + 0.0118 X می باشد که جدول زیرین آن، سطح معنی دار بودن برای عرض از مبداء یا شیب خط ( a=0.6454 ) و ضریب رگرسیون ( b=0.0118 ) را از طریق آزمون T در سطح احتمال 1% می توانید ببینید. (در واقع X جدول همان ضریب b یا ضریب رگرسیون و Constant جدول، همان شیب خط یا عرض از مبداء است.

نیز ضریب رگرسیون از طریق تجزیه واریانس آزمون شده و F رگرسیونی مشاهده شده ( 2.56 ) غیر معنی دار شده است؛ چون مقدار P از 0.05 بزرگ تر است. و می دانیم که اگر مقدار P کمتر از 0.01 باشد؛ به مفهوم تفاوت معنی دار در سطح احتمال 1% و اگر مقدار P رگرسیون خطی چیست؟ بین 0.01 و 0.05 باشد؛ به مفهوم تفاوت معنی دار در سطح احتمال 5% می باشد و اگر مقدار P بیشتر از 0.05 باشد؛ یعنی داده ها تفاوت معنی داری ندارند.

در تجزیه واریانس ضریب تبیین برابر با R-Sq = 16.4% شده است که مقدار ناچیزی می باشد یعنی تعداد ساقه های بارور، تنها 16 درصد از کل تولید علوفه را توجیه نموده است.

جدول تحت عنوان Unusual Observations ، مشاهده های غیر معمول یا پرتی را که تأثیر معنی داری بر خط رگرسیون داشته است؛ معرفی می کند.

در پایان مقداری عددی برای ضریب Durbin-Watson statistic داده شده است که اگر این ضریب بین 1.5 تا 2.5 باشد؛ نشان دهنده رگرسیون خطی چیست؟ ی وجود فرض مستقل بودن اشتباه های آزمایشی و در نتیجه، دقت آزمایش است. در این نمونه، ضریب Durbin-Watson statistic برابر با 1.96 است که مقدار مناسبی به نظر می رسد.

دستور نمایش خط رگرسیون و بازوهای اطمینان

برای نمایش خط رگرسیون و بازوهای اطمینان از دستور زیر استفاده می کنیم:

Stst > Regression > Fitted رگرسیون خطی چیست؟ Line Plot > (Response: Y) & (predictors: X)

برای دیدن بازوهای اطمینان لازم است که وارد Option شده و گزینه های Logten of y ، Logten of x و Display Confidence interval را فعال نمایید. می توان برای نوشتن مدل منحنی، درجه سوم ( Q ) را انتخاب کرد و چک نمود که آیا معنی دار است یا خیر. اگر معنی دار نبود سراغ درجه دوم ( C ) و اگر آن هم معنی دار نبود می توان فقط از مدل خطی ( L ) استفاده نمود. نیز باید در قسمت Graph ، Residuals versus fit را تیک زد و همه ی پنجره های بعدی را تأیید نمود.

تصور کن اگر قرار بود هر کس به اندازه ی دانش خود حرف بزند؛ چه سکوتی بر دنیا حاکم می شد!

دانلود فیلم های آموزش رگرسیون خطی در متلب

دانلود فیلم های آموزش رگرسیون خطی در متلب

این پست مربوط به فصل سوم ( قسمت ۷ ) از مجموعه فیلم های آموزش یادگیری ماشین در متلب می باشد. در این قسمت از فصل سوم رگرسیون خطی آموزش داده میشود.

مهمترین مطالب و موضوعات ی که در این قسمت از فصل سوم بیان شده را بطور مختصر در زیر مشاهده می نمایید:

پارت اول از فصل سوم رگرسیون خطی:

۱- بیان و تعریف مفاهیم رگرسیون خطی (Linear Regression)

۲- بیان تابع هزینه

۳- تشریح روش بهینه سازی گرادیان نزولی

۴- بیان رگرسیون خطی یک متغیره

پارت دوم از فصل سوم رگرسیون خطی :

۱- بیان رگرسیون خطی چند متغیره

۲- تشریح روش گرادیان نزولی برای رگرسیون خطی چند متغیره

۳- بیان رگرسیون خطی چند جمله ای

۴- تشریح معادلات نرمال

۵- مقایسه دو روش گرادیان نزولی و معادلات نرمال

۶- تشریح نحوه محاسبه RMSE و R2 جهت محاسبه خطا

۷- تحلیل Over-fitting و بیان روش های جلوگیری از Over-fitting

۸- بررسی Regularization

۹- تشریح روش گرادیان نزولی برای Regularized Linear regression

۱۰- بیان و بررسی الگوریتم K-fold Cross Validation

پارت سوم از فصل سوم رگرسیون رگرسیون خطی چیست؟ خطی:

در این پارت تمامی موارد مذکور فوق در قالب ۳ برنامه بصورت عملی در متلب پیاده سازی شده و با جزئیات کامل آموزش داده شده است:

۱- آموزش کد نویسی رگرسیون خطی و …

۲- آموزش استفاده از toolbox متلب برای رگرسیون خطی

۳- تمامی سورس کدها موجود و قابل دانلود می باشد

هدف از تهیه این مجموعه از فیلم های آموزشی، آشنایی با مباحث یادگیری ماشین (Machine Learning) بر طبق سرفصل کتاب های مرجع از جمله آلپایدین (Alpaydın) و میشل (Tom Mitchell) و همچنین پیاده سازی آنها در محیط MATLAB است. درس یادگیری ماشین یکی از مهمترین دروس رشته هوش مصنوعی و بسیار پرکاربرد در سایر رشته های تحصیلی می باشد. در این مجموعه سعی شده است که با زبانی ساده به بیان مفاهیم و الگوریتم های یادگیری ماشین بصورت تئوری و عملی پرداخته شود.

سرفصل های این مجموعه آموزشی یادگیری ماشین در متلب شامل موارد رگرسیون خطی چیست؟ زیر می باشد:

سرفصل ها آموزش جامع یادگیری ماشین:

فصل اول: آمار مقدماتی

فصل دوم: مفهوم یادگیری نظارت شده

فصل سوم: رگرسیون خطی و رگرسیون منطقی

فصل چهارم: روش های طبقه بندی رگرسیون خطی چیست؟ پارامتریک

فصل پنجم: شبکه های عصبی

فصل ششم: روش های طبقه بندی غیر پارامتریک

فصل هفتم: درخت تصمیم گیری

فصل هشتم: ماشین بردار پشتیبان SVM

فصل نهم: روش های ترکیبی Ensemble Methods

کتاب یادگیری ماشین آلپایدین (Alpaydın) میتوانید از اینجا و کتاب میشل (Tom Mitchell) را نیز از اینجا دانلود نمایید.

تذکر۲:

اسلایدهای این مجموعه آموزشی را می توانید از اینجا دانلود نمایید.

لازم به ذکر است این مجموعه از آموزش های گام به گام یادگیری ماشین در متلب برای اولین بار در ایران تهیه و توسط یکی از مجربترین اسانید در زمینه هوش مصنوعی آموزش داده شده است.

این مجموعه آموزشی بسیار مناسب برای محققین و دانشجویان در مقاطع کارشناسی، کارشناسی ارشد و دکتری می باشد که قصد یادگیری این درس و همچنین استفاده ازالگوریتم های هوش مصنوعی در مقاله و پایان نامه خود را دارند.

کلید واژه:

یادگیری ماشین در متلب,رگرسیون خطی, Linear Regression, cost function, تابع هزینه, گرادیان نزولی, gradient descent, بهینه سازی گرادیان نزولی, رگرسیون خطی یک متغیره, رگرسیون خطی چند متغیره, رگرسیون خطی چند جمله ای, معادلات نرمال, RMSE, خطا RMSE, Over-fitting, جلوگیری از Over-fitting, بررسی Regularization, Regularized Linear regression , الگوریتم K-fold Cross Validation, K-fold, الگوریتم K-fold,

تمرینات رگرسیون خطی

شاخص

جدول زیر حاوی اطلاعات به دست آمده از یک مطالعه هواشناسی(در سال‌های ۱۹۱۹ تا ۱۹۳۵) می‌باشد که در آن بیانگر میزان آب موجود در بارش برف آوریل هر سال و متوسط دبی رودخانه‌ای در پایین دست در بازه زمانی آوریل تا جولای همان سال می‌باشد.

Screenshot 326

الف) شیب و عرض از مبدا خط رگرسیون را به روش حداقل مربعات برآورد کنید.

ب) فواصل اطمینان ۹۵% برای شیب و عرض از مبدا ارایه نمایید.

ج) فرض برابر ۰.۳ بودن شیب را بیازمایید.

د) به ازای X=60 یک فاصله اطمینان ۹۵% برای امید ریاضی y بیابید.

ه‍) به ازای X=60 یک فاصله اطمینان ۹۵% برای y بیابید.

و) ضریب همبستگی را محاسبه نمایید.

ز) فرض صفر بودن ضریب همبستگی را در سطح ۹۵ درصد آزمون کنید.

تجزیه و تحلیل رگرسیون: چگونه می توانیم ضریب تعیین و ارزیابی همقوارگی را تفسیر کنیم؟

باقیمانده ها (Residual) در رگرسیون به صورت زیر تعریف می شود:

مقدار برازش شده – مقدار مشاهده شده = باقیمانده ها

رگرسیون، یک معادله را که فاصله بین خط برازش شده و همه نقاط داده شده را به حداقل برساند، ارائه میکند. به طور کلی رگرسیون مجموع مربعات باقیمانده ها را حداقل میکند.

یک مدل برازش شده برای داده ها خوب است اگر تفاوت بین مقادیر مشاهده شده و مقادیر پیش بینی مدل کوچک و نااریب باشند.

قبل از آنکه به مقادیر آماری برای برازش خوب (همقوارگی) نگاه شود بایستی نمودار باقیمانده ها بررسی گردد. نمودارهای باقیمانده می تواند الگوهای موجود در باقیمانده و نتایج اریب را نشان دهند. پس از بررسی نمودار باقیمانده ها و در صورت عدم مشاهده هیچ الگوی خاصی در این نمودار مقادیر آماری برای برازش خوب مثل ضریب تعیین (R ۲ ) را می توان بررسی نمود.

ضریب تعیین R ۲ چیست؟

R ۲ اندازه گیری آماری نزدیک داده ها به خط رگرسیون برازش شده میباشد. به R ۲ ، ضریب تعیین یا ضریب تشخیص نیز گفته می شود.

تعریف ضریب تعیین (R ۲ ) نسبتاً ساده است: “ضریب تعیین (R ۲ ) نشان میدهد که چند درصد تغییرات متغیر وابسته به وسیله متغیر مستقل تبیین می شود” یا به عبارت دیگر ضریب تعیین نشان دهنده این است که “چه رگرسیون خطی چیست؟ مقدار از تغییرات متغیر وابسته تحت تاثیر متغیر مستقل مربوطه بوده و مابقی تغییرات متغیر وابسته مربوط به سایر عوامل میباشد.”

R-squared = Explained variation / Total variation

ضریب تعیین همیشه بین ۰ و ۱۰۰٪ است:

۰٪ نشان می دهد که مدل هیچ یک از تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین نمی کند.

۱۰۰٪ نشان می دهد که مدل همه تغییرپذیری داده های پاسخ در اطراف میانگین آن را تبیین می کند.

نمایش گرافیکی از ضریب تعیین (R ۲ )

نمودار مقادیر برازش شده توسط مقادیر مشاهده به صورت گرافیکی مقادیر ضریب تعیین مختلف برای مدل های رگرسیونی را نشان می دهد.

مدل رگرسیون سمت چپ R ۲ =۳۸.۰% و مدل سمت راست دارای R ۲ =۸۷.۴% است. مقدار ضریب تعیین بالاتر نشان می دهد که در مدل رگرسیونی مقدار مشاهده شده به خط برازش شده نزدیک تر هستند. از لحاظ تئوری اگر R ۲ =۱۰۰.۰% شود تمامی مقادیر مشاهده شده با مقادیر برازش شده یکسان خواهند بود و همه نقاط داده ها بر روی خط برازش شده قرار خواهند گرفت.

محدودیت های کلیدی ضریب تعیین (R ۲ )

ضریب تعیین نمی تواند تعیین کند که آیا مدل برازش شده اریب است یا نه، به همین دلیل باید نمودارهای باقیمانده را ارزیابی نمود. ضریب تعیین (R ۲ ) نشان نمی دهد که آیا یک مدل رگرسیون مناسب است یا نه. نکته قابل تأمل آن است که یک مدل رگرسیونی خوب ممکن است ضریب تعیین (R ۲ ) پایین داشته باشید و یک مدل رگرسیونی با مقدار ضریب تعیین (R ۲ ) بالا ممکن است برای برازش داده ها مناسب نباشد!

آیا ضریب تعیین (R ۲ ) پایین ذاتاً بد است؟

نه! دو دلیل مهم که چرا مقادیر ضریب تعیین (R ۲ ) پایین می تواند بد نباشد، وجود دارد.

در برخی از زمینه ها، به طور کلی انتظار می رود که مقادیر ضریب تعیین (R ۲ ) پایین باشد. به عنوان مثال، در زمینه تلاش برای پیش بینی رفتار انسان (مانند روانشناسی) معمولا مقادیر ضریب تعیین (R ۲ ) کمتر از ۵۰٪ است. رفتار انسان ها به سادگی مانند فرآیندهای فیزیکی قابل پیش بینی نیست.

به علاوه، ممکن است ضریب تعیین (R ۲ ) پایین باشند، اما متغیرهای پیش بینی معنی دار از نظر آماری وجود داشته باشند، در این صورت هنوز هم میتوان نتیجه گیری مهمی در مورد چگونگی تغییر در مقدار متغیر پاسخ در ارتباط به متغیر ورودی ترسیم نمود. صرف نظر از ضریب تعیین (R ۲ ) ضرایب معنادار آماری مدل رگرسیونی هنوز میانگین تغییر در متغیر پاسخ برای یک واحد تغییر در متغیر ورودی را ارائه می کند. بدیهی است، این نوع از اطلاعات می تواند بسیار با ارزش است.

flp_highvar

یک ضریب تعیین (R ۲ ) پایین زمانی که قصد آن وجود دارد که یک پیش بینی با دقت معقول انجام شود (دارای یک بازه ی پیش بینی به اندازه کافی کوچک) بیشتر مشکل ساز خواهد بود. سئوالی که مطرح می شود آن است که چقدر یک ضریب تعیین (R ۲ ) برای پیش بینی باید بزرگ باشد؟ این امر بستگی به نیاز مطالعه برای عرض یک بازه پیش بینی و میزان تغییرپذیری در داده ها دارد. مادامی که یک ضریب تعیین (R ۲ ) بالا برای پیش بینی ها دقیق مورد نیاز است، همانطور که در ادامه نشان داده خواهد شد این امر به خودی خود برای صحت مدل کافی نیست. همچنین زمانی که قصد داریم تمامی جوانب احتمالی متغیر پاسخ را برای جامعه ای با تغییرپذیری بالا بررسی کنیم (مثل پیش بینی تعداد آری احتمالی یک کاندیدا برای ریاست جمهوری)، داشتن یک بازه بزرگ تر برای مقادیر پیش بینی (یعنی ضریب تعیین (R ۲ ) کوچک) نیز قابل استفاده خواهد بود.

آیا ضریب تعیین (R ۲ ) بالا ذاتاً خوب است؟

نه! ضریب تعیین (R ۲ ) بالا لزوماً نشان نمی دهد که صحت یک مدل مناسب است. ممکن است متعجب شود، اما به دو نمودار زیر (نمودار خط برازش شده و نمودار باقیمانده ها) نگاه کنید. نمودار خط برازش شده رابطه بین تحرک الکترون نیمه هادی و لگاریتم طبیعی چگالی برای داده های تجربی واقعی نشان می دهد.

مودار نشان می دهد که داده ها با یک تابع با ضریب تعیین ۹۸٫۵٪، که مقدار بزرگی است برازش شده است. با این حال، با نگاه دقیق تر به خط رگرسیون مشخص می شود که در نقاط مختلف در طول منحنی رگرسیون داده های به صورت سیستماتیک زیر و بالای خط برازش شده قرار دارند. این نشان دهند وجود اریبی در معادله برازش شده است. همچنین یک الگو در نمودار باقیمانده ها مشاهده می شود. در این نمودار انتظار می رود در حالت مطلوب هیچ الگوی خاصی وجود نداشته باشد و باقیمانده ها رفتاری تصادفی و توزیع نرمال داشته باشند. لذا وجود این الگوها نشان دهنده یک برازش با صحت نامناسب است. به همین دلیل می باشد که علاوه بر ضریب تعیین (R ۲ ) برای بررسی مناسب بودن صحت یک مدل برازش شده باید روندها در نمودار باقیمانده ها را نیز بررسی نمود.

با این حال هنگامی که مدل رگرسیونی متغیرهای پیش بینی مهمی (مثل اثرات متقابل یا چند جمله ای) را از دست می دهد اریبی های مشابه با نمودار فوق ممکن است، اتفاق بی افتد.

برای کسب اطلاعات بیشتر که چرا یک ضریب تعیین (R ۲ ) بالا همیشه نشان دهنده خوب بودن مدل نمی باشد پست مربوط به پنج دلیل که چرا ضریب تعیین (R ۲ ) می تواند بیش از حد بزرگ باشد را ملاحظه نمایید.

حرف پایانی در خصوص ضریب تعیین (R ۲ )

ضریب تعیین (R ۲ ) برای اینکه تعیین کند چقدر خوب یک معادله رگرسیونی داده ها را برازش می کند مفید است. اما همانگونه که ملاحظه شده ضریب تعیین به تنهایی برای بررسی صحت مدل کفایت نمی کند و بایستی علاوه بر ضریب تعیین (R ۲ )، نرمال بودن داده ها یا باقیمانده ها، ثابت بودن واریاس در سطوح مختلف، استقلال داده ها نسبت به زمان و اریب نبودن مشاهدات برای صحت مدل برازش شده مورد ارزیابی قرار گیرند.

در حالی که ضریب تعیین (R ۲ ) تخمینی از قدرت رابطه بین مدل و متغیر پاسخ فراهم می کند، اما یک آزمون فرضیه رسمی برای این رابطه ارائه نمی دهد. از آزمون F-TEST برای تعیین اینکه رابطه معنادار آماری وجود دارد یک خیر استفاده می شود.

در پست ها بعدی در خصوص تجزیه و تحلیل رگرسیون سعی خواهد شده به این موضوع که ضریب تعیین (R ۲ ) تنها ناقص است دو نوع ضریب تعیین دیگر adjustedR2 و predictedR2 را نیز مورد بررسی قرار دهیم.

رگرسیون خطی ساده

گروه آماري بتا(Beta)-Banner

با سابقه ی فعالیت مستمر در زمینه ی تحلیل های آماری با کلیه نرم افزارهای آماری SPSS، Lisrel، Smart PLS، Amos، Expert Choice و … آماده پذیرش کلیه طرح ها و پروژه های آماری شما از هرجای ایران هستیم. کارها به صورت کاملا تضمین شده و قابل ویرایش تا پای تأیید نهایی انجام خواهد شد. تلاش می شود تا تحلیل ها تا جای امکان برای مقاطع فوق لیسانس به بالا کامل و بی کم و کاست انجام شود تا مورد توجه همکاران عزیز و محققین گرامی قرار گیرد. وجدان کاری و کیفیت بالا همواره سرلوحه ی فعالیت های ما بوده. امید است در این راه همچنان موثر باشیم.

شماره تماس و تلگرام : 09351323950

نوشته‌های تازه

  • همبستگي تفكيكي / نيمه تفكيكي
  • نقش آماريست در كيفيت فصل 4 پايانامه
  • آموزش نحوه ساختن پرسشنامه آنلاين
  • فيلم هاي آموزشي گروه آماري بتا
  • معرفي سايت سمساري آنلاين

برگه‌ها

نحوه انجام پروژه ها و تحلیلهای آماری:

شما دوستان و محققین عزیز اطلاعات اولیه رگرسیون خطی چیست؟ را از طریق ایمیل یا تلگرام ارسال می کنید و گروه آماری ما پس از بررسی اولیه هزینه و زمان تحویل کار را اعلام کرده و در صورت موافقت شما ، شروع به انجام پروژه خواهیم کرد.تمامی تحلیلها را از طریق ایمیل یا تلگرام ارسال می کنیم. ** پس از اطمینان از کیفیت و درستی کار هزینه رگرسیون خطی چیست؟ را دریافت خواهیم کرد. نگران هزینه نباشید ؛ قیمت ها دوستانه و دنشجویی می باشد تلفن هماهنگی و تلگرام : 09351323950 ( عیوضی)

تجزیه و تحلیل آماری با قیمت دانشجویی و توافقی

تحلیل آماری با قیمت دانشجویی و توافقی.مشاوره آماری مقالات و پایانامه های دانشگاهی بصورت تخصصی و کاملا حرفه ای با سابقه چندین ساله ،توسط کارشناسان رشته آمار.تحلیل با نرم افزارهای:

spss – pls – Lisrel – Amos – minitab – AHP – topsis
** با پشتیبانی 24 ساعته
**پرداخت هزینه بعد از تحویل پروژه
تلفن هماهنگی و تلگرام : 09351323950



اشتراک گذاری

دیدگاه شما

اولین دیدگاه را شما ارسال نمایید.