本篇內(nèi)容主要講解“怎么在Amazon Sagemaker上設(shè)置功能”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學(xué)習(xí)“怎么在Amazon Sagemaker上設(shè)置功能”吧!
創(chuàng)新互聯(lián)公司主要業(yè)務(wù)有網(wǎng)站營銷策劃、做網(wǎng)站、成都做網(wǎng)站、微信公眾號開發(fā)、小程序開發(fā)、HTML5建站、程序開發(fā)等業(yè)務(wù)。一次合作終身朋友,是我們奉行的宗旨;我們不僅僅把客戶當(dāng)客戶,還把客戶視為我們的合作伙伴,在開展業(yè)務(wù)的過程中,公司還積累了豐富的行業(yè)經(jīng)驗、成都營銷網(wǎng)站建設(shè)資源和合作伙伴關(guān)系資源,并逐漸建立起規(guī)范的客戶服務(wù)和保障體系。
讓我們花點時間來回顧一下機器學(xué)習(xí)的生命周期。簡化的機器學(xué)習(xí)生命周期如下所示:
現(xiàn)在,第一部分,數(shù)據(jù)準備,實際上應(yīng)該是包括數(shù)據(jù)預(yù)處理和用于接下來步驟所需的特征工程。我將簡要地概述這些步驟是什么樣子。
獲取數(shù)據(jù):這是一個從repo、etl等讀取數(shù)據(jù)的過程,將數(shù)據(jù)移動到一個位置,以形成訓(xùn)練數(shù)據(jù)的原始版本。
清理數(shù)據(jù):這個階段更多的是做一些基本的清理,比如類型轉(zhuǎn)換、空處理、確保字符串/類別等是一致的
準備/轉(zhuǎn)換:特征轉(zhuǎn)換、派生、高階特征,如交互特征、進行一些編碼等。
下一階段包括建模和評估階段:
訓(xùn)練模型:在這個階段,你的數(shù)據(jù)應(yīng)該以特征向量的形式出現(xiàn),標簽分為訓(xùn)練、驗證和測試。在這個階段,你將讀取這些數(shù)據(jù),在訓(xùn)練集上訓(xùn)練你的模型,在驗證集上調(diào)參并在測試集上進行測試!這也是你保存模型以進行評估的階段。
評估模型:評估階段,判斷是否“我的模型做正確的事情”,是最重要的階段之一,我覺得我們從來沒有花足夠的時間在這個階段上。模型評估將幫助你了解模型性能。注意你的模型評估指標,并選擇正確的指標。
最后,也是我們閱讀本文的真正原因,部署。
部署到生產(chǎn)環(huán)境:這是準備將模型發(fā)布到公共的階段。我們要注意概念漂移和模型衰減(由于底層分布的變化而導(dǎo)致性能的變化)
監(jiān)控/收集/評估數(shù)據(jù):模型性能、輸入/輸出路徑、錯誤度量、日志、模型組件等都將被時間戳標記和記錄,應(yīng)圍繞模型選擇建立度量監(jiān)控和警報系統(tǒng),以實現(xiàn)完美的管道!
以上是一個簡化但很漂亮的機器學(xué)習(xí)管道。現(xiàn)在讓我們看看如何使用Amazon Sagemaker設(shè)置一個。
現(xiàn)在,第一步從創(chuàng)建AWS帳戶開始。如果你已經(jīng)熟悉Amazon提供的實例(ec2實例)的類型,這會有所幫助。
Sagemaker實例針對運行機器學(xué)習(xí)(ML)算法進行了優(yōu)化。實例的類型還取決于區(qū)域和可用區(qū)域。
如果你覺得過多地閱讀有關(guān)實例類型的詳細信息很無聊,那么就可以簡化成以下選項:
啟動ML的好實例:ml.m4.xlarge (not free)
啟動DL的好實例:ml.p2.xlarge (not free)
AWS Sagemaker EC2實例有與之關(guān)聯(lián)的默認配額。你可能不總是得到20,這也會隨著區(qū)域的不同而變化。
根據(jù)用例的不同,你可能需要請求和增加。這可以通過創(chuàng)建一個帶有AWS支持中心的案例來實現(xiàn)。
現(xiàn)在要啟動sagemaker Notebook實例,請轉(zhuǎn)到aws帳戶服務(wù)來搜索sagemaker。進入sagemaker頁面后,單擊創(chuàng)建notebook實例。如下所示:
下一步是選擇IAM角色。首先,嘗試創(chuàng)建一個新角色,然后選擇none作為s3bucket,除非有一個s3bucket要從中讀取。另外,此時應(yīng)該有一個可選的選擇來選擇git存儲庫。滾動到下方并單擊“創(chuàng)建Notebook實例”。
你可以看到正在創(chuàng)建的Notebook的狀態(tài),一旦準備就緒,你可以選擇jupyter或jupyter lab。
如果你需要克隆你的git存儲庫,打開終端從右邊的jupyter面板,選擇new,并執(zhí)行以下操作:
cd SageMaker git clone myFunSagemakerRepo
這應(yīng)該為你設(shè)置一個notebook實例和一個GitHub存儲庫。
我們將使用load_boston() 方法從sklearn獲取數(shù)據(jù)集。然后,我們將這個數(shù)據(jù)集拆分為訓(xùn)練、驗證和測試集。
#加載數(shù)據(jù) boston_data = load_boston() #訓(xùn)練數(shù)據(jù) X_bos_pd = pd.DataFrame(boston_data.data, columns=boston_data.feature_names) #目標 Y_bos_pd = pd.DataFrame(boston_data.target) #訓(xùn)練/測試分離 X_train, X_test, Y_train, Y_test = sklearn.model_selection.train_test_split(X_bos_pd, Y_bos_pd, test_size=0.20) #訓(xùn)練驗證分離 X_train, X_val, Y_train, Y_val = sklearn.model_selection.train_test_split(X_train, Y_train, test_size=0.33)
一旦訓(xùn)練、驗證和測試數(shù)據(jù)集被創(chuàng)建,這些數(shù)據(jù)集需要上傳到s3(簡單存儲服務(wù))存儲桶中,以便sagemaker容器在執(zhí)行訓(xùn)練作業(yè)時可以訪問它。
最好使用前綴指定位置,最好是型號名稱和版本,以確保路徑干凈。上傳后,你可以從控制臺轉(zhuǎn)到s3服務(wù)并進行檢查。
prefix = 'boston-xgboost-example' test_location = session.upload_data(os.path.join(data_dir, 'test.csv'), key_prefix=prefix) val_location = session.upload_data(os.path.join(data_dir, 'validation.csv'), key_prefix=prefix) train_location = session.upload_data(os.path.join(data_dir, 'train.csv'), key_prefix=prefix)
在sagemaker中訓(xùn)練機器學(xué)習(xí)模型涉及到創(chuàng)建訓(xùn)練工作。我們將使用xgboost模型。
要訓(xùn)練sagemaker模型,第一個任務(wù)是創(chuàng)建一個包含以下內(nèi)容的訓(xùn)練工作:
S3訓(xùn)練/驗證集的位置(注:這應(yīng)該是csv文件)
模型的計算資源(這與我們用于Notebook的資源不同)
輸出S3位置(模型)
內(nèi)置模型的Docker路徑
模型評估器
為了訓(xùn)練一個模型,我們需要創(chuàng)建一個模型估計器。這將包含如何訓(xùn)練模型(配置)的信息。
我們將使用名為get_image_uri的SageMaker實用程序方法來獲取內(nèi)置算法容器的路徑
estimator初始化如下所示。我在這里用了一個付費的例子。
container = get_image_uri(session.boto_region_name, 'xgboost') #xgboost estimator xgb_estimator = sagemaker.estimator.Estimator( container, role, train_instance_count=1, train_instance_type='ml.m4.xlarge', output_path='s3://{}/{}/output'.format(session.default_bucket(), prefix), sagemaker_session=session )
模型超參數(shù)
在任何一種模型訓(xùn)練方法中,最重要的部分是,在開始訓(xùn)練之前,我們需要調(diào)用estimator的set_hyperparameters方法。
當(dāng)estimator都設(shè)置好后,就可以開始訓(xùn)練了
xgb_estimator.set_hyperparameters(max_depth=5, eta=0.2, gamma=4, min_child_weight=6, subsample=0.8, objective='reg:linear', early_stopping_rounds=10, num_round=200) train_s3 = sagemaker.s3_input(s3_data=train_location, content_type='csv') validation_s3 = sagemaker.s3_input(s3_data=val_location, content_type='csv') xgb_estimator.fit({'train': train_s3, 'validation': validation_s3})
模型評估
SageMaker使用transformer對象來評估模型。
像estimator這樣的transformer對象需要知道instance_count和instance_type以及它需要轉(zhuǎn)換的測試數(shù)據(jù)的格式。為了讓transformer以批處理方式評估測試數(shù)據(jù),我們需要讓它知道拆分類型是什么,以便將文件分成塊。
xgb_transformer = xgb_estimator.transformer(instance_count = 1, instance_type = 'ml.m4.xlarge') xgb_transformer.transform(test_location, content_type='text/csv', split_type='Line') xgb_transformer.wait()
現(xiàn)在,為了把數(shù)據(jù)從s3移回Notebook進行分析,我們把數(shù)據(jù)復(fù)制一遍
!aws s3 cp --recursive $xgb_transformer.output_path $data_dir
現(xiàn)在我們來評估!
Y_pred = pd.read_csv(os.path.join(data_dir, 'test.csv.out'), header=None)
通過高級api進行模型部署非常簡單。我將展示一個示例,演示如何部署我們剛剛訓(xùn)練過的上述模型。
#調(diào)用deploy方法啟動端點實例 xgb_predictor = xgb_estimator.deploy(initial_instance_count=1, instance_type='ml.m4.xlarge') xgb_predictor.content_type = 'text/csv' xgb_predictor.serializer = csv_serializer Y_pred = xgb_predictor.predict(X_test.values).decode('utf-8') #做完后別忘了關(guān)機/清理!
與我們?nèi)绾问褂胻ransformer對象進行評估類似,我們可以對部署的模型執(zhí)行相同的操作。我們可以在不同的概念漂移(可能導(dǎo)致模型衰退的數(shù)據(jù)的底層分布的變化)運行后的比較這些結(jié)果。
根據(jù)測試集的大小,我們可以決定是一次性發(fā)送數(shù)據(jù)還是分塊發(fā)送數(shù)據(jù)。
Xgb predictor需要知道文件的格式以及要使用的序列化器的類型。
這是一個非常簡單的方法,可以嘗試在AWS Sagemaker上設(shè)置第一個ml工作流。我建議你先從簡單的開始,然后再轉(zhuǎn)向復(fù)雜的。我們將在后面的文章中討論較低級別的api,并真正深入到細節(jié)中。但是為了獲得基本的理解,請嘗試使用一些簡單的數(shù)據(jù)集進行設(shè)置,并使用可用的不同模型。
記得:
刪除終端和終端配置
刪除模型
刪除s3存儲桶
停止未使用的Notebook實例
到此,相信大家對“怎么在Amazon Sagemaker上設(shè)置功能”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進入相關(guān)頻道進行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!
分享標題:怎么在AmazonSagemaker上設(shè)置功能
網(wǎng)址分享:http://www.rwnh.cn/article30/ghcgpo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計、網(wǎng)站改版、云服務(wù)器、動態(tài)網(wǎng)站、企業(yè)網(wǎng)站制作、網(wǎng)站設(shè)計公司
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)