
各個(gè)行業(yè)都存在有大量的數(shù)據(jù)分析工作,這些數(shù)據(jù)可能來源于各個(gè)渠道,格式多樣,質(zhì)量參差不齊。本文將帶領(lǐng)大家順利獲得一個(gè)簡單的例子,初步分析使用918博天娱乐官网數(shù)據(jù)NLP平臺(tái)進(jìn)行NLP模型建模的全過程。
以新聞分類為例。第一時(shí)間,建立一項(xiàng)“新聞分類”的NLP任務(wù):構(gòu)建一個(gè)新聞分類模型,順利獲得分析數(shù)據(jù),構(gòu)建標(biāo)簽體系,標(biāo)注訓(xùn)練,使之可以對新聞稿件進(jìn)行分類預(yù)測,預(yù)測新聞是屬于標(biāo)簽體系中哪個(gè)標(biāo)簽類別。我們按照大體的建模流程進(jìn)行任務(wù)分解:
構(gòu)建標(biāo)簽體系→數(shù)據(jù)標(biāo)注→模型訓(xùn)練→模型評(píng)估與調(diào)優(yōu)→模型上線
1.構(gòu)建標(biāo)簽體系
對樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,并結(jié)合業(yè)務(wù)專家經(jīng)驗(yàn)知識(shí),構(gòu)建一個(gè)適合該任務(wù)場景的標(biāo)簽體系。

順利獲得918博天娱乐官网數(shù)據(jù)NLP平臺(tái)構(gòu)建分類標(biāo)簽
2.數(shù)據(jù)標(biāo)注
有了標(biāo)簽體系,下一步就是對樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注。簡單來說,數(shù)據(jù)標(biāo)注的過程就是順利獲得人工貼標(biāo)簽的方式,為模型給予可學(xué)習(xí)的樣本數(shù)據(jù),最終使模型可以自主識(shí)別數(shù)據(jù)。例如:樣本數(shù)據(jù)是“為什么我的業(yè)務(wù)C還是無法辦理?”,可以將其標(biāo)注為“業(yè)務(wù)C”。

順利獲得918博天娱乐官网數(shù)據(jù)NLP平臺(tái)輕松進(jìn)行數(shù)據(jù)標(biāo)注
3.模型訓(xùn)練
模型訓(xùn)練是將已標(biāo)注的數(shù)據(jù)輸入給模型,讓模型去學(xué)習(xí)其中的數(shù)據(jù)規(guī)律。通常我們會(huì)按照一定的比例,將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測試集,
??訓(xùn)練集(training set)用于運(yùn)行學(xué)習(xí)算法,訓(xùn)練模型。
??驗(yàn)證集(development set)用于調(diào)整超參數(shù)、選擇特征等,以選擇合適模型。
??測試集(test set)只用于評(píng)估已選擇模型的性能,但不會(huì)據(jù)此改變學(xué)習(xí)算法或參數(shù)。
應(yīng)用918博天娱乐官网NLP平臺(tái)可以進(jìn)行一鍵完成模型訓(xùn)練。

一鍵完成模型訓(xùn)練
4.模型評(píng)估與調(diào)優(yōu)
模型評(píng)估
當(dāng)模型學(xué)習(xí)了訓(xùn)練集數(shù)據(jù),完成訓(xùn)練后,我們需要對其進(jìn)行性能評(píng)估,看看模型對新數(shù)據(jù)(測試集)的預(yù)測能力如何。
常用評(píng)估指標(biāo)包括:準(zhǔn)確率、精確率、召回率、F1值等。
準(zhǔn)確率(Accuracy):就是所有的預(yù)測正確(正類負(fù)類)的占總的比重。
精確率(Precision):查準(zhǔn)率,即正確預(yù)測為正的占全部預(yù)測為正的比例。
召回率(Recall):查全率,即正確預(yù)測為正的占全部實(shí)際為正的比例。
F1值(H-mean值):F1值為算數(shù)平均數(shù)除以幾何平均數(shù),且越大越好。

模型評(píng)估效果展示
模型調(diào)優(yōu)
當(dāng)模型評(píng)估完成后,需要對誤差樣本進(jìn)行誤差原因分析,找到模型在某些樣本數(shù)據(jù)上分類表現(xiàn)不好的原因,以便做針對性調(diào)整。
模型調(diào)優(yōu)是一個(gè)漫長而復(fù)雜的過程,包含模型的重新訓(xùn)練、新想法的試驗(yàn)、效果評(píng)估和指標(biāo)對比等。
5.模型上線
當(dāng)模型調(diào)優(yōu)后,達(dá)到一個(gè)比較好的評(píng)估效果,即可進(jìn)行模型上線,使之投入實(shí)際生產(chǎn)中,幫忙我們更智能便捷地完成工作。

自動(dòng)對新的語料進(jìn)行分類預(yù)測
以上是一個(gè)常規(guī)建模流程,使用者不需要會(huì)寫代碼,應(yīng)用918博天娱乐官网NLP平臺(tái)即可快速、便捷地享受構(gòu)建NLP模型的一條龍服務(wù)。
918博天娱乐官网數(shù)據(jù)NLP平臺(tái),不僅包含傳統(tǒng)NLP領(lǐng)域的中文分詞、詞性分析、實(shí)體抽取等基礎(chǔ)功能,同時(shí)針對不同行業(yè)的業(yè)務(wù)需要,給予基于篇章級(jí)、段落級(jí)的語義分析應(yīng)用。充分結(jié)合當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域、自然語言生成領(lǐng)域的算法和模型,給予基于業(yè)務(wù)知識(shí)的探索與深度應(yīng)用,滿足行業(yè)用戶對場景化的多元需求。
918博天娱乐官网數(shù)據(jù)自然語言處理NLP平臺(tái)能夠滿足行業(yè)客戶多元化的文本挖掘分析、事件分析、輿情分析等多場景訴求,支持貼合行業(yè)的文本內(nèi)容分析、觀點(diǎn)提取、敏感信息過濾、評(píng)論分析、事件開展趨勢分析等高端應(yīng)用。
詳盡的技術(shù)文檔
長期開發(fā)維護(hù)
定制培訓(xùn)和報(bào)告
毫秒級(jí)數(shù)據(jù)反饋