統(tǒng)計(jì)機(jī)器翻譯簡(jiǎn)明教程.ppt
《統(tǒng)計(jì)機(jī)器翻譯簡(jiǎn)明教程.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《統(tǒng)計(jì)機(jī)器翻譯簡(jiǎn)明教程.ppt(37頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
統(tǒng)計(jì)機(jī)器翻譯簡(jiǎn)明教程兼談相關(guān)工具的使用 何中軍2007年11月 提綱 系統(tǒng)結(jié)構(gòu)前處理詞語(yǔ)對(duì)齊短語(yǔ)抽取解碼后處理參數(shù)訓(xùn)練評(píng)測(cè) 詞語(yǔ)對(duì)齊 訓(xùn)練語(yǔ)料庫(kù) 訓(xùn)練語(yǔ)料庫(kù)為雙語(yǔ)語(yǔ)料庫(kù)格式不固定 可以是文本格式 xml格式等等要求必須句子對(duì)齊 back 語(yǔ)料預(yù)處理 目的 將各種格式不同的生語(yǔ)料進(jìn)行加工 形成格式統(tǒng)一的語(yǔ)料庫(kù) 以便進(jìn)行詞語(yǔ)對(duì)齊步驟 漢語(yǔ)分詞工具 ICTCLAS漢語(yǔ)全半角轉(zhuǎn)換功能 將A3區(qū)的全角字符轉(zhuǎn)換為半角字符程序 A2B命令行 A2Binputoutput英語(yǔ)分詞工具 Brill英語(yǔ)首字母小寫還原功能 將英語(yǔ)語(yǔ)料庫(kù)中的句首字母進(jìn)行大小寫轉(zhuǎn)換 如果首單詞在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)小寫多于大寫 則將首字母變?yōu)樾?程序 Truecase命令行 Truecaseinputoutput 處理后訓(xùn)練語(yǔ)料庫(kù) 雙語(yǔ)語(yǔ)料庫(kù) 漢語(yǔ)切詞 高新技術(shù)產(chǎn)品出口 億美元 全半角轉(zhuǎn)換 高新技術(shù)產(chǎn)品出口37 6億美元 英語(yǔ)切詞 TheexportofHigh techProductsReached3 76billionUSdollars theexportofHigh techProductsReached3 76billionUSdollars 大小寫轉(zhuǎn)換 back 詞語(yǔ)對(duì)齊 GIZA 詞語(yǔ)對(duì)齊詞語(yǔ)對(duì)齊后處理添加句首句尾標(biāo)記 詞語(yǔ)對(duì)齊 GIZA 訓(xùn)練 輸入 漢語(yǔ)文本 英語(yǔ)文本 一行一句 句子對(duì)齊 chinese english plain2snt chinese vcbenglish vcbchinese english snt mkcls chinese vcb classesenglish vcb classeschinese vcb classes catsenglish vcb classes cats Giza A3 final plain2snt 統(tǒng)計(jì)單詞數(shù) 格式轉(zhuǎn)換 命令行 plain2snt outchineseenglish 2上海7383浦東764開發(fā)3895與3724 chinese vcbFormat 單詞編號(hào)單詞單詞出現(xiàn)次數(shù) 123456782345678910112124131415 chinese english sntFormat 每個(gè)句對(duì)占3行句子出現(xiàn)次數(shù)漢語(yǔ)句子英語(yǔ)句子 mkcls 單詞聚類 命令行 mkcls n1 pchinese Vchinese vcb classesopt n 表示訓(xùn)練迭代的次數(shù) 一般迭代1次 p 要聚類的文本 一行一句 已分詞 V 輸出信息opt 優(yōu)化運(yùn)行 1925年171925日47 chinese vcb classesFormat 單詞詞類 2 1月份 83 AmocoCadiz 百分之三十九點(diǎn)四3 TC 百二十萬(wàn) 百六十萬(wàn) 百五十萬(wàn) chinese vcb classes catsFormat 詞類 單詞 單詞 GIZA 詞語(yǔ)對(duì)齊 命令行 GIZA Schinese vcb Tenglish vcb Cchinese english snt Oc2e S 源語(yǔ)言單詞表 T 目標(biāo)語(yǔ)言單詞表 C 源語(yǔ)言 目標(biāo)語(yǔ)言句子對(duì) O 輸出文件夾運(yùn)行結(jié)束后 輸出很多文件到c2e 文件夾中 主要是產(chǎn)生的對(duì)齊文件 Sentencepair 1 sourcelength7targetlength16alignmentscore 4 99368e 28thedevelopmentofShanghai sPudongisinstepwiththeestablishmentofitslegalsystemNULL 1381113 上海 4 浦東 56 開發(fā) 2 與 10 法制 1516 建設(shè) 同步 791214 A3 final 每句對(duì)3行 對(duì)齊概率目標(biāo)句子源語(yǔ)言句子 GIZA 對(duì)齊幾點(diǎn)說(shuō)明 一般雙向訓(xùn)練 漢語(yǔ) 英語(yǔ) 英語(yǔ) 漢語(yǔ)訓(xùn)練流程 plain2snt outchineseenglish mkcls n1 pchinese Vchinese vcb classesopt mkcls n1 penglish Venglish vcb classesopt mkdirc2e mkdire2c GIZA Schinese vcb Tenglish vcb Cchinese english snt Oc2e GIZA Senglish vcb Tchinese vcb Cenglish chinese snt Oe2c 詞語(yǔ)對(duì)齊后處理 對(duì)GIZA 的詞語(yǔ)對(duì)齊進(jìn)行優(yōu)化工具 WordAlign命令行 WordAlignc2e A3 finale2c A3 finaloutput 輸入 漢語(yǔ)到英語(yǔ)方向的 A3 final文件和英語(yǔ)到漢語(yǔ)方向的 A3 final文件輸出 xml格式的對(duì)齊文件 詞語(yǔ)對(duì)齊后處理 續(xù) 完 end 1 1 12 2 13 3 1 句對(duì)以bead表示 包括源語(yǔ)言詞 目標(biāo)語(yǔ)言詞 以及對(duì)齊信息 單詞后面的 是詞性的位置 如有需要 可以將 替換為相應(yīng)的詞性對(duì)齊后面的 1表示對(duì)齊概率 目前默認(rèn)是1 添加句首句尾標(biāo)記 命令行 AddHeadTailinputoutput功能 為對(duì)齊后的句子加上開始結(jié)束符 完 end 1 1 12 2 13 3 14 4 15 5 1 back 短語(yǔ)抽取 從詞語(yǔ)對(duì)齊的語(yǔ)料庫(kù)中得到短語(yǔ)翻譯工具 phraseExtractor功能 抽取短語(yǔ) 統(tǒng)計(jì)短語(yǔ)出現(xiàn)次數(shù)phraseScoring功能 計(jì)算短語(yǔ)的詞匯化翻譯概率phraseExtractor pl功能 驅(qū)動(dòng)以上兩個(gè)程序的腳本文件 銀行和保險(xiǎn)公司 banksandinsurancecompanies 10 10559910 0257825堅(jiān)持改革開放 ofreformandopeningup 0 3333330 0010333710 014045 短語(yǔ)抽取 續(xù) phraseExtractor pl corpus dir corpus filealign xml extract file namemy separatortab讀取corpus dir目錄下的align xml對(duì)齊文件 最終生成my bp文件 分隔符為制表符參數(shù)說(shuō)明 debug ifdebugthenthemiddlefileswillnotbedeleted defaultisfalse corpus dir setthecorpusdir corpus file thewordalignedfilefromwhichphrasesareextrated capacity howmanyphrasesinafilewhenextracting defaultis1000000 extract file name thephrasetablename defaultis extract max phrase length maxsourcephraselength defaultis7 separator theseparatorbetweenphrases defaultistab reorder types lexicalreorderingtype defaultismsd fe fertility howmanywordscanawordaligned defaultis9 orientation extractlexicalreorderingtableornot defaultis0 短語(yǔ)表過(guò)濾 根據(jù)測(cè)試文件對(duì)短語(yǔ)表進(jìn)行過(guò)濾 我I0 10 10 10 1我是Iam0 10 10 10 1我是學(xué)生Iamastudent0 10 10 10 1一個(gè)學(xué)生astudent0 10 10 10 1一個(gè)小孩achild0 10 10 10 1 我I0 10 10 10 1我是Iam0 10 10 10 1一個(gè)學(xué)生astudent0 10 10 10 1 測(cè)試文件 源短語(yǔ)表 過(guò)濾后短語(yǔ)表 短語(yǔ)表過(guò)濾 續(xù) SelectBPbpfiletestfileoutfilec2e bpfile 短語(yǔ)文件testfile 輸入文件 文本文件 一行一句 如果是漢語(yǔ)文件 不用分詞 如果是英語(yǔ)文件 需要做tokenize 注意 如果在短語(yǔ)抽取的時(shí)候 漢語(yǔ)英語(yǔ)進(jìn)行了預(yù)處理 這里對(duì)輸入文件也要做相應(yīng)的預(yù)處理 例如 在短語(yǔ)抽取時(shí) 漢語(yǔ)做了A3區(qū)半角轉(zhuǎn)換 則SelectBP的輸入文件也要做半角轉(zhuǎn)換 英語(yǔ)作了tokenize 輸入文件也要做tokenize 如果加入了句首句尾標(biāo)記 則測(cè)試文件也要加句首句尾標(biāo)記 outfile 過(guò)濾后的短語(yǔ)表c2e 1 表示漢英翻譯 根據(jù)漢語(yǔ)文件過(guò)濾 0表示英漢翻譯 根據(jù)英語(yǔ)文件過(guò)濾 back 語(yǔ)言模型訓(xùn)練 ngram count textenglish lmlm gz unk kndiscount order4 write arpa text 要訓(xùn)練的文本 一行一句 lm 輸出文件名 unk 未登錄詞 kndiscount 平滑 order 語(yǔ)言模型的元數(shù) n gram write arpa apra格式 back Confucius的解碼 基于短語(yǔ)的解碼器 解碼器的配置文件Log linear模型的訓(xùn)練過(guò)程結(jié)果評(píng)測(cè) BPTABLE LIMIT 10 短語(yǔ)表的剪枝參數(shù) NBEST LIST 1000 每句話產(chǎn)生Nbest的個(gè)數(shù) MAX STACK SIZE 100 搜索棧的剪枝參數(shù) TT bp iwslt07 bpsmall txt 短語(yǔ)表的路徑 POSTABLE bp L 0612 pos p txt 用于相似度模型的文件路徑 LM lm english m2 bo4 gz 語(yǔ)言模型1 LM2 lm iwslt small order5 lm gz 語(yǔ)言模型2 LMNGRAM 3 語(yǔ)言模型的元數(shù) PARA 下面是log linear模型的權(quán)重p e c 1 短語(yǔ)翻譯概率p c e 1 短語(yǔ)翻譯概率lex e c 1 詞匯化概率lex c e 1 詞匯化概率phrase0 短語(yǔ)概率 如果是精確匹配 為1 否則 為0 len1 目標(biāo)句子長(zhǎng)度pos prob0 詞性概率sim prob0 相似度lm1 語(yǔ)言模型lm21 語(yǔ)言模型 END TST corpus iwslt06 dev src 測(cè)試文件 REF corpus iwslt06 dev ref 參考譯文 FORMAT nist 輸出格式 NIST評(píng)測(cè)使用nist ISTRAIN 1 如果進(jìn)行最小錯(cuò)誤率訓(xùn)練 則為1 表示輸出NBest信息 PRINT NBEST 1 如果需要nbest輸出 設(shè)為1 訓(xùn)練過(guò)程一定要設(shè)為1 FEATPATH nbestfeat 特征文件的輸出路徑 RESULTPATH result 結(jié)果文件的輸出路徑 SUFFIX 0 結(jié)果文件的輸出后綴名 ENTITY bp nist0216 0712 dev src 命名實(shí)體文件 INFO 0 是否輸出翻譯過(guò)程的信息 用于調(diào)試 說(shuō)明 紅色部分表示大家不需要使用的 不用改動(dòng)藍(lán)色部分表示在進(jìn)行最小錯(cuò)誤率訓(xùn)練后 大家需要改動(dòng)的部分如果想屏蔽掉某項(xiàng)功能 例如命名實(shí)體 只需要改動(dòng)第一列的標(biāo)記 例如 ENTITY ENTITY Log linear模型訓(xùn)練過(guò)程 1初始化lambda 進(jìn)行解碼 產(chǎn)生Nbest特征文件f12最小錯(cuò)誤率訓(xùn)練得到新的lambda3利用新的lambda進(jìn)行解碼 產(chǎn)生Nbest特征文件f24合并f1 f2 生成新的特征文件f1 如果f1 與f1相等 即沒(méi)有新的Nbest產(chǎn)生 結(jié)束 否則轉(zhuǎn)55f1 f1 參數(shù)訓(xùn)練得到lambda 轉(zhuǎn)3 訓(xùn)練過(guò)程 confucius pl root dir corpusnist first loop0 total loop10 root dir路徑名 一般為本目錄下 corpus開發(fā)集名字 程序自動(dòng)到corpus 目錄下尋找nist dev src和nist dev ref 所以 一定要在corpus 下存在這兩個(gè)文件 first loop從第幾輪開始迭代 默認(rèn)第0輪 total loop迭代到第幾輪 默認(rèn)10程序創(chuàng)建三個(gè)文件夾 results 存放產(chǎn)生的結(jié)果文件nbestfeats 存放用于最小錯(cuò)誤率訓(xùn)練的nbest特征文件config 存放最小錯(cuò)誤率訓(xùn)練的得到的參數(shù) 和Confucius的配置文件 result result0 txt result1 txt 分別對(duì)應(yīng)由配置文件searchconfig0 txtsearchconfig1 txt 產(chǎn)生的結(jié)果文件result0 nist evalresult1 nist eval分別是result0 txtresult1 txt的評(píng)測(cè)文件 從中可以看到它們的bleu值 nbesetfeat cands0 txtcands1 txt 對(duì)應(yīng)每句話的nbest個(gè)數(shù)transfeat0 txt transfeat1 txt 對(duì)應(yīng)特征文件 0164111617 第0句有1641個(gè)候選譯文第1句有1617個(gè)候選譯文 60 748764 520859 910458 64220128 144 1500080 899412136122110101762 406966 336559 171358 64220129 803 1600077 7209121461321201117 分為兩部分 藍(lán)色部分 log liear模型的特征值 log 紅色部分 n gram的個(gè)數(shù)N gram格式 對(duì)一句話而言 1 gram匹配個(gè)數(shù)1 gram系統(tǒng)譯文個(gè)數(shù) 4 gram匹配個(gè)數(shù)4 gram系統(tǒng)譯文個(gè)數(shù)最后是最短參考譯文的長(zhǎng)度 從4個(gè)參考譯文中 選長(zhǎng)度最短的 config lamda0 txt lamda1 txt對(duì)應(yīng)訓(xùn)練得到的log linear模型的權(quán)重searchconfig1 txtsearchconfig2 txt對(duì)應(yīng)解碼器要用到的配置文件 注意事項(xiàng) searchconfigi txt對(duì)應(yīng)resulti txttransfeati txt candsi txtlambdai txt用于產(chǎn)生searchconfigi 1 txt訓(xùn)練完成后 參數(shù)收斂 檢查result 目錄下的resulti nist eval 找到bleu值最高的那個(gè)resultx nist eval 表示它由searchconfigx txt產(chǎn)生 意味著最好的參數(shù)在searchconfigx txt lambdax 1 txt 修改searchconfigx txt 運(yùn)行Confucius進(jìn)行評(píng)測(cè) 修改配置文件 運(yùn)行測(cè)試集 TST corpus iwslt06 dev src REF corpus iwslt06 dev ref FORMAT nist ISTRAIN 1 PRINT NBEST 1 FEATPATH nbestfeat RESULTPATH result SUFFIX 0 ENTITY bp nist0216 0712 dev src INFO 0 TST corpus nist05 tst src REF NOFILE FORMAT nist ISTRAIN 0 PRINT NBEST 0 FEATPATH nbestfeat RESULTPATH result SUFFIX nist05 ENTITY bp nist05 entity INFO 0 命令行 Confucius產(chǎn)生的結(jié)果文件在result resultnist05 txt 評(píng)測(cè)程序mteval v11b pl 比較系統(tǒng)譯文和參考譯文 進(jìn)行打分命令行 mteval v11b pl c ssource sgm rreference sgm tresult txt c 區(qū)分大小寫 大小寫敏感 s 源文件 r 參考譯文 t 系統(tǒng)譯文 文件格式 不同的評(píng)測(cè)對(duì)應(yīng)的文件格式不太一致 但是有一些共同部分 源文件一般包含 參考譯文包含 系統(tǒng)譯文格式必須與源文件一致 且將改為 并添加相應(yīng)的系統(tǒng)id 今年前兩月廣東高新技術(shù)產(chǎn)品出口 億美元 ExportofHigh techProductsinGuangdonginFirst ExportofHigh techProductsinGuangdonginFirst source reference system 詞語(yǔ)對(duì)齊參考文獻(xiàn) Peter F Brown StephenA DellaPietra VincentJ DellaPietra RobertL Mercer TheMathematicsofStatisticalMachineTranslation ParameterEstimation ComputationalLinguistics Vol19 No 2 1993http www i6 informatik rwth aachen de Colleagues och software GIZA html 短語(yǔ)抽取參考文獻(xiàn) PhilippKoehn 2004 Pharaoh abeamsearchdecoderforphrase basedstatisticalmachinetrnaslationmodels InProceedingsoftheSixthConferenceoftheAssociationforMachineTranslationintheAmericas pages115 124 PhilippKoehn FranzJ Och andDanielMarcu 2003 Statisticalphrase basedtranslation InProceedingsofHLT NAACL2003 pages127 133 http www isi edu publications licensed sw pharaoh 最小錯(cuò)誤率訓(xùn)練參考文獻(xiàn) FranzJosefOch MinimumErrorRateTrainingforStatisticalMachineTranslation In ACL2003 Proc ofthe41stAnnualMeetingoftheAssociationforComputationalLinguistics Japan Sapporo July2003 AshishVenugopal StephanVogel ConsiderationsinMaximumMutualInformationandMinimumClassificationErrortrainingforStatisticalMachineTranslation IntheProceedingsoftheTenthConferenceoftheEuropeanAssociationforMachineTranslation EAMT 05 Budapest HungaryMay30 31 2005http www cs cmu edu ashishv mer html 謝謝- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計(jì) 機(jī)器翻譯 簡(jiǎn)明 教程
鏈接地址:http://m.hcyjhs8.com/p-7499616.html