1樓:一一開放有愛
僅乙個嫌伏團文字肯定是不夠的,要有很多文字,而為了保證文字的真實性(不能自己憑空捏造),所以做科學研究芹橘的時候就需要建立在語料庫的基礎上,所以說是基於語料庫的研究。比如廳沒,我研究乙個作家的語言風格,我就要建立在他創作出來的文字之上;我要研究漢語的一些語言現象,一般就要建立在平衡語料庫之上,研究其他語言同樣。語料庫一般都會有人建立的,不需要自己做。
語料庫的優缺點
2樓:至東深晴
2、語料庫能夠豐富商務翻譯教學材料。由模擬語料或人工語料構迅鄭成的教學材料說服力不強,與商務翻譯實踐連線不夠緊密,導致教學效果不理想。
3、基於語料庫的教學改革有利於使商務翻譯實踐畝迅頌與教學緊密結合,改善教學效果。商務活動由於與各方經濟利昌李益緊密相關。
4、優點:研究方便,可重用,功能多樣,分析清晰。
5、缺點:語料不客觀(手工標註準確率高而一致性差,自動或者半自動標註一致性高而準確率差),標註不一致,準確率低。
如何建立自己的語料庫
3樓:網友
基本上沒有辦法建立相應的語料庫,優質的原語料是優質語料庫的前提。
動態變化的語料庫:大眾傳播**的情況是在不斷變化的,語料庫也要相應變化。(例如:
1978年,中國報紙只有186種,基本上是單一的黨委機關報,到1995年底,已經增加到2202種,平均期印數增加4倍,總印張增加3·5倍,報紙的品種,功能,發行都有了相當大的變化如果要科學地反應語言的流通應用情況,語料庫的容量,選材,抽樣等怎麼可能一成不變呢)。
4樓:網友
首先要明確建立的是單語語料庫還是雙語語料庫,因為用到的建庫軟體和方法不一樣,單語語料庫的建立過程相對簡單一些。
1、單語語料庫
1)準備單語語料,將語料都轉換成txt格式,建議按一定規律給各個文件命名。
2、雙語語料庫
1)語料準備。
準備英漢對照的雙語文件。可以是兩個文件,其中乙個英文,一箇中文;也可以是英中上下對照或左右對照的單文件。無論是雙文件還是單文件,都要注意原文與譯文需要嚴格對照,這是後續軟體識別的重要基礎。
2)語料對齊。
例如,英中文件的對齊效果如下,將對齊好的文件匯出,存為tmx格式。
3)在trados等cat工具中新建翻譯記憶庫,把之前儲存好的tmx檔案匯入即可。
附:關於原語料**,一是自己翻譯積累,二是權威**獲取,優質的原語料是優質語料庫的前提。如果覺得自己做語料庫耗時間,也可以到tmxmall語料**上看看別人上傳的各類語料庫,和其他譯員交易已經建好的語料庫。
5樓:山月原
3. 倘若公司以前有做過的翻譯語料,直接可以用tmxmall做對齊,複用以前的翻譯。
4. 用tmrobot管理語料,防止語料太亂以及語料丟失建立語料庫最大的任務就是做對齊,對齊效率越高,準確率越高,用處就越大。
tmxmall對齊方式是先基於段落對齊,然後再細化為句對齊,很好的提高了工作效率及準確。
6樓:輕風笑湮雨
至少五年以上翻譯方有意義,否則根本杯水車薪,積累的太少。單個領域的語料庫沒有個幾萬,根本用不上。
語料庫怎麼用
7樓:青檸姑娘
問題一:怎樣利用語料庫 僅乙個文字肯定是不夠的,要有很多文字,而為了保證文字的真實性(不能自己憑空捏造),所以做科學研究的時候慎敏蔽就需要建立在語料庫的基礎上,所以說是基於語料庫的研究。比如,我研究乙個作家的語言風格,我就要建立在他創作出來的文字之上;我要研究漢語的一些語言現象,一般就要建立在平衡語料庫之上,研究其他語言同樣。
語料庫一般都會有人建立的,不需要自己做。
問題二:王陸語料庫怎麼使用?書寫的好簡單啊 只是看起來簡拿者單,很多的單詞是看起來認識,聽起來就不知道是什麼了。樓上說的方法是對的,但是正確率不是90%以上,而是95%以上。
問題三:怎麼用語料庫分類 python 把自己的語料庫(sogou文字分類語料庫)放在ltk_data/corpora/目錄下;
然後在命令列輸入以下之後,即可看到所有的txt檔名列表了。
問題四:怎樣利用語料庫 corpus4u是語料庫的大家庭,很好的學習地方。北外的許家金、中科院艾海洋、新加坡國立大學洪華清等高手雲集,好好學吧。
問題五:有誰知道北大ccl語料庫怎麼使用 使用網頁版(雙擊就可以進入了):ccl語料庫檢索系統(網路版)
問題六:怎麼是使用北京語言大學的語料庫啊? 有很多同行、高手幫你解決問題,互動性很強。
好像不連線到北大中文語料庫,也不能查詢。主要是同行間的互相交流,也會提供很多語料庫相關資源。
好像伺服器在香港,有時不好上。
問題七:王陸的聽力語料庫是什麼,該怎麼用? 沒什麼用,把不會的背一背吧。我根本沒聽過那本書的***,聽力還是。
問題八:bnc語料庫怎麼使用 如題,希望答主詳細說明這兩個語料庫的正確使用方法。
以及,除此之外,還有哪些對學習翻譯和翻譯實際應用來說比較方便的語料庫呢?
非常感謝。寬州如題,希望答主詳細說明這兩個語料庫的正確使用方法。
以及,除此之外,還有哪些對學習翻譯和翻譯實際應用來說比較方便的語料庫呢?
非常感謝。
什麼是語料庫
8樓:為求星辰大海
語料庫指經科學取樣和加工的大規模電子文字庫。藉助計算機分析工具,研究者可開展相關的語言理論及應用研究。
語料庫是語言學研究的基旦棗礎資源,也慎祥是經驗主義語言研究方法的主要資源。應用於詞典編纂、語言教學、傳統語言研究、自然語言處理中基於統計或例項的研究等方面。
語料庫按照語料的語種,可以分成單語的、雙語的和多語的。按照語料的採集單位可以分為語篇的、語句的、短語的。
語料庫的特徵有:
語料庫中存放的是模孝拆在語言的實際使用中真實出現過的語言材料;
語料庫是承載語言知識的基礎資源,但並不等於語言知識;
真實語料需要經過加工,才能成為有用的資源。
什麼是語料庫?
9樓:offercoming留學
語料庫中存放的是在語言的實際州孫使用中真實出現過的語言材料。
1、語料庫。
是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。應用於詞典編纂,語辯臘言教學,傳統語言研究,自然語言處理中基於統計或例項的研究等方面。
2、語料庫分類。
異質攜跡滑的、同質的、系統的、專用的。
3、語料庫特徵。
語料庫中存放的是在語言的實際使用中真實出現過的語言材料,因此例句庫通常不應算作語料庫;語料庫是承載語言知識的基礎資源,但並不等於語言知識;真實語料需要經過加工(分析和處理),才能成為有用的資源。
什麼是語料庫,平行語料庫和可比較語料庫有什麼區別
語料庫中存放的是在語言的實際使用中真實出現過的語言材料。1 語料庫 是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。應用於詞典編纂,語言教學,傳統語言研究,自然語言處理中基於統計或例項的研究等方面。2 語料庫分類 異質的 同質的 系統的 專用的。3 語料庫特徵 語料庫中存放的是在語...
新東方雅思寫作語料庫 外語學習是特權還是基本權利
新東方學雅思學習班 為 5000元 3萬元不等。vip課程則是從班級的人數和學時數綜合因素決定 的,人數越少,越貴,學時數越多,費用越貴。費用大概從1萬到幾萬不等。新東方雅思培訓班分為兩種,一種是最為常見的去定點定時學習的,一般是大班課,我們稱為班課,還有一種是vip課程,私教課程。根據在新東方雅思...
bimRevit族庫都是怎樣建立的
這個族庫 非常大 無法傳送 請到 bimchina論壇上的置頂帖內 族之於revit,如骨骼之於人的身體,為其中的重中之重。剛開始學習revit,一定要學會畫族,這是學習revit的基礎。建立標準構件族的常規步驟 選擇適當的族樣板。2.定義有助於控制物件可見性的族的子類別。3.布局有助於繪製構件幾何...