Laconec

Laconec The goal of Laconec is to provide multilingual lexical knowledge word lookup based on semantics.

31/12/2022
31/12/2022
07/02/2022

Có một số cách để cập nhật Từ điển WordNet cho những ngôn ngữ có sẵn ngữ liệu trên internet. (1,2)

Phần này chúng tôi giới thiệu cách cập nhật tự động các quy tắc ngữ pháp.

Trong phương pháp dịch máy dựa trên luật, các quy tắc chuyển đổi văn phạm phải được biên soạn thủ công. Ví dụ, bộ quy tắc văn phạm tiếng Anh trong SYSTRAN gồm hơn 26 nghĩn đơn vị. Đây là một việc cực nhọc.

Trong dịch máy theo ngữ nghĩa, các quy tắc ngữ pháp đơn ngữ không phải là bộ luật bất biến, phải tuân thủ nghiêm ngặt, mà là những gợi ý vận dụng để tính toán. Chúng được hình thành, thay đổi trong quá trình xử lý: Càng nhiều ngữ liệu ngôn ngữ được xử lý thì bộ luật đơn ngữ càng được bổ sung, hoàn thiện cho ngôn ngữ đó, một cách tự động. Quá trình học và hiểu được diễn ra tương tự như cách con người làm chủ ngôn ngữ.

Ở đây chúng tôi diễn giải việc này qua một ví dụ đơn giản, theo một cách tóm lược. (Những điều mô tả dưới đây là mới)

Giả sử ta có 2 Luật Ngữ nghĩa (đã lược bỏ vài tiểu tiết không liên quan, tạm mô tả bằng tiếng Anh để dễ phân biệt):

1. Entity =>Do=> Action (tạm hiểu như Chủ ngữ -> Động từ)
2. Action =>Touch=> Entity (tạm hiểu như Động từ -> Tân ngữ)

Khi gặp câu "chó đuổi mèo"
Từ điển WordNet tiếng Việt cho ta biết chó, mèo là danh từ - đều là Entity, đuổi là ngoại động từ, là Action.
Từ đây máy có thể sinh ra 2 cặp quy tắc Ngữ pháp (mâu thuẫn nhau) như sau:
A (khi giả định "chó" là Chủ ngữ) :
1. Noun (Do) Verb (tạm hiểu Chủ ngữ thì đứng trước Động từ)
2. Verb (Touch) Noun (tạm hiểu Động từ thì đứng trước Tân ngữ)
B (khi giả định "mèo" là Chủ ngữ) :
1. Verb (Do) Noun (tạm hiểu Chủ ngữ thì đứng sau Động từ)
2. Noun (Touch) Verb (tạm hiểu Động từ thì đứng sau Tân ngữ)

Sau đó gặp câu "người thở"
Từ điển WordNet tiếng Việt cho ta biết "người" là danh từ - là Entity, "thở" là nội động từ - là Action.
Vì "thở" là nội động từ, nên không thể có Tân ngữ.

Từ đó suy ra "người" là Chủ ngữ và đứng trước động từ, nghĩa là cặp Quy tắc Ngữ pháp A được cộng thêm điểm, cặp B bị trừ điểm,

Như vậy, Máy đã đoán nhận được tiếng Việt có cấu trúc SVO. Bằng cách tương tư, máy cũng có thể đoán nhận được tiếng Nhật có cấu trúc SOV,...

Đa số luật Ngữ pháp có thể tự sản sinh theo cách tương tự. Một số ít còn lại cần phải được thêm bằng thủ công. Điều này giúp giảm khối lượng công việc rất nhiều.

Tính toán ngữ nghĩa giúp hình thành và củng cố bộ luật Ngữ pháp cho mỗi ngôn ngữ, không phải theo cách big-data mà là bằng suy diễn luận lý trên một tập mẫu câu đơn ngữ không lớn lắm!
--------------
(1) http://compling.hss.ntu.edu.sg/omw/

(2) https://babelnet.org/

This page provides access to open wordnets in a variety of languages, all linked to the Princeton Wordnet of English (PWN). The goal is to make it easy to use wordnets in multiple languages. The individual wordnets have been made by many different projects and vary greatly in size and accuracy. We h...

HÃY NHÌN QUÁ KHỨ!  - LOOK TO THE PAST!Đó là chiến lược đổi mới gồm 4 chữ của Elon Musk được sử dụng để tạo ra tương lai....
07/02/2022

HÃY NHÌN QUÁ KHỨ! - LOOK TO THE PAST!

Đó là chiến lược đổi mới gồm 4 chữ của Elon Musk được sử dụng để tạo ra tương lai.

"Bằng cách tìm hiểu những gì người ta đã làm, bạn có thể làm hiệu quả hơn những gì có thể hoặc cần làm trong tương lai. Như vậy, bạn thậm chí không cần phải là người đầu tiên làm điều gì đó, chỉ cần là người đầu tiên làm nó thực sự tốt và đúng lúc!"

01/02/2022

Trên thế giới hiện có hai phương pháp dịch máy

A. Dịch máy dựa trên luật (Rule-based machine translation - RBMT):

Dữ liệu bao gồm từ điển song ngữ, các bộ quy tắc ngữ vựng để tra từ / tạo từ và các bộ Luật Chuyển đổi Ngữ pháp giữa hai ngôn ngữ. (EVTRAN và EvShuttle được thực hiện theo phương pháp này.)
Có bao nhiêu cặp ngôn ngữ thì cần bấy nhiêu bộ dữ liệu. Chẳng hạn nếu cần dịch qua lại giữa 1000 ngôn ngữ thì phải chuẩn bị 1000*999 = 999.000 bộ dữ liệu (cho từng cặp ngôn ngữ, mỗi chiều), hoặc 1000*999/2 = 499.500 bộ dữ liệu (cho từng cặp ngôn ngữ, 2 chiều)
Một việc bất khả thi.

Chất lượng các hệ thống dịch máy dựa trên luật khá hạn chế do:
- Tri thức ngữ vựng và ngữ pháp là không đủ để phân tích hay tổng hợp văn bản
- Bất lực với những câu sai ngữ pháp
- Không có cơ chế xử lý nhập nhằng
(Ví dụ, EvShuttle, 2004 dịch "Chân thành cảm ơn" sang tiếng Anh thành "legs become the thank")

B. Dịch máy thống kê (Statistical machine translation - SMT)

Các mô hình thống kê hoạt động bằng cách phân tích kho ngữ liệu đa ngữ lớn và tìm kiếm các mẫu thống kê đối sánh song ngữ. Những mẫu này cho phép chương trình tạo ra một giả thuyết về cách nó sẽ dịch các văn bản được xây dựng tương tự khác trong tương lai.
Dữ liệu cần thiết để dạy các mô hình là rất lớn — ta cần hàng triệu từ để huấn luyện động cơ cho một lĩnh vực cụ thể — nhưng kết quả có thể khá tốt, đặc biệt là trong các văn bản chuyên ngành.

Các mô hình dịch thống kê ban đầu dựa trên từ nhưng sau đó đã phát triển thành các hệ thống dựa trên cụm từ dài hơn để nắm bắt được ngữ cảnh của các từ.

Một dạng của Dịch máy thống kê là Dịch máy nơ ron (Neural Machine Translation - NMT, do Google phát triển từ năm 2016) sử dụng mạng ron để dịch văn bản, có thể hoạt động với các bộ dữ liệu rất lớn và yêu cầu giám sát ít.

Các hệ dịch phổ biến hiện nay đều sử dụng phương pháp NMT: Google Translate, Microsoft Bing Translator, Amazon Translate, DeepL, IBM Watson Language Translator, Yandex Translate, Baidu Translator ,...

Nhược điểm của phương pháp Dịch máy thống kê là đòi hỏi kho ngữ liệu đa ngữ rất lớn để cho máy học trước khi có thể biên dịch văn bản. Chính vì vậy, tất cả các hệ thống hiện tại chỉ bao gồm trên dưới 100 ngôn ngữ phổ biến - những ngôn ngữ có sẵn kho văn bản lớn trên internet.

Phương pháp lai kết hợp giữa Dịch máy thống kê và Dịch máy dựa trên luật cũng được đề cập nhưng chưa thấy có hệ thống thực tế nào.

----------------------------
Nhược điểm chung của các hệ dịch máy hiện có
- Dịch máy móc, không hiểu nội dung văn bản,
- Hệ thống không tự đánh giá được chất lượng, mức độ khả tín của bản dịch,
- Không thể thực hiện cho số lượng ngôn ngữ lớn (ví dụ 1000 ngôn ngữ) vì bùng nổ chi phí
- Dịch máy cho các ngôn ngữ ít người (không kinh tế)

Vì vậy một hệ dịch máy khắc phục được những nhược điểm trên, dù chỉ một phần, là thực sự cần thiết.

(bài sau: giải pháp đề xuất)

BỘ DỊCH MÁY ĐA NGỮSau khi thực hiện lần lượt phần mềm dịch máy EVTRAN (Anh->Việt ), EV-Shuttle (Anh -> Việt & Việt -> An...
23/01/2022

BỘ DỊCH MÁY ĐA NGỮ

Sau khi thực hiện lần lượt phần mềm dịch máy EVTRAN (Anh->Việt ), EV-Shuttle (Anh -> Việt & Việt -> Anh) và Bộ Từ điển Ngữ nghĩa LACONEC với 26 ngôn ngữ, được đón nhận rộng rãi,
- Xem xét khả năng mở rộng hệ thống, hoàn thiện giải pháp công nghệ cho các trở ngại tiềm năng,
- Tìm hiểu nhu cầu thực tế, hiện trạng của lĩnh vực trên thế giới,
- Tính khả thi của sản phẩm,
Chúng tôi quyết định xây dựng BỘ DỊCH MÁY VÀ TỪ ĐIỂN NGỮ NGHĨA Cho tất cả các ngôn ngữ hiện có của loài người làm nền tảng cho một đồng tiền số mới!

Đây là một dự án lớn, chưa có tiền lệ mà không một tổ chức nào đủ tiềm lực và/hoặc động lực, lý do để thực hiện, mặc dù ý nghĩa kinh tế, văn hóa, xã hội, quốc gia, dân tộc của nó là rất lớn.

Vì không ai sẵn sàng đứng ra làm nên đây là một công việc rất đáng để tất cả chúng ta cùng tự mình bắt tay làm.

Vì đây là một ý tưởng mới, chúng tôi rất cần sự tham gia của mọi người quan tâm trong việc hình thành, xây dựng và phát triển sản phẩm.

Bài toán này đáp ứng các đòi hỏi về việc xây dựng đồng tiền số thực sự dựa trên Bằng chứng của công việc (Proof of Work), không như bitcoin - dựa trên bằng chứng của sự chạy máy tính (vô bổ) và tiêu phí điện năng không hề nhỏ (Mức phí phạm điện năng của việc đào bitcoin đã vượt quá lượng điện tiêu thụ của nhiều nước, như Căm pu chia, Mông cổ,...).
- Mỗi đơn vị công việc là đủ nhỏ: nhập một từ, một khái niệm, một câu văn, ... trên một ngôn ngữ nào đó đều là công việc
- Khối lượng công việc cần làm là rất lớn: Thế giới có trên 7000 ngôn ngữ, mỗi ngôn ngữ có hàng triệu đơn vị công việc
- Với những ngôn ngữ thông dụng, một phần công việc sẽ được thực hiện tự động bằng máy học trên kho ngữ liệu
- Giá trị của công việc ngày càng tăng theo thời gian: Sau khi có 100 ngôn ngữ, việc đưa thêm một ngôn ngữ mới làm cho ta có thể tra cứu và biên dịch từ nó đến 100 ngôn ngữ (và ngược lại) mà lượng công việc chỉ tương đương với việc đưa ngôn ngữ đầu tiên vào hệ thống!
- Giá trị sử dụng của hệ thống là lâu dài. Càng thêm nhiều ngôn ngữ thì nhu cầu đối với sản phẩm càng cao.

Về Khái niệm "thế giới phẳng":
Thomas Friedman cho rằng việc người Mỹ sang Căm pu chia thuê đánh máy với mức lương 200 đô la thay vì làm tại Mỹ với mức lương 5000 đô la là minh chứng cho một thế giới phẳng "công bằng" !?
Có thể thế giới của ông này là phẳng theo nghĩa một mặt phẳng nghiêng 60 độ với các nước giàu nằm bên trên?

Nếu chúng ta tính công (bằng đồng tiền ảo) cho mỗi đơn vị công việc của bộ dịch máy là tương đương nhau, đồng đều cho mọi ngôn ngữ thì dù là người Mỹ hay Căm pu chia sẽ được nhận số tiền ngang nhau cho khối lượng công việc ngang nhau.
Đó mới là thế giới phẳng, phẳng nằm ngang!

(tiếp theo bài trước)Để tạo một đồng tiền ảo hoạt động thực sự theo Bằng chứng công việc, cần giải quyết hai vấn đề1- Yê...
22/01/2022

(tiếp theo bài trước)

Để tạo một đồng tiền ảo hoạt động thực sự theo Bằng chứng công việc, cần giải quyết hai vấn đề

1- Yêu cầu đối với đồng tiền ảo

"No matter what Bitcoin software you use, you should never buy more bitcoins than you can afford to lose. Bitcoin is still an experimental system and bitcoins remain a risky investment."

Bất kể bạn sử dụng phần mềm Bitcoin nào, đừng bao giờ mua nhiều Bitcoin hơn mức bạn có thể để cho nó mất trắng. Bitcoin vẫn là một hệ thống thử nghiệm và bitcoin vẫn là một khoản đầu tư rủi ro."

(nguồn: https://bitcoin.org/en/bitcoin-core/features/requirements)

A. Đồng tiền phải ít rủi ro.
Đồng tiền ta có thể xây dựng phải đáp ứng các yêu cầu an toàn bảo mật (ít ra phải được như bitcoin)

B. Bất kỳ lúc nào, nơi nào cũng có thể mua hay bán nó

C. Giá trị đồng tiền được bảo đảm (bằng trị giá công việc đã được thực hiện), có xu hướng tăng trưởng theo thời gian, bảo tồn được giá trị (với bitcoin - khi tất cả cùng rao bán thì giá trị của nó tụt về số không)

D. Minh bạch - không được lũng đoạn bởi bất kỳ ai, kể cả chủ thể tạo ra nó.

2- Yêu cầu đối với nội dung của "công việc"

A. Công việc phải có giá trị thực dụng cao và lâu dài (kết quả công việc phải được sử dụng bởi nhiều người, nhiều lần, và không bị lạc hậu theo thời gian)

B. Khối lượng công việc phải đủ lớn và đa dạng để (đủ cho nhiều người "đào" trong thời gian dài) làm cơ sở cho một khối lượng tiền lưu thông đáng kể

C. Giá trị tổng thể của toàn bộ công việc thực hiện phải lớn hơn nhiều so với TỔNG giá trị của tất cả các đơn vị công việc (1+1>2).

Điều này đồng nghĩa với việc tổng giá trị toàn bộ tiền được tạo ra là nhỏ hơn Giá trị tổng thể của toàn bộ công việc thực hiện!

Điều này giúp cho giá trị đồng tiền được tăng lên theo thời gian, (và không bị trồi sụt thất thường, không kiểm soát được như các đồng tiền ảo hiện nay).

D. Công việc phải là mới, chưa có ai làm.

Bài sau sẽ đề cập đến một NỘI DUNG công việc được đề xuất.

Bitcoin Core gives you increased security and privacy at a cost. You need to take responsibility for the security of your bitcoins, meet higher minimum system requirements, and beware of some possible problems.

21/01/2022

PoW - PROOF OF WORK OR PROOF OF WASTE?
Bằng chứng của Công việc hay là Bằng chứng của Phí phạm!

Dân IT và Fintech cả thế giới đổ xô vào đào bitcoin với hy vọng kiếm được nhiều tiền hơn chi phí ngày càng tốn kém cho điện năng và những chiếc máy tính đắt tiền "làm việc" ngày đêm nhưng chẳng làm gì cả, không đem lại bất cứ lợi lộc gì cho xã hội. Nhưng đó lại là bằng chứng cho "khối lượng công việc" đã "làm" để được nhận tiền ảo.

Cách đây không lâu, một "nhà máy" đào bitcoin của TQ trên lãnh thổ IRAN đã đánh sập mạng lưới điện nước này vì quá tải.

Làm giàu cho bản thân hay làm giàu cho các công ty sản xuất cạc đồ họa như NVDIA hay AMD?

Hiện nay nhiều nước đã hoặc đang xem xét việc cấm đào, cũng như mua bán tiền ảo.

Vậy thì ...

A. Nếu như tạo một đồng tiền Crypto được định giá bằng lao động của con người hoặc/và bằng hoạt động hữu ích của máy móc thì sao?

Đó mới thực sự là PROOF OF WORK - Bằng chứng của Công việc.

B. Làm thế nào để có đồng tiền ảo thật sự dựa trên BẰNG CHỨNG CÔNG VIỆC?
Có hai vấn đề đặt ra:
1- Đòi hỏi đối với việc tạo đồng tiền
2- Đòi hỏi đối với nội dung của "công việc"

Address

Hanoi
10000

Telephone

+84988551808

Website

Alerts

Be the first to know and let us send you an email when Laconec posts news and promotions. Your email address will not be used for any other purpose, and you can unsubscribe at any time.

Contact The Business

Send a message to Laconec:

Share