• 01 March 2020 (9 messages)
  • adamshamsudeen/Vaaku2Vec

    Language Modeling and Text Classification in Malayalam Language using ULMFiT - adamshamsudeen/Vaaku2Vec

  • @Iamvivekkj #17927 06:13 AM, 01 Mar 2020
    Cdac siva font undo...? Oru friendnu vendiyaann
  • @sthottingal #17928 08:17 AM, 01 Mar 2020
    Procrustes Analysis Based Handwriting Recognition - https://thottingal.in/blog/2020/02/29/procrustes-analysis-based-handwriting-recognition/ - New blog post
  • @nambolan #17929 10:45 AM, 01 Mar 2020
    Kodi ല്‍ മലയാളം subtitle എടുക്കോ?

    @balasankarc
  • @balasankarc #17930 10:45 AM, 01 Mar 2020
    തീരെ സാദ്ധ്യതയില്ല
  • This was their interface. So, subtitles, I don't have much hope.
  • Illa. I have tried
  • @Prabros ↶ Reply to #17928 #17935 06:54 PM, 01 Mar 2020
    This looks nice! What are the shortcomings of using the Procrustes method for Malayalam?
  • @Prabros ↶ Reply to #17935 #17936 06:56 PM, 01 Mar 2020
    പിന്നെ ഈ ടെസ്റ്റ് റെക്കഗ്നിഷനെ പറ്റി Jack Schaedler എന്നൊരു പഹയൻ നല്ലൊരു വിഷ്വലൈസെഷൻ ബ്ലൊഗ് എഴുതിയിട്ടുണ്ട്: https://jackschaedler.github.io/handwriting-recognition/
  • 02 March 2020 (44 messages)
  • It is given at the end of the blog post
  • @shahanad_vs #17938 03:50 AM, 02 Mar 2020
    Tesseract OCR ൽ മലയാളം ഡാറ്റയോ കൈയെഴുത്തോ ട്രയിൻ ചെയ്യിച്ചെടുക്കുന്നത് എങ്ങനെയെന്നു അറിയുന്നവരുണ്ടേൽ സഹായിക്കാമോ?
  • @keeleri_achu #17939 04:05 AM, 02 Mar 2020
  • @keeleri_achu #17940 04:15 AM, 02 Mar 2020
    ഇത് എന്തുകൊണ്ടാണെന്ന് ആർക്കെങ്കിലും അറിയോ? ബ്ദ, ബ്ധ എന്നൊക്കെ എഴുതുമ്പോഴാണ് ഈ പ്രശ്നം.
  • ഏതാ ഫോണ്ട്?
  • ഇത് ഗൂഗിൾ ക്രോമിലാണ്. ഏതാണ് ഫോണ്ടെന്ന് അറിയില്ല
  • മറ്റ് ബ്രൗസറിലും ഈ പ്രശ്നമുണ്ട്
  • @keeleri_achu #17944 04:19 AM, 02 Mar 2020
    അതുപോലെ ടെലിഗ്രാം desktop-ൽ മലയാളം ഇങ്ങനെയാണ് കാണപ്പെടുന്നത്! അടുത്ത കാലത്ത് ഒന്ന് അപ്ഡേറ്റ് ചെയ്തിരുന്നു. അതിനു ശേഷമാണ് ഈ പ്രശ്നം!
  • @balasankarc #17945 04:19 AM, 02 Mar 2020
    ഇതാ ഫോണ്ടിന്റെ പ്രശ്നമാണ്. വിൻഡോസല്ലേ?
  • അതേ. എങ്ങനെ മാറ്റാൻ പറ്റും?
  • @balasankarc #17947 04:20 AM, 02 Mar 2020
    https://smc.org.in/fonts/ - ഇവിടെ നിന്ന് ഒരു ഫോണ്ട് ഇൻസ്റ്റാൾ ചെയ്യൂ ആദ്യം. Personally I recommend Manjari/Meera.
    Link

    Swathanthra Malayalam Computing (SMC) is a free software collective engaged in development, localization, standardization and popularization of various Free and Open Source Softwares in Malayalam language.

  • already എല്ലാ മലയാളം ഫോണ്ടുകളും install ചെയ്തിട്ടുണ്ട്.
  • @balasankarc #17949 04:21 AM, 02 Mar 2020
    Oh, in that case we only need to find out that problematic font that is getting loaded and uninstall it.
  • പ്രശ്നമുള്ള ഫോണ്ട് ഏതാണെന്ന് കണ്ടുപിടിക്കാൻ മാർഗ്ഗമുണ്ടോ?
  • @balasankarc #17951 04:23 AM, 02 Mar 2020
    ക്രോമിൽ ഒരു മലയാളം വാക്ക് സെലക്ട് ചെയ്തിട്ട് റൈറ്റ് ക്ലിക്ക് ചെയ്ത് Inspect ഞെക്കിയാൽ ഒരു വിൻഡോ വരും.
  • @balasankarc #17952 04:23 AM, 02 Mar 2020
    അതിൽ വലതു വശത്ത് താഴെ "Rendered fonts" എന്നൊരു സെക്ഷനുണ്ട്.
  • @balasankarc #17953 04:23 AM, 02 Mar 2020
    അവിടെ കാണാം ഏത് ഫോണ്ടാ ലോഡായതെന്ന്.
  • @keeleri_achu #17954 04:23 AM, 02 Mar 2020
    വളരെ നന്ദി. 😊
  • @balasankarc #17955 04:24 AM, 02 Mar 2020
  • @balasankarc #17956 04:24 AM, 02 Mar 2020
    (ചിലപ്പോ ഇതിലും എളുപ്പമുള്ള വഴിയുണ്ടാവും. വിൻഡോസായതോണ്ട് എനിക്ക് വല്യ പിടിയില്ല. :D)
  • ക്രോമിലെ മലയാളം ഫോണ്ട് നമുക്ക് change ചെയ്യാൻ പറ്റുമോ. settings-ൽ ഇംഗ്ലീഷ് മാത്രമേ കാണിക്കുന്നുള്ളു. സാറെങ്ങനെയാണ് അത് മഞ്ജരിയിലേക്ക് മാറ്റിയത്?
  • @balasankarc #17958 04:30 AM, 02 Mar 2020
    (ഞാൻ വിൻഡോസല്ല ഉപയോഗിക്കുന്നത്) സിസ്റ്റം മൊത്തം മഞ്ജരി ഉപയോഗിക്കാൻ കോൺഫിഗർ ചെയ്തത് കൊണ്ട് ക്രോമും അതെടുക്കുന്നു.

    വിൻഡോസിൽ/ക്രോമിൽ ഒരു ഭാഷയ്ക്കുള്ള ഫോണ്ട് മാറ്റാൻ എന്ത് ചെയ്യണമെന്ന് എനിക്കും നോക്കാതെ പറയാൻ അറിയില്ല. :( ഫയർഫോക്സ് മതിയെങ്കിൽ പ്രശ്നമില്ല.
  • ഫയർഫോക്സായിരുന്നു മുമ്പ് ഉപയോഗിച്ചുകൊണ്ടിരുന്നത്. പക്ഷേ പിന്നെ ഒന്നിലധികം ടാബുകൾ തുറക്കുമ്പോൾ hang ആവാൻ തുടങ്ങിയത് കൊണ്ട് chrome-ലേക്ക് മാറി.
  • How to Change Text Sizes and Fonts in Windows 10

    Is the Windows 10 default font size too small for you? We'll show you how to adjust your system text size to your liking, along with how to change the default Windows font.

  • @Iamvivekkj #17961 05:29 AM, 02 Mar 2020
    How To Change Google Chrome Font

    Are you tired of seeing the same font over and over? Well, this article will teach you in detail how to change Google Chrome Font.

  • ഇംഗ്ലീഷ് ഫോണ്ട് മാറ്റാനുള്ള ഓപ്ഷനേ settings-ൽ കാണുന്നുള്ളു.
  • thanks 👍🏻
  • Tesseract ൽ ട്രെയിനിങ്ങ് നടത്തൽ ആണ് ലക്ഷ്യമെങ്കിൽ എനിക്ക് സഹായിക്കാൻ പറ്റില്ല, മറിച്ച് OCR ചെയ്യലാണ് ലക്ഷ്യമെങ്കിൽ https://github.com/harish2704/pottan-ocr ഇതൊന്ന് നോക്കുന്നത് നന്നായിരിക്കും.

    Layout analysis, Output generation എന്നിവക്കായി Tesseract തന്നെയാണ് ഇതിൽ ഇപ്പോൾ ഉപയോഗിക്കുന്നത്.
    harish2704/pottan-ocr

    A stupid OCR for malayalam language. Contribute to harish2704/pottan-ocr development by creating an account on GitHub.

  • @shahanad_vs #17966 06:36 AM, 02 Mar 2020
    😃👍 Thanks. Try cheyth nokate
  • മ്മ ക്ക ഒന്നും വരുന്നില്ല
  • incomplete project
  • അറിയാം 😊
  • @lal883 #17970 09:13 AM, 02 Mar 2020
    എന്റെ ഡിസ്ട്രൊ Open SUSE ആണ്. അതില്‍ "ല്‍, ന്‍, ര്‍ ..", ചില്ലക്ഷരങ്ങള്‍ക് പകരം registered symbol (r) ആണ് വരുന്നത്. Would this be a font problem.
  • a decade old font you installed some how. Just replace those fonts with latest fonts from smc.org.in/fonts
    Link

    Swathanthra Malayalam Computing (SMC) is a free software collective engaged in development, localization, standardization and popularization of various Free and Open Source Softwares in Malayalam language.

  • @lal883 #17972 09:15 AM, 02 Mar 2020
    Oh, okay, will try that and revert.
  • @sthottingal #17973 03:34 PM, 02 Mar 2020
    Some of you may remember my updates on opensource machine translation using Marian Neural MT and Open Corpus project
  • @sthottingal #17974 03:35 PM, 02 Mar 2020
    It is improving. Last week I added a corpus cleanup and normalization tool and Opus project helped to increase corpus using backtranslation technique.
  • @sthottingal #17975 03:36 PM, 02 Mar 2020
    A sample translation from latest version
  • @sthottingal #17976 03:36 PM, 02 Mar 2020
  • @Prabros ↶ Reply to #17975 #17977 04:21 PM, 02 Mar 2020
    🔥
  • @ajnaskt #17978 04:37 PM, 02 Mar 2020
  • @1135426551 #17979 06:43 PM, 02 Mar 2020
  • Last line translation kidukki 😂
  • 03 March 2020 (5 messages)
  • @lal883 ↶ Reply to #17971 #17981 04:15 AM, 03 Mar 2020
    This helped. Thanks.
  • @hfactor ↶ Reply to #17975 #17982 04:18 AM, 03 Mar 2020
    Last line ❤️❤️😁
  • @benvar ↶ Reply to #17980 #17983 06:08 AM, 03 Mar 2020
    @sthottingal is there anything we (community) can do to improve the quality of the translation? does the engine learn if we fix and submit a translation
  • Yes, see the footer paragraph of https://opusmt.wmflabs.org/
  • @benvar ↶ Reply to #17984 #17985 06:20 AM, 03 Mar 2020
    thanks... I didn't notice...

    If you are interested in contributing translated documents, please use Opus repository to upload translated documents in various formats. This could also be translated webpages. Anyone can create an account and start uploading data. You may also help us uploading additional training data at https://translate.ling.helsinki.fi/
  • 04 March 2020 (24 messages)
  • @enfageorge #17987 03:14 PM, 04 Mar 2020
    Is there any work on phrase identification in Malayalam? Split a complex sentance into noun and verb phrases?
  • I am not aware of any such research. One pre-requisite for that is solving wordlevel understanding of malayalam(morphology analyser). I am actively working on that part. See morph.smc.org.in and this paper https://www.aclweb.org/anthology/W19-6801.pdf
  • @enfageorge #17989 03:18 PM, 04 Mar 2020
    Thank you! Will check this out.
  • @Prabros ↶ Reply to #17987 #17990 03:22 PM, 04 Mar 2020
    Where are you finding use for such a work?
  • @sthottingal #17992 04:26 PM, 04 Mar 2020
    തിരുവനന്തപുരത്തുള്ളവരുടെ ശ്രദ്ധയ്ക്ക്
  • In exploring a few rule based methods to resolve coreference mentions in a document.
  • @Prabros ↶ Reply to #17993 #17994 04:46 PM, 04 Mar 2020
    Still unclear on how noun/verb divisions will help resolve references. Must be an interesting problem. An approach I could think of is to translate the Malayalam words to English and classify them in the target language, which should have a plenty of good libraries available. Once the classification is done, map them back on to the source language. The reliability of this approach would be dependent on how solid the Malayalam to English translation is.
  • The idea was to do it in Malayalam itself without translation. Currently testing out rule based methods including variations of Hobbs algorithm (1977) and Sobha L's anaphora resolution system - Vasith. Vasith apprently performs really well. But the rules in these methods rely on phrase and clause identification with simple POS tagging.
  • @Prabros ↶ Reply to #17995 #17996 04:52 PM, 04 Mar 2020
    Why not like write one? 😉
  • Looking out for exsisting work before starting so. 😬
  • @Prabros ↶ Reply to #17997 #17998 04:56 PM, 04 Mar 2020
    Oh cool! Seeking out prior art in a field is always 💯 Do let us know how this works out. Would love to take a look if someone awesome sprouts out of this endeavour.
  • Sure thing!
  • Did you reproduce the results of Shobha L's Paper?
  • That's what I wanted to do first. But stuck on clause and phrase identification. The parser used in the paper as far as I know is unavailable publicly.
  • @enfageorge #18002 05:02 PM, 04 Mar 2020
    The paper reports correct identification for over 93 percent of the test cases used.
  • @enfageorge #18003 05:02 PM, 04 Mar 2020
    I had tried getting in touch with the author, but till date to no avail.
  • @sthottingal #18004 05:03 PM, 04 Mar 2020
    from my experience with papers from our universities, I would not trust those results. Even english state of the art anaphora resolution won't report such accuracy.
  • 93? 😲
  • 👆🏼
  • The number 93 looked strange to me too. The only way to know the actual state is to actually try implementing the paper right? So on it.
  • @sthottingal #18008 05:17 PM, 04 Mar 2020
    good luck with that. my experience with similar papers were not pleasant. a sad state of our academic papers.
  • @enfageorge #18009 05:22 PM, 04 Mar 2020
    Will update any improvement in my work and experiments here😁
  • @Prabros ↶ Reply to #18007 #18010 05:23 PM, 04 Mar 2020
    👍 All the best.
  • @manojkmohan #18011 08:02 PM, 04 Mar 2020
  • 05 March 2020 (5 messages)
  • @572391236 #18012 09:51 AM, 05 Mar 2020
  • @Iamvivekkj #18013 02:09 PM, 05 Mar 2020
    *വട്ടെഴുത്ത്*

    പതിനഞ്ചാം നൂറ്റാണ്ടുവരെ മലയാളഭാഷയിൽ പ്രചാരത്തിലുണ്ടായിരുന്ന ഒരു ലിപിസമ്പ്രദായമാണ് വട്ടെഴുത്ത്. ബ്രാഹ്മി ലിപിയിൽ നിന്നാണ് ഇത് രൂപം കൊണ്ടത്. പാറയോ ചെമ്പുതകിടോ ചൂഴ്‌ന്നെടുത്ത് (ഉളികൊണ്ട് വെട്ടിയെടുത്ത്) എഴുതുന്നു എന്നു സൂചിപ്പിച്ചുകൊണ്ടു `വെട്ടെഴുത്ത്' എന്നും പറയാറുള്ള ലേഖനസമ്പ്രദായം. ദക്ഷിണേന്ത്യൻ ബ്രാഹ്മിയാണ് ഇതിന്റെ പ്രഭാവം. ഒരു കാലത്ത് വട്ടെഴുത്തിന് തെക്കേ ഇന്ത്യയിലാകമാനം പ്രചാരമുണ്ടായിരുന്നു. തെക്കൻ മലയാണ്മ, തെക്കൻ മലയാളം, നാനംമോനം, മലയാണ്മ, മലയാം തമിഴ്, ചേര-പാണ്ഡ്യ എഴുത്ത്, രായസവടിവ്, ഗജവടിവ് എന്നെല്ലാം ഈ ലിപിക്ക് പേരുണ്ട്. തമിഴ്‌നാട്ടിലും മലനാട്ടിലും വട്ടെഴുത്തു ശാസനങ്ങൾ ധാരാളമുണ്ട് . പഴയ കൊച്ചി-മലബാർ പ്രദേശത്ത് പ്രചരിച്ചിരുന്ന വട്ടെഴുത്തിന്റെ വകഭേദമാണ് കോലെഴുത്ത്. ലഭ്യമായ ഏറ്റവും പഴയ വട്ടെഴുത്തുരേഖ എട്ടാം ശതകത്തിലെതാണ്.[ഏത്?] വട്ടെഴുത്തിന് 'നാനംമോനം' എന്നും പേരുണ്ട്.

    *🌻അക്ഷരങ്ങൾ*

    വട്ടെഴുത്തിൽ 12 സ്വരാക്ഷരങ്ങളും (അ, ആ, ഇ, ഈ, ഉ, ഊ, എ, ഏ, ഐ, ഒ, ഓ, ഔ -എന്നിവ) 18 വ്യഞ്ജനാക്ഷരങ്ങളും (ക, ങ, ച, ഞ, ട, ണ,ത, ന, പ, മ, യ, ര, ല, വ, റ, ഴ, ള, ഩ -എന്നിവ[1]) ചേർന്ന് 30 അക്ഷരങ്ങളാണുള്ളത്. ആംഗലേയ ഭാഷയുടേതിനു തത്തുല്യമായി കൂട്ടിയെഴുതുന്ന രീതിയിലായിരുന്നു ഈ അക്ഷരങ്ങൾ എഴുതിയിരുന്നത്. ഒരേ അക്ഷരം രണ്ടുതവണ തുടർച്ചയായി എഴുതിയാണ് കൂട്ടക്ഷരങ്ങൾ രൂപപ്പെടുത്തുക. കക എന്നെഴുതിയാൽ ക്ക എന്നും തത എന്നെഴുതിയാൽ ത്ത എന്നും വായിക്കണം. കൂടിച്ചേർന്ന അക്ഷരങ്ങൾക്ക് പ്രത്യേക ലിപിയിലില്ലായിരുന്നു. കൂട്ടക്ഷരങ്ങളും ഇരട്ടിപ്പികളും മനോധർമ്മം പോലെ വട്ടെഴുത്തിൽ വായിക്കണമായിരുന്നു.പിൽക്കാലത്തു വട്ടെഴുത്തു ലിപിക്ക് രൂപപരിണാമം വന്നിട്ടുണ്ട്. 

    *🔸നാനം മോനം*

    രാജകീയശാസനങ്ങളുടെ തുടക്കത്തിൽ 'ഹരിഃശ്രീ ഗണപതയേ നമഃ', 'സ്വസ്തി ശ്രീ' തുടങ്ങിയ സംസ്കൃത പദങ്ങൾ മാറ്റി അവയ്ക്കു പകരം 'നമോ നാരായണ' എന്നതായിരുന്നു എല്ലാ വട്ടെഴുത്തു ലിഖിതങ്ങളുടെയും ആരംഭത്തിൽ ഉപയോഗിച്ചു പോന്ന പ്രയോഗം. ആതിലെ ആദ്യാക്ഷരങ്ങളായ 'ന' കാരവും 'മ' കാരവും ചേർത്താണ് വട്ടെഴുത്തിന് 'നാനംമോനം' എന്നു പേരിട്ടത്. ബുദ്ധമത പ്രാഭവകാലത്ത് കുടിപ്പള്ളിക്കൂടങ്ങളിൽ അക്ഷരമാലയ്ക്കു നാനംമോനം എന്നായിരുന്നു പറഞ്ഞിരുന്നത്. നകാരം, മകാരം എന്ന മലയാളത്തിലെ പ്രയോഗത്തിനുപകരം നാനം, മോനം എന്നരീതിയിലായിരുന്നു അക്ഷങ്ങളെ വ്യവഹരിച്ചിരുന്നത്. നാനം, മോനം, ഇത്തനം, തൂവനം, ചിനം, ഇന്നനം, താനം, ഉമ്മനം എന്നായിരുന്നു അക്ഷരമാല വായിച്ചിരുന്നത്. 'നമൊസ്തു ജിനതെ' എന്ന് ജിനദേവനെ സ്തുതിക്കുന്നതിലെ ആദ്യാക്ഷരങ്ങൾ ചേർന്നതാണിതെന്നും പറയപ്പെടുന്നു

    ♻♻♻♻♻♻♻♻♻♻♻
  • @nlkmndy ↶ Reply to #18013 #18014 02:11 PM, 05 Mar 2020
    ജയസൂര്യയുടെ കത്തനാർ ന്റെ ടൈറ്റിൽ വട്ടെഴുത്തിൽ ആണ്
  • Mmm
  • @mine184997 #18016 08:55 PM, 05 Mar 2020
  • 06 March 2020 (4 messages)
  • @sreelakshmi_nayath #18018 07:28 AM, 06 Mar 2020
  • @sthottingal #18020 02:36 PM, 06 Mar 2020
    SMC യുടെ വെബ്സൈറ്റ് പുതുക്കാൻ പദ്ധതിയുണ്ട്. ആർക്കെങ്കിലും സമയവും താത്പര്യവുമുണ്ടെങ്കിൽ പറയാമോ? fonts സൈറ്റും പുതുക്കാനുണ്ട്.
  • എല്ലാവർക്കും ഒത്തൊരുമിച്ച് ചെയ്യാലോ.....
  • @511076670 #18022 04:54 PM, 06 Mar 2020
  • 07 March 2020 (11 messages)
  • @sreelakshmi_nayath #18023 03:45 AM, 07 Mar 2020
    Python programmil search cheyyavunavitham malayalam string aaki edukan entha cheyya?
  • @Ishikawa90 #18025 03:49 AM, 07 Mar 2020
    Can you explain the problem again ?
  • @Ishikawa90 #18026 03:50 AM, 07 Mar 2020
    Are you trying to write a Python program to search through Malayalam content ?
  • @sreelakshmi_nayath #18027 03:53 AM, 07 Mar 2020
    Yes
  • @Ishikawa90 #18028 04:00 AM, 07 Mar 2020
    I am not so sure about this, but assuming that you are using Python 3. Just write a string search program. It should work for Malayalam as well
  • @Ishikawa90 #18029 04:00 AM, 07 Mar 2020
    if it doesn't ask here
  • @sreelakshmi_nayath #18030 04:02 AM, 07 Mar 2020
    Ok.. Thank you
  • @Ishikawa90 #18031 04:19 AM, 07 Mar 2020
    Let us know how it goes
  • @mujeebcpy #18032 06:18 AM, 07 Mar 2020
    Python3 itself support Unicode. Just search it.
  • filename = sys.argv[1]
    with open(filename) as infile_object :
    lines = infile_object.read().splitlines()

    moviedata = {}
    for idx, part in enumerate(lines):

    if "പരിഭാഷ" in part:
    key, value = part.split(':')
    moviedata['translator'] = value
    moviedata['transfb'] = lines[idx+1]


    ഇത് ഞാനൊരു html ജെനറേറ്റ് ചെയ്യാൻ വേണ്ടിയെഴുതിയ സ്ക്രിപ്റ്റാണ്. ഒരു ഫയല്‍ റീഡ് ചെയ്ത് ലൈൻ ബൈ ലൈൻ ലിസ്റ്റാക്കും. അതില് സ്പെസിഫിക്ക് വാക്കുകള്‍ വരുന്നുണ്ടോയെന്ന് സെര്‍ച്ച് ചെയ്ത് അതിലെ വാല്യൂസ് ഡിക്ഷ്നറിലേക്ക് സ്റ്റോര്‍ ചെയ്യും. this may help
  • @sreelakshmi_nayath #18034 06:52 AM, 07 Mar 2020
    Thank you
  • 08 March 2020 (28 messages)
  • @mujeebcpy #18035 07:32 AM, 08 Mar 2020
    Noto Sans Malayalam
    ന+്+റ യും
    ന+്+]+റ യും ന്റ എന്നാണ് റെന്ററ്‍ ചെയ്യുന്നത്.
  • @sthottingal #18036 07:37 AM, 08 Mar 2020
  • @sthottingal #18037 07:38 AM, 08 Mar 2020
    ന്റ - ഭാഷ, യുണിക്കോഡ്, ചിത്രീകരണം

    മലയാളം ഫോണ്ടുകളും ചിത്രീകരണവും - ലേഖന പരമ്പരയിലെ പുതിയ ലേഖനം സന്തോഷ് തോട്ടിങ്ങല്‍ മലയാളത്തിലെ ന്റ എന്ന കൂട്ടക്ഷരത്തിന്റെ ചിത്രീകരണത്തെപ്

  • What are the ideas or roadmap to do.
  • @Ranjithsa #18039 07:43 AM, 08 Mar 2020
    Can we try jekyll ssg
  • @Ranjithsa #18040 07:43 AM, 08 Mar 2020
    Or any design spec?
  • വായിച്ചതാണ് മുമ്പ്. നോട്ടോസാൻസ് ന്‍റെ ന്റ ആക്കി കാണിക്കുന്നത് കാരണം വൻ പാടാണ്. ഈ മലയാളം സബ് ചെയ്യുന്നവരൊക്കെ അതുവെച്ചൊക്കെയാണ് ചെയ്യുന്നത് പിന്നെയൊരു indulekha-utf ഉണ്ട്. അതിലും സെയിമാണ്. സോ തെറ്റി ടൈപ് ചെയ്താലും അവര്‍ക്ക് നേരെ കാണിക്കും.
  • @mujeebcpy #18042 07:52 AM, 08 Mar 2020
    ഈ ന്റ മാറ്റലാണ് സബ് റീസിങ്ക് ചെയ്യുമ്പോ എന്റെ മെയിൻ പണി
  • Find and replace
  • അങ്ങനെത്തന്നെയാണ് ചെയ്യാറ്
  • http://new.smc.org.in/ new smc website - internationalized(picks up browser config), theme(picks from browser), responsive, html5 history mode navigation(no page reload between pages) Code https://gitlab.com/smc/smc.org.in
  • @sthottingal #18046 08:04 AM, 08 Mar 2020
    This need content and layouting
  • @muhammadfarhankt #18047 08:46 AM, 08 Mar 2020
    Malayalam audio books app aryo
  • OK Trying now.
  • @Ranjithsa #18049 08:57 AM, 08 Mar 2020
    Hope this is an npm with webpack4
  • Thanks for this. There weren't any issues with the old Telegram Desktop versions. Not sure what caused this in the latest!
  • @SumiSR ↶ Reply to #18020 #18055 10:40 AM, 08 Mar 2020
    Can I have details please. Can help with this
  • @alfasst ↶ Reply to #18045 #18058 11:59 AM, 08 Mar 2020
    .
  • @SumiSR #18059 12:01 PM, 08 Mar 2020
    Thanks
  • @fmhdpk #18061 05:29 PM, 08 Mar 2020
  • @moolekkari #18062 05:39 PM, 08 Mar 2020
    SMC Monthly Updates for February 2020

    Gayathri's first anniversary, improved handwriting recognition algorithm, Indic Project website revamped and more Gayathri celebrated its first anniversary on 20th February 2020. Designer, Binoy Dominic shared his sheer happiness on witnessing the font he designed almost everywhere. The font was built by SMC with the support of Kerala Bhasha Institute.

  • "Binoy Dominic shared his shear happiness"

    sheer alle?
  • @515904003 #18064 06:33 PM, 08 Mar 2020
    desinged
  • @515904003 #18066 06:34 PM, 08 Mar 2020
    The font was build by SMC 
  • @515904003 #18067 06:34 PM, 08 Mar 2020
    built
  • @515904003 #18068 06:36 PM, 08 Mar 2020
    spared his time to rewamp
  • @515904003 #18069 06:36 PM, 08 Mar 2020
    revamp
  • @515904003 #18070 06:37 PM, 08 Mar 2020
    ഞാൻ വിട്ടു
  • 09 March 2020 (57 messages)
  • @moolekkari #18072 02:20 AM, 09 Mar 2020
    @Urushibara thank you for reporting. Sorry for making mistakes.
  • ചെറിയൊരു അഭിപ്രായം ഉണ്ട്. നല്ലതാണെന്ന് തോന്നിയാൽ ട്രൈ ചെയ്യാം

    Vuejs ൽ നേരിട്ട് എഴുതുന്നതിനു പകരം [Nuxt.js](https://nuxtjs.org/) എന്ന ഫ്രേം വർക്ക് ഉപയോഗിക്കാം. അതിന്റെ ഉപകാരം എന്താണെന്ന് വച്ചാൽ

    1. Routing , auto gerenated ആണ്. ഓരോ പുതിയ പേജിനും "pages" എന്ന directory ൽ ഒരു File/directory ഉണ്ടാക്കിയാൽ മതി.

    2. By default ആയി, SSR, PWA എന്നീ ഫീച്ചറുകളും, പ്രൊഡക്ഷനു വേണ്ട Optimal build system ഉം ഒക്കെ ഉപയോഗിക്കാൻ പാകത്തിൽ കൈയ്യിൽ കിട്ടുന്നു.
    Nuxt.js - The Intuitive Vue Framework

    Build your next Vue.js application with confidence using NuxtJS. An open source framework making web development simple and powerful.

  • @460804319 #18074 07:26 AM, 09 Mar 2020
    SSR , Head ലെ metatag അടക്കമുള്ള കാര്യങ്ങൾ കണ്ട്രോൾ ചെയ്യാൻ സംവിധാനം എന്നിവ ഉള്ളതുകൊണ്ട് , ഈ അവസ്ഥ Nuxt.js ഉപയോഗിക്കുമ്പോൽ വരൂല
  • @460804319 #18075 07:26 AM, 09 Mar 2020
    ഈ അവസ്ഥക്ക് ഒരു പരിഹാരം ..
  • യൂട്യൂബിൽ സബ്ടൈറ്റിൽ contribute ഗൂഗിൾ ഇൻപുട്ട് ടൂൾ ഉപയോഗിച്ച് ചെയ്യുമ്പോഴും ഇത് വലിയ ബുദ്ധിമുട്ട് ആകാറുണ്ട്. മൊബൈലിൽ മംഗ്ലീഷിൽ അടിച്ചാലും ന്റെ' കിട്ടുന്നുണ്ട്
    Example: എന്റെ

    But, in google input tools എന്റെ only available in suggestions.

    Example: സ്റ്റാലിന്റെ, when i wrote this in Google input tools stalinte > 👇
  • Vuejs/React are popular, well maintained frameworks. Boring tech, but stable. I'd recommend sticking with vue
  • @Muhammed_Yaseen #18079 07:35 AM, 09 Mar 2020
  • If i check next suggestions
  • @Muhammed_Yaseen #18081 07:35 AM, 09 Mar 2020
    It don't show സ്റ്റാലിന്റെ
  • Nuxtjs എന്നത് ഒരു Vuejs ഫ്രേം വർക്ക് ആണ്.
    ചില എക്സ്ട്രാ "സമ്പ്രദായങ്ങൾ" ഉണ്ട് എന്നേ ഉള്ളൂ

    React നു Nextjs എന്താണോ , അതുപോലെ ആണ് Vue നു NuxtJs
  • If i need സ്റ്റാലിന്റെ, in Google input tools first i need to type സ്റ്റാലി. After type എന്റെ then remove 'എ'.
  • I am aware of that framework. But I considered key requirements we have right now and did not want to use anything fancy. Frameworks are mostly a matter of choice by people taking first initiative(in practical sense) right. So the current issue is we need to add content and fill all pages. Current SMC website does not give any information on large amount of activities SMC did or doing now a days.
  • ഒട്ടുമിക്ക പ്രശ്നങ്ങളും മൈക്രോസോഫ്റ്റിന്റെ ബിൽറ്റിൻ ഫോണ്ടുകളായ നിർമല, കാർത്തിക എന്നിവ ഉപയോഗിക്കാതെ SMC യുടെ ഫോണ്ടുകൾ ഉപയോഗിച്ചാൽ മാറും. സ്ക്രീൻ ഷോട്ടിൽ കാണുന്നത് നിർമല ഫോണ്ടിന്റെ ബഗ്ഗ് ആണ്. ഇത് ബഗ്ഗാണെന്നറിയാതെ ഇൻപുട്ട് ടൂളിന്റെ പ്രശ്നമാണെന്നും ടൈപ്പു ചെയ്യുന്നയാളിന്റെ പ്രശ്നമാണെന്നും ചിലർ തെറ്റിദ്ധരിക്കാറുണ്ട്. വിശദമായി ഈ കാര്യം അറിയണമെന്നുണ്ടെങ്കിൽ https://blog.smc.org.in/nta-rendering-rules/ വായിക്കാം
  • അതിനെ പറ്റി ബോധവാനാണ് എന്ന് അറിഞ്ഞാൽ മതി.

    ബാക്കി എല്ലാം നമ്മുടെ ആവശ്യത്തിനനുസരിച്ചുള്ള തിരഞ്ഞെടുക്കലുകളാണ്. അതിൽ ഒന്നും പറയാനില്ല.
  • windowsil default ayi gayathriyo manjariyo upayogichal ith correct cheyyan pattumayirikum alle>?
  • @515904003 #18088 08:22 AM, 09 Mar 2020
    innale ivide oru tip kandarunu
  • Thanks
  • If smc's workshops and events document in video and upload in youtube or any other open source platform will helpful for the future reference to others 🤷‍♂️
  • @883325448 #18093 10:34 AM, 09 Mar 2020
  • Innale msone group l itta post
  • @NeoZorba #18095 12:02 PM, 09 Mar 2020
  • ടെലഗ്രാമിൾ ന്റ > ൻറ ആയാണ് എനിക്ക് render ആവുന്നത്.
    ഗൂഗിൾ ഇൻപുട്ട് ടൂൾസിൽ ന്റ എന്ന് ടൈപ്പ് ചെയ്ത് കോപ്പി > പേസ്റ്റ് > ടെലഗ്രാം ഡെസ്ക്ടോപ്പിൽ ചെയ്താലും ഇതാണ് അവസ്ഥ. നേരത്തെ @sthottingal പറഞ്ഞത് പോലെ വിൻഡോസ് ഫോണ്ടിന്റെ bug ആകും.
    Os: windows 8.1
  • Anjali old lipi install cheyth aa reg value anjali set cheytha mathi
  • Anjali or any modern fonts listed at smc.org.in/fonts
  • Apparently manjari/gayathri didn't fix 'nta' in tg desktop. Anjali did. Win10
  • All of SMC fonts works in same way for nta-all reuse same code. So that is very strange.
  • Strange indeed.
  • Check in 8.1 and report 👍
  • @sthottingal #18103 03:15 PM, 09 Mar 2020
    To verify this, just paste/type your content to smc.org.in/fonts (you can edit the content there). That web page displays the content independent of your operating system and fonts installed in it.
  • Tg desktop specific issue anenu thonunu. Nta displays fine in other apps with smc fonts
  • ഇതെങ്ങനെ🤔
  • @ssiyad ↶ Reply to #18105 #18106 03:30 PM, 09 Mar 2020
    അഡ്മിൻ ടാഗ്
  • എനിക്ക് ഇന്നലെ നിങൾ ഗ്രൂപ്പിൽ പോസ്റ്റ് ഇട്ടതായി നോട്ടിഫിക്കേഷൻ കിട്ടിയിരുന്നു. നോക്കിയില്ല 🙂
  • @kurianbenoy #18108 05:42 PM, 09 Mar 2020
    >>> list('ഹലോ ')
    ['ഹ', 'ല', 'േ', 'ാ', ' ']
    Is this behaviour because python3 supports unicode strings only. Will this split be different based on different fonts?
  • This is how datapoints save in memory. Font decides how to show in apps. That is called shaping. That is done using harfbuzz
  • താങ്കൾ കാണിച്ചതാണോ Expected behavior എന്ന കാര്യത്തിൽ എനിക്ക് സംശയമുണ്ട്. എന്റെ അറിവിൽ ഇങ്ങനെ ആയിരുന്നു വരേണ്ടിയിരുന്നത്
  • ഈ "ഹലോ" എന്ന വാക്ക് എഴുതാൻ ഏത് ടൂൾ ആണ് ഉപയോഗിച്ചത് എന്ന് പറയാമോ? അതിനു എന്തോ കുഴപ്പമുണ്ട് എന്നാണ് എന്റെ ഒരിത്
  • ശരിയാണല്ലോ. എനിക്കും അങ്ങനെയാണ് കിട്ടിയത്.
  • അതെ. മറ്റേത് ഭാഷാപരമായി തെറ്റാണ്
  • @mujeebcpy #18114 06:06 PM, 09 Mar 2020
    ['ഹ', 'ല', 'ോ']
    ഹ േ ല ാ ഈ രൂപത്തില്‍ ടൈപ് ചെയ്തതുകൊണ്ടാണോ ഇനി
  • @mujeebcpy #18115 06:06 PM, 09 Mar 2020
    ['ഹ', 'ല', 'േ', 'ാ']
  • @mujeebcpy #18116 06:06 PM, 09 Mar 2020
    yes. thats it
  • @mujeebcpy #18117 06:07 PM, 09 Mar 2020
    copy and try this
    ഹലോ
  • @mujeebcpy #18118 06:07 PM, 09 Mar 2020
    റെമിംഗ്ടണ്‍ ശീലിച്ചവര്‍ക്ക് ഇങ്ങനൊരു ടൈപിംഗ് ശീലമുണ്ട്.
  • പക്ഷേ ഈ ലിസ്റ്റില് ഒരു നള്‍ ക്യാരക്ടറുകൂടെയുണ്ട്. അപ്പോ അതിലും മാരകമായ എന്തോ വെച്ച് ടൈപ്പുന്നതാ
  • 😳 അടിപൊളി...
  • @Worknn #18121 06:16 PM, 09 Mar 2020
  • @460804319 #18122 06:18 PM, 09 Mar 2020
    എന്റെ ഒരു അഭിപ്രായത്തിൽ, ['ഹ', 'ല', 'േ', 'ാ', ' '] എന്ന ഒരു കോമ്പിനേഷൻ വന്നാൽ, അത് കൃത്യമായി റെൻഡർ ചെയ്യപ്പെടരുത്
    പകരം, അതിനെ 'ഹലേ ാ'എന്ന് റെൻഡർ ചെയ്യണം

    എങ്കിലേ ഇത്തരത്തിലുള്ള പ്രശ്നങ്ങൾ ദീർഘകാല അടിസ്ഥാനത്തിൽ പരിഹരിക്കാൻ പറ്റൂ
  • Anjalioldlipi Regular ലും രക്ഷയില്ല
  • ഇൗ ബിൽറ്റ് ഇൻ ഫോണ്ട് മാറ്റി smc ഫോണ്ട് ഡിഫോൾട്ട് ആക്കുന്നത് വിൻഡോസിൽ എങ്ങനെയാണ്...
  • Manjari/Gayathri കൊടുത്ത് നോക്കിയപ്പോൾ telegram ഫോണ്ട് മാറുന്നുണ്ട്. പക്ഷേ ക്വാളിറ്റി ഇല്ലാത്ത ഇമേജ് പോലെയാണ് render ആവുന്നത്...
  • @Muhammed_Yaseen #18126 06:53 PM, 09 Mar 2020
    Smc യുടെ ന്റ ബ്ലോഗ് പോസ്റ്റ് ടെലഗ്രാമിലെ പ്രിവ്യു ലിങ്ക് ഓപ്പൺ ചെയ്ത് വായിച്ചത്. Sync ചെയ്തിരിക്കുന്നത് കൊണ്ട് ഡെസ്ക്ടോപ്പിൽ വന്നപ്പോൾ 🙃
  • @benvar ↶ Reply to #18114 #18127 11:55 PM, 09 Mar 2020
    ഇത് മിക്കവാറും റ്റൈപ്പിംഗ് റ്റൂളിൻ്റെ തീരുമാനമായിരിക്കും. ചിലപ്പോൾ ചില ആപ്ലിക്കേഷനുകൾ ഇങ്ങനെ പിരിച്ചെഴുതാറുണ്ട്. യൂനിക്കോഡ് നോർമലൈസേഷൻ്റെ ഭാഗമായി. ആപ്ലിക്കേഷനുകൾ യൂനിക്കോഡ് ഡാറ്റാ മാനിപുലേറ്റ് ചെയ്യുമ്പോൾ അവയ്ക്ക് 3 ഓപ്ഷൻസ് ഉള്ളതിൽ ഏത് വേണമെങ്കിലും സ്വീകരിക്കാം. 1) കീബോർഡിംഗ് റ്റൂൾ തന്ന encoding അതുപോലെ തന്നെ ഉപയോഗിക്കുക (ഇവിടെ കീബോർഡിം റ്റൂൾ നന്നായി ഡിസൈൻ ചെയ്തിട്ടില്ലെങ്കിൽ കുഴപ്പമാകും. എന്നാൽ ശരിയായ കീബോർഡ് ഡിസൈൻ ആണെങ്കിൽ കീബോർഡിൻ്റെ encoding അതുപടി ഉപയോഗിക്കുന്നതാകും കൂടുതൽ ഉചിതം) 2. NFC: Normalized as Fully Composed. NFC ആയിട്ട് encode ചെയ്താൽ മുകളിലെ ചിത്രത്തിൽ വലതുഭാഗത്തു കാണുന്നതുപോലെ ോ മാത്ര ഒറ്റ യൂണിറ്റായിട്ടായിരിക്കും encode ചെയ്യപ്പെടുക. 3) NFD: Normalized as Fully Decomposed. അതേ സമയം NFD-യിലാണെങ്കിൽ ‘ഓ‘യുടെ ചിഹ്നം േ+ാ എന്ന് പിരിച്ചെഴുതിയായിരിക്കും encode ചെയ്യപ്പെടുക.

    യൂനിക്കോഡിൻ്റെ നിർദ്ദേശം അനുസരിച്ച് data എങ്ങനെ encode ചെയ്താലും അത് ഉപയോഗിക്കുന്ന Applications രണ്ട് encodingകളെയും നിയമാനുസൃതതുല്യമായി ഉപയോഗിക്കേണം
  • @benvar #18128 11:55 PM, 09 Mar 2020
    എന്നാണ്.
  • @benvar #18129 11:58 PM, 09 Mar 2020
    എന്നാൽ മിക്കവാറും text processing standard-ഉകളിൽ NFC-യാണ് കൂടുതൽ അഭികാമ്യം
  • 10 March 2020 (98 messages)
  • @benvar #18130 12:01 AM, 10 Mar 2020
    കൂടുതൽ വിവരങ്ങൾ ഇവിടെ ലഭ്യമാണ്: http://www.unicode.org/reports/tr15/
    UAX #15: Unicode Normalization Forms

    Specifies the Unicode Normalization Formats

  • @benvar ↶ Reply to #18122 #18131 12:06 AM, 10 Mar 2020
    അത് കൃത്യമായി തന്നെ render ചെയ്യപ്പെടണം. കാരണം രണ്ട് encoding-കളും യൂനിക്കോഡ് ഡാറ്റയെ സംബന്ധിച്ചിടത്തോളം നിയമാനുസൃതതുല്യമാണ് (canonically equivalent)
  • @benvar #18132 12:31 AM, 10 Mar 2020
    ഇതു കൂടാതെ ഉള്ള മറ്റൊരു normalization പരസ്പര തുല്യത (compatibility equivalence) ആണ്. അത് പ്രകാരം ഒ= ൊ ആണ്, കിടു = കഇടഉ. (@sthottingal)
  • @Prabros ↶ Reply to #18132 #18133 01:31 AM, 10 Mar 2020
    ഈ transformation rules എല്ലാം Indic scripts perspectivഇൽ നിന്ന് വീക്ഷിച്ച് ആരെങ്കിലും document ചെയ്തിട്ടുണ്ടൊ?
  • @benvar #18134 01:33 AM, 10 Mar 2020
    എനിക്കറിയില്ല... ഞാൻ ഇൻകീ ഉണ്ടാക്കിയപ്പോൾ ഒരു ഡോക്കുമെൻ്റ് ഉണ്ടാക്കിയിരുന്നു (അത് 10-15 വർഷം മുമ്പാണ്). എഴുത്ത് എനിക്ക് വഴങ്ങുന്ന പണീയല്ലാത്തതുകൊണ്ട് ഡോക്കുമെൻ്റേഷൻ്റെ കാര്യത്തിൽ ഞാൻ പുറകോട്ടാണ്
  • @Prabros ↶ Reply to #18134 #18135 01:34 AM, 10 Mar 2020
    Think it would be a great asset for new people coming to the scene and not knowing ideas like canonical forms &/ normalization. It's easy to get tripped up on these nuances.
  • @benvar #18136 01:35 AM, 10 Mar 2020
    I agree... let me see if I can trace and find out that document (I just checked the repo of InKey and it isn't there)
  • @benvar #18137 01:35 AM, 10 Mar 2020
    @sthottingal may have something with him...
  • @Prabros ↶ Reply to #18136 #18138 01:38 AM, 10 Mar 2020
    That would be sweet!
  • @Prabros ↶ Reply to #18137 #18139 01:38 AM, 10 Mar 2020
    Yeah, the only good body of writing in this scene seems to be from Santhosh.
  • @benvar ↶ Reply to #18135 #18140 01:38 AM, 10 Mar 2020
    any programmer who engage in text processing should/must read and understand this section of the annex http://www.unicode.org/reports/tr15/#Description_Norm
    UAX #15: Unicode Normalization Forms

    Specifies the Unicode Normalization Formats

  • @benvar ↶ Reply to #18139 #18141 01:39 AM, 10 Mar 2020
    I hugely indebted to him/SMC for it
  • @Prabros ↶ Reply to #18140 #18142 01:39 AM, 10 Mar 2020
    Yup, these specs but designed like these Instagram posts: https://booklets.io/ would be a lot of value.
    Booklets.io – Bite Sized Learning

    Browse hundreds of booklets on design, business, freelancing & more curated from the best designers in the world. Learn new skills & insights, fast.

  • @Prabros #18143 01:40 AM, 10 Mar 2020
    A lot of great (tacit) expert knowledge are locked down in "wall of text" documentations like these that programmers/alpha nerds find great joy in reading and understanding, but the average keen/enthusiastic reader lose their steam when they bump on it. Think a lot of potential can be unlocked by "democratizing" them and making it available in the open.
  • @benvar ↶ Reply to #18142 #18144 01:41 AM, 10 Mar 2020
    really interesting... thanks for sharing
  • @benvar ↶ Reply to #18143 #18145 01:42 AM, 10 Mar 2020
    true
  • @benvar ↶ Reply to #18145 #18146 01:44 AM, 10 Mar 2020
    while I'm not a good writer, I'm a good reader... that helped me a lot in my journey. But at the same time, I'm in total agreement with you that the text documentation is the show stopper for a lot of programmers (especially newbies)
  • @Prabros ↶ Reply to #18146 #18147 01:52 AM, 10 Mar 2020
    Reading is an essential skill if you intend on going into very particular niches or intend to do path breaking work in certain areas. Theres no substitute for that (reading research papers/parsing dense literature). But the more ideas we make accessible to the public domain, the more returns we reap collectively in the future. A good few will be encouraged to move into this space and take the canon forward.
  • Canonical Equivalence in Unicode: Some notes

    Some Notes on Canonical Equivalence in Unicode: Unicode defines canonical equivalence as follows: From UAX #15 Canonical Equivalence This section describes the relationship of normalization to …

  • @benvar #18149 02:04 AM, 10 Mar 2020
    എനിക്കുറപ്പുണ്ടായിരുന്നു ഇങ്ങനൊരെണ്ണം കാണുമെന്ന്. നന്ദി സന്തോഷ്. Canonical equivalence എങ്ങനെയാണ് handle ചെയ്യേണ്ടതെന്ന് ഉള്ളതിൻ്റെ ഒരു best practices കൂടി ഉണ്ടായാൽ നല്ലതായിരിക്കും
  • @benvar #18150 02:07 AM, 10 Mar 2020
    അതുപോലെ ഞാൻ Compatibility Equivalence-നു മലയാളത്തിൽ കൊടുത്തിരിക്കുന്ന ഉദാഹരണം എൻ്റെ ഒരു ഊഹം മാത്രമാണ്. ഞാൻ അത് എവിടെയും Documentation കണ്ടിട്ടില്ല.
  • @Vinodkpz #18151 03:13 AM, 10 Mar 2020
  • @sthottingal #18152 05:32 AM, 10 Mar 2020
    The nta(ന്റ) issue is getting very complicated. We had to deal with Microsoft Kartika, Nirmala font issues. But now google handwriting input tool produce nta as ൻ + ് + റ = ൻ്റ. Noto fonts render all kind of nta as same, But Manjari and similar SMC fonts render it as
  • @sthottingal #18153 05:32 AM, 10 Mar 2020
    A few months back @benvar was trying to implement a keyboard with this sequence too
  • @benvar #18154 05:33 AM, 10 Mar 2020
    @sthottingal yep... I haven't pushed that keyboard to the Keyman yet... It's the Mozhi implementation
  • @sthottingal #18155 05:34 AM, 10 Mar 2020
    All these issues were because the ന്+റ encoding - the widely used and trained in schools pattern was not formally acknowledged by Unicode because of confusing font bugs from Microsoft. Unicode 14 will formally acknowledge ന്റ as ന് + റ
  • @sthottingal #18156 05:35 AM, 10 Mar 2020
    but damage is already done. So they are defining ൻ ് റ as alternate encoding. Practically making it very problematic conjunct for the future of Malayalam
  • @sthottingal #18157 05:35 AM, 10 Mar 2020
    https://www.unicode.org/L2/L2019/19345r2-malayalam-nta.pdf This document was approved by UTC and will be in Unicode 14
  • @benvar ↶ Reply to #18155 #18158 05:35 AM, 10 Mar 2020
    and our attempt to get it changed didn't bear any fruit
  • @benvar #18159 05:38 AM, 10 Mar 2020
    my current keyboard support both options (Unicode spec and the SMC/popular sequence).... Unicode spec, as mine is just an implementation of the Mozhi keyboard, and the Mozhi standard is defined by Cibu. In a private chat Cibu showed me several other examples of "Chillu" + "Chandrakkala" + "Consonant" combinations in Malayalam and he believes that ൻ്റ follows the same pattern
  • I had asked you to write down it somewhere and explain how it help Malayalam. If something is technically feasible, does not mean that it should be implemented.
  • @benvar #18162 05:47 AM, 10 Mar 2020
    > Unicode 14 will formally acknowledge ന്റ as ന് + റ
    I didn't know about this. does that mean they've finally accepted it? Since I'm not on the mailing list, I always have to rely on external sources for the information....
  • @benvar #18163 05:51 AM, 10 Mar 2020
    > I had asked you to write down it somewhere and explain how it help Malayalam.
    Well, my philosophy is get the issue resolved at the source. That's why I approached Unicode Consortium through my contacts there. As a keyboard designer the options before me are limited if the underlying specs doesn't support what I perceive as the right encoding.
  • @Prabros ↶ Reply to #18148 #18164 06:25 AM, 10 Mar 2020
    ❤️
  • Thank you @sthottingal & @benvar...
    ഇതിന്റെ ഇടയിൽ ഇങ്ങനേം ചില കാര്യങ്ങൾ ഉണ്ട് എന്ന് ഇപ്പോഴാണ് അറിയുന്നത്!!
    ഒരു പുതിയ കാര്യം പഠിച്ചു!!
  • @benvar #18166 09:16 AM, 10 Mar 2020
    python
    Python 3.7.4 (tags/v3.7.4:e09359112e, Jul 8 2019, 20:34:20) [MSC v.1916 64 bit (AMD64)] on win32
    Type "help", "copyright", "credits" or "license()" for more information.
    >>> "ഹല്ലോ" == "ഹല്ലോ"
    False
    >>> from unicodedata import normalize
    >>> nfc = "ഹല്ലോ"
    >>> nfd = "ഹല്ലോ"
    >>> list(nfc)
    ['ഹ', 'ല', '്', 'ല', 'ോ']
    >>> list(nfd)
    ['ഹ', 'ല', '്', 'ല', 'േ', 'ാ']
    >>> nfc_as_nfd = normalize("NFD", nfc)
    >>> list(nfc_as_nfd)
    ['ഹ', 'ല', '്', 'ല', 'േ', 'ാ']
    >>> nfd == nfc_as_nfd
    True
    >>> nfd_as_nfc = normalize("NFC", nfd)
    >>> list(nfd_as_nfc)
    ['ഹ', 'ല', '്', 'ല', 'ോ']
    >>> nfc == nfd_as_nfc
    True
    Handling NFC and NFD in Python
  • @benvar #18167 09:22 AM, 10 Mar 2020
    NFC-യും NFD-യും round-trip ചെയ്യാൻ പറ്റും

    >>> nfc == normalize("NFC", normalize("NFD", nfc))
    True
    >>> nfd == normalize("NFD", normalize("NFC", nfd))
    True
  • @benvar #18168 09:45 AM, 10 Mar 2020
    ഇവിടെയാണ് നമുക്ക് ഒരു best practice guidance വേണ്ടത്... മലയാളവും മറ്റ് indic ഭാഷകളും കൈകാര്യം ചെയ്യുമ്പോൾ, ആപ്ലിക്കേഷൻ ലെവലിൽ ഡാറ്റാ നോർമലൈസ് ചെയ്ത് വേണമോ അങ്ങനെ ചെയ്യാൻ? അങ്ങനെയാണെങ്കിൽ ഡാറ്റാ തിരികെ സ്റ്റോർ ചെയ്യുമ്പോൾ നമ്മൾ original നോർമലൈസേഷൻ നിലനിർത്തേണമോ? ഈ ചോദ്യങ്ങൾക്ക് ഉത്തരം എൻ്റെ കൈയ്യിൽ ഇല്ല. (ഈ ചോദ്യങ്ങൾ ഈ ഗ്രൂപ്പിൻ്റെ പൊതുതാത്പര്യങ്ങൾക്ക് പുറത്തായിരിക്കാനും സാധ്യതയുണ്ട്. അതുകൊണ്ട് ഞാൻ ഈ discussion ഇവിടെ നിർത്തുന്നു.
  • May be you are looking for a split like ഹ, ലോ. This is called syllable split. നമ്മൾ മലയാളത്തിൽ "അക്ഷരങ്ങൾ" എന്ന് ഉദ്ദേശിക്കുന്നത് മിക്കവാറും സില്ലബിളുകളെയാണ്. വാക്കുകളെ സില്ലബിൾ ആക്കി പിരിക്കാൻ കുറച്ച് കോഡ് എഴുതണം
  • it is very important to normalize the input content. Not only this normalization, but all issues related to ന്റ/ൻ്റ/ൻറ, ററ/ളള, ൗ, ൌ variations, samvruthokrams, different chillus and so on.
  • @sthottingal #18171 09:49 AM, 10 Mar 2020
    If you take a sample corpus from any source, you will see a lot of data with all these variations.
  • @sthottingal #18172 09:50 AM, 10 Mar 2020
    Here is a sample sed cleanup script that I use everytime https://gitlab.com/smc/mlmorph/-/blob/master/scripts/corpora-cleanup.sed
    scripts/corpora-cleanup.sed · master · SMC / mlmorph

    Malayalam Morphological Analyzer using Finite State Transducer https://morph.smc.org.in

  • പൈത്തണാണെങ്കിൽ ലിബിൻഡിക്കിലുണ്ട്. :)
  • Also https://phon.smc.org.in/ can do it. https://thottingal.in/blog/2017/05/27/a-formal-grammar-for-malayalam-syllables/ for detailed reading(that post has some markup issues, I see)
    A formal grammar for Malayalam syllables

    I wrote about formal grammar for Malayalam conjunct in last blog post. Continuing from there, let us discuss the syllable model. A syllable is a unit of organization for a sequence of speech sounds. …

  • @benvar #18175 09:54 AM, 10 Mar 2020
    I can see the usefulness of normalization in text processing in general (especially while sorting, searching and parsing etc). However, if we change the underlying text at an application level, there is a danger of we, inadvertently, misrepresenting the intent of the user. For eg: in your comment above, if the application decides to normalize the text ന്റ/ൻ്റ/ൻറ, ററ/ളള, ൗ, ൌ to one (correct?) form we will never be able to understand what you're trying to communicate. I'm not a seasoned python developer. But I do a lot of text processing, and I always have this question in the back of my mind.
  • @sthottingal #18176 09:54 AM, 10 Mar 2020
    libindic/syllabalizer

    Syllabify each word in the given text. Contribute to libindic/syllabalizer development by creating an account on GitHub.

  • There is no common normalizer you can use. It depends the context. Sometimes you can be creative, but sometimes, you can do only minimal normalization such as chillu, nta.
  • @sthottingal #18178 09:59 AM, 10 Mar 2020
    when Unicode say "Applications should be prepared to handle both chillu or nta" it adds an extra layer of sophistication, variation on user experience and causes extra set of bugs. People are yet to realize this, as they are yet to see Malayalam computing beyond fonts, input methods and rendering/printing
  • @sthottingal #18179 10:03 AM, 10 Mar 2020
    Plus the bugs in input methods: Mozhi keyboard by its design is buggy in my opinion. In 2007 it took lot of my time to find our why my code is failing. https://thottingal.in/blog/2007/10/11/%E0%B4%B5%E0%B4%B0%E0%B4%AE%E0%B5%8A%E0%B4%B4%E0%B4%BF%E0%B4%AF%E0%B4%BF%E0%B4%B2%E0%B5%81%E0%B4%82-%E0%B4%AE%E0%B5%8A%E0%B4%B4%E0%B4%BF-%E0%B4%95%E0%B5%80%E0%B4%AE%E0%B4%BE%E0%B4%A8%E0%B4%BF%E0%B4%B2/ This is the reason I am always annoyed when people create input methods and promote without being responsible and test the data it produce
    വരമൊഴിയിലും മൊഴി കീമാനിലും എന്‍കോഡിങ്ങ് ബഗ്ഗുകള്‍

    വരമൊഴിയിലും മൊഴി കീമാനിലും ( Tavultesoft keyboard) എന്‍കോഡിങ്ങ് പിശകുകള്‍. മലയാളം വിക്കിപ്പീഡിയയിലുള്ള മൊഴി കീമാപ്പിലും ഈ പിശക് ഉണ്ട്. വാക്കുകളുടെ യൂണിക്കോഡ് കോഡ് മൂല്യങ്ങളുടെ വിന്യാസത്തിലാണ് പിശക്. …

  • @benvar ↶ Reply to #18178 #18180 10:04 AM, 10 Mar 2020
    Add to this the complexity of handling the ZW characters... sigh!

    interestingly python's internal text processing mechanism doesn't handle normalization (it could be intentional though). Hence it always throw a false if we compare text that are canonically equal.
  • @sthottingal #18181 10:05 AM, 10 Mar 2020
    yes, even simple string operations will fail without our own content cleanup. Imagine how difficult to build moderately complex malayalam application
  • @benvar ↶ Reply to #18179 #18182 10:07 AM, 10 Mar 2020
    I'd really like to know your opinion on the the revised mozhi spec (https://sites.google.com/site/cibu/mozhi/mozhi2)
    Mozhi 2.0 - Varamozhi Project

    Open source software to read and write Malayalam in your PC.

  • @benvar ↶ Reply to #18179 #18183 10:09 AM, 10 Mar 2020
    I tried to address these issues when I worked on the new Mozhi keyboard (https://github.com/beniza/keyboards/issues/24)
    വരമൊഴിയിലും മൊഴി കീമാനിലും എന്‍കോഡിങ്ങ് ബഗ്ഗുകള്‍ · Issue #24 · beniza/keyboards

    Santhosh Thottingal reported several encoding issues that happens if a user key-in using Mozhi layout. Details can be found in his blog post on the issue: Here's an excerpt from his blog: വ...

  • @benvar #18184 10:09 AM, 10 Mar 2020
    I need to go to a meeting now... brb
  • ഇതൊക്കെ Database ലെ "Collation" എന്ന സംവിധാനം നോക്കിക്കോളും എന്നതായിരുന്നു എന്റെ ധാരണ. അപ്പോ അങ്ങിനെയല്ലേ?
  • @sthottingal #18186 10:13 AM, 10 Mar 2020
    No, collation is mostly related to sorting and string comparison in the context of database for fast retrieval. Does not do anything for script specific cleanup/normalization.
  • അങ്ങനെയാണൊ?! ☹️

    താഴെ പറയുന്നതിൽ ഒന്ന് വ്യക്തത വരുത്തിയാൽ നന്നായിരുന്നു.

    ---

    നമ്മൾ പ്രത്യേകിച്ച് യാതൊരു cleanup/normalization നും ചെയ്തില്ല എന്ന്‌വക്കുക.

    Utf-8 unicode collation പ്രകാരം, നേരത്തെ ചർച്ച ചെയ്ത "ഹലോ" എന്ന വാക്കിന്റെ രണ്ട് വകഭേദങ്ങൾ കൃത്യമായി search result ൽ കിട്ടുമോ?

    കിട്ടും എന്നാണ് ഞാൻ ധരിച്ചിരുന്നത്.

    ഇപ്പോ‌ മനസ്സിലായത് കിട്ടില്ല എന്നാണ്
  • @mujeebcpy #18188 10:21 AM, 10 Mar 2020
    ഇതെല്ലാം വായിച്ച് ഉള്ള കിളി പോയല്ലോ..
  • @benvar #18189 12:30 PM, 10 Mar 2020
    > Utf-8 unicode collation പ്രകാരം, നേരത്തെ ചർച്ച ചെയ്ത "ഹലോ" എന്ന വാക്കിന്റെ രണ്ട് വകഭേദങ്ങൾ കൃത്യമായി search result ൽ കിട്ടുമോ?
    എനിക്കറിയില്ല... ട്രൈ ചെയ്ത് നോക്കിയിട്ട് പറയാമോ?

    > ഇതെല്ലാം വായിച്ച് ഉള്ള കിളി പോയല്ലോ..
    ചുരുക്കിപ്പറഞ്ഞാൽ, യൂനിക്കോഡിലെഴുതുമ്പോൾ ചില അക്ഷരങ്ങൾ എങ്കിലും ഒന്നിലധികം രീതിയിൽ എഴുതാൻ സാധിക്കും. അങ്ങനെയെഴുതുമ്പോൾ കാഴ്ചയിൽ വ്യത്യാസം തോന്നില്ലെങ്കിലും അവയെക്കുറിക്കുന്ന കോഡ്പോയിൻ്റുകൾ വ്യത്യസ്ഥമായിരിക്കും. ഇങ്ങനെയുള്ള വ്യത്യാസങ്ങളെ ഒന്നായിക്കാണണമെന്നാണ് യൂനിക്കോഡ് കാരണവർ നിർദ്ദേശിച്ചിരിക്കുന്നത്. എന്നാൽ പല text processing operation-കളിലും (ഉദാ: searching, sorting etc.) ഈ വ്യത്യാസം കാരണം നമ്മൾ പ്രതീക്ഷിക്കാത്ത പല ഫലങ്ങൾ ആയിരിക്കും ലഭിക്കുക. ഇതിനൊരു പ്രതിവിധിയായി, text processing operation ചെയ്യുന്നതിനു മുമ്പായി നമ്മൾ process ചെയ്യാൻ പോകുന്ന text-നെ ഒരേ രീതിയിലേക്ക് normalize ചെയ്താൽ മതിയാകും (എന്നാണ് വയ്പ്പ്). എന്നാൽ എൻ്റെ പേടി ഇങ്ങനെ റ്റെക്സ്റ്റ് മുഴുവനായെടുത്ത് ഒറ്റയടീക്ക് normalize ചെയ്താൽ ചിലയിടങ്ങളിലെങ്കിലും അവ പ്രശ്നകാരണമാകാൻ സാധ്യതയുണ്ട്. അതുകൊണ്ട് ഒരു ഒറ്റയളവ് കുപ്പായം തുന്നാൻ സാധിക്കില്ല. ഓരോ Application Developers-ഉം അവരവർ ചെയ്യുന്ന് കാര്യം ,മനസിലാക്കി പ്രതിവിധികൾ കണ്ടെത്തേണ്ടിയിരിക്കുന്നു.
  • 👍
  • @benvar #18191 12:33 PM, 10 Mar 2020
    മുജീബിനു് ഇത്രയും വിശദമായ ഒരു മറുപടിയുടെ ആവശ്യം ഇല്ലെന്നെനിക്കറിയാം... മറ്റുള്ളവരെക്കൂടെ പ്രതിയാണ് ഇങ്ങനെയെഴുതിയത്
  • @mujeebcpy #18192 12:36 PM, 10 Mar 2020
    Payyans ലാണ് ഈ നോർമലൈസർ ആദ്യമായി കണ്ടത്. പക്ഷേ പയ്യൻസ് കൺവേർഷനിൽ എന്തൊക്കെയോ പ്രശ്നങ്ങളുണ്ട്. ചിലത് കൺവേർട്ടാവില്ല. എന്തോ എൻകോഡിങ്ങ് ഇഷ്യുവോ മറ്റോ ആണ്. ആ ലോജിക്ക് എടുത്ത് മാറ്റം വരുത്തിയാണ് janayugam edit ഉണ്ടാക്കിയത്. (C++, qt)
  • @benvar #18193 12:42 PM, 10 Mar 2020
    ഉം.... ഞാൻ പയ്യൻസ് ഉപയോഗിച്ചിട്ടില്ല. ഞാൻ Encoding Conversion ചെയ്യുന്നത് teckit (Developed by Jonathan Kew, who developed XeTeX) എന്ന റ്റൂൾ ഉപയോഗിച്ചാണ്... ഞാൻ ഇതിനായുണ്ടാക്കിയ കൺവെർഷൻ മാപ്പുകൾ ഇവിടുണ്ട് (https://github.com/beniza/teckit-maps)
    beniza/teckit-maps

    Convert files to Unicode. Encoding conversion (TECkit) maps created for various Indic Langauges. You will need SIL Converter to use them. - beniza/teckit-maps

  • @benvar #18194 12:42 PM, 10 Mar 2020
    പയ്യൻസിലെ പ്രശ്നം എന്താണെന്ന് കാണിക്കുന്ന issues വല്ലതും report ചെയ്യപ്പെട്ടിട്ടുണ്ടോ?
  • Mariadb ൽ ചെക്ക് ചെയ്ത് നോക്കി. വർക്ക് ആവുന്നില്ല.
  • @benvar #18197 12:57 PM, 10 Mar 2020
    teckit ഏത് തരം encoding conversion-ഉം ഉപയോഗിക്കാം. ഇപ്പോൾ Ascii2Unicode conversion അധികം വരാറില്ല. ഞാൻ കൂടുതലും Custom Script Conversion Maps ഉണ്ടാക്കാനാണ് teckit ഉപയോഗിക്കുന്നത്.
  • ഇല്ല, അത് പെട്ടെന്ന് ചെയ്യേണ്ടതുകൊണ്ട് മറ്റേത് ഇമ്പ്ലിമെന്റ് ചെയ്യുകയായിരുന്നു. ‍ഞാനന്ന് ബാലൂനോടോ മറ്റോ ചോദിച്ചിരുന്നു എന്നാണ് ഓര്‍മ
  • പബ്ലിഷിംഗ് മേഖലയില് അതേ വരാറുള്ളൂ :D
  • @benvar ↶ Reply to #18195 #18200 12:58 PM, 10 Mar 2020
    ആർക്കും കാരണവരോടൊരു ബഹുമാനവും ഇല്ലെന്നാ തോന്നുന്നത്....
  • @benvar ↶ Reply to #18199 #18201 12:58 PM, 10 Mar 2020
    അതാണെൻ്റെ ഡൊമൈൻ
  • ഡിടിപി സെന്ററുകളും പത്രങ്ങളും ആണ് മെയിൻ .
  • @mujeebcpy #18203 12:59 PM, 10 Mar 2020
    they still use pagemaker
  • @mujeebcpy #18204 01:00 PM, 10 Mar 2020
    ISM ഇല്ലാതെ ടൈപ് ചെയ്യാൻ കഴിയില്ല എന്നാണ് പലരുടെയും ധാരണ. അതിപ്പോ വന്ന് ടൈപ് ഇറ്റ് കൂടെ ലിസ്റ്റില്‍ വന്നിട്ടുണ്ട്.
  • @benvar ↶ Reply to #18203 #18205 01:01 PM, 10 Mar 2020
    അവരെ കുറ്റം പറയാൻ പറ്റില്ല.... ഇപ്പോഴും നല്ല യൂനിക്കോഡ് ഫോണ്ടുകൾ (SMC ഫോണ്ടുകൾ നല്ലതല്ല എന്നല്ല, മതിയാവുകയില്ല എന്ന അർഥത്തിൽ) ദുർലഭമാണ്
  • @benvar ↶ Reply to #18204 #18206 01:02 PM, 10 Mar 2020
    ഞങ്ങൾ പൂർണ്ണമായും യൂനിക്കോഡ് പബ്ലിഷിംഗ് ആണ്...
  • @benvar #18207 01:02 PM, 10 Mar 2020
    2008-മുതൽ
  • ഏതാണ് ടൂള്‍ ? latex ആണോ
  • @benvar #18209 01:03 PM, 10 Mar 2020
    അവിടെ എനിക്ക് നിരാശപ്പെടുത്തേണ്ടി വരും.... InDesign ആണ്
  • @mujeebcpy #18210 01:03 PM, 10 Mar 2020
    ആഹ്. അതെങ്കിലും ഉണ്ടല്ലോ എന്നാശ്വസിക്കാം.
  • @mujeebcpy #18211 01:04 PM, 10 Mar 2020
    സ്ക്രൈബസ് ഇപ്പഴും വലിയ പുസ്തകങ്ങള്‍ക്ക് പറ്റില്ല.
  • @mujeebcpy #18212 01:04 PM, 10 Mar 2020
    ഒറ്റ ടെക്സ്റ്റ് ഫ്രേം അമ്പതില്‍ കൂടുതല്‍ പേജിലേക്ക് പോയാല്‍ ആള് വലിക്കും..
    മള്‍ട്ടിത്രെഡിംഗ് ഇല്ലാത്തതകൊണ്ടുള്ള ഇഷ്യൂ ആണ്.
    സോ വലിയ പുസ്തകങ്ങള്‍ ചാപ്റ്റര്‍വൈസ് ടെക്സ്റ്റ്ഫ്രേം സ്പ്ലിറ്റ് ചെയ്താല്‍ ഓകെ.
  • @benvar #18213 01:05 PM, 10 Mar 2020
    ഞങ്ങളുടെ publishing റ്റീമിൻ്റെ technical skill പരിമിതമാണ്... (പഴയ PageMaker-കാരെ upgrade ചെയ്തെടുത്തതാണ്)
  • ജനയുഗത്തിലും അങ്ങനെത്തന്നെയാരുന്നു. എല്ലാരും പേജ്മേക്കര്‍ മാത്രം കാലാകാലം ഉപയോഗിച്ചവര്‍. അവരിന്ന്
    സ്ക്രൈബസും, ജിമ്പും ഇങ്ക്സ്കേപും കൂളായി ഉപയോഗിക്കുന്നു.
  • @mujeebcpy #18215 01:06 PM, 10 Mar 2020
    ആദ്യഘട്ടത്തില്‍ അവരുടെന്നുള്ള നിസഹകരണം വലിയൊരു പാടായിരുന്നു. പിന്നെ വേറെ വഴിയില്ലാത്തതകുൊണ്ട് പഠിച്ചു. പഠിച്ചാല്‍ കിട്ടാവുന്നതേയുള്ളൂ എന്ന് മനസിലാക്കി
  • ഇൻഡിസൈൻ പരിചയമുള്ള ചിലർ സ്ക്രൈബസ് പഠിക്കാനെളുപ്പമാന്ന് പറഞ്ഞു. കാരണം കൂടുതലും ഒരുപോലാണ് കാര്യങ്ങള്‍
  • @benvar ↶ Reply to #18212 #18217 01:08 PM, 10 Mar 2020
    ഞങ്ങളുടെ പ്രശ്നം റ്റൈപ്സെറ്റിംഗ് automate ചെയ്യാനായി InDesign-ൽ കുറേ invest ചെയ്തിട്ടുണ്ട്... തന്നെയുമല്ല tool-ഉകളുടെ കാര്യത്തിൽ global team ആണ് decision എടുക്കുന്നത്. അപ്പോൾതന്നെ എനിക്ക് സ്വകാര്യ കാര്യങ്ങൾക്ക് ഇപ്പറഞ്ഞവയൊക്കെ ഉപയോഗിച്ച് നോക്കിയാൽ കൊള്ളാമെന്നുണ്ട്.
  • ടെംപ്ലേറ്റ് ഓട്ടോമേറ്റ് ചെയ്യാൻ സ്ക്രൈബസിലാണ് എളുപ്പം. xml ഫോര്‍മാറ്റിലാണ് സേവ് ആവുന്നത്.
  • @benvar #18219 01:10 PM, 10 Mar 2020
    Colum balancing, picture insertion, header generation, line by line registration ഇതെല്ലാം ഒട്ടുമുക്കാലും automate ചെയ്തിരിക്കുവാണ്.
  • @mujeebcpy #18220 01:10 PM, 10 Mar 2020
    python ഉപയോഗിച്ച് നമുക്കാവശ്യമുള്ള സ്ക്രിപ്റ്റ് എഴുതാനും ഓപ്ഷനുണ്ട്
  • @benvar ↶ Reply to #18218 #18221 01:12 PM, 10 Mar 2020
    ഞാനിതുവരെ കൈവെച്ചു നോക്കിയിട്ടില്ല.... ഞങ്ങളുടെ നെറ്റ്‌വർക്കിൽ എല്ലാവർക്കും കൂടെ ഒരു പത്ത് രണ്ടായിരം InDesign licenses കാണും... അത് renew ചെയ്യുന്നതിൻ്റെ cost നോക്കിയാൽ തന്നെ Scribus-ൽ invest ചെയ്യുന്നതായിരിക്കും ലാഭകരം... പക്ഷേ ഞാനിവിടിരുന്നു കരഞ്ഞിട്ടൊരു കാര്യവുമില്ല... സായിപ്പുമാരുടെ ചിന്താരീതി വേറെയാ
  • @benvar ↶ Reply to #18220 #18222 01:14 PM, 10 Mar 2020
    എപ്പോഴെങ്കിലും സമയം കിട്ടുവാണെങ്കിൽ ട്രൈ ചെയ്ത് നോക്കാം... എന്തെങ്കിലും ചോദ്യം വന്നാൽ ചോദിക്കാമല്ലോ അല്ലേ?
  • sure
  • @benvar ↶ Reply to #18223 #18224 01:26 PM, 10 Mar 2020
    thanks 👍
  • കുറച്ച് പേരെ ഇൻവെസ്റ്റ് ചെയ്യാൻ കിട്ടിയിരുന്നെങ്കില്‍ നിലവിലുള്ള ഒരുപാട് പരിമിതികള്‍ മാറ്റാമായിരുന്നു
  • @benvar ↶ Reply to #18225 #18226 01:35 PM, 10 Mar 2020
    സ്ക്രൈബസിലൊക്കെ ആരെങ്കിലും താത്പര്യം കാട്ടേണ്ടതാണ്...
  • @894947890 #18227 01:45 PM, 10 Mar 2020
  • @benvar ↶ Reply to #18195 #18228 02:14 PM, 10 Mar 2020
    ഈ ത്രെഡിൽ പറയുന്നത്, ഒരു automated normalized column ഉണ്ടാക്കി അവിടെ റ്റെക്സ്റ്റ് normalize ചെയ്തു സൂക്ഷിച്ചുവച്ച ശേഷം, ഇത്തരത്തിലുള്ള operations ആ കോളത്തിൽ നടത്തുക എന്നാണ് (https://stackoverflow.com/questions/2302813/normalizing-accented-characters-in-mysql-queries)
    normalizing accented characters in MySQL queries

    I'd like to be able to do queries that normalize accented characters, so that for example: é, è, and ê are all treated as 'e', in queries using '=' and 'like'. I have a row with username field s...

  • അതെ . Manual ആയി ഒരു search index സൂക്ഷിക്കുക എന്നത് എപ്പോഴും ചെയ്യാവുന്ന ഒരു fallback ഓപ്ഷൻ ആണ്.

    പക്ഷേ അതല്ലാതെ കൂടുതൽ മെച്ചപ്പെട്ട സംവിധാനം ഉണ്ടായിരുന്നെങ്കിൽ നന്നായേനേ
  • 11 March 2020 (20 messages)
  • @460804319 #18231 12:38 PM, 11 Mar 2020
    http://tdil-dc.in/eocr/index.html

    ഈ OCR ഉപയോഗിച്ചിട്ടുള്ള ആരെങ്കിലും ഇവിടെ ഉണ്ടോ? എങ്ങനെ ഉണ്ട് സംഭവം?
  • @460804319 #18232 01:04 PM, 11 Mar 2020
    പൊട്ടൻ OCR നു ഒരു Web GUI യും Api server ഉം ഉണ്ടാക്കി.
    ഇതിന്റെ ഒരു ഡെമോ ഇവിടെ കാണാം
    https://pottan-ocr.harishk.in/

    NB: Clipboard ൽ നിന്നു ചിത്രങ്ങൾ പേസ്റ്റ് ചെയ്യാൻ പറ്റും . ഫയലായി തന്നെ upload ചെയ്യണം എന്ന് നിർബന്ധമില്ല
  • @641450435 #18233 01:16 PM, 11 Mar 2020
    Hello.....
    By using siamese networks, how can i make a prediction system.?
  • @641450435 #18234 01:17 PM, 11 Mar 2020
    Photo from Aswathi
  • @Prabros ↶ Reply to #18232 #18235 01:17 PM, 11 Mar 2020
    Nice! Checking this out soon.
  • This is the structure of my data.....i needs to calculate the probability of chances of occuring the word1 and word2(ഇത് and അംഗീകരിക്കപ്പെട്ടിട്ടില്ല) in a sentence. If there exist a chance i need to classify belongs to k1.

    *actualy im giving the corresponding vectors of the words to the model*

    please help
  • Great, the small mistakes in output can be fixed by passing through a spell checker
  • Markov chain for Malayalam

    I have been trying to generate a Markov chain for Malayalam content. A Markov chain is a stochastic model describing a sequence of possible events in which the probability of each event depends only …

  • അതെ. നിലവിൽ അങ്ങിനെയുള്ള ഒന്നും‌ തനെ integrate ചെയ്തിട്ടില്ല. ഇപ്പോൾ കാണുന്നത് OCR ൽ നിന്ന് നേരിട്ടുള്ള Output ആണ്
  • How can i use this on siamese network.....?

    Is this paper saying about feeding sentences into model??
  • @641450435 #18241 01:52 PM, 11 Mar 2020
    Is there any1 worked in siamese network??
  • @sthottingal #18242 01:53 PM, 11 Mar 2020
    It only helps to find probability of a word after a word. I thought that is what you were looking for?
  • @benvar ↶ Reply to #18232 #18243 02:09 PM, 11 Mar 2020
    hurray... will test it soon and let you know
  • @mujeebcpy #18245 02:27 PM, 11 Mar 2020
    marvel official Malayalam Trailer, and use karthika font 😤
  • @pshanoop ↶ Reply to #18232 #18246 02:31 PM, 11 Mar 2020
    👍👍👍
  • lol
  • കിടു ❤️
  • @benvar ↶ Reply to #18245 #18249 02:34 PM, 11 Mar 2020
    😳
  • 12 March 2020 (88 messages)
  • @783022095 #18250 02:59 AM, 12 Mar 2020
    Ithoke entha oru pidiyum kittunilla
  • @783022095 #18251 02:59 AM, 12 Mar 2020
    Ithil ara font undaki publish cheythittulath
  • @avronr #18252 05:28 AM, 12 Mar 2020
    Indic keyboardum SMCyumayittu vello bendhavumundo
  • @avronr #18253 05:30 AM, 12 Mar 2020
    I'm asking about both the one on play store and the one on f-droid
  • Yes. It is developed and maintained by SMC (Indic Project) - http://indic.app/
    Indic Keyboard

    Indic keyboard brings 23 Indian languages to your mobile along with spell checking, word prediction and transliteration.

  • @avronr #18255 05:32 AM, 12 Mar 2020
    Well the app on fdroid asks for the following permissions any idea why?
  • @balasankarc #18256 05:33 AM, 12 Mar 2020
    Contacts permission is for dictionary suggestions, IIRC. @jishnu7 can confirm.
  • @avronr #18257 05:34 AM, 12 Mar 2020
    😊👍
  • @jishnu7 #18258 05:41 AM, 12 Mar 2020
    yes. mentioned several time here before.
  • @jishnu7 #18259 05:41 AM, 12 Mar 2020
    If anyone is free to send a PR for adding this in the website?
  • അടിപൊളി!!
  • ഞാൻ ആ മെസ്സേജ് ഇട്ടതിനു ശേഷം‌ കൂടുതൽ ചെക്ക് ചെയ്തപ്പോഴാണ് മനസ്സിലായത് സംഗതി ഞാൻ വിചാരിച്ച പോലെ അടിപൊളി ആയിട്ടില്ല എന്ന്.

    അതായത്, നിലവിൽ സ്ക്രീൻഷോട്ടുകളും മറ്റും കൃത്യമായി OCR ചെയ്യപ്പെടും എങ്കിലും, പഴയ പുസ്തകങ്ങളുടെ സ്കാൻ കോപ്പികളൊന്നും വർക്ക് ആവുന്നില്ല.

    പക്ഷേ അതേ സ്കാൻ ചെയ്ത പേജിന്റെ ഒരു ലൈൻ, രണ്ട് വർഷം മുൻപ് ചെയ്ത് വച്ച https://harish2704.github.io/pottan-demo/ ഇവിടെ റെകഗ്നൈസ് ചെയ്യപ്പെടുന്നതായി കാണാം

    ഇത് എന്തുകൊണ്ട് സംഭവിച്ചു എന്ന്‌ ചോദിച്ചാൽ‌‌ , പുതിയ Demo യിൽ ഉപയോഗിച്ചിരിക്കുന്നത് വളരെ light weight ആയ ഒരു Model ആണ്.

    പഴയമോഡൽ അത്യാവശ്യം CPU&memory ആവശ്യമുള്ളത് ആയതുകൊണ്ട് സർവറിൽ ഇടാൻ എളുപ്പമല്ല.

    -ഈ വിഷയത്തിൽ പ്രതികരണം അറിയിച്ച എല്ലാവർക്കും നന്ദി
  • എത്ര മാത്രം സീപ്പീയൂ/മെമ്മറി എടുക്കും എന്ന് പറയാവോ ?
  • @Ishikawa90 #18264 06:57 AM, 12 Mar 2020
    അത്യാവശ്യം തടിമാടന്‍ ഓസീആര്‍ പ്രൊഡക്ഷനില്‍ ഒരു സര്‍വീസ് ആയി ഓടിച്ച് എനിക്ക് പരിചയമുണ്ട്
  • @avronr ↶ Reply to #18259 #18265 06:57 AM, 12 Mar 2020
    Content tharamo? Atleast out line. I'll open a PR.
  • Default ആയി കാണുന്ന പേജ് OCR ചെയ്യാൻ പഴേമോഡലിനു ~500MB mem + ~15 second time വേണം

    പുതിയ മോഡലിനു ഇത് 350MB Mem + 4 second time ആണ്.

    end user നെ സംബന്ധിച്ച് ( ലോക്കലിൽ റൺ ചെയ്യുമ്പോൾ ) ഇത് അത്ര കുഴപ്പമുള്ള വിഷയം അല്ല എന്ന് ഇപ്പോ തോന്നുന്നു.
  • @Ishikawa90 #18267 07:32 AM, 12 Mar 2020
    yep
  • @Ishikawa90 #18268 07:33 AM, 12 Mar 2020
    there can be some sort of queue+processing model that can work for a desktop application
  • @460804319 #18269 07:35 AM, 12 Mar 2020
    അതെ. ഞാൻ premature optimization ചെയ്യാൻ നോക്കിയതാണ് പണിആയത്.

    പ്രത്യേകിച്ചും ML Model ഒക്കെ optimize ചെയ്യുക എന്നത് ഒരു ഗഹനമായ engineering ആണ്.

    ഞാൻ കാര്യം അറിയാതെ കുറേ ഭാഗങ്ങൾ ചുമ്മാ മോഡലിൽ നിന്ന് അങ്ങ് ഒഴിവാക്കി
  • ഈ പറഞ്ഞ സംഭവം Public നു ലഭ്യമാണോ ? ആണെങ്കിൽ ലിങ്ക് തന്നാൽ നന്നായിരുന്നു
  • @Ishikawa90 #18271 07:37 AM, 12 Mar 2020
    It was for a telecom company, and not for public
  • @Ishikawa90 #18272 07:38 AM, 12 Mar 2020
    a company called ABBY had an OCR back in 2013 that worked well with latin character set and good support
  • @Ishikawa90 #18273 07:38 AM, 12 Mar 2020
    i wrote wrappers around their native code to expose a java interface and ran it as a web service (SOAP) written in java
  • @Ishikawa90 #18274 07:39 AM, 12 Mar 2020
    the use case was to scan the national id of the telecom's country, determine name, id number and other details, and autofill in a web form
  • @Ishikawa90 #18275 07:40 AM, 12 Mar 2020
    that thing required about 10s to process an image and give me back the data
  • ആഹാ... സേം പിച്ച്.

    ഇവിടേം Line segmentation അടക്കമുള്ള പണികൾചെയ്യുന്നത് Tesseract എന്ന OCR ആണ്. ഞാനും അതിന്റെ Binary യെ wrap ചെയ്ത് API ആക്കിയതാ
  • @Ishikawa90 #18277 07:40 AM, 12 Mar 2020
    images came from tablet devices then (like the motorola Xoom and similar)
  • @Ishikawa90 #18278 07:41 AM, 12 Mar 2020
    yeah this one had better accuracy than tesseract
  • @Ishikawa90 #18279 07:41 AM, 12 Mar 2020
    we tried with tesseract and didn't work, and telco was swimming in money so we got them to buy abby
  • ഇവിടെ Layout analysis ചെയ്ത് Lines കണ്ടെത്തുക എന്ന പണിമാത്രമേ ടെസ്സറാക്റ്റ് ചെയ്യുന്നുള്ളൂ . അതു ചെയ്യാൻ ആശാനു പ്രശ്നം ഉള്ളതായി കണ്ടിട്ടില്ല.

    ശരിക്കും അക്ഷരങ്ങളെ തിരിച്ചറിയുന്നത് ഒരു Machine learning model ആണ്.
  • aah okay. the ABBY solution was an SVM thing i think.
  • @Ishikawa90 #18282 07:46 AM, 12 Mar 2020
    there was a IIIT Hyderabad project that demonstrated a lot of accuracy on old books with an SVM based solution
  • @Ishikawa90 #18283 07:46 AM, 12 Mar 2020
    80-90 %
  • @Ishikawa90 #18284 07:47 AM, 12 Mar 2020
    Prof Jawahar guided it, and a person called Neeba Rajesh was responsible
  • ഏതുതരം സ്ക്രിപ്റ്റ് ( Latin / Devanagari )നു ആണ്?

    നമ്മുടെ സ്ക്രിപ്റ്റ് വളരെ Complicated ആണ്. Latin സ്ക്രിപ്റ്റിന്റെ രീതികൾ ഇവിടെ പ്രായോഗിഗം ആവൂല
  • Thanks !! I ll check this
  • @Ishikawa90 #18287 07:51 AM, 12 Mar 2020
    Malayalam
  • @Ishikawa90 #18288 07:51 AM, 12 Mar 2020
    that was Malayalam
  • @Ishikawa90 #18289 07:51 AM, 12 Mar 2020
    Odiya adapted the malayalam solution with different training data and it sort of worked for them too
  • @avronr #18290 08:51 AM, 12 Mar 2020
    What would be an accurate malayalam translation for "archives"
  • Context? As a noun or as a verb?
  • @benvar ↶ Reply to #18282 #18292 08:56 AM, 12 Mar 2020
    ഈ പ്രൊജക്റ്റ് എവിടെങ്കിലും ലഭ്യമാണോ? എനിക്ക് പൊതുതാത്പര്യമുള്ള ഒരു പ്രൊജക്റ്റിൽ ഉപയോഗിക്കാനാണ്
  • @avronr ↶ Reply to #18291 #18293 08:56 AM, 12 Mar 2020
    Noun
  • @avronr #18294 08:57 AM, 12 Mar 2020
    So like as in archiving texts posts etc.
  • @avronr #18295 08:57 AM, 12 Mar 2020
    But the noun
  • @benvar #18296 08:57 AM, 12 Mar 2020
    മലയാളമനോരമയുടെ സൈറ്റിൽനിന്നും... അവർ ഏത് കീബോർഡാണുപയോഗിക്കുന്നതെന്ന് നിശ്ചയമില്ല
  • @avronr #18297 08:59 AM, 12 Mar 2020
    Also now that I think about it how would it be translated as a verb?
  • ശേഖരം may work.
  • @avronr #18299 09:01 AM, 12 Mar 2020
    So as a verb ശേഖരിക്കുക?
  • @benvar ↶ Reply to #18298 #18300 09:01 AM, 12 Mar 2020
    അത് collection അല്ലേ? context അനുസരിച്ച് ചിലപ്പോൾ വർക്കാകുമായിരിക്കും
  • അതെ. "പഴയകാല ശേഖരം" എന്നതിന് ഒറ്റവാക്ക് ഉണ്ടോന്ന് അറിയില്ല. :D
  • @benvar #18302 09:02 AM, 12 Mar 2020
    പൗരാണികശേഖരം
  • @benvar #18303 09:02 AM, 12 Mar 2020
    പൗരാണികരേഖകൾ
  • @ssiyad ↶ Reply to #18298 #18304 09:02 AM, 12 Mar 2020
    സംഭരണം പറ്റില്ലെ?
  • @avronr #18305 09:05 AM, 12 Mar 2020
    What if it is archives? Would ശേഖരം സംഭരണം turn into ശേഖരങ്ങൾ and സംഭരണങ്ങൾ
  • 👍
  • This is right. But whether it should be used or not depends on where the translation is being used. (പൗരാണിക ഒക്കെ മനസ്സിലാവാത്ത ടാർഗറ്റ് ഓഡിയൻസാണെങ്കിൽ പോയി)
  • @benvar ↶ Reply to #18307 #18308 09:06 AM, 12 Mar 2020
    അതെ... കാര്യം പിടികിട്ടുന്നില്ലെങ്കിൽ (ചില സാഹചര്യങ്ങളിലെങ്കിലും)
  • @benvar #18309 09:07 AM, 12 Mar 2020
    അതുപോലെ archive എപ്പൊഴും പൗരാണികമാവെണമെന്നുമില്ല്
  • @benvar #18310 09:08 AM, 12 Mar 2020
    Gmail-നുള്ളിൽ മെയിലുകൾ archive ചെയ്യാനുള്ള സംവിധാനം ഉണ്ട്. അത് ഇപ്പോൾ വന്ന മെയിൽ ആണെങ്കിൽ കൂടി.
  • 👆🏼👍🏼
  • It was done with a Ministry of IT grant
  • @Ishikawa90 #18313 09:14 AM, 12 Mar 2020
    No idea if the source is free
  • @benvar ↶ Reply to #18313 #18314 09:16 AM, 12 Mar 2020
    wondering if it is available as an app or something, even if source is not available.
  • @Ishikawa90 #18315 09:16 AM, 12 Mar 2020
    Not as far as I know
  • @benvar #18316 09:17 AM, 12 Mar 2020
    ☹️
  • @Ishikawa90 #18317 09:17 AM, 12 Mar 2020
  • @benvar #18318 09:17 AM, 12 Mar 2020
    @harish2704 തന്നെ ശരണം
  • @Prabros #18319 10:00 AM, 12 Mar 2020
    Google Open Source Search: https://cs.opensource.google/ Something similar for SMC would be lit. Text search and/or catalog of projects done.
  • Ath storage alle🤔
  • @vrnithinkumar #18321 11:48 AM, 12 Mar 2020
  • @nuju_tvm ↶ Reply to #18296 #18322 12:44 PM, 12 Mar 2020
    Panchari
  • @benvar ↶ Reply to #18322 #18323 12:55 PM, 12 Mar 2020
    thanks Nuju. Anyways, they use the Standardized version of ൻ്റ
  • @benvar ↶ Reply to #18262 #18325 05:13 PM, 12 Mar 2020
    സത്യം
  • @RogueCLI #18326 06:24 PM, 12 Mar 2020
    Guys. Oru malayalam docx aa.. ith engane fix cheyyam?
  • This is ASCII. Copy the content and go to kuttipencil.in from Computer and convert-> paste from ml
  • @RogueCLI #18328 06:26 PM, 12 Mar 2020
    Thanks
  • @mujeebcpy #18330 06:27 PM, 12 Mar 2020
    Or try this
    https://mlconverter.icfoss.org/
  • @mujeebcpy #18331 06:28 PM, 12 Mar 2020
    Try Changing the font until you get correct info.

    Normally it may be mlttkarthika normal
  • @RogueCLI ↶ Reply to #18327 #18332 06:33 PM, 12 Mar 2020
    This didn't worked out.
  • It should work.
  • @RogueCLI ↶ Reply to #18330 #18334 06:37 PM, 12 Mar 2020
    This worked.
  • @RogueCLI #18335 06:37 PM, 12 Mar 2020
    Thanks😇
  • @mujeebcpy #18336 06:37 PM, 12 Mar 2020
    👍
  • That doesn't work from mobile
  • @RogueCLI ↶ Reply to #18337 #18338 06:45 PM, 12 Mar 2020
    I tried on PC
  • ഈ വിന്റോയിലാണ് പേസ്റ്റ് ചെയ്യേണ്ടത്
  • 13 March 2020 (41 messages)
  • @benvar ↶ Reply to #18327 #18340 02:15 AM, 13 Mar 2020
    does this preserve the formatting of the original document?
  • @benvar #18341 03:02 AM, 13 Mar 2020
    വിൻഡോസിൽ ഇപ്പോഴും കാർത്തിക തന്നെയാണോ default മലയാളം ഫോണ്ട്?
  • No
  • ആണെന്ന് തോന്നുന്നു. വിന്റോസ് ഉപേക്ഷിച്ച് 3 വർഷമായി
  • @benvar ↶ Reply to #18342 #18344 03:44 AM, 13 Mar 2020
    it would have been nicer if someone extent it to process formatted text... SIL Converter does, but it's not open source (although underlying teckit is opensource)
  • @benvar ↶ Reply to #18343 #18345 03:46 AM, 13 Mar 2020
    കാർത്തികയിലെ പ്രശ്നങ്ങൾ എവിടെയെങ്കിലും ഡോക്കുമെൻ്റ് ചെയ്തിട്ടുള്ളതായറിയാമോ? അത്തരം പ്രശ്നങ്ങൾ മാറ്റിയെടുക്കാനായി ആരെങ്കിലും മൈക്രൊസോഫ്റ്റിനെ സമീപിച്ചിരുന്നോ?
  • @sthottingal may know
  • @benvar #18347 03:48 AM, 13 Mar 2020
    കാർത്തികയുടെ ഏറ്റവും വലിയ പ്രശ്നം അത് ചിലയിടത്തെങ്കിലും standard encoding അല്ല ഉപയോഗിക്കുന്നത് എന്നുള്ളതാണ്... (ഉദാ: ന്റ). ഇനി ഈ പ്രശ്നങ്ങളെല്ലാം പരിഹരിച്ചാലും കാർത്തികയുടെ ഗ്ലിഫുകൾ കണ്ടാൽ ശർദ്ദിക്കാൻ വരും....
  • അവസാനം പറഞ്ഞത് വളരെ കറക്ട്. ഇത്ര വൃത്തികെട്ട ഫോണ്ട് വേറെ കണ്ടിട്ടില്ല
  • @benvar #18349 03:51 AM, 13 Mar 2020
    യ്ക്കോ റ്റൈപ്പ് ചെയ്യുമ്പോൾ വരുന്നതാണ് (കാർത്തിക + Harffbuzz)
  • @benvar ↶ Reply to #18348 #18350 03:52 AM, 13 Mar 2020
    🤮
  • @sthottingal #18351 04:25 AM, 13 Mar 2020
    Nirmala UI is the Malayalam font in latest windows
  • @sthottingal #18352 04:26 AM, 13 Mar 2020
    Both are equally ugly
  • @sthottingal #18353 04:27 AM, 13 Mar 2020
    I met the designer of these fonts once and he told me he did a 'violence' to the script because of tight deadlines for windows release
  • @sthottingal #18354 04:27 AM, 13 Mar 2020
    The proportions were made to meet the windows UI components
  • @sthottingal #18355 04:28 AM, 13 Mar 2020
    The irony is there are many native malaylam speakers who said Nirmala or kartika is best font for Malayalam.
  • @sthottingal #18356 04:29 AM, 13 Mar 2020
    Some of the bugs in these fonts later become features. For example nta.
  • @benvar ↶ Reply to #18353 #18357 06:24 AM, 13 Mar 2020
    He indeed done a violence to the script. While I'm glad that he recognizes it, but the damage is already done. (Was he reporting to Peter Constable?)
  • @benvar ↶ Reply to #18356 #18358 06:25 AM, 13 Mar 2020
    The Karthika 'ന്‍റ' is a standard?
  • Yes, all unicode discussion related to this is documented at http://thottingal.in/documents/ Malayalam-NTA.pdf
  • @benvar #18360 06:35 AM, 13 Mar 2020
    thanks a lot Santhosh.... will read it this weekend
  • @512777345 #18361 06:35 AM, 13 Mar 2020
    Hlo, this is my code for mlmorph root word extraction,but it takes huge amount of time ,space and the program shows killed after few minutes, if anyone knows any solution please share
  • @512777345 #18362 06:35 AM, 13 Mar 2020
  • @512777345 #18363 06:36 AM, 13 Mar 2020
    This is my input data format
  • @512777345 #18364 06:36 AM, 13 Mar 2020
  • @sthottingal #18365 06:39 AM, 13 Mar 2020
    Which version of mlmorph? How did you install? And what happens if you give the text file to mlmorph -a command line program?
  • @512777345 #18366 06:41 AM, 13 Mar 2020
    mlmorph==1.1.0
  • @512777345 #18367 06:41 AM, 13 Mar 2020
    pip3 install mlmorph==1.1.0 ,i installed using this command
  • @512777345 #18368 06:44 AM, 13 Mar 2020
    at a time i got 3000-4000 words analysis,after that the program shows killed
  • @512777345 #18369 06:45 AM, 13 Mar 2020
    this is output format
  • @512777345 #18370 06:47 AM, 13 Mar 2020
    My dataset contains above 3lakh sentences
  • @sthottingal #18371 07:04 AM, 13 Mar 2020
    Can you take a look at the coverage analysis code in mlmorph source code. It takes 14 lakh words and finish in couple of minutes
  • @512777345 #18372 07:26 AM, 13 Mar 2020
    Ok
  • @512777345 #18373 07:36 AM, 13 Mar 2020
    Can you please share link of that code?
  • tests/coverage-test.py · master · SMC / mlmorph

    Malayalam Morphological Analyzer using Finite State Transducer https://morph.smc.org.in

  • @512777345 #18375 09:41 AM, 13 Mar 2020
  • @512777345 #18376 09:42 AM, 13 Mar 2020
    sir,How to solve this error?
  • @nambolan ↶ Reply to #18375 #18377 09:48 AM, 13 Mar 2020
    tokens_count is 0.
  • @512777345 #18378 09:59 AM, 13 Mar 2020
    why it is so
  • @512777345 #18379 10:03 AM, 13 Mar 2020
    i have already given a file to that program
  • @621544960 #18380 03:34 PM, 13 Mar 2020
  • 14 March 2020 (1 messages)
  • @763873947 #18381 08:39 AM, 14 Mar 2020
  • 15 March 2020 (36 messages)
  • ഓസിആർ ചെയ്ത് കിട്ടിയ വാചകങ്ങൾ മൊത്തമായോ ചില്ലറയായോ തിരുത്താനും അതിനെ ഒരു ഡാറ്റാസെറ്റ് ആയി ശേഖരിച്ചു വക്കാനും ഉള്ള സംവിധാനം ഉണ്ടാക്കി
  • @kuthirakkanaaran #18383 02:34 AM, 15 Mar 2020
    #COVID19 Track and record your travels in real-time, compare against possibly infectious locations visited by known cases, and help authorities collect data.
    Use #OSMTracker or #OSMAnd
    Find out more Ark Arjun writes https://blog.geominds.in/2020/03/14/covidtrackingwithosm/
    #corona #OpenStreetMap #GPS #tracking
  • @benvar ↶ Reply to #18382 #18384 07:55 AM, 15 Mar 2020
    ഹരീഷേ, ഇങ്ങനെ ഓൺലൈനിൽ തിരുത്തിയാൽ പൊട്ടൻ പിന്നീട് തരുന്ന output കൂടുതൽ മെച്ചപ്പെടുത്തുമോ?
  • "Save as training data" എന്ന ബട്ടൺ വഴി ഇതിനെ ഒരു Dataset ആയി സ്വന്തം‌ സിസ്റ്റത്തിൽ ഡൗൺലോഡ് ചെയ്ത് വക്കാനുള്ള സംവിധാനമാണ് ഇപ്പോൾ ചെയ്തിരിക്കുന്നത്.

    അതായത് ഈ ഡാറ്റസെറ്റ് ഉപയോഗിച്ച് ഓരോരുത്തർക്കും പൊട്ടൻ ഓസിആറിനെ ഫൈൻ ട്യൂണിങ്ങ് ( ട്രെയിനിങ്ങ് ) ചെയ്യാം.

    1. ഈ‌ ഡൗൺലോഡ് ചെയ്ത് കിട്ടിയ ഡാറ്റസെറ്റ് ഉപയോഗിച്ച് ട്രെയിനിങ്ങ് നടത്താനുള്ള സംവിധാനം പണിപ്പുരയിൽ ആണ്. ഇപ്പോൾ നിലവിലില്ല. പക്ഷേ ഡാറ്റാസെറ്റ് ഉണ്ടാക്കി വച്ചതുകൊണ്ട് നഷ്ടം വരൂല. അത് ആവശ്യം വരും

    2. ഈ സംവിധാനത്തിന്റെ സാധ്യതകൾ അനവധിയാണ്. അതായത് നിലവിൽ മൊഴിമാറ്റം നടത്തി വിക്കി അടക്കമുള്ള പബ്ലിക്ക് ഡൊമെയിനിൽ ഇട്ടിരിക്കുന്ന അനവധി പുസ്തകങ്ങളെ ഒരു Ready to use ഡാറ്റാസെറ്റ് ആക്കി മാറ്റാം.

    താളിയോലയോ കൈയെഴുത്തു പ്രതിയോ അടക്കമുള്ള ഏതൊരു specific use case നേയും കൈകാര്യം ചെയ്യാൻ പാകത്തിൽ ഓസിആറിനെ പരിഷ്കരിക്കാം . manual ആയി മൊഴിമാറ്റം നടത്തിയ കുറച്ചു പേജുകൾ ഇൻപുട്ട് ആയി കൊടുത്താൽ ബാക്കി മൊത്തം പൊട്ടൻ തന്നെ ചെയ്തോളും എന്ന അവസ്ഥ ഉണ്ടായേക്കാം.

    4. രണ്ട് വർഷത്തിനു ശേഷം പൊട്ടൻ ഓസിആറിൽ ആകെ ഉണ്ടായ ഒരു കൊള്ളാവുന്ന പരിഷ്കരണം ആയി ഞാനിതിനെ കാണുന്നു.
  • @Iamvivekkj #18386 09:30 AM, 15 Mar 2020
    ഇൗ ഫോണ്ട് ഏതാണെന്ന് പറയാമോ??
  • Design ayirikum
  • Microsoftumaayi contact cheythaal avar enthenkilum change kondu varillae 🤔
  • @abisonjohn #18389 01:39 PM, 15 Mar 2020
  • @abisonjohn #18390 01:40 PM, 15 Mar 2020
    സ്ക്രിബസിൽ ചില്ലക്ഷരങ്ങൾ ടൈപ്പ് ചെയ്യാൻ പറ്റുന്നില്ല, solution അറിയുമോ??
  • @Muhammed_Yaseen #18392 02:08 PM, 15 Mar 2020
    മുൻപ് ഇവിടെ ഒരാൾ ഷെയർ ചെയ്തിരുന്നത് പോലെ ചെയ്തു നോക്കിയിട്ടും ഗൂഗിൾ ക്രോമിൽ ഫോണ്ട് മാറിയില്ല.
  • @Muhammed_Yaseen #18393 02:11 PM, 15 Mar 2020
    @mujeebcpy ഇക്ക പറഞ്ഞതനുസരിച്ച് ക്രോമിലെ ഫോണ്ട് മാറ്റിയപ്പോൾ ശെരിയായി.
  • @Muhammed_Yaseen #18394 02:12 PM, 15 Mar 2020
    @Urushibara
  • @Muhammed_Yaseen #18395 02:15 PM, 15 Mar 2020
    When it changed to Kaumudi
  • @Muhammed_Yaseen #18396 02:20 PM, 15 Mar 2020
    Changed to Manjari
  • @Muhammed_Yaseen #18397 02:20 PM, 15 Mar 2020
    Changed to Gayathri
  • @Muhammed_Yaseen #18398 02:21 PM, 15 Mar 2020
    Anjali Old lipi valiya kuzhappamilla pakshe. aa Highlight cheythirikkunna portion oru issue aayi thonniyittund...
  • @Muhammed_Yaseen #18399 02:24 PM, 15 Mar 2020
    ഫോണ്ട് അഞ്ജലി ഓൾഡ് ലിപിയാണ്. ഫ്രണ്ട്(friend) ഒരു വാട്ട്സ്ആപ്പ് മെസ്സേജ് ഇങ്ങനെ ആറ് കാണിക്കുന്നത്. ഇനി ഇതാണൊ യഥാർത്ഥ മലയാളത്തിൽ ശെരി എന്ന് അറിയില്ല.🤷🏽‍♂️🤔
  • 👍 that's good
  • @mujeebcpy might know
  • @Muhammed_Yaseen #18402 02:40 PM, 15 Mar 2020
    ഇനി വിക്കിപീഡിയ എഡിറ്റ് ചെയ്യുമ്പോഴൊക്കെ മാത്രം ഈ ഫോണ്ട് സെറ്റിംഗ്സ് മാറ്റാം എന്ന് കരുതുന്നു. പിന്നെ മുജീബിക്ക ഒരിടത് പറഞ്ഞു കണ്ട പോലെ വായിക്കാൻ പഴയ ലിപിക്ക് സ്പീഡ് കൂടുന്നുണ്ടോ എന്ന എനിക്ക് ഇപ്പോൾ തോന്നിയിട്ടുണ്ട്. ഇപ്പോൾ മെച്ചം ആയി കാണുന്നത് ഗൂഗിൾ ഇൻപുട്ട് ടൂൾ വെച്ച് സ്പീഡിന് തെറ്റ് കൂടാതെ ടൈപ്പ് ചെയ്യാൻ കഴിയുന്നു, പിന്നെ 'ഫോണ്ട്', ഷെയർ മുതലായ മലയാളം വാക്കുകൾ സജ്ജെഷനിൽ നിന്ന് തെരെഞ്ഞെടുക്കാതെ ടൈപ്പ് ചെയ്ത് പോകാൻ കഴിയുന്നു. പിന്നെ ഒരു പ്രശ്നം ആയി തോന്നിയത് 'ച്ച്' ആണ്. chu യുവിലും, chhu വിലും ഗൂഗിൾ ഇൻപുട്ട് ടൂൾസ് സജ്ജെഷനിൽ പോലും* 'ച്ച്', നൽകാതെ ച്ചു ആണ് നൽകുന്നത്.
  • @Muhammed_Yaseen #18403 02:41 PM, 15 Mar 2020
    ഇനി മലയാളത്തിൽ പലയിടത്തും 'ചു' ആണോ നൽകേണ്ടത് എന്നും അറിയില്ല.
  • ഇത് യഥാർത്ഥത്തിൽ ചിത്രീകരണ മികവ് ആണോ. എന്റെ മലയാളത്തിലെ അറിവിന്റെ കുറവ് ആണോ എന്നെനിക്ക് അറിയില്ല🤷🏽‍♂️
  • Which version of Scribus ?
  • @Muhammed_Yaseen #18406 03:07 PM, 15 Mar 2020
    malayalam font in youtube subtitle is pwoli 😇🤩
  • @Muhammed_Yaseen #18407 03:27 PM, 15 Mar 2020
    After changing the font the news from asianet news website
  • ഇതേതാ ഫോണ്ട് ? അപ്പോ ഇതിന് മുമ്പേതാ ഉപയോഗിച്ചിരുന്നത്
  • @Prabros ↶ Reply to #18408 #18409 03:47 PM, 15 Mar 2020
    Ithu Googleinte Noto Sans Malayalam alle? Nalla font aanu.
  • @mujeebcpy #18411 03:48 PM, 15 Mar 2020
    ഔട്ട്ലെറ്റുകൾ ഇത് മഞ്ജരിയിലൊക്കെ കറക്ടായാണ് കാണിക്കുന്നത്.
    പ്രസ്ക്ലബ് ഒക്കെ യാണ് ശരിയാവാതെ വരിക. അത് നോണ്‍ജോയിനറിട്ടെഴുതണം. പ്രസ്‍ക്ലബ്ബ്
  • Anjaliold lipi for chrome🤔
  • @Muhammed_Yaseen #18413 06:28 PM, 15 Mar 2020
    ithu avarude enthenkilum issue aakumo...
  • @Muhammed_Yaseen #18414 06:28 PM, 15 Mar 2020
    avar input cheyyunnath windows os or angane enthenkilum...
  • പുതിയലിപിയാണല്ലോ എന്നിട് മുകളില് കാണുന്നേ
  • @Prabros ↶ Reply to #18415 #18416 06:35 PM, 15 Mar 2020
    Ithu Noto Sans aanennaanu ente anumaanam.
  • @Prabros #18417 06:37 PM, 15 Mar 2020
    Alla ennu thonnunnu.
  • @Prabros #18418 06:38 PM, 15 Mar 2020
    Vya okke vyathyaasamundu.
  • 16 March 2020 (29 messages)
  • ഓസിആർ ചെയ്ത ഡാറ്റ, ( Detect ചെയ്ത line boundary / Text ) തിരുത്താനുള്ള സൗകര്യം,

    തിരുത്തിയ ഡാറ്റയും ഇമേജും അടക്കം ഒരു ഡാറ്റാസെറ്റ് ആയി ഡൗൺലോഡ് ചെയ്യാനുള്ള സൗകര്യം

    ഡൗൺലോഡ് ചെയ്ത ഡാറ്റ ഉപയോഗിച്ച് ട്രെയിനിങ്ങ് നടത്താനുള്ള സൗകര്യം

    മുൻപ് ഡൗൺലോഡ് ചെയ്ത് ശേഖരിച്ചിട്ടുള്ള ഡാറ്റകൾ വീണ്ടും തുറന്ന് പരിശോധിക്കാനും തെറ്റ് തിരുത്താനുമുള്ള സൗകര്യം എന്നിവ കൂട്ടിച്ചേർത്തു
  • 👏
  • @nambolan #18421 03:56 AM, 16 Mar 2020
  • @nambolan #18422 03:56 AM, 16 Mar 2020
    cc licensed. feel free to reuse
  • @nambolan #18423 03:56 AM, 16 Mar 2020
  • @benvar ↶ Reply to #18385 #18424 04:52 AM, 16 Mar 2020
    ഇപ്പൊ ഉള്ള ഒരു പ്രശ്നം എന്താന്നു വെച്ചാൽ ഓരൂ വരിയുടെ അവസാനം ഹൈഫനേഷൻ വരുന്നത് CRLF വെച്ചാണ് നമ്മളിപ്പോൾ മുറിക്കുന്നത്. @sthottingal മുമ്പ് പറഞ്ഞിരുന്നതുപോലെ Post Processing-ലൂടെ കൃത്യത വർദ്ധിപ്പിക്കാൻ ശ്രമിക്കുമ്പോൾ വാക്കുകൾ മുറിഞ്ഞുകിടക്കുന്നത് ഒരു തടസമായി വരും. അതുതന്നെയല്ല, ഒരു corpus എന്ന നിലയിലും വാക്കുകൾക്കിടയിൽ ഇത്തരം break-കൾ ശരിയല്ലല്ലോ. Gundert Portal-ലിൽ (TEI Standard-ഇലാണ് അത് ചെയ്തത്) ഇങ്ങനെ വരുന്ന ഇടങ്ങളിൽ LF വെച്ച് വരികൾ മുറിക്കുകയായിരുന്നു ചെയ്തിരുന്നത്. പക്ഷേ linux-ൽ \n (LF) മാത്രം ഉപയോഗിച്ചാണല്ലോ line break ചെയ്യുന്നത്. അപ്പോൾ ഈ രീതി foolproof ആണെന്ന് ഉറപ്പില്ല.

    എന്തായാലും എൻ്റെ പോയിൻ്റ് എന്താന്ന് വെച്ചാൽ നമുക്ക് യഥാർത്ഥ line break-നെയും hyphenation-നെയും വേർതിരിച്ചു കാണിക്കാനായാൽ മാത്രമെ Pottan OCR-ലെ output ഭാവിയിൽ പരമാവധി പ്രയോജനപ്പെടുത്താനാകൂ. Google Drive OCR-ൽ അവർ ഇത് Post Processing-ലൂടെ കൃത്യമാക്കി എടുക്കുന്നുണ്ട്.
  • @benvar #18425 04:54 AM, 16 Mar 2020
    0xAD ആണ് unicode hyphenation character.
  • പറഞ്ഞത് മുഴുവനും മനസ്സിലായില്ല. ഞാൻ ഒന്നുകൂടി മനസ്സിലാക്കാൻ ശ്രമിച്ചിട്ട് മറുപടി പറയാം
  • 404 Not Found
  • @benvar #18428 04:58 AM, 16 Mar 2020
    എഴുതി വന്നപ്പോ ചാനലു പോയെന്നു തോന്നുന്നു
  • @benvar #18429 04:58 AM, 16 Mar 2020
    ഞാൻ വിളിക്കട്ടെ?
  • @benvar ↶ Reply to #18430 #18431 06:14 AM, 16 Mar 2020
    സന്തോഷ് അയച്ച url-നു ഇടയിൽ ഒരു space ഉണ്ടായിരുന്നു...
  • @bumblebee765 #18432 01:41 PM, 16 Mar 2020
  • @mujeebcpy #18433 04:12 PM, 16 Mar 2020
    ന്റെ മഹാമഹം
  • @mujeebcpy #18434 04:13 PM, 16 Mar 2020
    ഇതെന്തോ ഒന്ന് നോക്കാനാ ചെയ്ത് നോക്കിയത്. ചെയ്ത് വന്നപ്പോ എന്തിനോ നോക്കിത് ന്ന് പോലും കണ്‍ഫ്യൂഷനായി
  • @mujeebcpy #18435 04:17 PM, 16 Mar 2020
    ആ @balasankarc ന്റെ sed സ്ക്രിപ്റ്റ് കണ്ടപ്പോ തോന്നിയ ഡൗട്ടാണ്. ഇതിലെല്ലാം ന+ആണവച്ചില്ല് + റെ ന്‍റെ തന്നെയാണ്. ന+ഒട്ട്ചില്ല്+റെ ആണ് നോട്ടോസാൻസും, നിര്‍മലയുമൊക്കെ ന്റെ കാണിക്കുന്നത്. noto and indulekha പിന്നെ ശരിക്കുള്ള രീതിയില്‍ ടൈപ് ചെയ്താലും ന്റ കാണിക്കുന്നുണ്ട്. അപ്പോ ന്‍റെ റീപ്ലേസ് ചെയ്യുമ്പോ ഒട്ട്ചില്ല് മാത്രേ ന്റെ ആക്കാൻ പറ്റുള്ളൂ
  • ലേ ഞാൻ: ഏത് സെഡ്‌ സ്ക്രിപ്റ്റ്.. 😂
  • @Ishikawa90 #18437 04:18 PM, 16 Mar 2020
    സെഡ് പോയിട്ട് വൈ പോലും എഴുതാത്ത ഞാന്‍
  • ഇത് നീ ഒരു ചിത്രമാക്കി ഇട്ടാലേ നീ ഉദ്ദേശിച്ചത് ഞങ്ങൾ വായിക്കൂ 😊
  • @balasankarc #18439 04:21 PM, 16 Mar 2020
    😃
  • @sthottingal #18440 04:22 PM, 16 Mar 2020
    നമ്മൾ ഇത് തമാശയായി എടുക്കും. ആന്റണിയെന്നോ അല്ലെങ്കിൽ ന്റ പേരിലുള്ള ഒരാളുടെ ജീവിതമൊന്ന് ഓർത്ത് നോക്കൂ.
  • ഞാൻ തന്നെ വായിച്ചിട്ട് കിളിപോണു
  • ഇനി ഞാൻ വല്ല സ്വപ്നവും കണ്ടതായിരിക്കുമോ.. ഇപ്പോ തപ്പീട്ട് ആ ലിങ്ക് കിട്ടുന്നുമില്ല
  • ദിതാണോ?
  • @mujeebcpy #18445 04:27 PM, 16 Mar 2020
    ah
  • @460804319 #18446 07:47 PM, 16 Mar 2020
    @sthottingal : Regarding https://thottingal.in/blog/2018/08/10/how-to-customize-malayalam-fonts-in-linux/

    ഫെഡോറ-31 ൽ ഇങ്ങനെ ചെയ്തപ്പോൾ, മഞ്ജരി ഫോണ്ട് ( fc-match ലും ) എല്ലാ ഭാഷകളിലേക്കും ബാധകമാകുന്നതായി കണ്ടു.

    അങ്ങിനെ ഞാൻ സിസ്റ്റത്തിന്റെ ഡിഫാൾട്ട് കോൺഫിഗറേഷൻ പരതി നോക്കിയപ്പോൾ താഴെകാണുന്ന syntax ആണ് കണത്
    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE fontconfig SYSTEM "fonts.dtd">
    <fontconfig>
    <match>
    <test name="lang" compare="contains">
    <string>ml</string>
    </test>
    <test name="family">
    <string>sans-serif</string>
    </test>
    <edit name="family" mode="prepend">
    <string>Meera</string>
    </edit>
    </match>
    <alias>
    <family>Meera</family>
    <default>
    <family>sans-serif</family>
    </default>
    </alias>
    </fontconfig>
    ഇതിൽ മീര വരുന്നത് മാറ്റി മഞ്ജരി ആക്കി ലോക്കൽ കോൺഫിഗറേഷനിൽ ഇട്ടപ്പോളാണ് മാച്ചിങ്ങ് ശരിയായത്. ഇപ്പോൾ മലയാളത്തിനു മാത്രമേ മഞ്ജരി വരുന്നുള്ളൂ
    How to customize Malayalam fonts in Linux

    Now a days GNU/Linux distributions like Ubuntu, Debian, Fedora etc comes with pre-configured fonts for Malayalam. For Sans-serif family, it is Meera and for serif, it is Rachana. If you like to change …

  • @460804319 #18447 07:58 PM, 16 Mar 2020
    ഇതെന്താ ഇങ്ങനെ ? Geany ( GTK3 ) Text editor ലെ അവസ്ഥയാണ്