Monday, May 24, 2021

'ಸಂಚಯ' ದಲ್ಲಿ ನನ್ನ ಲೇಖನ

 ಕನ್ನಡದ ಪುಸ್ತಕವನ್ನು ಡಿಜಿಟಲೈಸ್ ಮಾಡುವ ಬಗ್ಗೆ ನಾನು ಹಿಂದೆ ಬರೆದಿದ್ದೇನೆ(http://mnsrao.blogspot.com/2009/08/blog-post_10.html).ಆಗ ಪೂರ್ಣವಾಗಿ ಕೀಲಿಕಾರನಾಗಿ ಮಾಡಿದ್ದು. ಅದರಲ್ಲಿ ವಿಶೇಷವೇನೂ ಇಲ್ಲ; ಸಾಮಾನ್ಯ ಕೆಲಸಗಾರರಂತೆ ಒಂದೇಸಮನೆ ಮಾಡಿಕೊಂಡು ಹೋದರಾಯಿತು. ಅದರಲ್ಲಿ ಹೇಳಿಕೊಳ್ಳಲು ಹೊಸತೇನೂ ಇಲ್ಲ. ಆದರೂ ಅದರಬಗ್ಗೆ ಬರೆದೇ ಬರೆದೆ. ಯಾಕೆಂದರೆ ಅದು ಬಹಳಕಾಲ ಹಿಡಿಯಿತು ಮತ್ತು ನನ್ನ ವೃತ್ತಿಯಾಗಿರಲಿಲ್ಲ; ಪ್ರವೃತ್ತಿಯಾಗಿತ್ತು. ಅದಕ್ಕೇ ಅದು ನನಗೆ ವಿಸೇಷವಾಯಿತೇನೋ! ಪ್ರವೃತ್ತಿಯನ್ನು ಡಂಗುರ ಹೊಡೆದು ಹೇಳಿಕೊಳ್ಳಬಾರದಿತ್ತು.


ಆ ದಾರಿಯಲ್ಲಿ ನಡೆದು ಕೊಂಚ ತಿರುವು ಬೇಕೆನಿಸಿದಾಗ ಆ ಕತ್ತಲು ದಿಕ್ಕಿನಲ್ಲಿ ಒಂದು ಸಣ್ಣ ಬೆಳಕಿನ ಕಿಂಡಿ ಕಾಣಿಸಿತು. ಇಂಗ್ಲಿಷಿಗೆ ಒಸಿಆರ್ ಇದೆ ಕನ್ನಡಕ್ಕೆ ಏಕಿಲ್ಲ ೆಂದು ಗೂಗಲ್ ನಲ್ಲಿ ಹುಡಿಕಿದಾಗ ಶ್ರೀರಂಗರ ಪರಿಚಯವಾಯಿತು. ಅವರು ಟೆಸೆರಾಕ್ಟ್ ನಲ್ಲಿ ಕನ್ನಡ ಒಸಿಆರ್ ಬಗ್ಗೆ ಸಾಕಷ್ಟು ಬೆದಕಿ ಬೆದಕಿ ಒಂದು ಅತಿ ಹರಿತವಲ್ಲದ ಮಟ್ಟ ತಲುಪಿದ್ದು. (ಅದನ್ನೇ ಹರಿತಗೊಳಿಸಲು ಅವರೊಡನೆ ಸ್ವಲ್ಪ ಕೈಜೋಡಿಸುತ್ತಿದ್ದೇನೆ - ಅದು ಬೇರೆ ವಿಷಯ) ಾ ಪದ್ಧತಿಯನ್ನು ಉಪಯೋಗಿಸಿ ಏಕೆ ಕನ್ನಡದ ಪುಸ್ತಕವನ್ನು ಡಿಜಿಟಲೈಸ್ ಮಾಡಬಾರದು ಅನ್ನಿಸಿ ಆ ದಾರಿಯನ್ನು ಕೊಂಚ ಸವೆಸಿದ್ದೇನೆ. ಇಲ್ಲಿ ಒಂದು ವಿಶಯ ಹೇಳಬೇಕು. ಅದೇನೆಂದರೆ ವೇಗವಾಗಿ ಕೀಲಿಕರಣ ಮಾಡುವ ಪಟುಗಳಿಗೆ ೀಗಲೂ ಕೀಲಿಕರಣವೇ ನೇಗ ಮತ್ತು ಸುಲಭ. ಒಸಿಆರ್ ಅನ್ನು ಬೆಳೆಸಬೇಕು, ಅದು ಒಂದು ವಿಧಾನವಾಗಿ ಕನ್ನಡಿಗರಿಗೆ ಸಿಗಬೇಕೆಂದು ಬಯಸುತ್ತಿರುವುದರಿಂದ ನಾನು ಸ್ವಲ್ಪ ಕಸರತ್ತನ್ನೇ ಮಾಡುತ್ತಿದ್ದೇನೆ.

ಒಸಿಆರ್ ಉತ್ತಮಪಡಿಸಲು  ಈಗ ಎರಡು ಕೆಲಸಗಳಿವೆ: 1) ಕನ್ನಡಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಉಪತತ್ರಾಂಶವನ್ನು ಉತ್ತಮಪಡಿಸುವುದು 2) ಒಸಿಆರ್ ನ ಸಿದ್ಧವಾದ ಕರಡು ಪಠ್ಯವನ್ನು ತಿದ್ದುವುದು. ಈ ಎರಡೂ ಕೆಲಸಗಳು ನಡೆಯುತ್ತಿವೆ. ಈಗ ಲಭ್ಯವಿರುವ ಉಪತತ್ರಾಂಶವನ್ನು  ಉಪಯೋಗಿಸಿದಾಗ ಉತ್ಪತ್ತಿಯಾಗುವ ಕರಡನ್ನು ತಿದ್ದುವ ವಿಧಾನವಾದರೂ ಕೈಗೆ ಸಿಕ್ಕಿದಲ್ಲಿ ಡಿಜಿಟಲೈಸ್ ಮಾಡುವುದು ಕೊಂಚಮಟ್ಟಿಗೆ ಹಗುರವಾಗುತ್ತದೆ. ಮೊದಲನೇ ಆಯ್ಕೆ ದೀರ್ಘಕಾಲಾವಧಿಯದ್ದು. ಸ್ವಲ್ಪ ಕಷ್ಟತರವಾದದ್ದೂ ಹೌದು. ಏತನ್ಮಧ್ಯೆ ಒಸಿಆರ್ ಬಳಕೆಮಾಡಿ ಕೆಲಸ ಹಗುರ ಮಾಡಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸಿದಾಗ ಅದರ ಇಳುವರಿಯಲ್ಲಿ ಇರುವ ತಪ್ಪುಗಳನ್ನು ತಿದ್ದುವ ಕಾರ್ಯವೇ ನೇರವಾಗಿ ಕೀಲೀಕರಿಸುವುದಕ್ಕಿಂತ ಕಠಿಣವೆಂದೆನಿಸುವಷ್ಟು ಆಯಿತು. ಆದರೂ ನಾನು ವೃತ್ತಿಪರ ಕೀಲಿಕಾರನಲ್ಲದ್ದರಿಂದ ತಪ್ಪುಗಳನ್ನು ಒಪ್ಪಮಾಡುವ ದಾರಿಯನ್ನೇ ಆಯ್ಕೆ ಮಾಡಿಕೊಂಡೆ. ಇದರಿಂದ ಒಂದು ಉಪಕಾರ ಆಯಿತು. ಏನೆಂದರೆ Post-processing ಗೆ ಬೇಕಾಗುವ ಸಾಮಗ್ರಿಯನ್ನು ಗುಂಪುಕೂಡಿಸಲು ಇದೊಂದೇ ಮಾರ್ಗ.

ಈಗ ನಾನು ಅನುಸರಿಸಿದ ಕೆಲವು ಮೆಟ್ಟಲುಗಳನ್ನು ನೋಡೋಣ;
1.ನಾನು ಒಸಿಆರ್ ಮಾಡಲು ಬಳಸುವ GUI  FreeOCR  ಅದನ್ನು ದೊರಕಿಸಿಕೊಳ್ಳುವ ಜಾಗ http://www.paperfile.net/ ಕನ್ನಡ ಉಪತತ್ರಾಂಸ ದೊರಕಿಸಿಕೊಳ್ಳುವ ಜಾಗ http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.kan.tar.gz&can=2&q=
 ಮುಂದೆ ಈ ಉಪತತ್ರಾಂಸವನ್ನು ಎರಡುಕಡೆ ಹಚ್ಚಬೇಕು.1) FreeOCR -->Settings-->open Language folder 2) C:\Program Files\Tesseract-OCR\tessdata (ಇದು ಇಲ್ಲದಿದ್ದಲ್ಲಿ ಹೊಸದಾಗಿ ಸೃಷ್ಟಿಸಿಕೊಳ್ಳಿ)
2.ಕನ್ನಡದ ಒಂದು tif ಕಡತವನ್ನು  FreeOCR ನಲ್ಲಿ kan OCR Language ಉಪಯೋಗಿಸಿ ಒಸಿಆರ್ ಮಾಡಿ ಬಂದ ಇಳುವರಿಯನ್ನು ಬೇರೆ ಕಡೆಯಲ್ಲಿ ಪರಿಶೀಲಿಸಿ ತಪ್ಪುಗಳನ್ನು ಕಲೆಹಾಕಬೇಕು ಅವುಗಳಲ್ಲಿ ಎಲ್ಲವನ್ನೂ ಉಪಯೋಗಿಸಲು ಬರುವುದಿಲ್ಲ.ಏಕೆಂದರೆ ಒಂದು ಕಡೆ ಸರಿಮಾಡಿದರೆ ಮತ್ತೊಂದು ಕಡೆ ಕೆಡುವಂತಾಗಬಾರದು. 

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEi3z0Up9Qw7jGVPRJc6-nht9p53yt342WkPT7R6xRX6R8_ZZ7bg6EQLqRIv9qRzNEN059lfbSOKSP69g232PZIMPxXHvNdM1PcfkXbQK5ggr2lApLxjmTYjuJZ5lrw0dup94hFwgm-hkyw/s320/pp1.JPG

 

 Text  Postptrcessing (FreeOCR -->Settings -->Text  Postptrcessing  ನಲ್ಲಿ ಸೇರಿಸಬಹುದಾದನ್ನು ಆರಿಸಿ ಅವಕ್ಕೆ ಸರಿ ಏನೆಂದು ತೀರ್ಮಾನಿಸಿ ಪ್ರತಿಯೊಂದು ಜೋಡಿಯನ್ನು (ತಪ್ಪು space ಒಪ್ಪು) ಬೇರೆಬೇರೆ ಸಾಲುಗಳಲ್ಲಿ
   ನಾ7 ರ್ನಾ
   ದೋ ದೋ
   ದಿ7 ರ್ದಿ
   ನ್ನೕ ನ್ನೇ
ಹೀಗೆ ಸೇರಿಸಬೇಕು
3.ಈ ಕ್ರಿಯೆ ಮುಗಿಯದಂತಹುದು. ಎಷ್ಟು ಬೆಳೆಸಿದರೂ ಅಷ್ಟು ಒಸಿಆರ್ ಶುದ್ಧವಾಗುತ್ತದೆ 
4.ಒಂದು ಪುಸ್ತಕವನ್ನು ಒಸಿಆರ್ ಮಾಡುತ್ತಿದ್ದೇನೆಂದು ಕೊಳ್ಳಿ ಅದನ್ನು FreeOCR ನಲ್ಲಿಯೇ Text  Postptrcessing  ಉಪಯೋಗಿಸಿ ಸ್ವಚ್ಛಗೊಳಿಸಿದ್ದೂ ಆಯಿತು. ಆದರೂ ಇನ್ನೂ ಸ್ವಚ್ಛಗೊಳಿಸಬೇಕಾಗಿರುತ್ತದೆ. ಇಡೀ ಪುಸ್ತಕದ ಎಲ್ಲಾ ತಪ್ಪುಗಳನ್ನೂ  ಒಂದೇ ಏಟಿಗೆ ತಿದ್ದಲು ಕಷ್ಟ. ಅದಕ್ಕಾಗಿ  ಅದರಲ್ಲಿ ಹಲುವು ಭಾಗಗಳಿದ್ದರೆ ತಿದ್ದಲು ನಾನೊಂದು ಉಪಾಯವನ್ನು ಅನುಸರಿಸುತ್ತಿದ್ದೇನೆ. ಇದಕ್ಕೆ Notepad++  ಅನುಕೂಲ. ಬೇರೆಬೇರೆ ಭಾಗಗಳನ್ನು ಬೇರೆಬೇರೆ ಕಡತಗಳಾಗಿ ಮಾಡಿ ಬೇರೆಬೇರೆಯಾಗಿ ತೆರೆಯಿರಿ. ಒಂದು ತಪ್ಪು ಎಲ್ಲ ಕಡತಗಳಲ್ಲೂ ಇರಬಹುದೆನಿಸಿದರೆ Search--> Replace--> Replace all in all opened documents

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjPUTumkYBiwBFy3oY4zHIak0ZyJqRP9FnOo-nGyJqpLvZo5i3_pjM0Lh9E6rpYqXJmiNQE2D9a1gsOZ24b1eBZQgyFktkXQHjosAH66NYF1Lju5OryldxJx8U6-zdtUhtqDSxjwzHISlM/s320/pp3.JPG
ಮುಂದೆ ತಪ್ಪುಗಳು ಕಡಿಮೆ ಇರುವ ಒಸಿಆರ್ ಬರಲೆಂದು ನಾನು ಆಶಿಸುತ್ತೇನೆ. 


No comments: