日曜日, 1月 21, 2018

MacOSXでPDFの文字列問題
コピー&ペーストすると濁音が独立

前任の先生から受け継いだ授業のシラバスを作成すると行った時に資料として既存のシラバスをPDFとして入手し、MacOSXでPDFの文字列をコピー&ペーストすると濁音が独立してしまうと言う問題に随分頭を悩めていました。これはWindowsとMacOSXでのファイル管理システムの相異によることが起因です。

■WindowsやLinuxのファイル管理形式
NFC(Normalization Form Canonical Compression)文字に濁点や半濁点が付いていたり、ダイアクリティカルマークとの組合せであっても、全て「一文字」として扱う形式。

■MacOSXのファイル管理形式
NFD(Normalization Form Canonical Decompression)文字に濁点や半濁点が付いていたり、ダイアクリティカルマークとの組合せの場合、本体の文字とは分離して管理した形式。

これを自動的に修正するのは無理で、手動あるいはツールを利用しないと解決しません。

■(バージョンアップ)NFD→NFC変換ツール(オンラインツール)

MS-Wordなどへ直接ペーストすると確実に濁音などが分離します。そこで「形式を選択してペースト」を選んでも、見かけ上は問題解決していますが、文字コードがやはり変です。こちらでの実験ではJeditに配置(問題は解決)したファイルを一度保存してから、MS-Wordで開けば解決しました。他、テキストエディタの「mi」に一度ペーストしてから彩度コピーすると解決するようですが、私の環境では「mi」が何故か起動出来ないので現時点では確認出来ませんでした。

OSX 10.11.6 El Capitan