編碼 - Unicode等

檢查與設定本地編碼

1️⃣ 檢查目前系統的本地編碼

Windows (cmd / PowerShell)

chcp

會顯示目前的「代碼頁 (Code Page)」：

950：繁體中文（Big5）
936：簡體中文（GBK）
65001：UTF-8

Linux / macOS (Terminal)

locale

查看 LANG 或 LC_CTYPE 的值，例如：

LANG=zh_TW.UTF-8

---

2️⃣ 在 C++ 程式內檢查當前編碼

#include <clocale>
#include <iostream>

int main() {
    std::cout << "Current locale: " << std::setlocale(LC_ALL, nullptr) << std::endl;
}

在 Windows 通常會顯示像 C 或 Chinese (Traditional)_Taiwan.950。

---

3️⃣ 設定本地編碼

Windows 命令提示字元 (cmd)

chcp 65001

→ 將命令列切換為 UTF-8。

PowerShell

$OutputEncoding = [Console]::OutputEncoding = [Text.Encoding]::UTF8

在 C++ 程式內設定

#include <clocale>

int main() {
    std::setlocale(LC_ALL, "zh_TW.UTF-8");  // 設為 UTF-8
}

或在 Windows 設定 Big5

std::setlocale(LC_ALL, "Chinese_Taiwan.950");

---

4️⃣ 建議設定

如果要與 .NET / Web 互通，建議統一使用 UTF-8。
VS 專案可在 屬性 → 高階 → 原始檔字元編碼 選擇 UTF-8。

Console 輸出若亂碼，可搭配：

SetConsoleOutputCP(65001);  // 設定輸出為 UTF-8
SetConsoleCP(65001);         // 設定輸入為 UTF-8

設定永久編碼

1️⃣ 問題背景

使用 chcp 65001 只能暫時改變當前命令提示字元 (cmd) 的編碼，一旦關閉視窗或重新啟動，就會恢復預設值（例如 950 Big5）。若希望讓整個系統、所有應用程式都使用 UTF-8，需在 Windows 系統層級修改「地區設定」。

---

2️⃣ 永久設定整個 Windows 使用 UTF-8

步驟一：開啟地區設定

開啟 控制台 (Control Panel)
選擇 時鐘和地區 → 地區 (Region)
切換到管理 (Administrative) 分頁
點擊 變更系統地區設定 (Change system locale...)

步驟二：啟用 UTF-8

勾選底部的：
✅ Beta: 使用 Unicode UTF-8 提供全球語言支援 (Use Unicode UTF-8 for worldwide language support)
按下「確定」並重新啟動系統

重開機後，Windows Console、C++、.NET、Python 等程式的預設 locale 都會是 UTF-8。

---

3️⃣ 驗證是否生效

在 cmd 驗證

chcp

若顯示：

Active code page: 65001

即表示 UTF-8 已成為預設。

在 C++ 驗證

#include <clocale>
#include <iostream>

int main() {
    std::cout << "Current locale: " << std::setlocale(LC_ALL, nullptr) << std::endl;
}

---

4️⃣ 注意事項

某些舊版軟體或驅動不支援 UTF-8，可能會出現亂碼。
若出現兼容性問題，可取消該勾選回復 Big5。
VSCode、Visual Studio、PowerShell 等現代工具皆完整支援 UTF-8。

---

5️⃣ 替代方案（不改整系統）

如果不想全系統改成 UTF-8，可針對某些應用設定啟動參數或程式內設定：

cmd /K chcp 65001

或在程式內呼叫：

SetConsoleOutputCP(65001);
SetConsoleCP(65001);

Unicode escape sequences

基本概念

Unicode escape sequence 是一種用純 ASCII 字元來表示 Unicode 字符的方法，常見於程式語言原始碼、JSON、字串常值與跨平台資料交換。當環境無法直接輸入或顯示特定字元時，會使用這種表示法。

\u 格式

最常見的格式是 \uXXXX，其中 XXXX 為 4 位十六進位數，表示 Unicode 碼位。

\u0041 → A
\u00E9 → é
\u4E2D → 中

\U 格式

部分語言（如 Python）支援 \UXXXXXXXX，使用 8 位十六進位數，可直接表示所有 Unicode 碼位。

\U0001F600 → 😀

代理對表示法

在僅支援 16 位元 Unicode 的環境（如 JavaScript 舊規格）中，超過 U+FFFF 的字元需使用代理對（surrogate pair）。

\uD83D\uDE00 → 😀

常見語言範例

JavaScript


const s = "\u4E2D\u6587";

Python


s = "\u4E2D\u6587"
s2 = "\U0001F600"

JSON


{
  "text": "\u4E2D\u6587"
}

使用時機

避免原始碼編碼不一致造成亂碼
確保跨系統、跨語言資料正確傳輸
在僅允許 ASCII 的環境中表示非 ASCII 字元

URL Encoding

基本概念

URL Encoding（又稱 Percent-Encoding）是一種將字元轉換為可安全用於 URL 的表示方式。 URL 僅允許特定的 ASCII 字元，其餘字元必須轉換成百分比加十六進位數的形式。

編碼格式

編碼格式為 %HH，其中 HH 是該字元位元組值的十六進位表示。若字元在 UTF-8 下佔多個位元組，會分別編碼。

空白 → %20
! → %21
中 → %E4%B8%AD

保留字元

URL 中有部分字元具有特殊語意，稱為保留字元。是否需要編碼取決於使用位置。

未保留字元

以下字元在 URL 中可直接使用，不需編碼。

A–Z a–z
0–9
- _ . ~

常見語言範例

JavaScript


encodeURIComponent("中文 test")
decodeURIComponent("%E4%B8%AD%E6%96%87%20test")

Python


from urllib.parse import quote, unquote

quote("中文 test")
unquote("%E4%B8%AD%E6%96%87%20test")

與加號的差異

在 application/x-www-form-urlencoded 格式中，空白字元會被編碼成 +，而非 %20。一般 URL 路徑中仍使用 %20。

使用時機

網址包含非 ASCII 字元
傳遞查詢參數避免語法衝突
確保不同瀏覽器與伺服器解析一致

Hexadecimal Escapes

基本概念

Hexadecimal Escapes 是一種使用十六進位數來表示字元的跳脫寫法，常用於程式語言的字串常值中，用來表示特定位元組或 ASCII 字元。

\x 格式

最常見的格式是 \xHH，其中 HH 為 2 位十六進位數，代表一個位元組的值，通常對應 ASCII 或單一位元組字元。

\x41 → A
\x61 → a
\x0A → 換行

適用範圍

Hexadecimal Escapes 多半僅適用於單一位元組，若使用 UTF-8 編碼的多位元組字元，需拆成多個 \xHH。

中（UTF-8）→ \xE4\xB8\xAD

常見語言支援

C / C++


char c = '\x41';

JavaScript


const s = "\x48\x65\x6C\x6C\x6F";

Python


s = "\x48\x65\x6C\x6C\x6F"

與 Unicode Escapes 的差異

Hexadecimal Escapes 以位元組為單位
Unicode Escapes 以 Unicode 碼位為單位
Hexadecimal Escapes 較適合低階資料或 ASCII
Unicode Escapes 較適合多語系文字

使用時機

需要精確控制位元組內容
處理二進位資料或通訊協定
表示不可列印的控制字元

CRLF 轉 LF 不安裝 dos2unix 的方法

如果只是要把 Windows 的 CRLF (\r\n) 轉成 Unix/Linux 的 LF (\n)，其實不一定要安裝 dos2unix，在 Windows CMD、PowerShell、Git Bash、Cygwin 等環境都有替代方案。

PowerShell

最簡單且內建：


(Get-Content input.sh) | Set-Content -NoNewline output.sh

但這種方式可能改變檔案編碼。

較安全的方法：


$content = Get-Content input.sh -Raw
$content = $content -replace "`r`n","`n"
[System.IO.File]::WriteAllText("output.sh",$content)

直接覆蓋原檔：


$file = "input.sh"
$content = Get-Content $file -Raw
$content = $content -replace "`r`n","`n"
[System.IO.File]::WriteAllText($file,$content)

PowerShell 7


$content = Get-Content input.sh -Raw
$content = $content.Replace("`r`n","`n")
Set-Content input.sh -Value $content -NoNewline

CMD + PowerShell

若只能寫在 .bat：


powershell -Command ^
 "$c=Get-Content '%1' -Raw; ^
 $c=$c -replace \"`r`n\",\"`n\"; ^
 [IO.File]::WriteAllText('%1',$c)"

Cygwin

Cygwin 通常有 tr：


tr -d '\r' < input.sh > output.sh

覆蓋原檔：


tr -d '\r' < input.sh > input.tmp
mv input.tmp input.sh

sed

大部分 Cygwin、Git Bash、MSYS2 都有 sed：


sed -i 's/\r$//' input.sh

批次處理：


find . -name "*.sh" -exec sed -i 's/\r$//' {} \;

perl

若環境有 perl：


perl -pi -e 's/\r\n/\n/g' input.sh

或：


perl -pi -e 's/\r$//' input.sh

awk


awk '{ sub(/\r$/, ""); print }' input.sh > output.sh

Git Bash

通常已內建 dos2unix：


which dos2unix

若有找到：


dos2unix input.sh

vim

許多 Linux/Cygwin 都有 vim：


vim input.sh

進入後執行：


:set ff=unix
:wq

最簡潔的一行

PowerShell：


(Get-Content file.sh -Raw).Replace("`r`n","`n") |
Set-Content file.sh -NoNewline

Cygwin / Git Bash：


sed -i 's/\r$//' file.sh

若你的目的是修正：


-bash: $'\r': command not found

通常直接執行：


sed -i 's/\r$//' script.sh

或：


tr -d '\r' < script.sh > script_fixed.sh

即可達到與 dos2unix 幾乎相同的效果。

ASCII 編碼表

ASCII Hex 對應表
	0x0	0x1	0x2	0x3	0x4	0x5	0x6	0x7	0x8	0x9	0xA	0xB	0xC	0xD	0xE	0xF
0x00	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
0x10	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
0x20	␣	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
0x30	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
0x40	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
0x50	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
0x60	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
0x70	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~	DEL
0x80	Ç	ü	é	â	ä	à	å	ç	ê	ë	è	ï	î	ì	Ä	Å
0x90	É	æ	Æ	ô	ö	ò	û	ù	ÿ	Ö	Ü	¢	£	¥	₧	ƒ
0xA0	á	í	ó	ú	ñ	Ñ	ª	º	¿	⌐	¬	½	¼	¡	«	»
0xB0	░	▒	▓	│	┤	╡	╢	╖	╕	╣	║	╗	╝	╜	╛	┐
0xC0	└	┴	┬	├	─	┼	╞	╟	╚	╔	╩	╦	╠	═	╬	╧
0xD0	╨	╤	╥	╙	╘	╒	╓	╫	╪	┘	┌	█	▄	▌	▐	▀
0xE0	α	ß	Γ	π	Σ	σ	µ	τ	Φ	Θ	Ω	δ	∞	φ	ε	∩
0xF0	≡	±	≥	≤	⌠	⌡	÷	≈	°	∙	·	√	ⁿ	²	■

所有中文字的 Unicode 範圍

Unicode 中的中文字符主要分佈在以下幾個區段。以下列出常見的中文字符（漢字）在 Unicode 表中的各範圍，以及每個範圍的詳細說明。

Unicode 範圍說明

CJK Unified Ideographs (中日韓統一表意文字)：主要收錄最常見的中文字符。
CJK Unified Ideographs Extension A、B、C、D、E、F、G：為補充區，涵蓋更廣泛的中文字符，包含古文字及少數使用頻率較低的字。
CJK Compatibility Ideographs (中日韓相容表意文字)：收錄與其他字符系統兼容的字符，常用於字形兼容需求。

各範圍列表

範圍名稱	Unicode 範圍	說明
CJK Unified Ideographs	4E00–9FFF	收錄基本的中文、日文和韓文字符，是最常見的中文字範圍。
CJK Unified Ideographs Extension A	3400–4DBF	擴展A區，包含較少使用的中文字符。
CJK Unified Ideographs Extension B	20000–2A6DF	擴展B區，主要涵蓋古文字符和一些罕見漢字。
CJK Unified Ideographs Extension C	2A700–2B73F	擴展C區，進一步擴充了古文字及罕見字。
CJK Unified Ideographs Extension D	2B740–2B81F	擴展D區，包含極少使用的漢字。
CJK Unified Ideographs Extension E	2B820–2CEAF	擴展E區，主要補充更多罕見的中文字符。
CJK Unified Ideographs Extension F	2CEB0–2EBEF	擴展F區，包含更罕見的古文字和漢字。
CJK Unified Ideographs Extension G	30000–3134F	擴展G區，是最新補充的中文字符區域。
CJK Compatibility Ideographs	F900–FAFF	相容區，用於與舊字符集系統的相容性，例如日文字形的不同字形。

總結

以上列出的範圍包含大部分的漢字字符，並分佈在多個不同的區域以滿足不同需求，包括現代漢字、古文字及相容字符等。對於中文字體設計或字符分析來說，這些範圍提供了完整的字體支援。

Unicode Icons

UTF-8字元表

email: [email protected]

T:0000

資訊與搜尋 | 回dev首頁
email: Yan Sa [email protected] Line: 阿央

電話: 02-27566655 ,03-5924828

阿央
泱泱科技
捷昱科技泱泱企業

DE

EN

JA

KO

RU

編碼 - Unicode等

電腦的使用

檢查與設定本地編碼

1️⃣ 檢查目前系統的本地編碼

Windows (cmd / PowerShell)

Linux / macOS (Terminal)

2️⃣ 在 C++ 程式內檢查當前編碼

3️⃣ 設定本地編碼

Windows 命令提示字元 (cmd)

PowerShell

在 C++ 程式內設定

或在 Windows 設定 Big5

4️⃣ 建議設定

設定永久編碼

1️⃣ 問題背景

2️⃣ 永久設定整個 Windows 使用 UTF-8

步驟一：開啟地區設定

步驟二：啟用 UTF-8

3️⃣ 驗證是否生效

在 cmd 驗證

在 C++ 驗證

4️⃣ 注意事項

5️⃣ 替代方案（不改整系統）

Unicode escape sequences

基本概念

\u 格式

\U 格式

代理對表示法

常見語言範例

使用時機

URL Encoding

基本概念

編碼格式

保留字元

未保留字元

常見語言範例

與加號的差異

使用時機

Hexadecimal Escapes

基本概念

\x 格式

適用範圍

常見語言支援

與 Unicode Escapes 的差異

使用時機

CRLF 轉 LF 不安裝 dos2unix 的方法

PowerShell

PowerShell 7

CMD + PowerShell

Cygwin

sed

perl

awk

Git Bash

vim

最簡潔的一行

ASCII 編碼表

所有中文字的 Unicode 範圍

Unicode 範圍說明

各範圍列表

總結

Unicode Icons