如何判断是否是半个汉字?!!! (50分)

  • 主题发起人 主题发起人 鹰之子
  • 开始时间 开始时间

鹰之子

Unregistered / Unconfirmed
GUEST, unregistred user!
请问如何判断一个字符串末尾一个字符是否是半个汉字,并把它去掉??

或者说是如何判断一个字符串末尾一个字符是否正常!?!?
 
演示程序中主要是用了 IsDBCSLeadByte 这个 API 来判断某字节是否在双字节字符集(例如汉字)的前导字节集中(GB 2312-80 汉字编码中的第一个字节范围 0xA1-0xFe)



( The IsDBCSLeadByte function determines whether a character is a lead byte ?that is, the first byte

of a character in a double-byte character set (DBCS). )



procedure TForm1.Button1Click(Sender: TObject);

var

CutLengthOfLine{ 被处理字符串的总长度 }, i, j: integer;

sLine{ 被处理的源字符串 }: string;

sCuted{ 按固定长度分割出来的部分字符串 }: string;

iCutLength{ 按固定长度分割出来的部分字符串的长度 }: integer;

bIsDBCS{ 是否是汉字的前半字节 }: boolean;

begin

if edit1.text='' then begin

exit;

end;

CutLengthOfLine:=strtoint(edit1.text);

if CutLengthOfLine < 2 then begin

showmessage('CutLengthOfLine 必须大于等于 2 !');

Exit;

end;

Memo2.Lines.Clear;

for i := 0 to Memo1.Lines.Count - 1 do

begin

sLine := Memo1.Lines;

if Length(sLine) = 0 then

Memo2.Lines.Add(#13+#10)

else

repeat //开始处理字符串

iCutLength := CutLengthOfLine;

sCuted := Copy(sLine, 1, iCutLength);//从头取出 iCutLength 长的字符串

bIsDBCS := False;//先假设没有半个字符串

for j := 1 to iCutLength do //从头到尾逐个检查,至于为什么?

//原作者是这样解释的

//1. 为什麽不直接抓最後一个字元判断? 因为中文字的 Trail-byte, 其内码也可能落在 Lead-byte

// 的内码区间内.

//2. 为什麽不直接抓最後两个字元来判断? 因为前一个字的 Trail-byte 加上後一个字的 Lead-byte,

// 可能又是一个中文字.

begin

if bIsDBCS then //如果上一个字节是汉字的前半部分

bIsDBCS := False //则此时本字节是汉字的后半部分,

//所以将是否前半个汉字检测标志设为假

else

if Windows.IsDBCSLeadByte(byte(sCuted[j])) then

bIsDBCS := True;//否则检查本字节,并根据结果设置标志

end; //end of for

//如果最后一个字节的上一个字节是汉字的前半部分,则结束时

//检测标志为假,

if bIsDBCS then Dec(iCutLength);

//如果最后一个字节是汉字的前半部分, 则少截取一个字符,避免乱码

Memo2.Lines.Add(Copy(sLine, 1, iCutLength));

sLine := Copy(sLine, iCutLength + 1, Length(sLine) - iCutLength);

//拷贝出下一部分固定长度的字符串,循环处理

until Length(sLine) <= 0;

end;

memo2.setfocus;

memo2.selstart:=0;

memo2.SelLength:=0;

end;

字符串分割的演示程序

 
天啊又遇到了一个截取中文字符串出现半个汉字的问题了。
你先将字符串转换为WideString类型后,再SubString()截取就不会出现半个汉字的问题了。
 
很简单、汉字的ASCII码大于160
 
怎么没有SubString这个东东?
 
晕,SubString是WideString的一个方法,要注意的是String中一个汉字占2个字符位置,而在WideString中一个汉字和一个英文字符一样是占1个字符汉置。
我以bcb为例

WideString StrTmp;//定义一个WideString类型的字符串
.....
StrTmp.SubString(0,2);//从0位开始截取2个字符
....
 
Unit

SysUtils

Category

MBCS utilities

function ByteType(const S: string; Index: Integer): TMbcsByteType;


Values Meaning

mbSingleByte 单字节字符。
mbLeadByte 双字节子符的领头字符
mbTrailByte 双字节子符的尾巴字符
 
多人接受答案了。
 
后退
顶部