RichEdit中的中文处理问题(100分)

windyson · 1999-11-14

我在使用RichEdit控件时，查找文本中出现的某个汉字的位置，然后使其变色，由于RichEdit不处理双字节字符，会出现匹配错误的情况（如前一个汉字
的位码和后一个汉字的区码会被认为是一个汉字），请问如何解决？如果有相应
的增强型RichEdit控件，请问到何处下载？
我的代码是用c++ builder写的，附后,实际执行起来效率不高，请各位高手指
点一二：
... ...
bakstart=RichEdit1->SelStart;
RichEdit1->Enabled=false;
for(unsigned int i=0;i<CompList->Count;i++)
{
startpos=0;
while(1)
{
startpos=RichEdit1->FindText(*(AnsiString *)CompList->Items,startpos,RichEdit1->Text.Length(),TSearchTypes()<< stMatchCase);
if(startpos==-1)
break;
RichEdit1->SelStart=startpos;
RichEdit1->SelLength=2;
RichEdit1->SelAttributes->Color=clRed;
startpos+=RichEdit1->SelLength;
}
}
RichEdit1->SelStart=bakstart;
RichEdit1->Enabled=true;
... ...

yh · 1999-11-14

如何在字符串固定长度截取中避免分割到半个汉字，出现乱码，也许对您会有所帮助

演示程序中主要是用了 IsDBCSLeadByte 这个 API 来判断某字节是否在双字节字符集(例如汉字)的前导字节集中(GB 2312-80 汉字编码中的第一个字节范围 0xA1-0xFe)

( The IsDBCSLeadByte function determines whether a character is a lead byte ?that is, the first byte
of a character in a double-byte character set (DBCS). )

procedure TForm1.Button1Click(Sender: TObject);
var
CutLengthOfLine{ 被处理字符串的总长度 }, i, j: integer;
sLine{ 被处理的源字符串 }: string;
sCuted{ 按固定长度分割出来的部分字符串 }: string;
iCutLength{ 按固定长度分割出来的部分字符串的长度 }: integer;
bIsDBCS{ 是否是汉字的前半字节 }: boolean;
begin
if edit1.text='' then begin
exit;
end;
CutLengthOfLine:=strtoint(edit1.text);
if CutLengthOfLine < 2 then begin
showmessage('CutLengthOfLine 必须大于等于 2 !');
Exit;
end;
Memo2.Lines.Clear;
for i := 0 to Memo1.Lines.Count - 1 do
begin
sLine := Memo1.Lines;
if Length(sLine) = 0 then
Memo2.Lines.Add(#13+#10)
else
repeat //开始处理字符串
iCutLength := CutLengthOfLine;
sCuted := Copy(sLine, 1, iCutLength);//从头取出 iCutLength 长的字符串
bIsDBCS := False;//先假设没有半个字符串
for j := 1 to iCutLength do //从头到尾逐个检查，至于为什么?
//原作者是这样解释的
//1. 为什麽不直接抓最後一个字元判断? 因为中文字的 Trail-byte, 其内码也可能落在 Lead-byte
// 的内码区间内.
//2. 为什麽不直接抓最後两个字元来判断? 因为前一个字的 Trail-byte 加上後一个字的 Lead-byte,
// 可能又是一个中文字.
begin
if bIsDBCS then //如果上一个字节是汉字的前半部分
bIsDBCS := False //则此时本字节是汉字的后半部分，
//所以将是否前半个汉字检测标志设为假
else
if Windows.IsDBCSLeadByte(byte(sCuted[j])) then
bIsDBCS := True;//否则检查本字节，并根据结果设置标志
end; //end of for
//如果最后一个字节的上一个字节是汉字的前半部分，则结束时
//检测标志为假，
if bIsDBCS then Dec(iCutLength);
//如果最后一个字节是汉字的前半部分，则少截取一个字符，避免乱码
Memo2.Lines.Add(Copy(sLine, 1, iCutLength));
sLine := Copy(sLine, iCutLength + 1, Length(sLine) - CutLength);
//拷贝出下一部分固定长度的字符串，循环处理
until Length(sLine) <= 0;
end;
memo2.setfocus;
memo2.selstart:=0;
memo2.SelLength:=0;
end;

从朋友处借来的参考一下吧。

cAkk · 1999-11-14

用widestring应该可以解决吧?

ZRY · 1999-11-14

试一下RichEdit98吧，它支持WideString和OLE。
虽然是 for Delphi 的，但有完整的源码，相信会对你有所帮助。
需要的话可以E-mail给你。

Charles · 1999-11-14

确保下列三个文件都出现在你的Windows/system目录下.
否则RichEdit中处理中文可能有问题.

Charles · 1999-11-14

补充一句:
要求上述文件语言为中文.
(检查方法:鼠标右键点击文件-->属性-->版本-->语言)

3h · 2000-01-31

可以吧。

delphiboy · 2000-02-02

to zry:能不能把你的RICHEDIT98 MAIL给我吗？

我可以给你分！（另给）

RichEdit中的中文处理问题(100分)

windyson

Unregistered / Unconfirmed

yh

Unregistered / Unconfirmed

cAkk

Unregistered / Unconfirmed

ZRY

Unregistered / Unconfirmed

Charles

Unregistered / Unconfirmed

Charles

Unregistered / Unconfirmed

3h

Unregistered / Unconfirmed

delphiboy

Unregistered / Unconfirmed

Similar threads