translate from: http://llvm.org/docs/tutorial/LangImpl10.html

本文是LLVM教程（Kaleidoscope）的最后一章：介绍教程结论和一些有用的LLVM技巧。

另：按照原本的计划，<<LLVM系列 * 上半年»应该还有一篇Kaleidoscope教程的总结、和<<Pass基础知识介绍»一篇文章，和三篇编写Pass的文章。但是预计近三个月刚入职，事情会比较多，所以这个系列文章的更新时间会推迟–鸽（好饭不怕晚，哈哈哈—自卖自夸）。

Warnning: 上午尽量少玩手机，伤眼。

10.1 教程结论 #

欢迎来到“ 使用LLVM来实现一门语言”的最后一章。在本教程中，我们已经将我们的Kaleidoscope语言从一个无用的玩具改造成了一个有趣的玩具（虽然仍然可能是无用的，hhh）。

我们现在回头看我们走了多远以及实现它的代码有多少，这件事是非常有趣的。我们构建了完整的词法分析器，抽象语法树，代码产生器，和一个交互式的运行终端（通过JIT实现），并且还可以在可执行文件中生成调试信息 —- 对于小于1000行的代码。

我们的语言支持很多有趣的特性：它支持用户自定义二元和一元运算符，它可以JIT执行，并且它还支持很多包含SSA结构的控制流。

本教程的一部分想法是向你展示定义，构建和使用语言是多么容易和有趣。构建一个编译器不是一个可怕的或者神秘的过程！既然你已经看过了一些基础知识，我强烈建议你take the code and hack on it. 例如，试图添加下面这些功能：

全局变量 - 虽然全局变量在现代软件工程中有一些问题，但是他们在组合像Kaleidscope编译器本身这样的小工具时很有用。幸运地是，我们当前的代码使得添加全局变量变得非常容易：只需要进行值检查，看看是否未解析的变量在全局变量符号表中。为了创建一个新的全局变量，创建LLVM GlobalVariables 类的实例。
类型变量 - Kaleidoscope目前只支持浮点类型的变量。这使语言非常简单优雅，因为只支持一个类型意味着你从来不需要指定类型。不同的语言有不同的方式来处理有类型的变量。最简单的方式是要求用户在每一个变量定义时指定类型，并且在符号表中记录它的类型（和值放在一起）。
数组，结构，向量，etc - 一旦你添加了类型，你可以以各种有趣的方式来扩展类型系统。对于许多不同的应用来说，拥有简单的数组是非常有用的。添加它是一个对学习LLVM getelementptr 指令如何工作的一个练习：它是非常漂亮/非常规的。http://llvm.org/docs/GetElementPtr.html
标准运行时 - 我们当前的语言允许用户来获取任意的外部函数，我们可以像使用“printd”和“putchard”一样来使用它。当你扩展语言来添加高级别的构造时，通常，如果将这些构造降低到语言提供的运行时，这些构造最有意义。例如，如果你在语言中添加哈希表，将例程添加到运行时将可能是有意义的，而不是一直将它们内联。
内存管理 - 目前我们只能访问Kaleidoscope中的堆栈。能够通过调用标准库的 malloc/free 接口或垃圾收集器来分配堆内存也是很有用的。如果你想使用垃圾收集，请注意LLVM完全支持精确垃圾收集，包括移动对象并需要扫描/更新堆栈的算法。
异常处理支持 - LLVM支持 zero cost exceptions，它是与使用其他语言编译的代码相互交互。你可以通过隐式地使每个函数返回一个错误值并检查它来产生代码。你也能够使用 setjmp/longjmp。当然有许多不同的方式。
面向对象，泛型，数据库访问，复数，几何编程，… - 真的，你可以添加到语言中的功能没有尽头。
unusual domains - 我们一直在讨论将LLVM应用到很多人都感兴趣的领域：对特定的语言构建一个编译器。然而，有许多其他的领域可以使用编译器技术，但是通常确不被考虑。例如，LLVM已经被用于实现OpenGL图形加速，将 c++ 代码翻译为 ActionScript，和许多其他可爱的和有趣的项目。或许你将会是第一个使用LLVM正则表达式解释器编译成本机代码JIT的程序员？

玩得开心 - 试图使用LLVM做一些疯狂和不同寻常的事情。像其他人一样构建一门语言，没有什么比尝试一些有点疯狂的东西或看到它的结果更有趣。如果你遇到困难或者想要交流，可以给 llvm-dev mailing list发邮件：有很多人对语言感兴趣并且经常愿意提供帮助。

在我们结束本教程之前，我想要谈谈生成LLVM IR的一些“技巧和窍门”。这些是一些可能不太明显的更微妙的事情，但对你利用LLVM的功能做事情非常有用。

10.2 LLVM IR的属性 #

我们很多关于LLVM IR中常见的问题 - 让我们现在就把它们弄清除，shall we?

10.2.1 Target Independence/目标独立性 #

Kaleidoscope是“便捷式语言”的一个例子：所有被使用Kaleidoscope的程序都会以相同的方式运行在它运行的任何目标上。许多其他语言也有这个属性，E.g. lisp，java，haskell，javascript，python，etc（注意这些语言是可移植的，但他们的库不一定可移植）。

LLVM的一个不错的方面是它通常能够保持IR的目标独立性：你能够将LLVM IR用于Kaleidoscope编译的程序，并在LLVM支持的任何目标上运行它，甚至是生成 C 代码并且在LLVM本身不支持的目标上编译它。你可以简单地告诉Kaleidoscope编译器生成与目标无关的代码，因为它在生成代码时从不查询任何特定于目标的信息。

LLVM提供了一个紧凑的、目标独立的代码表示，这让很多人兴奋不已。不幸地是，当这些人在询问有关语言可移植性的问题时，通常会考虑C语言或者C家族的语言。我说“不幸”，是因为几乎没有办法让C代码可移植，除了发送源代码(hhh，当然了，C源代码实际上也是不可移植的 - 例如将一个相当古老的32位应用移植到64位系统上？)

C的问题（再次，完全普遍性）是它充满了目标特定的假设。作为一个简单的例子，预处理器在处理输入文本时，经常破坏性地从代码中移除目标独立性：

#ifdef __i386__
  int X = 1;
#else
  int X = 42;
#endif

虽然可以为这样的问题设计越来越复杂的解决方案，但是它不能以一种比拷贝实际源代码更好的方式完全解决。

也就是说，有一些C的子集是可移植的。如果你愿意将原始类型修复为固定的大小（例如 int = 32-bits，long = 64-bits），不要关心ABI与现有二进制文件的兼容性，并愿意放弃其他一些小功能，你可以拥有可移植的代码。这对于诸如内核语言之类的专用域是有意义的。

10.2.2 安全保障 #

上面许多语言也是“安全”的语言：对于一个使用Java编译的程序来说，想要破坏其地址空间并且使进程崩溃是不可能的（假设JVM没有bugs）。安全性是一个有趣的属性，它需要结合语言设计，运行时支持，和操作系统支持。在LLVM中，实现一个安全的语言当然是可能的，但是LLVM IR本身并不能保证安全。LLVM IR允许不安全的指针类型转换，UAF bugs，缓冲区溢出，和大量其他的问题。安全性需要被作为LLVM的顶级层的一个实现，几个小组已经对这进行了调查。如果你想要了解更多的细节，可以在 llvm-dev 邮件列表中询问。

10.2.3 针对特定语言的优化 #

导致很多人离开LLVM的很重要的事情是：它并没有解决我们的系统上相关的所有的问题。一个具体的示例就是人们认为LLVM无法执行特定的高级语言的优化：“LLVM失去了太多的信息”。以下是对此的一些观察：

第一，LLVM的确会丢失信息。例如，截至到目前写这篇文章为止，在LLVM中无法区分SSA值是来自32位机器中的C"int"还是C"long"（调试信息除外）。两者都被编译为"i32"值，并且有关它的来源的信息已经丢失了。更普遍的问题是，LLVM类型系统使用“结构等价”而不是“名称等价”。令人惊讶的另一个地方是：如果你在高级语言中有两种类型，并且它们有相同的结构（例如：两个不同的结构体都只包含int域）：这些类型将编译为单个LLVM类型，并且无法分辨它的来源。

第二，虽然LLVM确实丢失了信息，但LLVM并不是不变的：我们会用多种不同的方式继续增强和改进它。除了添加新特性外（LLVM不总是支持异常和调试信息），我们也可以扩展IR来捕获重要的信息和优化（例如，无论参数是符号扩展还是零扩展，关于指针别名的信息，等）。许多添加的功能都是用户驱动的：人们希望LLVM包含一些特定的功能，他们会一起添加并扩展它。

第三，添加特定语言的优化是可能的，也是容易的，并且你有大量的选择如何做。一个简单的例子，添加特定语言的优化是很容易的，这些优化只是对特定编译的代码适用。针对C系语言，有一个优化pass，该pass对标准C库函数很了解。如果你在main()函数中调用"exit(0)"，它知道将其优化为"return 0"是安全的。因为C指定了exit(0)函数会做什么。

除了简单的知识外，可以将各种特定其他语言的信息嵌入到LLVM IR中。如果你有一个特定的需要，但是遇到问题了，请将主题放在 llvm-dev 列表。最糟糕的情况下，你能总是将LLVM视为 “dumb code generator”，并且在你的前端的AST上实现针对特定高级语言的优化。

10.3 技巧和窍门 #

在使用LLVM之后，你可以了解到各种各样有用的提示和技巧，这些提示和技巧表面上并不明显。本节并不是让每个人重新发现它们，而是讨论其中的一些问题。

10.3.1 实现轻便的 offsetof/sizeof #

一个有趣的事情，如果你试图保持编译器生成“目标独立”的代码，那么有一件有趣的事情是，你经常需要知道某些LLVM类型的大小或LLVM结构中某些字段的偏移量。例如，你可能需要向一个函数传递一个类型的大小，来分配内存。

不幸地是，这可能会因目标而异，例如：指针的宽度通常是特定于目标的。然而，有一个聪明的方法来使用getelementptr函数，这允许你以一种简单的方式来解决该问题。

10.3.2 垃圾收集栈 #

有些语言希望明确管理其堆栈帧，经常使它们被垃圾收集或允许容易地实现闭包。与显示堆栈帧相比，通常有更好的方法来实现这些功能， llvm支持它们，如果你想要的话。它需要你的前端将代码转换为对 Continuation Passing Style和(LLVM支持的)尾调用的使用。