smvfuncs

Value Members

final def !=(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def ##(): Int

Definition Classes
AnyRef → Any
final def ==(arg0: Any): Boolean

Definition Classes
AnyRef → Any
final def asInstanceOf[T0]: T0

Definition Classes
Any
val boolsToBitmap: (Row) ⇒ String
def clone(): AnyRef

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( ... )
def diceSorensen(c1: Column, c2: Column): Column

Calculate Dice-Sorensen distance between 2 string typed columns Returns a float.
Calculate Dice-Sorensen distance between 2 string typed columns Returns a float. 0 is no match, and 1 is full match
Algorithm reference: https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%93Dice_coefficient Library reference: https://github.com/rockymadden/stringmetric
final def eq(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def equals(arg0: Any): Boolean

Definition Classes
AnyRef → Any
def finalize(): Unit

Attributes
protected[java.lang]
Definition Classes
AnyRef
Annotations
@throws( classOf[java.lang.Throwable] )
final def getClass(): Class[_]

Definition Classes
AnyRef → Any
def hashCode(): Int

Definition Classes
AnyRef → Any
final def isInstanceOf[T0]: Boolean

Definition Classes
Any
def jaroWinkler(c1: Column, c2: Column): Column

Calculate Jaro–Winkler distance between 2 string typed columns Returns a float.
Calculate Jaro–Winkler distance between 2 string typed columns Returns a float. 0 is no match, and 1 is full match
Algorithm reference: https://en.wikipedia.org/wiki/Jaro%E2%80%93Winkler_distance Library reference: https://github.com/rockymadden/stringmetric
def nGram2(c1: Column, c2: Column): Column

Calculate N-gram (N=2) distance between 2 string typed columns Returns a float.
Calculate N-gram (N=2) distance between 2 string typed columns Returns a float. 0 is no match, and 1 is full match
Algorithm reference: https://en.wikipedia.org/wiki/N-gram Library reference: https://github.com/rockymadden/stringmetric
def nGram3(c1: Column, c2: Column): Column

Calculate N-gram (N=3) distance between 2 string typed columns Returns a float.
Calculate N-gram (N=3) distance between 2 string typed columns Returns a float. 0 is no match, and 1 is full match
Algorithm reference: https://en.wikipedia.org/wiki/N-gram Library reference: https://github.com/rockymadden/stringmetric
final def ne(arg0: AnyRef): Boolean

Definition Classes
AnyRef
def normlevenshtein(c1: Column, c2: Column): Column

Calculate Normalized Levenshtein distance between 2 string typed columns Returns a float.
Calculate Normalized Levenshtein distance between 2 string typed columns Returns a float. 0 is no match, and 1 is full match
Algorithm reference: https://en.wikipedia.org/wiki/Levenshtein_distance Library reference: https://github.com/rockymadden/stringmetric
final def notify(): Unit

Definition Classes
AnyRef
final def notifyAll(): Unit

Definition Classes
AnyRef
def smvArrayCat(sep: String, col: Column): Column
def smvArrayCat(sep: String, col: Column, fn: (Any) ⇒ String): Column

For an Array column create a String column with the Array values
def smvBoolsToBitmap(headColumnName: String, tailColumnNames: String*): Column

Coalesce boolean columns into a String bitmap *
def smvBoolsToBitmap(boolColumns: Column*): Column

Coalesce boolean columns into a String bitmap *
def smvCollectSet(c: Column, dt: DataType): Column

Spark 1.6 will have collect_set aggregation function.
def smvCountDistinctWithNull(colN: String, colNs: String*): Column
def smvCountDistinctWithNull(cols: Column*): Column

Count number of distinct values including null
def smvCountFalse(cond: Column): Column

Count non-null false values
def smvCountNull(cond: Column): Column

Count number of null values
def smvCountTrue(cond: Column): Column

Aggregate function that counts the number of rows satisfying a given condition.
def smvFirst(c: Column, nonNull: Boolean = false): Column

smvFirst: by default return null if the first record is null
smvFirst: by default return null if the first record is null
Since Spark 1.5 "first" will return the first non-null value, we have to create our version smvFirst which to retune the real first value, even if it's null. The alternative form will try to return the first non-null value
Spark 2.1 enhanced the first function to take nonNull parameter. We can simply forward the call and maintain the old interface.
c
the column
nonNull
switches whether the function will try to find the first non-null value
def smvHasNonNull(columns: Column*): Column

True if any of the columns is not null
def smvHashKey(cols: Column*): Column
def smvHashKey(prefix: String, cols: Column*): Column

Creating unique id from the primary key list.
Creating unique id from the primary key list.
Return "Prefix" + MD5 Hex string(size 32 string) as the unique key
MD5's collisions rate on real data records could be ignored based on the following discussion.
https://marc-stevens.nl/research/md5-1block-collision/ The shortest messages have the same MD5 are 512-bit (64-byte) messages as below
4dc968ff0ee35c209572d4777b721587d36fa7b21bdc56b74a3dc0783e7b9518afbfa200a8284bf36e8e4b55b35f427593d849676da0d1555d8360fb5f07fea2 and the (different by two bits) 4dc968ff0ee35c209572d4777b721587d36fa7b21bdc56b74a3dc0783e7b9518afbfa202a8284bf36e8e4b55b35f427593d849676da0d1d55d8360fb5f07fea2 both have MD5 hash 008ee33a9d58b51cfeb425b0959121c9
There are other those pairs, but all carefully constructed. Theoretically the random collisions will happen on data size approaching 2^{64 (since MD5 has
128-bit), which is much larger than the number of records we deal with (a billion is about 2}30) There for using MD5 to hash primary key columns is good enough for creating an unique key
def smvStrCat(sep: String, columns: Column*): Column
def smvStrCat(columns: Column*): Column

Patch Spark's concat and concat_ws to treat null as empty string in concatenation.
final def synchronized[T0](arg0: ⇒ T0): T0

Definition Classes
AnyRef
def toString(): String

Definition Classes
AnyRef → Any
final def wait(): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long, arg1: Int): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )
final def wait(arg0: Long): Unit

Definition Classes
AnyRef
Annotations
@throws( ... )

Deprecated Value Members

def collectSet(dt: DataType)(c: Column): Column

Annotations
@deprecated
Deprecated
(Since version 2.1) Replaced by smvCollectSet(col, datatype)

Related Doc: package smv

object smvfuncs

Value Members

final def !=(arg0: Any): Boolean

final def ##(): Int

final def ==(arg0: Any): Boolean

final def asInstanceOf[T0]: T0

val boolsToBitmap: (Row) ⇒ String

def clone(): AnyRef

def diceSorensen(c1: Column, c2: Column): Column

final def eq(arg0: AnyRef): Boolean

def equals(arg0: Any): Boolean

def finalize(): Unit

final def getClass(): Class[_]

def hashCode(): Int

final def isInstanceOf[T0]: Boolean

def jaroWinkler(c1: Column, c2: Column): Column

def nGram2(c1: Column, c2: Column): Column

def nGram3(c1: Column, c2: Column): Column

final def ne(arg0: AnyRef): Boolean

def normlevenshtein(c1: Column, c2: Column): Column

final def notify(): Unit

final def notifyAll(): Unit

def smvArrayCat(sep: String, col: Column): Column

def smvArrayCat(sep: String, col: Column, fn: (Any) ⇒ String): Column

def smvBoolsToBitmap(headColumnName: String, tailColumnNames: String*): Column

def smvBoolsToBitmap(boolColumns: Column*): Column

def smvCollectSet(c: Column, dt: DataType): Column

def smvCountDistinctWithNull(colN: String, colNs: String*): Column

def smvCountDistinctWithNull(cols: Column*): Column

def smvCountFalse(cond: Column): Column

def smvCountNull(cond: Column): Column

def smvCountTrue(cond: Column): Column

def smvFirst(c: Column, nonNull: Boolean = false): Column

def smvHasNonNull(columns: Column*): Column

def smvHashKey(cols: Column*): Column

def smvHashKey(prefix: String, cols: Column*): Column

def smvStrCat(sep: String, columns: Column*): Column

def smvStrCat(columns: Column*): Column

final def synchronized[T0](arg0: ⇒ T0): T0

def toString(): String

final def wait(): Unit

final def wait(arg0: Long, arg1: Int): Unit

final def wait(arg0: Long): Unit

Deprecated Value Members

def collectSet(dt: DataType)(c: Column): Column

Inherited from AnyRef

Inherited from Any

Aggregate Functions

Ungrouped